Dienstliche Beurteilungen haben bei Stellenbesetzungsverfahren eine entscheidende Rolle inne. Ist diese angesichts empirischer Erkenntnisse gerechtfertigt?
Liebe Leserin, lieber Leser,
für die Funktionsfähigkeit der Behörden und Verwaltungen ist die Auswahl des passenden Personals von wesentlicher Bedeutung. Gemäß Art. 33, Abs. 2 des Grundgesetzes erfolgt die Besetzung von Ämtern ausschließlich unter Berücksichtigung der Kriterien Eignung, Befähigung und fachliche Leistung. Bei Auswahlentscheidungen hat die Rechtsprechung der dienstlichen Beurteilung1 eine entscheidende Bedeutung zugeordnet (vgl. BVerfG 20.04.2004 – 1 BvR 838/01 u. a., BVerfGE 110, 304; BVerfG 16.12.2015 – 2 BvR 1958/13, BVerfGE 141, 56): Im Rahmen einer Konkurrenz um Beförderungsstellen bzw. -dienstposten ist das Ergebnis der dienstlichen Beurteilung die vorrangige Auswahlmethode (Gourmelon, Hoffmann & Lindberg, 2021, S. 86). Die Ergebnisse weiterer eignungsdiagnostischer Methoden wie beispielsweise Interviews, Tests oder Assessment Center dürfen nur dann herangezogen werden, sofern sich hinsichtlich der dienstlichen Beurteilung ein Gleichstand zwischen den Kandidatinnen und Kandidaten ergibt. Als dienstliche Beurteilungen werden nachfolgend schriftliche dienstliche Äußerungen von Vorgesetzten verstanden, mit dem für einen Beurteilungszeitraum die fachliche Leistung, Eignung und Befähigung von Mitarbeitenden bewertet werden.

Beste Antworten.
Newsletter Personalmanagement
Erhalten Sie regelmäßig Fachinformationen für Personaler und Führungskräfte zu den Themen Führung, Verwaltungs- und Unternehmenskultur sowie Verbesserung von Arbeitsabläufen.
Implizite Annahmen der Rechtsprechung
Für den öffentlichen Dienst ergibt sich durch diese Rechtslage die Situation, dass die Beurteilung des oder der aktuellen Vorgesetzten allein ausschlaggebend dafür ist, ob ein oder eine Mitarbeitende eine höherwertige Stelle mit ggf. andersartigen Anforderungen erhält oder nicht. Damit lastet die Prognoseentscheidung, ob sich Beschäftigte später in neuen Funktionsämtern bewähren oder nicht, allein auf dem Urteil des oder der aktuellen Vorgesetzten.
Die Rechtslage gründet auf den impliziten Annahmen, dass Vorgesetzte – unabhängig z. B. von ihrer Vorbildung, Führungserfahrung, Führungsspanne, Dauer der Zusammenarbeit mit den beurteilten Mitarbeitenden – in der Lage sind, die Befähigung, Eignung und fachliche Leistung von Mitarbeitenden in einer den Erfordernissen moderner Behörden und Verwaltungen hinreichenden Qualität zu beurteilen und dass mit diesen Urteilen die zukünftige berufliche Leistung von Mitarbeitenden in anderen als den bisherigen Funktionsämtern treffsicher vorhergesagt werden kann.

News Personalmanagement
Aktuell informiert.
Lesen Sie hier verschiedene Gastbeiträge zum Thema Personalmanagement im öffentlichen Dienst.
Annahmen versus Empirie
Wie bewähren sich diese Annahmen angesichts der Erkenntnisse der personalpsychologischen Forschung? Sind dienstliche Beurteilungen als alleinige Auswahlmethode in Stellenbesetzungsverfahren tauglich? Ist es tatsächlich so, dass Vorgesetzte Eignung, Befähigung und fachliche Leistung von Mitarbeitenden zuverlässig erfassen können? Können mit dienstlichen Beurteilungen zukünftige Leistungen von Mitarbeitenden mit angemessener Vorhersagegüte prognostiziert werden? Zudem ist selbstverständlich auch interessant zu wissen, ob durch den Einsatz von zusätzlichen eignungsdiagnostischen Instrumenten (wie z. B. Interviews, Assessment Center) die Treffsicherheit von Stellenbesetzungsverfahren verbessert werden kann. Nachfolgend sollen empirische Erkenntnisse der Personalpsychologie dargestellt werden, mit denen diese Fragen beantwortet werden können. In der personalpsychologischen Forschung werden die Begriffe „Vorgesetztenurteile“ oder „Leistungsbewertung“ verwendet.
Zuverlässigkeit von Vorgesetztenurteilen
Bekannt ist aus der personalpsychologischen Forschung, dass die Übereinstimmung verschiedener Vorgesetzter bei der Beurteilung derselben Mitarbeitenden nur mäßig hoch ist: Viswesvaran, Ones und Schmidt (1996, S. 562) gelangen in ihrer Metaanalyse, bei der Daten von vierzig empirischen Studien mit insgesamt 14.650 Personen zusammengefasst wurden, zu einer durchschnittlichen Interrater-Reliabilität von 0,52 (auf einer Skala von 0 bis 1). Ergebnis dieser Metaanalyse ist auch, dass Kommunikations- und Sozialkompetenzen von Beschäftigten weniger zuverlässig als die Produktivität von Beschäftigten beurteilt werden (Viswesvaran, Ones & Schmidt, 1996, S. 563). Im Jahr 2024 veröffentlichten Zhou et al. eine aktualisierte Metaanalyse zur Übereinstimmung von Vorgesetztenurteilen. Hierbei gingen die Daten von 132 Stichproben ein. Die durchschnittliche Interrater-Reliabilität ist mit r = 0,65 etwas höher. Die Höhe des Zusammenhangs hängt jedoch von der Komplexität der Aufgaben der Beurteilten ab; bei komplexen Aufgaben (welche im öffentlichen Dienst häufig vorzufinden sind), liegt die Übereinstimmung der Vorgesetztenurteile bei r = 0,57.
Zur Beurteilung der Zuverlässigkeit von Vorgesetztenurteilen ist weiterhin der statistische Zusammenhang zwischen objektiven (wie z. B. Anzahl bearbeiteter Fälle) und subjektiven Leistungskriterien (wie z. B. Einschätzung der Dienstleistungsorientierung oder der kommunikativen Fähigkeiten) von Beschäftigten. Die Korrelation der beiden Kriterienarten schwankt – je nach metaanalytischer Studie – zwischen r = 0,39 und r = 0,57 (Lohaus & Schuler, 2014, S. 378; Bommer et al., 1995, S. 587).
Was die Zuverlässigkeit kontaminiert
Gut untersucht ist, was die Zuverlässigkeit von Vorgesetztenurteilen beeinträchtigt. Zu denken ist hierbei an die wohlbekannten Urteilstendenzen oder Beurteilungsfehler. Nach Überprüfung englischsprachiger Studien listen Barends, Janssen und Marenco (2016) 22 Faktoren auf, die die Zuverlässigkeit von Vorgesetztenurteilen wissenschaftlich belegt kontaminieren. Im öffentlichen Dienst Deutschlands wurde der Einfluss des Geschlechts der Mitarbeitenden auf das Vorgesetztenurteil untersucht. Michaelis (2018, S. 181) und Jochmann-Döll (2023, S. 107) stellten fest, dass weibliche Mitarbeitende in dienstlichen Beurteilungen weniger häufig Spitzennoten erhalten. Auch der Beschäftigungsumfang (Vollzeit- versus Teilzeitbeschäftigung) hat im öffentlichen Dienst einen Einfluss auf das Ergebnis der dienstlichen Beurteilung (Jochmann-Döll, 2023, S. 107).
Offensichtlich werden kontaminierende Faktoren und die daraus resultierende mangelnde Zuverlässigkeit von dienstlichen Beurteilungen angesichts der Ergebnisse einer Studie von Lindberg (2020). In dieser Studie wurden 46 Erstbeurteilende aus sieben Kommunalverwaltungen zweier Bundesländer mit Aussagen zum Einfluss verschiedener Kontaminationsfaktoren befragt, die Ergebnisse werden mit der Tabelle 1 wiedergeben.
Tabelle 1: Faktoren, die die Ergebnisse dienstlicher Beurteilungen nach Ansicht der Erstbeurteilenden beeinflussen (aus Gourmelon, Hoffmann & Lindberg, S. 90)
|
Aussagen (in der Reihenfolge des Fragebogens) |
mit „eher ja“ oder „ja“ haben geantwortet (in % der Antwortenden) |
|
1. Meine Persönlichkeit fließt unweigerlich in mein Beurteilungsverhalten ein (z. B. […] Beurteilung anhand Sympathie/Antipathie) |
64,4 % |
|
2. Mir bleibt nichts anderes übrig als Beurteilungsnoten zu beschönigen, um unliebsame Mitarbeiter/innen „loszuwerden“ oder einem Mitarbeiter / einer Mitarbeiterin bessere Chancen bei Bewerbungen zu ermöglichen |
31,8 % |
|
3. Ich versuche Konflikte / Auseinandersetzungen mit der zu beurteilenden Person zu vermeiden |
15,6 % |
|
4. Ich versuche Konflikte / Auseinandersetzungen mit dem / der Zweit- oder Endbeurteiler/in zu vermeiden |
8,9 % |
|
5. Bei manchen Beschäftigten kann ich mir durch direkte Beobachtungen oder durch Auswertung von Arbeitsergebnissen nicht ausreichend Kenntnisse über Arbeitsverhalten und Leistungen verschaffen (z. B. Teilzeitkräfte, Telearbeit, […] andere Standorte) |
27,3 % |
|
6. Ich werde bei meiner Beurteilung durch konkrete Richtwerte oder Quotenregelungen eingeschränkt (Formulierungen wie „Nur ein Anteil von 10 % der zu beurteilenden Beschäftigten darf die Bestnote erhalten“) |
71,9 % |
|
7. Ich werde bei meiner Beurteilung durch Niveauvorgaben eingeschränkt (Formulierungen wie „Die Mitte der Skala soll für den überwiegenden Anteil der zu Beurteilenden als Gesamtnote vergeben werden“) |
64,5 % |
|
8. Ich bin unweigerlich psychologischen Beurteilungsfehlern ausgesetzt (z. B. Primacy-Effekt […], Nikolaus-Effekt […]) |
37,2 % |
|
9. Ich werde als Beurteiler/in in Bezug auf das Beurteilungssystem zu wenig geschult |
34,9 % |
|
10. Es bestehen zu viele Spielräume für den einzelnen Beurteiler / die einzelne Beurteilerin durch unkonkrete Vorgaben des Beurteilungssystems (z. B. Wie sind die Einzelmerkmale im Gesamturteil konkret zu gewichten? Was sind die „Statusanforderungen des jeweiligen Amtes“?) |
42,9 % |
|
11. Die vorgegebene Bewertungsskala ist zu undifferenziert |
17,1 % |
|
12. Die im Beurteilungssystem vorgegebenen Kriterien zur Erfassung der Eignung, fachlichen Leistung und Befähigung sind zu oberflächlich, undifferenziert oder unvollständig |
34,2 % |
Scullen, Mount und Goff (2000, S. 956 ff.) gelangen mit ihrer Studie zu der Erkenntnis, dass Vorgesetzte sich in ihrem Urteil über Beschäftigte im Mittel nur zu etwa 30 % auf Leistungseindrücke beziehen; der Einfluss von Beurteilungsfehlern beträgt nach ihrer Einschätzung 40 bis 50 %. Beurteilungsergebnisse sind folglich relativ stark von „… Einflussgrößen bestimmt, die sich nicht auf Leistungsaspekte beziehen“ (Scherm, 2013, S. 740).
Schlussfolgernd ist nach derzeitiger Kenntnislage davon auszugehen, dass die Ergebnisse dienstlicher Beurteilungen die Merkmale (insbesondere komplexe) Leistungen, Eignung und Befähigung nur mäßig zuverlässig widerspiegeln.
Vorhersagegüte von Vorgesetztenurteilen
Neben der Zuverlässigkeit von dienstlichen Beurteilungen ist auch bedeutsam, ob mit deren Ergebnissen zukünftige Leistungen von Mitarbeitenden mit angemessener Vorhersagegüte prognostiziert werden können. Es gilt generell: Die Vorhersagegüte von Prognosen, die auf Daten eines Messinstruments beruhen, ist von der Zuverlässigkeit des Messinstruments abhängig und kann diese nicht übertreffen. Dies trifft auch für das Messinstrument „dienstliche Beurteilung“ bzw. „Vorgesetztenurteile“ zu.
Frederiksen, Lange und Kriechel (2012) untersuchten mit Daten aus sechs großen Unternehmen der Privatwirtschaft, wie hoch der statistische Zusammenhang zwischen Vorgesetztenurteilen (hier: Leistungsbewertung) im Zeitverlauf ist. Nach drei bis vier Bewertungsdurchläufen2 betrug die Korrelation – je nach Unternehmen und Alter der Beschäftigten – zwischen 0,1 und 0,4 (Frederiksen, Lange & Kriechel, 2012, S. 4 und 22).
Weitere Erkenntnisse zur Höhe der prognostischen Validität bzw. Vorhersagegüte liefert die Studie von Thus und Remke (2019). Zweck der Studie war es, das Auswahlverfahren für den gehobenen Dienst der Polizei Sachsen zu evaluieren. Es konnten die Daten von 129 Beamtinnen und Beamten aus dem mittleren Dienst ausgewertet werden. Im Auswahlverfahren gaben deren Vorgesetzte eine Aufstiegseignungsprognose (Einschätzung mittels Beurteilungsbogen) ab. Für die ausgewählten Beamtinnen und Beamten lag nach dem Aufstieg in den gehobenen Dienst jeweils eine Fremdeinschätzung durch den unmittelbaren Vorgesetzten, die die Aufgestiegenen zumindest für ein halbes Jahr in ihrer Tätigkeit beobachten konnten, vor. Die Aufstiegseignungsprognose und die Fremdeinschätzung korrelierten nicht signifikant mit 0,03 – die Vorgesetzten, die die Beamtinnen und Beamten im mittleren Dienst beurteilt hatten, konnten deren Leistung im gehobenen Dienst also nicht vorhersagen.
In Anbetracht dieser Studien ist die Vorhersagegüte von dienstlichen Beurteilungen als sehr niedrig bis niedrig zu beurteilen. Die Angemessenheit der Vorhersagegüte dienstlicher Beurteilungen ist auch unter Berücksichtigung der Einsatzweise der dienstlichen Beurteilung in Stellenbesetzungsverfahren (hier: regelmäßig alleiniges Prognoseinstrument) und der Vorhersagegüte anderer eignungsdiagnostischer Methoden zu bewerten. Metanalytische Befunde billigen beispielsweise strukturierten Interviews eine Vorsagegüte bzw. prognostische Validität von r = 0,42 bis r = 0,58 zu (Übersicht in Gourmelon, Seidel & Treier, 2025, S. 84). Die dienstliche Beurteilung als alleiniges Prognoseinstrument könnte also durch Methoden mit höherer Vorhersagegüte ersetzt werden. Die Vorhersagegüte von dienstlichen Beurteilungen ist unter Berücksichtigung der aktuellen Einsatzweise für den Zweck der Auswahl für neue Funktionsämter als nicht angemessen zu bezeichnen.
Erhöhung der Treffsicherheit durch zusätzliche Methoden
Der mit der DIN 33430:2016-07 (Deutsches Institut für Normung, 2016) dokumentierte Fachstandard zur berufsbezogenen Eignungsdiagnostik beinhaltet die Empfehlung (S. 12), bei eignungsdiagnostischen Fragestellungen das Prinzip der Multimethodalität umzusetzen, d. h. verschiedene eignungsdiagnostische Methoden zu verwenden. Hingegen wurde durch die Rechtsprechung festgelegt, dass in Stellenbesetzungsverfahren vorrangig (und im Regelfall ausschließlich) die Ergebnisse dienstlicher Beurteilungen zu verwenden sind. Zu prüfen ist, ob durch den Einsatz zusätzlicher eignungsdiagnostischer Methoden neben der dienstlichen Beurteilung die Treffsicherheit von Stellenbesetzungsverfahren gesteigert werden kann. Empirische Hinweise liefert die Studie von Church et al. (2021, S. 10): Hier konnten die Prognosen von Karriereverläufen (Führungsebene) von 9.784 Mitarbeitenden eines Unternehmens der Privatwirtschaft durch Verwendung eines AC-ähnlichen Verfahrens zusätzlich zu Leistungsbewertungen deutlich verbessert werden.
Insofern ist davon auszugehen, dass die Treffsicherheit von Stellenbesetzungsverfahren im öffentlichen Dienst durch die Verwendung zusätzlicher eignungsdiagnostischer Methoden neben der dienstlichen Beurteilung gesteigert werden kann.
Zusammengefasst
Die Rechtsprechung weist bei Stellenbesetzungsverfahren den Ergebnissen von dienstlichen Beurteilungen eine vorrangige Bedeutung zu. Dabei wird implizit angenommen, dass dienstliche Beurteilungen die Eignung, Befähigung und fachliche Leistung von Mitarbeitenden zuverlässig messen und auf ihrer Grundlage die spätere berufliche Leistung mit hoher Vorhersagegüte prognostiziert werden kann. Empirische Erkenntnisse der personalpsychologischen Forschung stehen nicht im Einklang mit diesen impliziten Annahmen. Würden neben Daten aus dienstlichen Beurteilungen Daten aus weiteren eignungsdiagnostischen Methoden in Stellenbesetzungsverfahren verwendet, wäre mit einer höheren Treffsicherheit bei der Auswahl von Kandidatinnen und Kandidaten zu rechnen. Eine dadurch qualitativ bessere Personalauswahl würde zu einer Steigerung der Leistungsfähigkeit des öffentlichen Dienstes in Deutschland führen.
Herzlichst
Andreas Gourmelon
Quellen
Barends, E., Janssen, B., & Marenco, P. (2016). Rapid evidence assessment of the research literature on the effect of performance appraisal on workplace performance (Technical report). Chartered Institute of Personnel and Development (CIPD) & Center for Evidence-Based Management (CEBMa). https://www.cipd.org/globalassets/media/knowledge/knowledge-hub/reports/rapid-evidence-assessment-of-the-research-literature-on-the-effect-of-performance-appraisal-on-workplace-performance_tcm18-16902.pdf
Bommer, W. H., Johnson, J. L., Rich, G. A., Podsakoff, P. M., & MacKenzie, S. B. (1995). On the interchangeability of objective and subjective measures of employee performance: A meta-analysis. Personnel Psychology, 48(3), 587–605. https://doi.org/10.1111/j.1744-6570.1995.tb01772.x
Church, A. H., Guidry, B. W., Dickey, J. A. & Scrivani, J. A. (2021). Is there potential in assessing for high potential? Evaluating the relationships between performance, assessed potential, and promotion outcomes. The Leadership Quarterly, 32(5), Article 101516. https://doi.org/10.1016/j.leaqua.2021.101516
DBB NRW Beamtenbund und Tarifunion. (2017). Geschlechtergerechtigkeit im Öffentlichen Dienst in NRW. Düsseldorf: DBB NRW Beamtenbund und Tarifunion.
Deutsches Institut für Normung (2016). DIN 33430: 2016-07. Anforderungen an berufsbezogene Eignungsdiagnostik. Berlin: Beuth.
Frederiksen, A., Lange, F., & Kriechel, B. (2012). Subjective performance evaluations and employee careers (IZA Discussion Paper No. 6373). Institute for the Study of Labor (IZA). https://docs.iza.org/dp6373.pdf
Gourmelon, A.; Hoffmann, B. & Lindberg, L. (2021). Dienstliche Beurteilungen aus eignungsdiagnostischer Perspektive – Kann die herausragende Bedeutung dienstlicher Beurteilungsergebnisse in Stellenbesetzungsverfahren mit empirischer Evidenz gerechtfertigt werden? Der Öffentliche Dienst, 4/2021, S. 85 – 92.
Gourmelon, A., Seidel, S. & Treier, M. (2025). Personalmanagement im öffentlichen Sektor. Rehm: Heidelberg.
Jochmann-Döll, A. (2023). Beurteilungen im Polizeidienst – revisited. Geschlechterdifferenzen bei Beurteilungsergebnissen und ihre Veränderung (Working Paper Forschungsförderung Nr. 298). Hans-Böckler-Stiftung. https://www.boeckler.de/fpdf/HBS-008661/p_fofoe_WP_298_2023.pdf
Lindberg, L. (2020). Bewertung dienstlicher Beurteilungen aus Sicht der Beurteiler. Unveröff. Bachelor-Thesis. Gelsenkirchen: Hochschule für Polizei und öffentliche Verwaltung NRW, Abteilung Gelsenkirchen.
Lohaus, D. & Schuler, H. (2014). Leistungsbeurteilung. In H. Schuler und U. P. Kanning (Hrsg.), Lehrbuch der Personalpsychologie (S. 357 – 412). Göttingen: Hogrefe.
Michaelis, L. O. (2018). Geschlechtergerechte dienstliche Beurteilung in NRW. Nordrhein-Westfälische Verwaltungsblätter, 5/2018, S. 177 – 184.
Scherm, M. (2013). Fremdurteile. In W. Sarges (Hrsg.), Management-Diagnostik, S. 734 – 741. Göttingen: Hogrefe.
Scullen, S. E., Mount, M. K. & Goff, M. (2000). Understanding the Latent Structure of Job Performance Ratings. Journal of Applied Psychology, 88, pp. 956 - 970.
Thus, S. & Remke, S. (2019). Die evaluationsbasierte Optimierung des Auswahlverfahrens für den gehobenen Dienst der Polizei Sachsen. Polizei & Wissenschaft, 4/2019, 102 – 115.
Viswesvaran, C., Ones, D. S. & Schmidt, F. L. (1996). Comparative Analysis of the Reliability of Job Performance Ratings. Journal of Applied Psychology, 81, pp. 557 – 574. https://psycnet.apa.org/doi/10.1037/0021-9010.81.5.557
Zhou, Y., Sackett, P. R., Shen, W., & Beatty, A. S. (2024). An updated meta-analysis of the interrater reliability of supervisory performance ratings. Journal of Applied Psychology, 109 (6), 949–970. https://doi.org/10.1037/apl0001174
1
2 In der Privatwirtschaft werden Leistungsbewertungen oftmals jährlich durchgeführt.
