Effects of a rater training on rating accuracy in a physical examination skills assessment

Gunther Weitz; Christian Vinzentius; Christoph Twesten; Hendrik Lehnert; Hendrik Bonnemeier; Inke R König

doi:10.3205/zma000933

Effects of a rater training on rating accuracy in a physical examination skills assessment

GMS Z Med Ausbild. 2014 Nov 17;31(4):Doc41. doi: 10.3205/zma000933. eCollection 2014.

Authors

Gunther Weitz¹, Christian Vinzentius², Christoph Twesten¹, Hendrik Lehnert¹, Hendrik Bonnemeier³, Inke R König⁴

Affiliations

¹ Universitätsklinikum Schleswig-Holstein, Campus Lübeck, Medizinische Klinik I, Lübeck, Deutschland.
² Institut für Qualitätsentwicklung an Schulen Schleswig-Holstein, Kronshagen, Deutschland.
³ Universitätsklinikum Schlesweig-Holstein, Campus Kiel, Medizinische Klinik III, Kiel, Deutschland.
⁴ Universität zu Lübeck, Institut für Medizinische Biometrie und Statistik, Lübeck, Deutschland.

Abstract
in English, German

Background: The accuracy and reproducibility of medical skills assessment is generally low. Rater training has little or no effect. Our knowledge in this field, however, relies on studies involving video ratings of overall clinical performances. We hypothesised that a rater training focussing on the frame of reference could improve accuracy in grading the curricular assessment of a highly standardised physical head-to-toe examination.

Methods: Twenty-one raters assessed the performance of 242 third-year medical students. Eleven raters had been randomly assigned to undergo a brief frame-of-reference training a few days before the assessment. 218 encounters were successfully recorded on video and re-assessed independently by three additional observers. Accuracy was defined as the concordance between the raters' grade and the median of the observers' grade. After the assessment, both students and raters filled in a questionnaire about their views on the assessment.

Results: Rater training did not have a measurable influence on accuracy. However, trained raters rated significantly more stringently than untrained raters, and their overall stringency was closer to the stringency of the observers. The questionnaire indicated a higher awareness of the halo effect in the trained raters group. Although the self-assessment of the students mirrored the assessment of the raters in both groups, the students assessed by trained raters felt more discontent with their grade.

Conclusions: While training had some marginal effects, it failed to have an impact on the individual accuracy. These results in real-life encounters are consistent with previous studies on rater training using video assessments of clinical performances. The high degree of standardisation in this study was not suitable to harmonize the trained raters' grading. The data support the notion that the process of appraising medical performance is highly individual. A frame-of-reference training as applied does not effectively adjust the physicians' judgement on medical students in real-live assessments.

Hintergrund: Die Genauigkeit und Reproduzierbarkeit von Prüferurteilen im Medizinstudium ist gering. Eine Schulung von Prüfern hat keinen oder allenfalls minimalen Effekt. Die dazu verfügbaren Studien beziehen sich jedoch auf die Beurteilung von Arzt-Patienten-Interaktionen in eigens dafür angefertigten Videos. Wir untersuchten, ob eine Schulung, die sich auf den Bezugsrahmen des Prüfers bezieht, die Prüfergenauigkeit bei curricularen Untersuchungskurstestaten verbessert.Methoden: 21 Prüfer testierten 242 Studierende im dritten Studienjahr. Elf der Prüfer wurden randomisiert ausgewählt, an einer kurzen Prüferschulung teilzunehmen, die wenige Tage vor dem Testat stattfand. 218 Testate konnten auf Video festgehalten werden und wurden später unabhängig von drei Nachprüfern bewertet. Genauigkeit definierten wir als die Konkordanz zwischen der Benotung des eigentlichen Prüfers und dem Median der Benotung der Nachprüfer. Im Anschluss an das Testat füllten sowohl Prüflinge als auch Prüfer einen Fragebogen zum Testat aus.Ergebnisse: Die Prüferschulung hatte keinen messbaren Einfluss auf die Genauigkeit der Bewertung. Die geschulten Prüfer waren aber strenger als die ungeschulten und ihr Notenspektrum lag eher in dem Bereich des Spektrums der Nachprüfer. Außerdem waren die geschulten Prüfer sich des Halo-Effektes stärker bewusst. Obwohl die Selbsteinschätzung der Studierenden in beiden Gruppen nahe bei der Prüfernote lag, waren die Studierenden, die von geschulten Prüfern testiert wurden, häufiger mit ihrer Note unzufrieden.Diskussion: Trotz einiger marginaler Effekte hatte die Prüferschulung keinen Effekt auf die Genauigkeit der Bewertung. Diese Beobachtung bei echten Testaten stimmt mit den Ergebnissen von Studien mit Videobewertungen überein. Auch die starke Standardisierung der Aufgabe im Testat half nicht, das Prüferurteil zu harmonisieren. Unsere Studie bestätigt, dass die Bewertung ärztlicher Tätigkeiten individuell sehr unterschiedlich ist. Eine Schulung, die wie in unserem Versuch auf den Bezugsrahmen des Urteils abzielt, ist nicht in der Lage, die ärztliche Bewertung von Testatleistungen zu vereinheitlichen.

Keywords: physical examination skills; randomised controlled trial; rater training; rating accuracy; skills assessment.

Publication types

Randomized Controlled Trial

MeSH terms

Clinical Competence / standards*
Curriculum
Education, Medical*
Educational Measurement / standards
Faculty, Medical*
Germany
Humans
Inservice Training*
Observer Variation
Physical Examination / standards*
Self-Assessment
Students, Medical / psychology
Teacher Training
Video Recording

Abstract in English, German

Publication types

MeSH terms

Abstract
in English, German