Verbeteren: hoe doe je dat correct en efficiënt?

Als lesgever wil (en moet) je elke student fair evalueren. Via het UGent-toetsbeleid en UGent-kwaliteitszorgmaatregelen maakt de UGent lesgevers bewust van eventuele evaluatiebias – dat vermindert immers al het effect van onbedoelde bias – en zet ze in op technieken voor kwalitatieve evaluatie. Tegelijkertijd beseft de UGent ook dat verbeteren een enorme klus is die je binnen een beperkte tijd moet zien te klaren. Deze onderwijstip legt uit welke soorten evaluatie-bias er zijn, met welke technieken van kwalitatieve evaluatie je ze vermijdt en tot slot, hoe je sneller en efficiënter verbetert. 

Welke soorten bias kunnen ontstaan tijdens het evalueren? 

Een bias of ‘ongewenst effect bij evaluatie’ is elke beoordelaarsfactor die de score ongewild subjectief beïnvloedt. Voorbeelden van dergelijke beoordelaarsfactoren zijn halo-effecten, sequentie-effecten, contaminatie-effecten en beoordelings- of scoringstendenties

Halo-effecten 

Halo-effecten zorgen ervoor dat bepaalde kenmerken van studenten of van het afgeleverde product worden overbelicht. Daardoor hebben ze onterecht een invloed op andere criteria binnen de beoordeling. Bijvoorbeeld: 

  • De beoordelaar trekt de eerste indruk door: hij of zij negeert bewijsmateriaal tegen de eerste indruk wordt en gaat actief op zoek naar bewijsmateriaal dat de eerste indruk bevestigt. De beoordeling wordt een selffulfilling prophecy.  
  • De beoordelaar doet aan stereotypering: hij of zij laat zijn eindoordeel beïnvloeden door vermeende eigenschappen van de kandidaat. 
  • De beoordelaar laat zich leiden door productkenmerken als een mooie vormgeving of printkwaliteit in plaats van door evaluatiecriteria. 

Sequentie-effecten 

Sequentie-effecten zorgen ervoor dat de evaluatienormen gaan schuiven terwijl de beoordelaar een reeks studenten of producten evalueert. Het bekendste voorbeeld is het contrasteffect waarbij voorafgaande beoordelingen de daaropvolgende beïnvloeden: 

  • Een redelijk werkstuk krijgt een te hoge score als het volgt op een reeks erg slechte stukken. 
  • Een redelijk werkstuk krijgt een te lage score als het volgt op een reeks erg goede stukken. 

Contaminatie-effecten 

Contaminatie-effecten zijn oneigenlijke doelen die het oordeel vertroebelen. Bijvoorbeeld: 

  • Bij het statuseffect beoordeelt de beoordelaar streng om het belang en de moeilijkheidsgraad van het vak te onderstrepen. 
  • Bij het inschikkelijkheidseffect beoordeelt de beoordelaar de inspanning die de student levert, niet de inhoud van zijn of haar product. 
  • Bij het net-als-ik-effect beoordeelt de beoordelaar de mate van overeenkomst tussen de student en zichzelf. Studenten die dat doorzien, maken daar gretig gebruik van maken door de beoordelaar naar de mond te praten. 

Beoordelings- en scoringstendenties 

Beoordelings- en scoringstendenties slaan op de grote verschillen tussen beoordelaars bij de beoordeling en het aantal punten dat ze aan antwoorden toekennen. Bijvoorbeeld: 

  • Beoordelaars verschillen in de wijze waarop waargenomen kwaliteit wordt omgezet in een cijfer. Beoordelaars kunnen het bijvoorbeeld eens zijn over de kwaliteit en toch anders scoren. 
  • Beoordelaars kunnen verschillen in strengheid: sommige beoordelaars zijn geneigd milde en optimistische oordelen te vellen en geven studenten het voordeel van de twijfel, terwijl anderen extreem strenge oordelen vellen. 
  • De beoordelaars geven een eigen interpretatie aan het score- of cijfersysteem: de ene beoordelaar is geneigd een middenpositie te kiezen (scores tussen 8 en 16), de andere gebruikt de hele range (scores tussen 0 en 20). 

Hoe vermijd je bias bij het evalueren? 

Via het UGent-toetsbeleid en UGent-kwaliteitszorgmaatregelen trekt UGent vooral de kaart van bewustwording van eventuele bias en het aanmoedigen van technieken om zo betrouwbaar mogelijk te toetsen zoals het gebruik van heldere evaluatiecriteria, rubrics, antwoordsleutels,… Immers: als je je bewust bent van mogelijke beoordelaarseffecten, dan vermindert dat al het effect van onbedoelde beoordelingsbias. Bij mondelinge examens waak je er bijvoorbeeld expliciet over dat het uiterlijk of de spreekstijl van studenten je uiteindelijke cijfer niet beïnvloedt. Daarnaast zet de UGent in op technieken voor kwalitatieve evaluatie. Enkele tips zijn: 

Laat je leiden door de eindcompetenties 

Hou altijd de eindcompetenties van je opleidingsonderdeel voor ogen bij je evaluatie: de evaluatiecriteria worden immers afgeleid uit de eindcompetenties. Laat je niet beïnvloeden door elementen die niet van belang zijn voor die competenties. 

Gebruik heldere evaluatiecriteria en -hulpmiddelen  

Baseer je op heldere evaluatiecriteria, niet op je intuïtie, om een cijfer toe te kennen. Dan loop je immers meer risico op bias. Werk daarom met duidelijke hulpmiddelen bij de evaluatie als rubrics om papers of mondelinge presentaties te beoordelen of met antwoordsleutels bij open vragen. Zo richt je je aandacht op de inhoud van je evaluatie en beoordeel je studenten op een gelijkaardige manier.  

Als er meer evaluatoren zijn, is het belangrijk ervoor te zorgen dat iedereen op dezelfde lijn staat en de rubric of antwoordsleutel op eenzelfde manier interpreteert. Laat bijvoorbeeld als test de verschillende evaluatoren eenzelfde product beoordelen. Neem daarna de gebruikte criteria door. 

Verbeter per vraag, niet per examen  

Studenten bouwen soms een ‘reputatie’ op doorheen hun examen. Dat betekent dat ze gunstiger beoordeeld worden bij een matig antwoord als ze de vragen daarvoor excellent oplosten (en omgekeerd). Verbeter daarom per vraag, niet per examen. Zo doorbreek je de ‘reputatie’ en hou je minder rekening met de kwaliteit van de antwoorden op vorige vragen. Je doorbreekt dus het sequentie-effect. 

Vraag de mening van een tweede evaluator  

Als het mogelijk is, schakel dan een tweede evaluator in om het risico op bias te beperken. Vooral bij twijfel, bij een tolereerbaar (‘delibereerbaar’) cijfer of complexere gedragsevaluaties is dat handig.  

Verbeter (eventueel) anoniem 

Er bestaat enig experimenteel bewijs dat evaluatoren beïnvloed worden door informatie over de etnische achtergrond, voorkennis, intelligentie, voorafgaande prestaties, uiterlijk en geslacht van studenten. Meer specifiek komt die bias voor als de creativiteit van een schrijfproduct wordt beoordeeld (zie de uitgebreide literatuurstudie in bijlage).

Toch verantwoorden die zogenaamde beoordelaarseffecten anoniem verbeteren in hoger onderwijs als standaard praktijk niet. De bias ontstaat immers vooral bij beoordelaars die geen lesgever zijn en geen ervaring hebben met evalueren. Ook beoordelaars die afgaan op hun intuïtie en niet op helder gedefinieerde criteria om creativiteit te beoordelen, lopen meer risico.  

UGent voert anoniem verbeteren daarom niet algemeen in, al kan het wel, bijvoorbeeld door studenten niet hun naam, maar hun studentennummer (al dan niet in combinatie met gecodeerde initialen of namen) te laten noteren op hun examen of door papers anoniem (maar wel digitaal traceerbaar) te laten indienen op Ufora. Zoals gezegd trekt de UGent, via het UGent-toetsbeleid en UGent-kwaliteitszorgmaatregelen, veeleer de kaart van bewustwording van eventuele bias enerzijds, van technieken voor kwalitatieve evaluatie anderzijds. 

Hoe win je tijd bij evalueren? 

Een grondige voorbereiding loont 

Wees je ervan bewust dat je vooraf tijd moet investeren om tijdens drukke periodes flinke tijdswinst te boeken. De tijdsinvestering die je steekt in duidelijke opdrachtomschrijvingen bij papers (die je opstelt voor studenten), of een transparante verbetersleutel voor examens (die je opstelt voor jezelf als evaluator) loont altijd achteraf. 

Structureer voor 

  • Geef aan hoe lang een antwoord of paper maximaal mag zijn, zodat studenten zich beperken tot de kern. 
  • Leer hen vooraf, tijdens de les, hoe ze een examenvraag gestructureerd kunnen beantwoorden. Of bezorg hen een voorbeeldvraag met een duidelijk gestructureerd antwoord. 
  • Geef al tijdens het jaar duidelijke instructies, mogelijke valkuilen en aandachtspunten mee voor de evaluatie. Dat richt de aandacht van de studenten en resulteert in een kwaliteitsvoller product (hetzij een examenantwoord, hetzij een paper). Daardoor daalt de verbeterlast. 

Combineer open en gesloten vragen op je examen verstandig 

Peil met open vragen naar inhouden en doelen die moeilijk in gesloten vragen te vatten zijn. Zet waar mogelijk gesloten vragen in. Die brengen minder verbeterlast met zich mee. 

Beperk het verbeterwerk bij berekeningsvragen 

  • Quoteer enkel de uitkomst als de tussenstappen niet van belang zijn. Wees wel transparant naar studenten toe over wat wel/niet meegenomen wordt in de evaluatie. Zorg in dat geval voor genoeg oefeningen zodat toevallige rekenfouten weinig impact hebben. 
  • Licht de cruciale stappen uit de berekening. Focus op een bepaalde belangrijke stap in de berekening, bijvoorbeeld:  
    • Bied een oefening half afgewerkt aan, tot aan de cruciale stap en laat de studenten de oefening daarna verder afwerken. 
    • Stel speciaal geconstrueerde meerkeuzevragen op. Elke meerkeuzevraag richt zich dan op één stap in de berekening. Zorg ervoor dat de uitkomst op een vraag niet nodig is voor de berekening van de volgende vraag. 

Meer weten? 

  • Lees de onderwijstip over de UGent-toetsprincipes .  
  • Informeer je over kwalitatief lesgeven (en dus ook kwalitatief evalueren) via een docenten- of assistententraining.  
  • Vraag het gratis handboekje Meerkeuzetoetsen: praktische handleiding voor leerkrachten en docenten aan bij Elien.Sabbe@UGent.be
  • Lees de bronnen waarop deze onderwijstip zich baseert:  
    • Roossink, H.J. & Weenk, W. (1993). Efficiënt tentamineren. Enschede: Onderwijskundig Centrum van de Universiteit Twente. 
    • Roossink, H.J. (2000). Sneller nakijken van schriftelijke oefen- en toetsresultaten. Enschede: Onderwijskundig Centrum van de Universiteit Twente. 
    • Feld, J. Salamanca N. Hamermesh, D. S. (2015). Endophilia or exophobia: beyond discrimination. The Economic Journal, 126(August), 1503–1527.  
    • Kaplan, R.M. (1978). Is beauty talent? Sex interaction in attractiveness halo effect. Sex roles: a journal of research, 4(2), 195-204.  
    • Landy, D. & Sigall, H. (1974). Beauty is talent. Task evaluation as a function of the performer’s physical attractiveness. Journal of Personality and social psychology, 29(3), 299-304.  
    • Lebuda, I. & Karworski, M. (2013). Tell me your name and I’ll tell you how creative your work is: author’s name and gender as factors influencing assessment of products’ creativity in four different domains. Creativity research journal, 25(1), 137-142.   
    • Malouff, J.M., Emmerton, A.J. & AND Schutte, N.S. (2013). The Risk of a Halo Bias as a Reason to Keep Students Anonymous During Grading. Teaching of Psychology, 40(3), 233-237.  
    • Malouff, J. M., Stein, S. J., Bothma, L. N., Coulter, K., & Emmerton, A. J. (2014). Preventing halo bias in grading the work of university students. Cogent Psychology, 1(1), 988937.  
    • Malouff, J.M. & Thorsteinsson, E.B. (2016). Bias in grading: A meta-analysis of experimental research findings. Australian Journal of Education, 60(3), 245–256.

Bijlage

Laatst aangepast 19 juni 2020 11:37