Illustrasjonsfoto: Kennysarmy (CC BY-NC-ND 2.0)

Sensur i blinde

Å sette karakterer på studentprestasjoner er en vanskelig øvelse. Da er det neppe noen god idé å tvinge klagesensorer til å lese oppgaver helt uten kontekst.

Arve Hjelseth er førsteamanuensis ved NTNU.
Arve Hjelseth er førsteamanuensis ved NTNU.

I 2014 ble såkalt blind klagesensur innført som nasjonal norm, det vil si at klagekommisjonen ikke skal ha kjennskap hverken til

  1. hvilken karakter oppgaven opprinnelig fikk,
  2. hvordan karakteren var begrunnet, eller
  3. hvordan studenten begrunnet klagen.

Som Olav Torvund har påpekt, er klagesensur derfor egentlig en feil betegnelse. En klage innebærer jo normalt at klageinstansen vurderer om det er begått saksbehandlingsfeil i første omgang, noe som forutsetter tilgang til relevante dokumenter. Med dagens retningslinjer er det egentlig ikke snakk om å behandle en klage, men om en ny og ikke minst helt uavhengig vurdering.

En del institusjoner, blant annet mitt eget fakultet, hadde praktisert denne ordningen i flere år da den ble nasjonal standard. Initiativet kom fra studentorganisasjonene, som mente den tradisjonelle klageordningen førte til at klagesensorene lot seg påvirke av kunnskapen om hvordan oppgaven opprinnelig ble vurdert.

Jeg skal i dette innlegget se på ulike måter å kvalitetssikre prosessen fra eksamensbesvarelse til endelig karakter på, med spesiell vekt på håndteringen av klager. Jeg er naturligvis klar over at både karakterkultur og vurderingskriterier varierer en del mellom ulike fag, institusjoner og tradisjoner. Grunnlaget for de følgende refleksjoner er mine erfaringer som sensor i drøyt 20 år i ulike samfunnsvitenskapelige fag. De kan være mer eller mindre relevante for andre disipliner.

Intuitivt høres kanskje blind klagesensur fornuftig ut. At faglærere og/eller sensorer av og til gjør feil når de fastsetter karakterer, er et utvilsomt faktum. Da er det nærliggende å mene at en klagekommisjon ikke bør gå til oppgaven med en bevisst eller ubevisst forventning om at den første vurderingen sannsynligvis var riktig, eller i hvert fall i nærheten av sannheten. Det er ikke urimelig å tenke seg at dette kan forekomme hvis opprinnelig karakter er kjent (mer om det senere).

At klagekommisjonen tidligere var kjent med forutsetningene, skapte slik en mistanke om at velbegrunnede klager ikke nådde fram. Klagekommisjonen lot seg, bevisst eller ubevisst, styre av den opprinnelige kommisjonens vurdering.

Nå vet vi en del om konsekvensene av den nye ordningen. Andelen som får endret karakteren som følge av en klage har økt. Flere enn før får bedre karakter som følge av å klage, men økningen i andelen som får dårligere karakter er langt større, meldte Universitetsavisa i fjor.

Hvorfor er dette blitt resultatet? Tallene tyder nettopp på at klagekommisjoner tidligere lot seg påvirke av den opprinnelige vurderingen, eventuelt også av hvordan karakteren var begrunnet, dersom studenten hadde bedt om slik begrunnelse i forkant av klagen. Spørsmålet er om det er urimelig at slik påvirkning foreligger.

Et første poeng er at vurderinger av eksamensprestasjoner alltid er relative. En prestasjon er nesten alltid god eller dårlig i forhold til andre prestasjoner. Å skryte av datteren sin som løper 60 meter på 8,0 sekunder er helt uten mening for en slektning som ikke vet hvor fort det er vanlig å løpe i den aktuelle aldersgruppen.

Dette ligger delvis også innbakt i karakterbeskrivelsene, for eksempel heter det om karakteren A (i sosiologi) at det representerer en prestasjon som klart utmerker seg (underforstått: i forhold til flertallet av prestasjoner). Det finnes naturligvis nyanser her: på et emne med fire-fem studenter er det ikke helt utenkelig at alle kan fortjene karakteren A, men hvis det gjentar seg også neste semester, er det allerede god grunn til å vurdere om vanskelighetsgraden er for lav eller om vurderingen er for snill. Hvis alle får A, er det jo ikke lenger noen som utmerker seg.

Blind klagesensur gir ofte (ikke alltid) dårligere grunnlag for å vurdere prestasjonens relative verdi. I et emne med 15-20 studenter vil det ofte komme bare en eller to klager. Besvarelsen som det klages på må da normalt leses av personer som ikke har vært involvert i vurderingen av noen av kandidatene i første omgang. Helt uten noe å sammenligne med skal man altså vurdere om prestasjonen er for eksempel fremragende, gjennomsnittlig eller så svak at den ikke er bestått. Det er i praksis umulig; bortimot en selvmotsigelse. Å identifisere det fremragende eller gjennomsnittlige forutsetter noe å sammenligne med.

For emner med flere studenter er problemet mindre: Har 100 studenter tatt eksamen, er det vanlig å dele bunken i tre eller fire, hvor hver eksamenskommisjon får hver sine oppgaver (kommisjonene kan i så fall også snakke sammen før de leverer sensuren, for å vurdere om de har lagt seg på omtrent samme nivå). Her kan klager behandles av personer som har vært med å sensurere emnet, men ikke besvarelser hvor studentene har klaget. Jeg tror de fleste umiddelbart vil se at det også er fornuftig å la dem som har vært involvert i sensuren ta seg av slike klager, nettopp fordi de er fortrolige med nivået og har noe å sammenligne med. Men av samme grunn er dette et stort problem i tilfeller hvor det ikke lar seg gjøre.

Prinsippet om blind klagesensur ser ut til å bygge på en stilltiende forutsetning om at enhver prestasjon lar seg vurdere ut fra seg selv, uten å skjele til det generelle prestasjonsnivået. Kanskje bygger det på en tanke om at det finnes en objektiv standard som gjør at noe er «rett» eller «feil». Det hender studenter som er til veiledning lurer på om noe er «riktig» eller «galt», ikke om det er godt eller dårlig (som er noe helt annet). Tilsvarende har jeg fått krav om begrunnelser på karakteren C, hvor studentene lurer på hva de ble trukket for. Dette bygger tilsynelatende på en forestilling om at hvis man ikke gjør noe galt (og svarer på det man blir bedt om å svare på), fortjener man A. Men i hvert fall i samfunnsvitenskapelige fag brukes karakterskalaen helt annerledes: Hvis det er få feil og mangler og gjennomgående brukbart, settes i utgangspunktet karakteren til C. Så ser man etter ting som kan bidra til å løfte dette opp til B eller A.

Siden blind klagesensur fører til at klagekommisjonen ikke har noe å bygge på (hvis de ikke har sensurert oppgaver i emnet i første runde), vil sensorene bevisst eller ubevisst lure på hva denne oppgaven opprinnelig har fått. Sjansen for at noen har klaget på en A er selvsagt svært liten, så om man vurderer en oppgave til A, vet man samtidig at man har gitt en annen karakter enn den opprinnelige.

Sannsynligvis er det mest klager på karakterene C, D og F. Mange som får C hadde håpet på B, mange som får D hadde håpet på C (eller B), og mange som stryker hadde håpet å stå (de kan dessuten klage fordi de ikke har noe å tape). Samtidig vil de fleste som får E forhåpentligvis skjønne at de var nær strykgrensen, slik at det ikke er verdt risikoen å klage. Mange som får B vil være fornøyde med det, selv om de hadde håpet på A, og tar ikke sjansen på å risikere en C. Som (blind) klagesensor er det dermed vanskelig å fri seg fra å gjøre seg opp en mening om det er en opprinnelig C, D eller F man har foran seg. Det er et – ofte ubevisst – forsøk på å etablere kontekst til en vurdering som i seg selv er kontekstløs. Det er ganske forståelig, om enn uheldig.

Konklusjonen så langt er at blind klagesensur nok kan fungere hvis klagekommisjonen består av personer som har vært med å sensurere emnet, men at dette i mange tilfeller ikke er mulig i praksis. Her har vi derfor også grunnen til at studenter som klager i et system med blind klagesensur løper større risiko for å få dårligere karakter (i Universitas-saken henvises det til at mens bare én prosent fikk dårligere karakter med det gamle systemet, gjelder det 20 prosent med blind klagesensur). En klagekommisjon som har tilgang både til den opprinnelige karakteren, til begrunnelsen for karakteren og til begrunnelsen for klagen, vil tenke at siden de nå bare leser én eller noen få oppgaver, består oppdraget i å vurdere om det har forekommet en feilvurdering. Det er jo som vi har sett bortimot umulig å gi en relativ bedømmelse av besvarelsens kvaliteter. I slike tilfeller vil tvilen ofte komme kandidaten til gode, og bare helt unntaksvis settes en dårligere karakter. Derimot er tilbøyeligheten til å gi en bedre karakter noe større.

Blind klagesensur reduserer rettsikkerheten for studenter, og det skaper et inntrykk av at karakterfastsettelse skjer på et annet og mer «objektivt» fundament enn det er grunnlag for. Det finnes imidlertid et par mulige metoder som kan gjøre disse problemene mindre selv ved blind klagesensur.

Den første, som studentene stadig understreker betydningen av, er bedre sensorveiledninger. En sensorveiledning er svært ofte nyttig, særlig med tanke på å klargjøre hva som er vektlagt i undervisning og hva faglærer generelt forventer at studentene kan, hvor inngående de forventes å kunne diskutere en problemstilling, etc.

Tanken om at en sensorveiledning kan gjøres så detaljert og god at den fjerner problemene jeg har påpekt over, er likevel naiv. Én sak er at vurderingen av en eksamensbesvarelse er en kombinasjon av å vurdere enkeltelementene og å vurdere helheten. En sensorveiledning kan bidra på viktige måter til det første, men i mindre grad til det andre.

I tillegg kommer at jeg svært ofte har sett faglærere ha ganske forvrengte forventninger til hva studentene bør ha lært og hva de derfor bør kunne prestere. Det har forekommet at jeg hadde måttet stryke alle kandidatene dersom jeg skulle tatt sensorveiledningen på alvor. I stedet bruker sensorene faglig og erfaringsbasert skjønn, de ser fort om pensumstoffet er adoptert på en annen måte enn faglærer hadde forventet. Med blind klagesensur kan en sensorveiledning i slike tilfeller gjøre vondt verre, dersom man bare leser 1-2 klager. Sensorveiledninger er derfor verdifulle, men de løser ikke problemet.

En annen strategi, som praktiseres en del steder, er at klagekommisjonen, i tillegg til besvarelsene det klages på, også får tilsendt eksempeloppgaver på besvarelser som har fått for eksempel B, C og E. På den måten blir det lettere å vurdere besvarelsene relativt, det vil si hvor gode de er i forhold til andre og hvilken vurdering som da er mest rimelig. Etter mitt syn er dette den ordningen som har størst sjanse til å gi rettferdig vurdering ved blind klagesensur. Samtidig er det en dyr ordning, for klagesensorene må jo også honoreres for å lese eksempelbesvarelsene, ikke bare besvarelsene det klages på.

Uansett: Blind klagesensur har, også fra studentenes perspektiv, skapt flere problemer enn det har løst. Dette skjer samtidig med at også den opprinnelige karaktervurderingen gradvis skjer på mer utrygg grunn enn for noen år siden.

Etter den såkalte kvalitetsreformen er det blitt stadig vanligere at hver eksamensbesvarelse bare leses av én person, enten dette er faglærer eller en ekstern sensor. Institusjonene forsøker å kvalitetssikre slike systemer på en rekke ulike måter, hvorav ingen er spesielt tilfredsstillende. Noen steder leser en «kontrollsensor» et utvalg besvarelser for å bidra til å sette nivået (det kan diskuteres om dette er i samsvar med prinsippet om likebehandling). Andre steder sensureres emner eksternt hvert tredje eller fjerde år.

Men uansett er en karakter gitt på grunnlag av én persons lesning, langt mer usikker enn om to personer har lest den. Har man to lesere er man enig i majoriteten av tilfellene, eller man blir umiddelbart enig fordi man for seg selv ofte gir plusser og minuser som antyder at dette kan være en streng eller snill vurdering. I noen få tilfeller er spriket større enn én karakter. I så fall kan man finne at karakteren man har gitt samsvarer dårlig med ens egne kommentarer (noe som forekommer), eller sensorene kan i fellesskap gå gjennom oppgaven. Man blir nesten alltid enige. Hele denne prosessen forsvinner hvis man er alene om vurderingen, og det øker antallet dårlig funderte karakterer ganske dramatisk.

Så hvis studentene virkelig ønsker større sikkerhet for rettferdig behandling, bør de skrote blind klagesensur, og i stedet insistere på at alle eksamensbesvarelser skal ha minst to sensorer, hvorav én bør være ekstern. Det koster litt, men det er det verdt.

–> Hallgeir Gammelsæter, Kjetil Kåre Haugen, Arve Hjelseth og Jenny Klinge er faste spaltister i Panorama.