UH-lovens bestemmelse om karakterer, her illustrert ved fotografisk utsnitt fra Jan Fridthjof Bernts kommentarutgave fra 2016. Foto: Arild J. Waagbø

Karaktergivning: Faglig skjønn og administrativ logikk

I 2013 oppsto det en interessant sak ved HiOA, hvor Einar Belsom mente seg overkjørt av FS, det studieadministrative systemet for universiteter og høgskoler. Det som skjedde, var at FS for en lang rekke studenter endret karakteren som faglæreren hadde satt, fordi systemet tolker karaktersystemet på en bestemt måte.

Arve Hjelseth er førsteamanuensis ved NTNU.

På den måten blir fastsetting av endelig karakter, hvis den skal utgjøre et veid gjennomsnitt av delkarakterer, et administrativt og matematisk spørsmål. Faglige vurderinger kommer i så fall inn bare ved vurderingen av enkeltelementer eller deloppgaver, samt ved hvordan de ulike elementene eller oppgavene skal vektes.

Så gikk det slag i slag. Da Belsom skulle begrunne en karakter, oppdaget han at studenten hadde fått en annen karakter enn han selv hadde satt. Han formidlet dette til studenten i begrunnelsen, og mente dessuten at saken burde ha offentlig interesse. Som følge av dette fikk han en tjenstlig tilrettevisning av ledelsen, og pålegg om å ikke kommunisere med studentene om saken.

Så gikk det slag utover i 2013. Belsom kontaktet HiOAs varslingsnemd, både for å kommunisere at han mente høgskolen fastsatte karakterer på feilaktig grunnlag, og fordi han ble nektet å kommunisere til studentene at han mente systemet kunne gi feil karakterer. Varslingsnemnda ga langt på vei støtte til Belsom. Det fikk imidlertid ingen konsekvenser for bruken av FS til å beregne karakterer. Høgskolen kontaktet departementet for en avklaring, og fikk et svar som var temmelig ullent, men som ble tolket som støtte til å videreføre den etablerte praksisen. Belsom selv mente høgskolen ikke hadde bedt om svar på det som etter hans syn var det sentrale spørsmålet, nemlig at systemet åpner for at en svakere prestasjon kan få bedre karakter enn en bedre.

Hvorfor kommer jeg trekkende med denne fire år gamle saken nå? Fordi Belsom nylig skrev et nytt debattinnlegg i høgskolens nettavis Khrono, der han gjennom eksempler forsøker å vise hvor urettferdige utslag FS-systemet kan gi. Belsom bruker sterke retoriske virkemidler og burde nok moderert enkelte formuleringer, men poenget er interessant. Jeg skal derfor gi noe mindre komplekse eksempler for å illustrere hva uenigheten består i, og derigjennom også forsøke å få fram hvilke dilemmaer sensorer og faglærere står overfor.

På papiret brukes det to karakterskalaer i høyere utdanning. Den ene skiller mellom bestått og ikke bestått, mens den andre er en sekspunkts skala som går fra A til F, hvor sistnevnte karakter ikke er bestått. I dette systemet finnes ikke plusser, minuser og grensetilfeller, en C er en C.

I praksis bruker imidlertid sensor både plusser og minuser når de skriver sine notater. Hvis jeg sensurerer et emne alene, kan jeg for eksempel gi en besvarelse karakteren C/B etter gjennomlesning, altså en C som er ganske nær en B. Når jeg har lest hele bunken og vurderer hvilken fordeling jeg er endt opp med, kan jeg endre dette til en B dersom jeg vurderer det slik at besvarelsene alt i alt er hakket bedre enn karakterfordelingen min gir uttrykk for. Som jeg har vært inne på i en annen sammenheng, vil en faglærer gjøre slike vurderinger hele tiden.

Enda viktigere er det å sette slike plusser og minuser i margen dersom en faglærer og en ekstern sensor sammen skal bli enige om en karakter. Dersom én av dem har satt B og den andre C+, vil de se nærmere på sine kommentarer, og sjansen for at de blir enige om at besvarelsen fortjener B er langt større enn dersom den andre hadde satt C-.

Dette skyldes naturligvis at selv om en C administrativt sett er en C og ingenting annet, dekker enhver karakter (skjønt kanskje særlig C) et visst spenn, fra det som er nær B til det som er nær D. Spørsmålet i Belsom-saken er om vi som faglærere kan bruke dette skjønnet til noe, altså om vi kan betrakte hele karakterskalaen som et kontinuum, ikke som seks strengt atskilte bokser.

Belsom erfarte altså at FS-systemet endret en del av de karakterene han ga, fordi delkarakterenes matematikk og vektingen krevde det. Slike erfaringer har jeg aldri gjort, for enn så lenge fyller vi inn protokollene selv. Jeg har imidlertid erfart at jeg må være omhyggelig hvis jeg skal skrive begrunnelser.

Belsoms eksempel er relativt komplekst, og jeg er usikker på om det eksemplet jeg nå skal gi helt samsvarer med alle hans poenger, men det er heller ikke hensikten. Hensikten er i stedet å vise hvordan en administrativ logikk, basert på at det bare finnes hele karakterer, kolliderer med faglig skjønn. Selv om det finnes argumenter for å tolke regelverket slik som FS-systemet ved HiOA gjør, vil jeg i det minste dokumentere at dette er et reelt dilemma som åpner for åpenbare urettferdigheter.

Ved flere institusjoner hvor jeg av og til sensurerer, er standarden for skoleeksamener gjerne at én oppgave teller 1/3 av totalen, og én oppgave teller 2/3. Hvis nå jeg (og eventuelt min medsensor) kommer til at kandidat nummer 1 har skrevet en besvarelse hvor den minste oppgaven står til en svak C og den største til en svak B, vil vi nok være innstilt på å gi C, selv om den største oppgaven skal vektlegges mest. Vi tenker oss jo som nevnt karakterskalaen som et kontinuum, ikke som seks avgrensede bokser uten variasjon innad i boksene.

I fag som jeg sensurerer pleier vi ikke å kvantifisere dette (og det er heller ikke mulig), men vi kan for eksemplets skyld tenke oss følgende skala hvor den perfekte prestasjon gir 100 poeng og en blank eller helt feilaktig besvarelse gir 0:

90-100: A
76-89: B
50-75: C
36-49: D
25-35: E
24 og lavere: F

Hvis vi nå tenker oss at kandidat 1 over har scoret 53 poeng på del 1 (C minus) og 80 poeng på del 2 (B minus), vil vi som nevnt trolig være innstilt på å gi karakteren C. Grunnen til dette er at det veide gjennomsnittet er 71, noe vi ser er klart innenfor rammen av C. Det er en sterk C, men fem poeng for lavt til å ende på B.

Så kan vi tenke oss en annen student, kandidat 2, som scorer 85 poeng på den minste oppgaven og 73 poeng på den største. Her er det altså snakk om en sterk B og en sterk C. Det faglige skjønnet tilsier at denne kandidaten får B, for det veide gjennomsnittet er 77, som så vidt er over B-grensen.

Men hvis det administrativt sett ikke finnes sterke og svake delkarakterer, hjelper ikke det. Da har den første kandidaten en C (den minste oppgaven) og en B (den største oppgaven), og siden del B veier tyngst, må karakteren nødvendigvis bli B. Den andre kandidaten derimot, får tilsvarende B på den minste oppgaven og C på den største, og ender dermed på C. Den andre kandidaten har levert en bedre prestasjon enn den første (veid gjennomsnitt på 77 mot 71), men får likevel dårligere karakter.

Dette er åpenbart urimelig, men det blir resultatet dersom man a) ikke aksepterer at karakterskalaen er et kontinuum, og b) beregner endelig karakter maskinelt i stedet for ved bruk av skjønn.

Også vi faglærere som fører de endelige resultatene inn i protokoller selv (enten det skjer på papir eller elektronisk), må imidlertid forholde oss til den administrativt-byråkratiske praksisen dersom vi skal begrunne karakterene: Hvis nå min eksamenskommisjon fulgte faglig skjønn og ga den første kandidaten karakteren C, kan vi nemlig ikke si at den var resultatet av en svak C og en svak B. Siden plusser og minuser ikke finnes, måtte vi i så fall ha gitt B.

Det betyr at om vi skal forsvare vårt faglige skjønn, må vi i stedet si at begge deloppgavene sto til C, alternativt at oppgave 1 fikk D og at oppgave 2 fikk B, for da blir også summen C. Vi må altså forholde oss til at det ifølge den administrative logikken ikke er forskjell mellom for eksempel ulike C-er, selv om vi i praksis opererer med slike forskjeller. Å gjøre det på denne måten er mest rettferdig, men det er samtidig ubehagelig: Strengt tatt er man jo uærlig om hvilke delkarakterer man opprinnelig hadde.

Alternativt kan vi skrote det faglige skjønnet når vi fastsetter karakteren, og tenke som så at C+B = B (gitt vektingen), uavhengig av hvor på C- og B-skalaen besvarelsene befant seg. Det betyr i så fall at karakteren (i dette tilfellet) ikke gjenspeiler prestasjonen, og videre at rangeringen mellom ulike kandidater kan være feil.

Det er ingen vei ut av et slikt dilemma. Konklusjonen er imidlertid at faglig skjønn gir mer rettferdige resultater enn den administrative logikken. HiOA kan likevel ha dekning for at deres tolkning samsvarer med loven, som rett og slett sier at «Vurderingsuttrykket ved eksamen, prøve, bedømmelse av oppgave eller annen vurdering skal være bestått/ikke bestått eller en gradert skala med fem trinn fra A til E for bestått og F for ikke bestått», selv om det så vidt jeg kan bedømme åpner for begge tolkninger.

I så fall er det nettopp loven som bør diskuteres.

–> Hallgeir Gammelsæter, Kjetil Kåre Haugen, Arve Hjelseth og Maren Sæbø skriver fast i Panorama.

 

2 kommentarer til “Karaktergivning: Faglig skjønn og administrativ logikk”

  1. I mange tilfeller kan problemet løses ved at faglærer og sensor kun registrerer endelig katakter. Unngår en å gi delkarakterer får en da full kontroll.

Det er stengt for kommentarer.