VALIDERING
Hvordan er Lectora validert for vurdering og tilbakemelding?
Lectora er ikke validert gjennom én enkelt studie. Verktøyet er bygget i tett samarbeid med tre akademiske partnere over flere år, og både vurdering og tilbakemelding er validert mot faglærernes egne karakterer i hvert program. Ved Det medisinske fakultet, UiB er arbeidsflyten nå kjørt på tvers av tolv avsluttende kliniske eksamener — 889 kandidat-eksamen-par og rundt 43 700 deloppgavesammenligninger til sammen — inkludert den publiserte MED12-eksamenen der Lectoras utkast samsvarte med faglæreren på R² = 0.81, målbart nærmere enn R² = 0.64, som var samsvaret mellom to grundige menneskelige sensorer på samme eksamen. Ved Matematisk institutt ved UiB gjennomførte uavhengige forskere ved UiB MatNat og Senter for utdanningsforskning innen STEM to studier høsten 2025 som testet AI-vurdering på MAT101 (n = 1 051 par-vurderinger AI/faglærer, R² = 0.68, bestått/ikke-bestått-samsvar 87,7 %) og MAT111 (n = 80 par-vurderinger, der AI-assistanse senket ICC mellom sensorer fra 0,87 til 0,61 på den tidlige prototypen). Hele funnene — inkludert delene der AI gjorde det dårligere — rapporteres i UiB MatNat-casestudien som et bevisst tillitssignal for institusjonelle kjøpere. Ved NHH Finans — Norges ledende handelshøyskole — er arbeidsflyten pilotert for å teste om den kan støtte bestått/ikke-bestått-vurdering på store flersidige innleveringer i finansiell kapitalforvaltning. Den felles testen i alle tre samarbeidene er den samme: ligger AI-utkastet nært nok faglærerens vurdering til at hen kan gjennomgå det i stedet for å vurdere kullet fra bunnen av?
Hva betyr R² i vurderingssammenheng?
R², determinasjonskoeffisienten, måler hvor tett to sett med poengsummer følger hverandre. R² = 1.0 betyr perfekt samsvar. R² = 0.0 betyr at de to vurderingene ikke følger hverandre bedre enn tilfeldigheter. I vurdering av langsvar ligger det praktiske området ofte mellom 0.6 og 0.9. Selv grundige, kalibrerte sensorer kommer sjelden over R² = 0.85 mot hverandre på langsvarseksamener, og R² mellom 0.5 og 0.7 er vanlig når to uavhengige sensorer vurderer samme besvarelse uten koordinering.
Grunnen er enkel: vurderingsmatriser åpner for skjønn. To grundige sensorer kan lese samme svar og være rimelig uenige om differensialdiagnosen var fullstendig eller bare tilstrekkelig, om en regresjonstolkning var riktig eller delvis riktig, eller om et hull i et matematisk bevis var lite eller avgjørende. Slike forskjeller bygger seg opp på tvers av tusenvis av deloppgaver.
For en AI-sensor forteller R² om utkastene ligger innenfor det normale spennvidden i menneskelig uenighet, eller utenfor. R² = 0.81 mot én faglærer ligger godt innenfor. Lectoras utkast har en variasjon som ligner det du ville forventet mellom grundige menneskelige sensorer, og lå på MED12-eksamenen nærmere faglæreren enn en andre menneskelig sensor gjorde.
Hvilket grunnlag er det for at Lectora er nøyaktig?
Grunnlaget kommer fra tre løpende akademiske samarbeid, der hvert samarbeid kjører sin egen validering mot faglærernes tidligere vurdering. Det publiserte ankeret er MED12-eksamenen ved Det medisinske fakultet, UiB. Derfra er den samme metoden videreført til resten av fakultetets avsluttende kliniske eksamener, til håndskrevet matematikk ved Matematisk institutt ved UiB, og til lange analytiske svar ved NHH Finans. Hvert samarbeid har pågått over flere år, på reelle eksamener faglærerne allerede hadde vurdert.
MED12-eksamenen omfattet besvarelsene fra 895 kandidater i én seks timers eksamen — den kliniske eksamenen i tolvte semester ved UiB — med rundt 36 000 vurderte deloppgaver totalt. To uavhengige menneskelige sensorer hadde allerede vurdert alle besvarelsene i den opprinnelige eksamenen, noe som ga basislinjen R² = 0.64 mellom to mennesker som vurderte samme eksamen parallelt. Lectora ble deretter kjørt blindt på de samme besvarelsene, mot den samme vurderingsmatrisen, uten tilgang til poengsummene fra noen av sensorene. Samsvaret mellom Lectoras utkast og faglærerens referansevurdering ga R² = 0.81. Datasettet er publisert, sammenligningen er gjort på samme eksamen og samme vurderingsgrunnlag, og hovedfunnet holder på hele datasettet med rundt 36 000 deloppgaver.
Matematikk- og finanspilotene kjører samme valideringsløkke mot hver partners egne vurderingsmatriser. Per-samarbeid R²-tall er ikke publisert ennå — disse valideringene kjøres privat mot faglærerens tidligere vurdering og deles med emneansvarlig. Poenget med å sitere MED12 offentlig er å forankre metoden: et reelt kull faglæreren allerede har vurdert, kjørt blindt av Lectora, sammenlignet deloppgave for deloppgave. Hvert samarbeid bruker den samme løkken.
Hvor enige er menneskelige sensorer med hverandre?
På MED12-datasettet var samsvaret mellom de to menneskelige sensorene R² = 0.64. Det er typisk for langsvar i medisin. Fagfellevurderte studier av essayvurdering rapporterer ofte R²-verdier mellom 0.50 og 0.75, avhengig av vurderingsmatrise og sensorgruppe. Matematiske bevis ligger gjerne mellom 0.55 og 0.70 når to uavhengige sensorer vurderer samme arbeid. Juridisk pregede analyser kan ligge lavere. Flervalg ligger nesten perfekt, noe som også forklarer hvorfor det brukes mye i summativ vurdering, uavhengig av pedagogisk verdi.
Dette er en lite synlig del av vurderingsarbeidet: profesjonelle sensorer er uenige med hverandre, og uenigheten er ikke nødvendigvis en feil. Den speiler faktisk tvetydighet i hvordan vurderingsmatriser brukes. En student som får 82 poeng av én sensor, kunne fått 77 av en annen. Begge vurderinger kan være forsvarlige. Studenten ser bare den ene.
Når et vurderingssystem samsvarer med faglæreren på R² = 0.81, samsvarer det i praksis tettere enn en andre menneskelig sensor typisk ville gjort på den publiserte eksamenen. Det er kjernen i hver samarbeidsvalidering vi har kjørt: ikke at AI har rett og mennesker tar feil, men at AI-utkastet ligger godt innenfor det en grundig menneskelig sensor kunne skrevet, og på den publiserte eksamenen lå nærmere faglæreren enn en andre sensor vanligvis gjør.
Er Lectora mer konsistent enn menneskelige sensorer?
På MED12-datasettet, ja: R² = 0.81 mot 0.64. Men det er ikke den viktigste rammen. Den riktige rammen er at Lectoras utkast ligger så nært faglærerens vurdering at underviseren kan gjennomgå det på en brøkdel av tiden en full førstegangsvurdering ville tatt.
Studenten får en karakter som er gjennomgått av læreren. Læreren får et utkast som allerede er kalibrert mot vurderingsmatrisen. Systemets faglige gulv er underviserens vurdering, ikke Lectoras. Derfor bruker vi det publiserte R²-tallet som dokumentasjon på kvaliteten i utkastet, ikke som et argument for å erstatte gjennomgang.
For institusjoner som vurderer Lectora, svarer det publiserte tallet på et konkret spørsmål: er dette utkastet verdt tiden min å gjennomgå, eller må jeg starte fra bunnen av? Ved R² = 0.81 starter du fra et utkast som allerede ligger nær der du selv ville landet. Det er hele poenget. Hvert nytt samarbeid kjører den samme sammenligningen mot egen faglærers tidligere vurdering før det går i produksjon.
Hva betyr dette for arbeidsbelastningen? Målrettet manuell vurdering ved bestått-grensen
R² = 0.81 mot faglæreren kjøper noe konkret: et utkast du kan gjennomgå ved bestått-grensen i stedet for å vurdere hele kullet fra bunnen av. Arbeidsflyten heter målrettet manuell vurdering, og den er nå kjørt på tvers av tolv avsluttende kliniske eksamener ved Det medisinske fakultet ved UiB — 889 kandidat-eksamen-par og rundt 43 700 deloppgavesammenligninger til sammen. Mønsteret er det samme på hver eksamen.
Lectora lager utkast for hver kandidat. Faglæreren vurderer deretter manuelt et lite, stratifisert kalibreringssett — vanligvis fjorten kandidater: åtte fra den nedre delen av AI-utkastets fordeling, fire rundt bestått-grensen, to fra toppen. Lectora tilpasser en levende regresjon mellom utkastet og faglærerens poeng på disse fjorten, beregner et 99 % prediksjonsintervall per gjenværende kandidat, og merker dem hvis nedre prediksjonsintervall krysser bestått-grensen. Det merkede settet — vanligvis fem til femten besvarelser på en eksamen med 80 kandidater — vurderes manuelt etterpå. Resten hviler på det kalibrerte utkastet. En valgfri full-scoringsreferanse kan kjøres på resten av kullet for å godkjenne linjen.
Over de tolv eksamenene arbeidsflyten er kjørt på til nå er aggregert besparelse 70 % — 12 694 sensor-oppgave-par vurdert manuelt mot 41 733 i en full gjennomgang. Per eksamen varierer reduksjonen fra ~40 % (eksamener med tett klynging av kandidater rundt bestått-grensen, der mange må gjennomgås manuelt) til ~84 % (større eksamener med spredte risikokandidater). De viktigste driverne er kullstørrelse og hvor tett kandidatene ligger rundt grensen; mindre kull sparer forholdsvis mindre fordi de fjorten kalibreringskandidatene utgjør en større andel av dem, og strammere prediksjonsintervall krymper risikoblokken men flytter flere kandidater inn i manuell gjennomgang.
Integritetsargumentet ligger i prediksjonsintervallet, ikke i punktestimatet. Intervallet utvider seg for kandidater hvis AI-poeng ligger i tynt befolkede deler av kalibreringsdataene, og smalner for kandidater i tett befolkede områder. En kandidat hvis utkast sier «bestått» med et stramt intervall langt over grensen får ingen manuell gjennomgang. En kandidat hvis utkast sier «bestått» med et bredt intervall som strekker seg ned over grensen, får det. Beslutningsgrensen er menneskelig; resten av kurven er kalibrert utkast. Det er arbeidsbelastningspåstanden, og den er etterprøvbar per eksamen.
MÅLRETTET MANUELL VURDERING
Exam 01 · 78 kandidater · 48 kortsvarsoppgaver
4. Vurder risikoblokken manuelt
Spart arbeid
73.1%
2 736 av 3 744 sensor-oppgave-par unngått
Manuell vurdering
26.9%
Risikoblokk
7
Kalibrerings-R²
0.882
Full-kullets R²
0.833
Manuell tid @ 3 min/oppgave
50.4 h
Full gjennomgang
187.2 h
Prediksjonsintervall
SPØRSMÅL OG KASUS VURDERT PÅ TVERS AV DISTRIBUSJONER
…og det vokser hver uke.
20+ kurs
I PRODUKSJON OG VERIFISERT
På tvers av medisin, matematikk, finans og mer.
12 eksamener · 889 kandidater
UIB MEDICINE-PILOT · MÅLRETTET MANUELL VURDERING
~43 700 AI-mot-sensor deloppgavesammenligninger via den målrettede manuelle vurderingsløkken.