Question 1

Hvor nøyaktig er Lectoras AI-vurdering?

Accepted Answer

På den publiserte MED12-eksamenen samsvarte Lectora med faglæreren på R² = 0.81 på tvers av 895 kandidater og rundt 36 000 deloppgavepoeng. Til sammenligning samsvarte to uavhengige menneskelige sensorer på samme eksamen på R² = 0.64. Utkastet lå altså nærmere faglæreren enn en andre menneskelig sensor gjorde. Den samme løkken er senere kjørt på tvers av tolv avsluttende kliniske eksamener ved UiB Medicine og er i pilot ved Matematisk institutt og NHH Finans.

Question 2

Hva er R², og hvorfor betyr det noe for AI-vurdering?

Accepted Answer

R² måler hvor tett to sett med poengsummer følger hverandre. R² = 1.0 er perfekt samsvar. R² = 0.6 til 0.7 er vanlig for to grundige mennesker på langsvar. R² = 0.81 ligger i øvre del av det menneskelige konsistensspennet. Det betyr noe fordi det viser om AI-utkastet er nært nok en grundig sensors vurdering til å være verdt å gjennomgå.

Question 3

Hvordan sammenlignes Lectora med to uavhengige menneskelige sensorer?

Accepted Answer

På MED12-datasettet var Lectoras samsvar med faglæreren (R² = 0.81) høyere enn samsvaret mellom de to menneskelige sensorene som opprinnelig vurderte eksamenen (R² = 0.64). Det er hovedfunnet.

Question 4

Ble Lectora validert på reelle eksamener?

Accepted Answer

Ja. Det publiserte ankeret er MED12-avslutningseksamenen ved Universitetet i Bergen: en reell seks timers klinisk eksamen, 895 kandidater og rundt 36 000 deloppgavepoeng. Ikke et syntetisk testsett, ikke et lite utvalg og ikke en gunstig undermengde. Samme metode kjøres mot reelle kull i hvert nytt samarbeid før det går i produksjon.

Question 5

Hvor mange kandidater var med i den publiserte MED12-valideringen?

Accepted Answer

895 kandidater, fra én gjennomføring av MED12-avslutningseksamenen.

Question 6

Er Lectora validert spesielt for medisin?

Accepted Answer

Ja. MED12-valideringen er en medisineksamen, og den målrettede manuelle vurderingsløkken er senere kjørt på elleve flere avsluttende kliniske eksamener ved UiB Medicine, på samme kalibreringsløkke. Se pilotstudien fra UiB Medicine for gjennomgang per eksamen. For andre kliniske eksamener brukes samme valideringsmetodikk, og nye valideringer kjøres når institusjoner tar Lectora i bruk med egne vurderingsmatriser og eksamenssett.

Question 7

Er Lectora validert for håndskrevet matematikk?

Accepted Answer

Uavhengig, ja. Forskere ved Matematisk institutt og Senter for utdanningsforskning innen STEM ved UiB gjennomførte to studier høsten 2025 som testet AI-vurdering med Lectora som verktøy. MAT101-milepælsstudien (n = 1 051 par-vurderinger AI/faglærer fra 356 studenter på tvers av milepælssjekk 0–4 på en 0–6-skala) fant AI-samsvar på R² = 0,68 (MAE 0,64 poeng, 87,7 % bestått/ikke-bestått-samsvar ved 3.0/6-grensen). MAT111-studien (20 besvarelser vurdert fire ganger av 11 sensorer på en 0–17-skala) fant at AI-assistanse senket ICC mellom sensorer fra 0,87 til 0,61 på den tidlige prototypen, med sensor-avhengig varians som steg fra 3,7 % til 26 %. Studentopplevelse ble også testet under to kontrasterende design: i MAT101s side-om-side-design (hver student så alle tre tilbakemeldingskilder sammen) ble AI vurdert lavest (4,38/7 mot 5,72/7 for faglærer), men i MAT111s enkeltbetingelse-design (hver student fikk enten menneske+AI eller kun menneske, blindet) var det ingen signifikant nytteforskjell (p = 0,45) — sterk evidens for at MAT101-gapet i hvert fall delvis er et side-om-side-artefakt. Hele funnene — inkludert der AI gjorde det dårligere og de metodiske forbeholdene — er i UiB MatNat-casestudien.

Question 8

Er Lectora validert for finanseksamener?

Accepted Answer

Finans er en egen, løpende pilot ved NHH Finans — Norges ledende handelshøyskole — der Lectoras arbeidsflyt er testet for bestått/ikke-bestått-vurdering på store flersidige innleveringer i finansiell kapitalforvaltning. Valideringsmønsteret er det samme som for medisin: et reelt kull faglæreren allerede har vurdert, kjørt blindt av Lectora, sammenlignet deloppgave for deloppgave. Per-kull R²-tall er ikke publisert ennå; sammendraget per pilot deles med emneansvarlig.

Question 9

Hvilke institusjoner er Lectora validert sammen med?

Accepted Answer

Tre akademiske partnere. Det medisinske fakultet ved UiB: tolv avsluttende kliniske eksamener, inkludert den publiserte MED12-valideringen (R² = 0,81 mot 0,64 mellom to menneskelige sensorer). Matematisk institutt ved UiB: uavhengige UiB MatNat + Senter for utdanningsforskning innen STEM-studier på MAT101 (R² = 0,68 AI mot faglærer-samsvar) og MAT111 (AI-assistanse senket ICC mellom sensorer fra 0,87 til 0,61) høsten 2025 — hele funnene, inkludert der AI gjorde det dårligere. NHH Finans: lange analytiske innleveringer, pilot for bestått/ikke-bestått-vurdering. Hvert samarbeid kjører egen validering mot faglærerens tidligere vurdering før det går i produksjon.

Question 10

Hvor mye manuelt vurderingsarbeid sparer Lectora i praksis?

Accepted Answer

Over de tolv eksamenene arbeidsflyten er kjørt på ved UiB Medicine er aggregatet 12 694 sensor-oppgave-par vurdert manuelt av 41 733 totalt — en arbeidsreduksjon på 69,6 %. Per eksamen varierer besparelsen fra ~40 % på eksamener der mange kandidater ligger tett rundt bestått-grensen, til ~84 % på større eksamener med spredte risikokandidater. Et stratifisert kalibreringssett på 14 kandidater pluss den lille blokken av grenseberørte risikokandidater som Lectoras levende regresjon merker erstatter den fulle gjennomgangen; resten hviler på det kalibrerte utkastet. Mindre kull sparer forholdsvis mindre fordi de 14 kalibreringskandidatene utgjør en større andel av dem.

Question 11

Hvor mange eksamener er Lectora kjørt på ved UiB Medicine?

Accepted Answer

Tolv avsluttende kliniske eksamener til nå — 889 kandidat-eksamen-par og rundt 43 700 deloppgavesammenligninger på tvers av kullet. Den publiserte valideringen, R² = 0.81 mot 0.64, kommer fra én av disse eksamenene (MED12, 895 kandidater); de andre elleve eksamenene bruker den samme målrettede manuelle vurderingsløkken. Se casestudien fra UiB Medicine for arbeidsflyten i praksis; en anonymisert demo av analysen per eksamen er også tilgjengelig på forespørsel.

Hvordan er Lectora validert for vurdering og tilbakemelding?

Hva betyr R² i vurderingssammenheng?

Hvilket grunnlag er det for at Lectora er nøyaktig?

Hvor enige er menneskelige sensorer med hverandre?

Er Lectora mer konsistent enn menneskelige sensorer?

Hva betyr dette for arbeidsbelastningen? Målrettet manuell vurdering ved bestått-grensen