
Bruk residualer og residualplott til å vurdere modellkvalitet og avgjøre når en annen modelltype bør prøves.
I 7.1 brukte vi til å si hvor godt regresjonslinjen passer. En høy ser fin ut, men forteller ikke hele historien. To datasett kan ha samme , men det ene kan likevel være håpløst dårlig modellert.
For å være sikker på at modellen er god, må vi se på residualene — avvikene mellom det vi observerte og det modellen sier.
- : punktet ligger over modellen (modellen undervurderer)
- : punktet ligger under modellen (modellen overvurderer)
- : punktet ligger nøyaktig på modellen
For regresjonslinjen er alltid — overskudd og underskudd kansellerer hverandre.
En god regresjonsmodell har residualer som
- ligger tilfeldig spredt rundt null,
- har omtrent samme spredning for små og store -verdier,
- ikke viser noe systematisk mønster (ingen kurvatur, ingen trakt, ingen bølge).
Hvis residualene viser et mønster, betyr det at modellen ikke har fanget opp alt som ligger i dataene. Da bør vi prøve en annen modelltype.
Et residualplott er et diagram der vi tegner residualet langs den vertikale aksen, og enten eller langs den horisontale aksen.
Vi tegner også en horisontal linje gjennom for å se avstandene tydeligere.
2. U-form eller bue — den lineære modellen mangler kurvatur. Prøv andregrads-, eksponentiell eller potensmodell.
3. Trakt (vifteform) — spredningen er ujevn. Lavere x-verdier gir små residualer, høyere x-verdier gir store. Vurder om bør transformeres () eller om modelltypen er feil.
4. Et fåtall punkter med svært store residualer — uteliggere. Sjekk om det er målefeil i datasettet, eller om punktet er en reell avvikende observasjon.
For datasettet er regresjonslinjen .
Beregn residualene og vurder om en lineær modell passer.
| 1 | 9 | 8{,}5 | 0{,}5 |
| 2 | 11 | 11{,}5 | |
| 3 | 14 | 14{,}5 | |
| 4 | 16 | 17{,}5 | |
| 5 | 21 | 20{,}5 | 0{,}5 |
| 6 | 24 | 23{,}5 | 0{,}5 |
En forsker tilpasser en lineær modell til datasettet:
| 1 | 2 | 3 | 4 | 5 | 6 | |
|---|---|---|---|---|---|---|
| 5 | 7 | 12 | 18 | 27 | 38 |
| 1 | 5 | 6 | |
| 2 | 7 | 10 | |
| 3 | 12 | 14 | |
| 4 | 18 | 18 | 0 |
| 5 | 27 | 22 | 5 |
| 6 | 38 | 26 | 12 |
Bruk alltid begge:
- Høy + tilfeldig residualplott god modell.
- Høy + systematisk mønster misvisende. Modellen er ikke riktig type.
- Lav + tilfeldig residualplott riktig modelltype, men dataene har mye støy.
- Lav + systematisk mønster feil modelltype og mye støy. Start på nytt.
Et datasett over månedlig strømforbruk og utetemperatur gir én observasjon med residual på kWh, mens alle andre residualer ligger mellom og kWh.
Hvordan bør dette håndteres?
Residualet er svært stort sammenliknet med de andre — observasjonen er en uteligger.
Praktisk håndtering:
1. Sjekk dataene. Er det en målefeil eller skrivefeil? Var det en spesiell måned (ferie, strømstans, ny måler)?
2. Hvis målefeil: rett opp eller fjern observasjonen, og kjør regresjonen på nytt.
3. Hvis reell, men spesiell hendelse: dokumenter den, men vurder å holde den utenfor modellen — og forklar valget i rapporten.
4. Hvis du ikke vet: rapporter resultater både med og uten uteliggeren slik at leseren ser effekten.
Uteliggere må aldri fjernes bare fordi de er ubehagelige. Begrunn alltid valget.
GeoGebra har innebygd støtte for residualer:
1. Skriv inn punktene som en liste, f.eks. data = {(1,9),(2,11),(3,14),(4,16),(5,21),(6,24)}.
2. Lag regresjonslinjen: f = FitLine(data).
3. Beregn residualene: Residualer = Sequence(y(Element(data, k)) - f(x(Element(data, k))), k, 1, Length(data)).
4. Lag residualpunkter: Sequence((x(Element(data, k)), Element(Residualer, k)), k, 1, Length(data)).
5. Tegn -linjen som referanse.
I Excel: legg til en kolonne =B2-(SLOPEA2+INTERCEPT) og lag spredningsplott av residualene mot .
I Python: residuals = y - (ax + b) og plt.scatter(x, residuals).
For datasettet er regresjonslinjen .
Beregn residualene for alle fem punkter.
Verifiser at .
Vurder om modellen passer.
En lineær modell er tilpasset til kroppshøyde og skostørrelse. For en person med cm er .
Hva er ?
Hva er residualet?
Hva forteller det enorme residualet oss?
Et residualplott viser at residualene er små for -verdier mellom 0 og 10, men øker jevnt med helt opp til ved . Hva forteller dette?
To modeller for samme datasett gir:
- Modell A: lineær, , residualplott viser tydelig U-form.
- Modell B: andregrad, , residualplott er tilfeldig spredt.
Hvilken modell bør foretrekkes?
Tabellen viser SSB-data for prisindeks for nye eneboliger (2015 = 100):
| År | 2015 | 2017 | 2019 | 2021 | 2023 |
|---|---|---|---|---|---|
| Indeks | 100 | 110 | 117 | 132 | 138 |
Beregn residualene.
Er det noe systematisk mønster?
Hva slags reelle hendelser i 2020–2021 kunne forklart avviket?
En gruppe elever har samlet inn data om antall kunder per dag og inntekter. Regresjonsmodellen gir . Når de tegner residualplottet ser de et tydelig U-formet mønster.
Hva skal de gjøre, og hvordan kan de begrunne det i prosjektrapporten?
Beregn og kontroller at modellen er tilpasset korrekt.
Beregn .
Hvis , finn .
En elev har tilpasset en eksponentiell modell til årlig BNP-vekst. Residualplottet viser en lett bølgeform rundt nullinjen.
Kan modellen brukes til prediksjon? Drøft.
Du har gjennomført regresjon på et reelt datasett om arbeidsledighet i Norge fra SSB. for både en lineær og en eksponentiell modell. Hvordan velger du mellom dem?
En klassekamerat påstår: «Hvis , er modellen alltid god nok til å bruke i en samfunnsøkonomisk rapport.» Vurder denne påstanden.
Tabellen viser månedlig konsumprisindeks (KPI, 2015 = 100) i Norge:
| Måned | Jan | Mar | Mai | Jul | Sep | Nov |
|---|---|---|---|---|---|---|
| KPI | 124 | 125 | 126 | 127 | 128 | 129 |
Beregn residualene.
Hva slags mønster ser du?
Hva tyder dette på?
Drøftingsoppgave: Hvorfor er det viktig å presentere både og residualplott i en samfunnsøkonomisk prosjektrapport, og ikke bare velge tallet som ser best ut?
Residualplott avslører hva ikke kan se: systematiske mønstre, ujevn spredning og uteliggere.
Tre viktige spørsmål:
1. Er residualene tilfeldig spredt rundt null?
2. Er spredningen jevn for alle -verdier?
3. Finnes det enkeltobservasjoner med uvanlig store residualer?
Et «ja, ja, nei» til disse spørsmålene betyr en god modell. Et «nei» på første eller andre spørsmål er signal om at en annen modelltype bør prøves.
I samfunnsøkonomiske rapporter skal alltid både og residualplott legges fram. Det er en del av faglig integritet.