• Lærebøker
  • Python
  • GeoGebra
  • Hoderegning
  • Test deg selv

Søk i Skolesaga

Søk etter lærebøker, kapitler, trinn og verktøy

Gratis interaktive lærebøker for norsk skole.

Lærebok
PersonvernVilkår

© 2025 Skolesaga · Alle rettigheter forbeholdt

Deler av innholdet er utviklet med hjelp av AI-verktøy

Matematikk S1Tilbake
7.4 Residualanalyse
Residualanalyse

7.4 Residualanalyse

Alle fag for VG2

Bruk residualer og residualplott til å vurdere modellkvalitet og avgjøre når en annen modelltype bør prøves.

50 min
12 oppgaver
ResidualResidualplottModellvurderingUteliggere
Din fremgang i kapitlet
0 / 12 oppgaver
Kapitlets plass i kurset
Bygger på
7.1Lineær regresjon

Hvorfor er ikke R2R^2R2 alene nok?

I 7.1 brukte vi R2R^2R2 til å si hvor godt regresjonslinjen passer. En høy R2R^2R2 ser fin ut, men forteller ikke hele historien. To datasett kan ha samme R2R^2R2, men det ene kan likevel være håpløst dårlig modellert.

For å være sikker på at modellen er god, må vi se på residualene — avvikene mellom det vi observerte og det modellen sier.

Residual
For en regresjonsmodell y^=ax+b\hat{y} = ax + by^​=ax+b er residualet for observasjon iii:

ei=yi−y^ie_i = y_i - \hat{y}_iei​=yi​−y^​i​

- ei>0e_i > 0ei​>0: punktet ligger over modellen (modellen undervurderer)
- ei<0e_i < 0ei​<0: punktet ligger under modellen (modellen overvurderer)
- ei=0e_i = 0ei​=0: punktet ligger nøyaktig på modellen

For regresjonslinjen er alltid ∑ei=0\sum e_i = 0∑ei​=0 — overskudd og underskudd kansellerer hverandre.

En god regresjonsmodell har residualer som

- ligger tilfeldig spredt rundt null,
- har omtrent samme spredning for små og store xxx-verdier,
- ikke viser noe systematisk mønster (ingen kurvatur, ingen trakt, ingen bølge).

Hvis residualene viser et mønster, betyr det at modellen ikke har fanget opp alt som ligger i dataene. Da bør vi prøve en annen modelltype.

Residualplott

Et residualplott er et diagram der vi tegner residualet eie_iei​ langs den vertikale aksen, og enten xix_ixi​ eller y^i\hat{y}_iy^​i​ langs den horisontale aksen.

Vi tegner også en horisontal linje gjennom e=0e = 0e=0 for å se avstandene tydeligere.

1. Tilfeldig sky rundt null — modellen passer godt. Ingen handling nødvendig.

2. U-form eller bue — den lineære modellen mangler kurvatur. Prøv andregrads-, eksponentiell eller potensmodell.

3. Trakt (vifteform) — spredningen er ujevn. Lavere x-verdier gir små residualer, høyere x-verdier gir store. Vurder om yyy bør transformeres (ln⁡y\ln ylny) eller om modelltypen er feil.

4. Et fåtall punkter med svært store residualer — uteliggere. Sjekk om det er målefeil i datasettet, eller om punktet er en reell avvikende observasjon.

✏️Eksempel 1: Beregne residualer

For datasettet (1,9),(2,11),(3,14),(4,16),(5,21),(6,24)(1, 9), (2, 11), (3, 14), (4, 16), (5, 21), (6, 24)(1,9),(2,11),(3,14),(4,16),(5,21),(6,24) er regresjonslinjen y^=3x+5,5\hat{y} = 3x + 5{,}5y^​=3x+5,5.

Beregn residualene og vurder om en lineær modell passer.

Tabell over y^i\hat{y}_iy^​i​ og eie_iei​:

xix_ixi​yiy_iyi​y^i\hat{y}_iy^​i​eie_iei​
198{,}50{,}5
21111{,}5−0,5-0{,}5−0,5
31414{,}5−0,5-0{,}5−0,5
41617{,}5−1,5-1{,}5−1,5
52120{,}50{,}5
62423{,}50{,}5

Residualene er små og bytter fortegn (+,−,−,−,+,++, -, -, -, +, ++,−,−,−,+,+). Det er ikke et tydelig systematisk mønster, og ∑ei=0\sum e_i = 0∑ei​=0 som forventet. Lineær modell passer godt.
✏️Eksempel 2: Når residualene avslører at modellen er feil

En forsker tilpasser en lineær modell y^=4x+2\hat{y} = 4x + 2y^​=4x+2 til datasettet:

xxx123456
yyy5712182738

Beregn residualene og vurder modellen.

Tabell:

xxxyyyy^\hat{y}y^​e=y−y^e = y - \hat{y}e=y−y^​
156−1-1−1
2710−3-3−3
31214−2-2−2
418180
527225
6382612

Residualene har et systematisk mønster: store negative for små xxx, store positive for store xxx. Plottet ville vist en tydelig U-/bue-form.
R2R^2R2 kan likevel være ganske høy (≈0,9\approx 0{,}9≈0,9) fordi den lineære trenden fanger noe. Men residualene avslører at en andregrads- eller eksponentiell modell ville passe bedre.
Konklusjon: Den lineære modellen forkastes til fordel for ikke-lineær.
R2R^2R2 gir ett enkelt tall — en oppsummering. Residualplott gir en bilde av hva som faktisk skjer punkt for punkt.

Bruk alltid begge:

- Høy R2R^2R2 + tilfeldig residualplott ⇒\Rightarrow⇒ god modell.
- Høy R2R^2R2 + systematisk mønster ⇒\Rightarrow⇒ misvisende. Modellen er ikke riktig type.
- Lav R2R^2R2 + tilfeldig residualplott ⇒\Rightarrow⇒ riktig modelltype, men dataene har mye støy.
- Lav R2R^2R2 + systematisk mønster ⇒\Rightarrow⇒ feil modelltype og mye støy. Start på nytt.

✏️Eksempel 3: Uteligger i et datasett

Et datasett over månedlig strømforbruk og utetemperatur gir én observasjon med residual på −15,0-15{,}0−15,0 kWh, mens alle andre residualer ligger mellom −2-2−2 og +2+2+2 kWh.

Hvordan bør dette håndteres?

Residualet er svært stort sammenliknet med de andre — observasjonen er en uteligger.

Praktisk håndtering:

1. Sjekk dataene. Er det en målefeil eller skrivefeil? Var det en spesiell måned (ferie, strømstans, ny måler)?
2. Hvis målefeil: rett opp eller fjern observasjonen, og kjør regresjonen på nytt.
3. Hvis reell, men spesiell hendelse: dokumenter den, men vurder å holde den utenfor modellen — og forklar valget i rapporten.
4. Hvis du ikke vet: rapporter resultater både med og uten uteliggeren slik at leseren ser effekten.

Uteliggere må aldri fjernes bare fordi de er ubehagelige. Begrunn alltid valget.

GeoGebra har innebygd støtte for residualer:

1. Skriv inn punktene som en liste, f.eks. data = {(1,9),(2,11),(3,14),(4,16),(5,21),(6,24)}.
2. Lag regresjonslinjen: f = FitLine(data).
3. Beregn residualene: Residualer = Sequence(y(Element(data, k)) - f(x(Element(data, k))), k, 1, Length(data)).
4. Lag residualpunkter: Sequence((x(Element(data, k)), Element(Residualer, k)), k, 1, Length(data)).
5. Tegn e=0e = 0e=0-linjen som referanse.

I Excel: legg til en kolonne =B2-(SLOPEA2+INTERCEPT) og lag spredningsplott av residualene mot xxx.

I Python: residuals = y - (ax + b) og plt.scatter(x, residuals).

📝Oppgave 1

For datasettet (1,4),(2,6),(3,9),(4,11),(5,14)(1, 4), (2, 6), (3, 9), (4, 11), (5, 14)(1,4),(2,6),(3,9),(4,11),(5,14) er regresjonslinjen y^=2,5x+1,3\hat{y} = 2{,}5x + 1{,}3y^​=2,5x+1,3.

a

Beregn residualene for alle fem punkter.

b

Verifiser at ∑ei≈0\sum e_i \approx 0∑ei​≈0.

c

Vurder om modellen passer.

📝Oppgave 2

En lineær modell y^=0,8x+50\hat{y} = 0{,}8x + 50y^​=0,8x+50 er tilpasset til kroppshøyde og skostørrelse. For en person med x=175x = 175x=175 cm er y=42y = 42y=42.

a

Hva er y^\hat{y}y^​?

b

Hva er residualet?

c

Hva forteller det enorme residualet oss?

Løs oppgavenTren
📝Oppgave 3

Et residualplott viser at residualene er små for xxx-verdier mellom 0 og 10, men øker jevnt med xxx helt opp til ∣e∣≈30|e| \approx 30∣e∣≈30 ved x=50x = 50x=50. Hva forteller dette?

📝Oppgave 4

To modeller for samme datasett gir:

- Modell A: lineær, R2=0,94R^2 = 0{,}94R2=0,94, residualplott viser tydelig U-form.
- Modell B: andregrad, R2=0,91R^2 = 0{,}91R2=0,91, residualplott er tilfeldig spredt.

Hvilken modell bør foretrekkes?

📝Oppgave 5

Tabellen viser SSB-data for prisindeks for nye eneboliger (2015 = 100):

År20152017201920212023
Indeks100110117132138

En lineær regresjonslinje (med t=t =t= år etter 2015) er y^=4,9t+100,2\hat{y} = 4{,}9t + 100{,}2y^​=4,9t+100,2.

a

Beregn residualene.

b

Er det noe systematisk mønster?

c

Hva slags reelle hendelser i 2020–2021 kunne forklart avviket?

📝Oppgave 6

En gruppe elever har samlet inn data om antall kunder per dag og inntekter. Regresjonsmodellen y^=250x+1200\hat{y} = 250x + 1200y^​=250x+1200 gir R2=0,88R^2 = 0{,}88R2=0,88. Når de tegner residualplottet ser de et tydelig U-formet mønster.

Hva skal de gjøre, og hvordan kan de begrunne det i prosjektrapporten?

📝Oppgave 7
For en regresjonsmodell på et datasett med n=8n = 8n=8 punkter er residualene:

−0,3, 0,1, −0,2, 0,4, −0,1, 0,3, −0,5, 0,3-0{,}3,\ 0{,}1,\ -0{,}2,\ 0{,}4,\ -0{,}1,\ 0{,}3,\ -0{,}5,\ 0{,}3−0,3, 0,1, −0,2, 0,4, −0,1, 0,3, −0,5, 0,3

a

Beregn ∑ei\sum e_i∑ei​ og kontroller at modellen er tilpasset korrekt.

b

Beregn SSres=∑ei2\text{SS}_{\text{res}} = \sum e_i^2SSres​=∑ei2​.

c

Hvis SStot=8,2\text{SS}_{\text{tot}} = 8{,}2SStot​=8,2, finn R2R^2R2.

Løs oppgavenTren
📝Oppgave 8

En elev har tilpasset en eksponentiell modell y^=50⋅1,05x\hat{y} = 50 \cdot 1{,}05^xy^​=50⋅1,05x til årlig BNP-vekst. Residualplottet viser en lett bølgeform rundt nullinjen.

Kan modellen brukes til prediksjon? Drøft.

📝Oppgave 9

Du har gjennomført regresjon på et reelt datasett om arbeidsledighet i Norge fra SSB. R2=0,97R^2 = 0{,}97R2=0,97 for både en lineær og en eksponentiell modell. Hvordan velger du mellom dem?

📝Oppgave 10

En klassekamerat påstår: «Hvis R2>0,9R^2 > 0{,}9R2>0,9, er modellen alltid god nok til å bruke i en samfunnsøkonomisk rapport.» Vurder denne påstanden.

📝Oppgave 11

Tabellen viser månedlig konsumprisindeks (KPI, 2015 = 100) i Norge:

MånedJanMarMaiJulSepNov
KPI124125126127128129

En elev tilpasser y^=1,0t+124\hat{y} = 1{,}0t + 124y^​=1,0t+124 med ttt som månedsnummer (Jan = 0, Mar = 2, Mai = 4 osv.).

a

Beregn residualene.

b

Hva slags mønster ser du?

c

Hva tyder dette på?

📝Oppgave 12

Drøftingsoppgave: Hvorfor er det viktig å presentere både R2R^2R2 og residualplott i en samfunnsøkonomisk prosjektrapport, og ikke bare velge tallet som ser best ut?

Residualet ei=yi−y^ie_i = y_i - \hat{y}_iei​=yi​−y^​i​ måler avviket fra modellen til hvert datapunkt.

Residualplott avslører hva R2R^2R2 ikke kan se: systematiske mønstre, ujevn spredning og uteliggere.

Tre viktige spørsmål:

1. Er residualene tilfeldig spredt rundt null?
2. Er spredningen jevn for alle xxx-verdier?
3. Finnes det enkeltobservasjoner med uvanlig store residualer?

Et «ja, ja, nei» til disse spørsmålene betyr en god modell. Et «nei» på første eller andre spørsmål er signal om at en annen modelltype bør prøves.

I samfunnsøkonomiske rapporter skal alltid både R2R^2R2 og residualplott legges fram. Det er en del av faglig integritet.