• Lærebøker
  • Python
  • GeoGebra
  • Hoderegning
  • Test deg selv

Søk i Skolesaga

Søk etter lærebøker, kapitler, trinn og verktøy

Gratis interaktive lærebøker for norsk skole.

Lærebok
PersonvernVilkår

© 2025 Skolesaga · Alle rettigheter forbeholdt

Deler av innholdet er utviklet med hjelp av AI-verktøy

Matematikk S2Tilbake
6.1 Lineær regresjon
Lineær regresjon

6.1 Lineær regresjon

Alle fag for VG3

Minste kvadraters metode og regresjonsanalyse.

55 min
16 oppgaver
Lineær regresjonMinste kvadratRegresjonslinjePrediksjon
Din fremgang i kapitlet
0 / 16 oppgaver
Kapitlets plass i kurset
Brukes videre i
6.2Korrelasjon6.4Residualanalyse og modellvalidering6.5Multippel regresjon

Hva er lineær regresjon?

Lineær regresjon er en statistisk metode for å finne den rette linjen som best beskriver sammenhengen mellom to variabler.

Forklaringsvariabel xxx (uavhengig variabel): den vi bruker til å forklare eller predikere.
Responsvariabel yyy (avhengig variabel): den vi ønsker å forklare eller predikere.

Når vi har nnn observasjonspar (x1,y1),(x2,y2),…,(xn,yn)(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)(x1​,y1​),(x2​,y2​),…,(xn​,yn​), ønsker vi å finne den rette linjen:
y^=ax+b\hat{y} = ax + by^​=ax+b

som passer best til dataene. Her er y^\hat{y}y^​ den predikerte verdien av yyy for en gitt xxx.

Minste kvadraters metode (MKM)
Minste kvadraters metode finner koeffisientene aaa og bbb som minimerer summen av kvadrerte avvik mellom observerte og predikerte verdier:

SSE=∑i=1n(yi−y^i)2=∑i=1n(yi−axi−b)2\text{SSE} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - ax_i - b)^2SSE=i=1∑n​(yi​−y^​i​)2=i=1∑n​(yi​−axi​−b)2

SSE = Sum of Squared Errors (sum av kvadratavvik).

Metoden sikrer at den totale «avstanden» mellom datapunktene og linjen er så liten som mulig.

📜Regresjonskoeffisienter
Stigningstallet (helningen) og konstantleddet i regresjonslinjen y^=ax+b\hat{y} = ax + by^​=ax+b er:

a=n∑xiyi−∑xi∑yin∑xi2−(∑xi)2=SxySxxa = \frac{n\sum x_i y_i - \sum x_i \sum y_i}{n\sum x_i^2 - (\sum x_i)^2} = \frac{S_{xy}}{S_{xx}}a=n∑xi2​−(∑xi​)2n∑xi​yi​−∑xi​∑yi​​=Sxx​Sxy​​

b=yˉ−axˉb = \bar{y} - a\bar{x}b=yˉ​−axˉ

der:
- Sxy=∑(xi−xˉ)(yi−yˉ)S_{xy} = \sum(x_i - \bar{x})(y_i - \bar{y})Sxy​=∑(xi​−xˉ)(yi​−yˉ​)
- Sxx=∑(xi−xˉ)2S_{xx} = \sum(x_i - \bar{x})^2Sxx​=∑(xi​−xˉ)2
- xˉ\bar{x}xˉ og yˉ\bar{y}yˉ​ er gjennomsnittene

Regresjonslinjen går alltid gjennom punktet (xˉ,yˉ)(\bar{x}, \bar{y})(xˉ,yˉ​).

✏️Beregne regresjonslinje

En bedrift måler sammenhengen mellom annonsering (xxx, i tusen kroner) og salg (yyy, i tusen enheter):

xxx12345
yyy35689

Finn regresjonslinjen y^=ax+b\hat{y} = ax + by^​=ax+b.

Beregn hjelpestørrelser:
n=5n = 5n=5, xˉ=3\bar{x} = 3xˉ=3, yˉ=6,2\bar{y} = 6{,}2yˉ​=6,2

∑xiyi=1⋅3+2⋅5+3⋅6+4⋅8+5⋅9=3+10+18+32+45=108\sum x_i y_i = 1 \cdot 3 + 2 \cdot 5 + 3 \cdot 6 + 4 \cdot 8 + 5 \cdot 9 = 3 + 10 + 18 + 32 + 45 = 108∑xi​yi​=1⋅3+2⋅5+3⋅6+4⋅8+5⋅9=3+10+18+32+45=108

∑xi=15\sum x_i = 15∑xi​=15, ∑yi=31\sum y_i = 31∑yi​=31, ∑xi2=1+4+9+16+25=55\sum x_i^2 = 1 + 4 + 9 + 16 + 25 = 55∑xi2​=1+4+9+16+25=55

Stigningstall:
a=5⋅108−15⋅315⋅55−152=540−465275−225=7550=1,5a = \frac{5 \cdot 108 - 15 \cdot 31}{5 \cdot 55 - 15^2} = \frac{540 - 465}{275 - 225} = \frac{75}{50} = 1{,}5a=5⋅55−1525⋅108−15⋅31​=275−225540−465​=5075​=1,5

Konstantledd:
b=6,2−1,5⋅3=6,2−4,5=1,7b = 6{,}2 - 1{,}5 \cdot 3 = 6{,}2 - 4{,}5 = 1{,}7b=6,2−1,5⋅3=6,2−4,5=1,7

Regresjonslinje: y^=1,5x+1,7\hat{y} = 1{,}5x + 1{,}7y^​=1,5x+1,7

Tolkning: For hver ekstra tusen kroner i annonsering øker salget med ca. 1500 enheter.

Residualer

Et residual er forskjellen mellom observert og predikert verdi:
ei=yi−y^ie_i = y_i - \hat{y}_iei​=yi​−y^​i​

Residualene forteller oss hvor godt modellen passer til hvert datapunkt.

Residualplott er et diagram der residualene eie_iei​ plottes mot xix_ixi​ (eller y^i\hat{y}_iy^​i​). Et godt residualplott viser:
- Ingen systematisk mønster (tilfeldig spredning rundt null)
- Omtrent lik spredning over hele xxx-området

Problematiske mønstre:
- Krumning: Lineær modell passer ikke, prøv ikke-lineær regresjon
- Vifte: Økende variasjon, forutsetningen om konstant varians er brutt
- Klynger: Mulig gruppering i dataene

✏️Beregne residualer

Med regresjonslinjen y^=1,5x+1,7\hat{y} = 1{,}5x + 1{,}7y^​=1,5x+1,7 fra forrige eksempel, beregn residualene for alle datapunktene.

xix_ixi​yiy_iyi​y^i=1,5xi+1,7\hat{y}_i = 1{,}5x_i + 1{,}7y^​i​=1,5xi​+1,7ei=yi−y^ie_i = y_i - \hat{y}_iei​=yi​−y^​i​
133,2−0,2-0{,}2−0,2
254,70,30{,}30,3
366,2−0,2-0{,}2−0,2
487,70,30{,}30,3
599,2−0,2-0{,}2−0,2

Kontroll: ∑ei=−0,2+0,3−0,2+0,3−0,2=0\sum e_i = -0{,}2 + 0{,}3 - 0{,}2 + 0{,}3 - 0{,}2 = 0∑ei​=−0,2+0,3−0,2+0,3−0,2=0 ✓
Residualene er små og veksler i fortegn, noe som tyder på en god tilpasning.
Forklaringsgraden $R^2$
Forklaringsgraden R2R^2R2 (R-kvadrat) måler hvor stor andel av variasjonen i yyy som forklares av modellen:

R2=1−SSESST=1−∑(yi−y^i)2∑(yi−yˉ)2R^2 = 1 - \frac{\text{SSE}}{\text{SST}} = 1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2}R2=1−SSTSSE​=1−∑(yi​−yˉ​)2∑(yi​−y^​i​)2​

der:
- SSE=∑(yi−y^i)2\text{SSE} = \sum(y_i - \hat{y}_i)^2SSE=∑(yi​−y^​i​)2 er uforklart variasjon
- SST=∑(yi−yˉ)2\text{SST} = \sum(y_i - \bar{y})^2SST=∑(yi​−yˉ​)2 er total variasjon

Tolkning:
- R2=0R^2 = 0R2=0: Modellen forklarer ingenting
- R2=1R^2 = 1R2=1: Modellen forklarer alt (perfekt tilpasning)
- R2=0,85R^2 = 0{,}85R2=0,85: 85 % av variasjonen i yyy forklares av xxx

For enkel lineær regresjon: R2=r2R^2 = r^2R2=r2 (kvadratet av korrelasjonskoeffisienten).

✏️Beregne $R^2$

Beregn R2R^2R2 for eksempelet med annonsering og salg.

SSE (uforklart variasjon):
SSE=(−0,2)2+0,32+(−0,2)2+0,32+(−0,2)2=0,04+0,09+0,04+0,09+0,04=0,30\text{SSE} = (-0{,}2)^2 + 0{,}3^2 + (-0{,}2)^2 + 0{,}3^2 + (-0{,}2)^2 = 0{,}04 + 0{,}09 + 0{,}04 + 0{,}09 + 0{,}04 = 0{,}30SSE=(−0,2)2+0,32+(−0,2)2+0,32+(−0,2)2=0,04+0,09+0,04+0,09+0,04=0,30

SST (total variasjon): yˉ=6,2\bar{y} = 6{,}2yˉ​=6,2
SST=(3−6,2)2+(5−6,2)2+(6−6,2)2+(8−6,2)2+(9−6,2)2\text{SST} = (3-6{,}2)^2 + (5-6{,}2)^2 + (6-6{,}2)^2 + (8-6{,}2)^2 + (9-6{,}2)^2SST=(3−6,2)2+(5−6,2)2+(6−6,2)2+(8−6,2)2+(9−6,2)2
=10,24+1,44+0,04+3,24+7,84=22,80= 10{,}24 + 1{,}44 + 0{,}04 + 3{,}24 + 7{,}84 = 22{,}80=10,24+1,44+0,04+3,24+7,84=22,80

Forklaringsgrad:
R2=1−0,3022,80=1−0,0132=0,987R^2 = 1 - \frac{0{,}30}{22{,}80} = 1 - 0{,}0132 = 0{,}987R2=1−22,800,30​=1−0,0132=0,987

Hele 98,7 % av variasjonen i salg forklares av annonsering. Svært god tilpasning!

Prediksjon og ekstrapolering

Prediksjon betyr å bruke regresjonsmodellen til å anslå yyy for en gitt xxx-verdi.

Interpolering: Prediksjon for xxx-verdier innenfor området til observerte data. Vanligvis pålitelig.

Ekstrapolering: Prediksjon for xxx-verdier utenfor det observerte området. Kan være svært upålitelig fordi vi ikke vet om det lineære mønsteret fortsetter.

Eksempel: Hvis vi har data for annonsering mellom 1 og 5 tusen kroner, er det rimelig å predikere salg for x=3,5x = 3{,}5x=3,5 (interpolering), men risikabelt for x=20x = 20x=20 (ekstrapolering). Ved x=20x = 20x=20 ville modellen gi y^=1,5⋅20+1,7=31,7\hat{y} = 1{,}5 \cdot 20 + 1{,}7 = 31{,}7y^​=1,5⋅20+1,7=31,7, men i virkeligheten kan det finnes en metningseffekt.

📝Oppgave 1

Løs oppgavene:

a

Hva betyr aaa og bbb i regresjonslinjen y^=ax+b\hat{y} = ax + by^​=ax+b?

b

Regresjonslinjen er y^=2,3x+5\hat{y} = 2{,}3x + 5y^​=2,3x+5. Hva er predikert yyy for x=4x = 4x=4?

📝Oppgave 2

Løs oppgavene:

a

Hva er et residual, og hva betyr det at residualet er positivt?

b

Hva er alltid ∑ei\sum e_i∑ei​ for en regresjonslinje funnet med MKM?

📝Oppgave 3

Løs oppgavene:

a

Hva forteller R2=0,72R^2 = 0{,}72R2=0,72 oss?

b

Hva er forskjellen mellom interpolering og ekstrapolering?

📝Oppgave 4

Løs oppgavene:

a

Gitt xˉ=5\bar{x} = 5xˉ=5, yˉ=12\bar{y} = 12yˉ​=12, a=1,8a = 1{,}8a=1,8. Finn bbb.

📝Oppgave 5

Løs oppgavene:

a

Data: (1,2)(1, 2)(1,2), (2,4)(2, 4)(2,4), (3,5)(3, 5)(3,5), (4,7)(4, 7)(4,7). Finn regresjonslinjen.

📝Oppgave 6

Løs oppgavene:

a

Bruk regresjonslinjen fra oppgave 5 til å beregne residualene for alle fire datapunkter.

📝Oppgave 7

Løs oppgavene:

a

Beregn R2R^2R2 for modellen fra oppgave 5.

📝Oppgave 8

Løs oppgavene:

a

Studietid (xxx, timer) og testresultat (yyy, poeng): (2,50)(2, 50)(2,50), (3,60)(3, 60)(3,60), (5,75)(5, 75)(5,75), (6,80)(6, 80)(6,80), (8,90)(8, 90)(8,90). Finn regresjonslinjen og tolk stigningstallet.

📝Oppgave 9

Løs oppgavene:

a

Bruk regresjonsmodellen y^=6,62x+39,2\hat{y} = 6{,}62x + 39{,}2y^​=6,62x+39,2 til å predikere poengsummen for en elev som studerer 7 timer. Er dette interpolering eller ekstrapolering?

📝Oppgave 10

Løs oppgavene:

a

Forklar hva det betyr dersom residualplottet viser et buet mønster.

📝Oppgave 11

Løs oppgavene:

a

Vis at regresjonslinjen alltid går gjennom punktet (xˉ,yˉ)(\bar{x}, \bar{y})(xˉ,yˉ​).

📝Oppgave 12

Løs oppgavene:

a

Alder (xxx, år) og blodtrykk (yyy, mmHg): (25,118)(25, 118)(25,118), (30,120)(30, 120)(30,120), (40,128)(40, 128)(40,128), (50,135)(50, 135)(50,135), (60,142)(60, 142)(60,142), (65,148)(65, 148)(65,148). Finn regresjonslinjen, beregn R2R^2R2, og prediker blodtrykket for en 45-åring.

📝Oppgave 13

Løs oppgavene:

a

I oppgave 12 fikk vi en modell for blodtrykk. Ville du brukt modellen til å predikere blodtrykket for en 5-åring? For en 90-åring? Begrunn svaret.

📝Oppgave 14

Løs oppgavene:

a

Vis at SST = SSR + SSE, der SSR =∑(y^i−yˉ)2= \sum(\hat{y}_i - \bar{y})^2=∑(y^​i​−yˉ​)2 er variasjonen forklart av modellen. Forklar hva dette betyr.

📝Oppgave 15

Løs oppgavene:

a

Temperatur (xxx, °C) og iskremsalg (yyy, enheter): (15,200)(15, 200)(15,200), (20,350)(20, 350)(20,350), (22,400)(22, 400)(22,400), (25,500)(25, 500)(25,500), (28,620)(28, 620)(28,620), (30,700)(30, 700)(30,700). Finn regresjonslinjen og gi et 95 % prediksjonsintervall for salg ved 24°C (du kan anta at R2R^2R2 er svært høy).

📝Oppgave 16

Løs oppgavene:

a

Forklar hvorfor R2R^2R2 alene ikke er tilstrekkelig for å vurdere en regresjonsmodell. Hvilke andre verktøy bør brukes?