
Minste kvadraters metode og regresjonsanalyse.
Lineær regresjon er en statistisk metode for å finne den rette linjen som best beskriver sammenhengen mellom to variabler.
Forklaringsvariabel (uavhengig variabel): den vi bruker til å forklare eller predikere.
Responsvariabel (avhengig variabel): den vi ønsker å forklare eller predikere.
Når vi har observasjonspar , ønsker vi å finne den rette linjen:
som passer best til dataene. Her er den predikerte verdien av for en gitt .
SSE = Sum of Squared Errors (sum av kvadratavvik).
Metoden sikrer at den totale «avstanden» mellom datapunktene og linjen er så liten som mulig.
der:
-
-
- og er gjennomsnittene
Regresjonslinjen går alltid gjennom punktet .
En bedrift måler sammenhengen mellom annonsering (, i tusen kroner) og salg (, i tusen enheter):
| 1 | 2 | 3 | 4 | 5 | |
|---|---|---|---|---|---|
| 3 | 5 | 6 | 8 | 9 |
, ,
Stigningstall:
Konstantledd:
Regresjonslinje:
Tolkning: For hver ekstra tusen kroner i annonsering øker salget med ca. 1500 enheter.
Et residual er forskjellen mellom observert og predikert verdi:
Residualene forteller oss hvor godt modellen passer til hvert datapunkt.
Residualplott er et diagram der residualene plottes mot (eller ). Et godt residualplott viser:
- Ingen systematisk mønster (tilfeldig spredning rundt null)
- Omtrent lik spredning over hele -området
Problematiske mønstre:
- Krumning: Lineær modell passer ikke, prøv ikke-lineær regresjon
- Vifte: Økende variasjon, forutsetningen om konstant varians er brutt
- Klynger: Mulig gruppering i dataene
Med regresjonslinjen fra forrige eksempel, beregn residualene for alle datapunktene.
| 1 | 3 | 3,2 | |
| 2 | 5 | 4,7 | |
| 3 | 6 | 6,2 | |
| 4 | 8 | 7,7 | |
| 5 | 9 | 9,2 |
der:
- er uforklart variasjon
- er total variasjon
Tolkning:
- : Modellen forklarer ingenting
- : Modellen forklarer alt (perfekt tilpasning)
- : 85 % av variasjonen i forklares av
For enkel lineær regresjon: (kvadratet av korrelasjonskoeffisienten).
Beregn for eksempelet med annonsering og salg.
SST (total variasjon):
Forklaringsgrad:
Hele 98,7 % av variasjonen i salg forklares av annonsering. Svært god tilpasning!
Prediksjon betyr å bruke regresjonsmodellen til å anslå for en gitt -verdi.
Interpolering: Prediksjon for -verdier innenfor området til observerte data. Vanligvis pålitelig.
Ekstrapolering: Prediksjon for -verdier utenfor det observerte området. Kan være svært upålitelig fordi vi ikke vet om det lineære mønsteret fortsetter.
Eksempel: Hvis vi har data for annonsering mellom 1 og 5 tusen kroner, er det rimelig å predikere salg for (interpolering), men risikabelt for (ekstrapolering). Ved ville modellen gi , men i virkeligheten kan det finnes en metningseffekt.
Løs oppgavene:
Hva betyr og i regresjonslinjen ?
Regresjonslinjen er . Hva er predikert for ?
Løs oppgavene:
Hva er et residual, og hva betyr det at residualet er positivt?
Hva er alltid for en regresjonslinje funnet med MKM?
Løs oppgavene:
Hva forteller oss?
Hva er forskjellen mellom interpolering og ekstrapolering?
Løs oppgavene:
Gitt , , . Finn .
Løs oppgavene:
Data: , , , . Finn regresjonslinjen.
Løs oppgavene:
Bruk regresjonslinjen fra oppgave 5 til å beregne residualene for alle fire datapunkter.
Løs oppgavene:
Beregn for modellen fra oppgave 5.
Løs oppgavene:
Studietid (, timer) og testresultat (, poeng): , , , , . Finn regresjonslinjen og tolk stigningstallet.
Løs oppgavene:
Bruk regresjonsmodellen til å predikere poengsummen for en elev som studerer 7 timer. Er dette interpolering eller ekstrapolering?
Løs oppgavene:
Forklar hva det betyr dersom residualplottet viser et buet mønster.
Løs oppgavene:
Vis at regresjonslinjen alltid går gjennom punktet .
Løs oppgavene:
Alder (, år) og blodtrykk (, mmHg): , , , , , . Finn regresjonslinjen, beregn , og prediker blodtrykket for en 45-åring.
Løs oppgavene:
I oppgave 12 fikk vi en modell for blodtrykk. Ville du brukt modellen til å predikere blodtrykket for en 5-åring? For en 90-åring? Begrunn svaret.
Løs oppgavene:
Vis at SST = SSR + SSE, der SSR er variasjonen forklart av modellen. Forklar hva dette betyr.
Løs oppgavene:
Temperatur (, °C) og iskremsalg (, enheter): , , , , , . Finn regresjonslinjen og gi et 95 % prediksjonsintervall for salg ved 24°C (du kan anta at er svært høy).
Løs oppgavene:
Forklar hvorfor alene ikke er tilstrekkelig for å vurdere en regresjonsmodell. Hvilke andre verktøy bør brukes?