En fortelling om å trekke den beste rette linjen gjennom en sky av punkter -- og bruke r-verdien til å vurdere hvor godt linjen passer.
Lydfil som leser opp teksten frem til første quiz.
I forrige kapittel satte vi opp modeller basert på kunnskap om situasjonen – vi visste at en taxi hadde fast startpris pluss en kilometerpris, og vi satte opp funksjonen direkte. Men i mange tilfeller starter vi fra den andre enden: vi har et knippe datapunkter, og vi leter etter en funksjon som passer.
Tenk deg at du driver en iskremkiosk og har notert daglig temperatur og antall solgte is i en uke. Du plotter punktene i et koordinatsystem – et spredningsdiagram – og ser at de danner et mønster som stiger fra venstre til høyre. Det ser ut som det kunne vært en rett linje der. Men hvilken linje? Det finnes uendelig mange rette linjer du kan tegne gjennom en sky av punkter. Vi trenger en metode for å finne den beste.
Det er akkurat det lineær regresjon gir oss: en systematisk metode for å finne den rette linjen som passer best til et sett med datapunkter. I dette kapittelet skal vi lære hvordan metoden fungerer, hva den forteller oss, og – like viktig – hva den ikke forteller oss.
Hva mener vi egentlig med «den beste» linjen? Svaret ligger i minste kvadraters metode. Ideen er elegant: for hvert datapunkt beregner vi den vertikale avstanden mellom punktet og linjen. Denne avstanden kalles et residual: .
Noen residualer er positive (punktet ligger over linjen) og noen er negative (punktet ligger under). Hvis vi bare summerte dem, ville positive og negative avvik oppheve hverandre, og vi ville ikke fått et godt mål. Derfor kvadrerer vi hvert residual og summerer: . Den linjen som gir den minste summen av kvadrerte avvik er regresjonslinjen.
Kvadreringen har enda en fordel: store avvik straffes ekstra hardt. Et punkt som ligger 4 enheter fra linjen bidrar med til summen, mens et punkt som ligger 2 enheter fra linjen bare bidrar med . Dermed «prøver» linjen ekstra hardt å unngå store bom.
Du trenger ikke gjøre beregningene for hånd – GeoGebra gjør det med kommandoen RegLin(liste). Men det er viktig å forstå prinsippet: regresjonslinjen er den linjen som minimerer summen av de kvadrerte vertikale avstandene. Etter at du har funnet linjen, bør du se på residualene. Dersom de er jevnt spredt rundt null uten noe systematisk mønster, passer den lineære modellen godt. Viser de derimot et buet mønster, trenger du kanskje en annen funksjonstype.
Hva er et residual i regresjon?
Lydfil som leser opp teksten frem til neste quiz.
La oss se dette i praksis. Iskremkiosken vår har registrert følgende data gjennom en uke: ved 15 grader solgte de 48 is, ved 18 grader 56 is, ved 21 grader 70 is, ved 24 grader 82 is, ved 27 grader 95 is, ved 30 grader 112 is, og ved 33 grader 120 is.
I GeoGebra skriver vi datapunktene som en liste og bruker RegLin-kommandoen. Resultatet blir omtrent . Nå kan vi tolke dette.
Stigningstallet forteller oss at for hver grad temperaturen øker, selges det i gjennomsnitt 4,1 flere is. Det er den praktiske betydningen av stigningstallet – det er endringsraten.
Konstantleddet er mer problematisk. Matematisk sier det at ved 0 grader ville modellen forutsi is. Men du kan ikke selge minus femten is! Det betyr ikke at modellen er dårlig – det betyr bare at den ikke er ment for så lave temperaturer. Modellen passer best i intervallet der vi faktisk har data, altså fra 15 til 33 grader.
Skal vi anslå issalget ved 25 grader? Det er interpolering (25 ligger mellom 24 og 27), og vi får , altså omtrent 87 is. Et rimelig anslag. Hva med 40 grader? Da ekstrapolerer vi (40 er utenfor dataområdet), og anslaget blir mer usikkert.
Regresjonslinjen for issalg er . Hva betyr stigningstallet 4,1?
Lydfil som leser opp teksten frem til neste quiz.
Vi har funnet regresjonslinjen, men hvor godt passer den egentlig? Her kommer korrelasjonskoeffisienten inn i bildet. Den er et tall mellom og som måler styrken og retningen på den lineære sammenhengen.
Dersom ligger alle punktene nøyaktig på en linje med positiv stigning – perfekt positiv korrelasjon. Dersom ligger de nøyaktig på en linje med negativ stigning – perfekt negativ korrelasjon. Og dersom er det ingen lineær sammenheng overhodet – punktene er tilfeldig spredt.
I praksis er vi sjelden så heldige at er nøyaktig eller . Som tommelregel regner vi som sterk korrelasjon, som moderat, og som svak.
La oss ta et eksempel. Åtte elever rapporterte antall timer brukt på lekser per uke og poengsummen på en prøve. I GeoGebra finner vi regresjonslinjen og . Verdien er svært nær 1, altså en sterk positiv korrelasjon – mer leksetid henger sammen med høyere poengsum.
Men betyr det at leksetid forårsaker bedre poengsum? Ikke nødvendigvis. Kanskje er det motiverte elever som både leser mye og gjør det godt, uten at det ene forårsaker det andre. Vi trenger å snakke om forskjellen mellom korrelasjon og kausalitet.
Du finner at korrelasjonskoeffisienten mellom daglig strømforbruk og utetemperatur er . Hva betyr dette?
Lydfil som leser opp teksten frem til neste quiz.
Dette er kanskje den viktigste leksjonen i hele statistikken, og den kan ikke gjentas for ofte: korrelasjon betyr ikke kausalitet. Bare fordi to variabler beveger seg sammen, betyr det ikke at den ene forårsaker den andre.
Her er et berømt eksempel: det er sterk positiv korrelasjon mellom issalg og antall drukningsulykker. Betyr det at is forårsaker drukning? Selvfølgelig ikke. Begge variablene påvirkes av en tredje faktor – varmt vær. Når det er varmt, kjøper folk mer is og flere bader. Den tredje variabelen som påvirker begge de andre kalles en konfunderende variabel.
Et annet eksempel: det finnes sterk korrelasjon mellom antall brannstasjoner i en by og antall kriminalitetssaker. Flere brannstasjoner fører altså til mer kriminalitet? Nei – begge er konsekvenser av byens størrelse. Større byer har flere brannstasjoner og flere kriminalitetssaker.
Hva skal til for å påvise kausalitet? Det krever kontrollerte eksperimenter der du endrer én variabel og holder alt annet konstant, eller avanserte statistiske metoder som kontrollerer for konfunderende variabler. En enkel regresjonsanalyse med to variabler kan aldri alene bevise årsakssammenheng.
Neste gang du leser en nyhetsartikkel som sier «Studie viser sammenheng mellom X og Y», tenk deg om: er det korrelasjon eller kausalitet? Hva kan være konfunderende variabler?
En elev finner sterk korrelasjon () mellom antall brannstasjoner og kriminalitet i ulike byer. Hva er den mest sannsynlige forklaringen?
Lydfil som leser opp teksten frem til neste quiz.
Når vi har funnet regresjonslinjen og vurdert at korrelasjonen er sterk nok, kan vi bruke modellen til å lage forutsigelser – men med klokskap.
Ta eksempelet med leksetid og prøvepoeng: med . Dataene går fra til timer. Hva forventer vi for en elev som leser 9 timer per uke? poeng. Siden 9 ligger mellom datapunktene 8 og 10, er dette interpolering – og med så nær 1 er anslaget ganske pålitelig.
Men hva med 20 timer? poeng. Hvis prøven har maks 100 poeng, er dette åpenbart umulig. Vi har ekstrapolert langt utenfor dataområdet, og modellen bryter sammen.
Det er også viktig å huske at selv med sterk korrelasjon er regresjonslinjen bare et gjennomsnittlig mønster. Enkeltpersoner kan avvike betydelig. En elev som leser 5 timer kan score 80 poeng (langt over linjen), mens en annen som leser 8 timer kan score 60 (under linjen). Modellen beskriver trenden, ikke individer.
Når du bruker GeoGebra, følg disse stegene: opprett en liste med datapunkter, bruk RegLin(liste) for å finne linjen, sjekk -verdien for å vurdere styrken, og vurder alltid om du interpolerer eller ekstrapolerer før du stoler på resultatet.
En lineær modell for barnets høyde (0–24 måneder) gir . Modellen gir høyde 234,5 cm ved 10 år (120 mnd). Hva er problemet?
Lydfil som leser opp oppsummeringen.
Lineær regresjon er en metode for å finne den rette linjen som passer best til et sett med datapunkter. Den bruker minste kvadraters metode: linjen som minimerer summen av de kvadrerte vertikale avstandene (residualene) mellom punktene og linjen.
Korrelasjonskoeffisienten måler styrken og retningen på den lineære sammenhengen. Verdien ligger mellom og : sterk korrelasjon for , moderat for , og svak for . Stigningstallet i regresjonslinjen forteller oss hvor mye i gjennomsnitt endrer seg per enhet endring i .
Korrelasjon betyr ikke kausalitet. To variabler kan korrelere sterkt uten at den ene forårsaker den andre – ofte fordi begge påvirkes av en konfunderende variabel. Vær alltid skeptisk til årsaksslutninger basert på ren korrelasjon. Og bruk regresjonslinjen forsiktig: interpolering er generelt pålitelig, men ekstrapolering kan gi urealistiske resultater.