Bruk av Excel/Google Sheets og Python for dataanalyse.
I de foregående kapitlene har vi beregnet gjennomsnitt, standardavvik og regresjon for hånd. I virkeligheten bruker forskere og analytikere digitale verktøy til dette arbeidet. Verktøyene gjør beregningene raskere, mer nøyaktige og muliggjør analyse av store datasett som ville vært umulige å håndtere manuelt.
I dette kapittelet ser vi på to typer verktøy: regneark (Excel og Google Sheets) og programmeringsspråket Python. Begge brukes mye i forskning, næringsliv og utdanning.
Et regneark organiserer data i rader og kolonner. Hver celle kan inneholde tall, tekst eller formler som utfører beregninger automatisk.
Viktige funksjoner for dataanalyse:
| Funksjon | Excel / Google Sheets | Beskrivelse |
|---|---|---|
| Gjennomsnitt | =GJENNOMSNITT(A1:A20) | Beregner gjennomsnittet av verdiene |
| Median | =MEDIAN(A1:A20) | Finner medianen |
| Modus | =MODUS(A1:A20) | Finner den hyppigste verdien |
| Standardavvik | =STDAV(A1:A20) | Standardavvik for et utvalg |
| Min / Maks | =MIN(A1:A20) / =MAKS(A1:A20) | Minste og største verdi |
| Antall | =ANTALL(A1:A20) | Teller antall celler med tall |
| Korrelasjon | =KORRELASJON(A1:A20;B1:B20) | Korrelasjonskoeffisient mellom to datasett |
Du har samlet inn data om antall timer fysisk aktivitet per uke for 10 elever: 2, 5, 3, 8, 4, 6, 1, 7, 5, 4. Beskriv hvordan du ville satt opp et regneark for å analysere disse dataene.
Kolonne A (overskrift: «Elev»): 1, 2, 3, ..., 10
Kolonne B (overskrift: «Timer trening»): 2, 5, 3, 8, 4, 6, 1, 7, 5, 4
Beregninger i kolonne D:
- D1: «Gjennomsnitt» → D2: =GJENNOMSNITT(B2:B11) → gir 4,5
- D3: «Median» → D4: =MEDIAN(B2:B11) → gir 4,5
- D5: «Standardavvik» → D6: =STDAV(B2:B11) → gir ca. 2,12
- D7: «Minimum» → D8: =MIN(B2:B11) → gir 1
- D9: «Maksimum» → D10: =MAKS(B2:B11) → gir 8
Diagram: Marker kolonne B og sett inn et histogram eller søylediagram for å visualisere fordelingen. Gjennomsnitt og median er like (4,5), noe som tyder på en symmetrisk fordeling.
Du har temperaturmålinger i cellene A1 til A30 i et regneark. Hvilken formel beregner gjennomsnittstemperaturen?
Regneark har innebygde verktøy for å lage diagrammer direkte fra data. Slik gjør du det:
Steg for å lage et diagram i Google Sheets / Excel:
1. Marker dataene du vil visualisere (inkluder overskriftene)
2. Velg Sett inn → Diagram (eller tilsvarende meny)
3. Velg diagramtype som passer dataene (søylediagram, linjediagram osv.)
4. Tilpass diagrammet: legg til aksetitler, juster farger, fjern unødvendig pynt
Regresjon i regneark:
For å lage en regresjonslinje i et punktdiagram:
1. Lag et punktdiagram (scatter plot) med de to variablene
2. Høyreklikk på datapunktene og velg Legg til trendlinje
3. Velg Lineær trendlinje
4. Hak av for å vise ligningen og -verdien i diagrammet
Regnearket beregner automatisk regresjonslinjen og viser både ligningen () og i diagrammet.
Du har plottet sammenhengen mellom temperatur (°C) og antall solgte liter brus i en kiosk i et punktdiagram i Google Sheets. Trendlinjen viser ligningen med . Tolk resultatet.
: Temperaturen forklarer 73 % av variasjonen i brusssalget. Det er en god modell – temperatur er den viktigste faktoren, men 27 % av variasjonen skyldes andre forhold (f.eks. ukedag, arrangementer i nærheten, regnvær).
Konklusjon: Regnearket har gjort hele regresjonsanalysen automatisk – du trengte bare å lage et punktdiagram og legge til en trendlinje.
Hva er den riktige fremgangsmåten for å lage en regresjonslinje i et regneark?
Python er et programmeringsspråk som er svært populært innen dataanalyse og forskning. Med biblioteker som pandas, numpy og matplotlib kan du analysere og visualisere data effektivt.
Fordeler med Python fremfor regneark:
- Håndterer svært store datasett (millioner av rader)
- Reproduserbar analyse – koden dokumenterer nøyaktig hva du har gjort
- Automatisering – kjør samme analyse på nye data automatisk
- Kraftigere statistiske verktøy og muligheter for maskinlæring
Grunnleggende eksempel med Python:
``python
import numpy as np
print(f"Gjennomsnitt: {gjennomsnitt}")
print(f"Median: {median}")
print(f"Standardavvik: {standardavvik:.2f}")
``
Dette gir nøyaktig de samme resultatene som regnearket, men i en kode som enkelt kan gjenbrukes og deles.
Skriv Python-kode som utfører en enkel lineær regresjonsanalyse og lager et plott med regresjonslinje.
``python
import numpy as np
import matplotlib.pyplot as plt
print(f"Regresjonslinje: y = {a:.1f}x + {b:.1f}")
print(f"Korrelasjon r = {r:.2f}")
print(f"R² = {r*2:.2f}")
Koden beregner regresjonslinjen, korrelasjon og , og lager et scatter-plott med en rød regresjonslinje lagt over datapunktene.
Hvilken Python-funksjon brukes til å beregne gjennomsnittet av en tallrekke med NumPy?
- Regneark (Excel, Google Sheets) er brukervennlige verktøy for dataanalyse med innebygde funksjoner for gjennomsnitt, median, standardavvik og korrelasjon.
- Bruk cellereferanser i formler slik at beregningene oppdateres automatisk.
- Regneark kan lage diagrammer og trendlinjer direkte fra data – inkludert regresjonslinje med -verdi.
- Python med biblioteker som NumPy og Matplotlib gir kraftigere analysemuligheter, spesielt for store datasett.
- Python-kode er reproduserbar – du kan enkelt gjenta analysen eller dele den med andre.
- Velg verktøy basert på behov: regneark for raske analyser og små datasett, Python for komplekse analyser og automatisering.
Du har følgende data om gjennomsnittstemperatur (°C) og strømforbruk (kWh) per måned for et hus:
Temperatur: -5, -2, 3, 8, 14, 18, 20, 18, 13, 7, 1, -3
Strømforbruk: 3200, 2900, 2400, 1800, 1200, 900, 800, 950, 1300, 1900, 2500, 3100
Beskriv steg for steg hvordan du ville analysert denne sammenhengen i et regneark. Hvilke funksjoner ville du brukt, og hvilken type diagram ville du laget?
Sammenlign fordeler og ulemper med regneark (f.eks. Google Sheets) og Python for dataanalyse. I hvilke situasjoner ville du valgt hvert verktøy? Gi konkrete eksempler.