Statistik Del 2: Deskriptiv Statistik och Normalfördelning

Grundläggande Begrepp och Metodöversikt Dessutom Deskriptiv Statistik och Normalfördelning

Repetition och Introduktion

Denna del av kursen i statistik, för Radiografi (Introduktion och vetenskaplig metod) samt Biomedicinsk laboratoriemetodik med vetenskaplig metod I, leds av Jessica Carlsson, Statistiker och docent i biomedicin.

Grundläggande Begrepp
  • Målpopulation: Den kompletta grupp av individer eller objekt som studien avser att dra slutsatser om.

  • Stickprov: En mindre delmängd av målpopulationen som väljs ut för att representera hela populationen i studien.

  • Individ: En enhet i populationen som studeras.

  • Variabel: En egenskap eller karaktäristika hos individer i populationen som kan anta olika värden (t.ex., Ålder, Kön, Utbildning). Exempel: Ålder, Kön, Utbildning.

  • Värde/Utfall: De specifika observationerna eller resultaten för en variabel (t.ex., 5353 år, Man, Universitet).

Studiedesign och Analysmetoder
  • Deskriptiv statistik: Metoder för att organisera, sammanfatta och presentera insamlad data på ett överskådligt sätt. Detta inkluderar grafiska presentationer (tabeller och diagram) samt numeriska presentationer (genomsnittsvärden och spridningsmått).

  • Analytisk statistik: Metoder för att dra slutsatser om populationen baserat på stickprovet, dvs. generalisera resultaten.

  • Slutsats: De övergripande fynd som dras från den statistiska analysen.

  • Mätskalor: Klassificeringssystem för variabler som påverkar vilken statistisk metod som är lämplig (Nominal, Ordinal, Intervall, Kvot).

  • Studiedesign: omfattar olika undersökningstyper, urvalsmetoder och hantering av bortfall.

Deskriptiv Statistik: Läge, Spridning och Fördelning

Deskriptiv statistik syftar till att organisera och sammanställa insamlad data med hjälp av grafisk och numerisk presentation. Den numeriska presentationen inkluderar genomsnittsvärden (lägesmått) och spridningsmått.

Deskriptiva Mått

Deskriptiva mått kan delas in i tre huvudkategorier:

  • Läge (Central Location): Beskriver datamaterialets "centrum" eller "tyngdpunkt".

  • Spridning (Variability): Beskriver hur mycket observationerna varierar kring läget.

  • Fördelning/form (Distribution/Shape): Beskriver datans skevhet (symmetrisk, positivt eller negativt sned).

Lägesmått

Lägesmått är värden som representerar mitten eller "tyngdpunkten" i ett datamaterial.

Aritmetiskt Medelvärde xˉ\bar{x}
  • Definition: Summan av alla mätvärden dividerat med antalet mätvärden.

  • Formel: xˉ=<em>i=1nx</em>in=x<em>1+x</em>2++x<em>nn\bar{x} = \frac{\sum<em>{i=1}^{n} x</em>i}{n} = \frac{x<em>1 + x</em>2 + \dots + x<em>n}{n}, där x</em>ix</em>i är varje observation och nn är antalet observationer.

  • Exempel: Vikter i kg: 52,57,63,68,75,8252, 57, 63, 68, 75, 82.
    xˉ=52+57+63+68+75+826=397666,2 kg\bar{x} = \frac{52 + 57 + 63 + 68 + 75 + 82}{6} = \frac{397}{6} \approx 66,2 \text{ kg}

Median
  • Definition: Delar ett material i två lika stora delar. Det är det mittersta värdet när datamaterialet grupperats i storleksordning.

  • Hantering av jämnt antal variabelvärden: Om antalet observationer är jämnt, beräknas medianen som medelvärdet av de två mittersta värdena.

  • Exempel (udda antal): 52,57,63,68,75,8252, 57, \textbf{63}, 68, 75, 82 (Om ett värde saknades och 63 var det mittersta) -> Median = 6363 kg (Detta exempel är lite otydligt i texten, men intentionen är att visa ett udda antal). Låt oss istället ta de 6 vikterna från medelvärdesexemplet: 52,57,63,68,75,8252, 57, 63, 68, 75, 82. Medianen ligger mellan 6363 och 6868. Om ett dataset vore 52,57,63,68,7552, 57, 63, 68, 75 (5 värden), medianen är 6363.

  • Exempel (jämnt antal): Vikter i kg: 52,57,57,63, 68,75,82,8552, 57, 57, \textbf{63, 68}, 75, 82, 85. Median =63+682=65,5 kg= \frac{63 + 68}{2} = 65,5 \text{ kg}

Typvärde (Mode)
  • Definition: Det vanligaste värdet i en fördelning.

  • Exempel: Vikter i kg: 52,57, 57,63,68,75,8252, \textbf{57, 57}, 63, 68, 75, 82. Typvärdet är 5757 kg.

Sammanfattning av Lägesmått (Exempel)
  • Ålder (år): 12,16,20,25,25,32,44,51,7512, 16, 20, 25, 25, 32, 44, 51, 75.

    • Medelvärde: xˉ=300933,3\bar{x} = \frac{300}{9} \approx 33,3 år.

    • Median: 2525 år (det mittersta värdet efter sortering).

    • Typvärde: 2525 år (det vanligaste värdet).

Val av Lägesmått

Valet av lägesmått beror på skalnivån (typen av data) och datans fördelning (hur datan ser ut).

  • Nominalskala: Endast typvärde är meningsfullt. Medelvärde och median är inte lämpliga. Exempel: Typvärdet för blodgrupp är A.

  • Ordinalskala: Typvärde och median är lämpliga. Medelvärde är inte meningsfullt. Exempel: Typvärde för smärta (skala 1-10) kan vara 11, median för smärta kan vara 5,55,5.

  • Kvot/Intervallskala (symmetrisk fördelning): Medelvärdet är oftast bäst. I en symmetrisk fördelning är medelvärdet lika med medianen.

  • Kvot/Intervallskala (positivt sned fördelning): När fördelningen är positivt sned (med en "svans" åt höger), är medianen att föredra eftersom medelvärdet dras mot svansen (medelvärdet > medianen).

  • Kvot/Intervallskala (negativt sned fördelning): När fördelningen är negativt sned (med en "svans" åt vänster), är medianen att föredra eftersom medelvärdet dras mot svansen (medelvärdet < medianen).

  • Varför inte alltid använda medelvärdet? Medelvärdet är känsligt för extremvärden (outliers) och skevhet i data, samt att det kan vara missvisande om numeriska värden tilldelas till kategoriska variabler (t.ex. vid kodning av en nominal variabel).

Skalnivå

Lägesmått

Nominal

Typvärde

Ordinal (få skalsteg)

Typvärde

Ordinal (många skalsteg)

Typvärde, Median

Intervall och kvotdata (symmetrisk)

Medelvärde, Median

Intervall och kvotdata (sned)

Median

Spridningsmått

Spridningsmått kvantifierar hur mycket observationerna varierar eller sprids kring läget. Valet av spridningsmått är kopplat till vilket lägesmått som används.

Standardavvikelse (s,SD,sds, SD, \text{sd})
  • Definition: Ett mått på den genomsnittliga avvikelsen från medelvärdet.

  • Problem med enkel avvikelsesummering: Summan av enskilda avvikelser (xixˉ)(x_i - \bar{x}) från medelvärdet blir alltid noll.

    • Exempel: Antal cigaretter/dag: 5,15,10,8,15,10,3,65, 15, 10, 8, 15, 10, 3, 6. Medelvärde =9= 9.

    • Avvikelser: (59)=4,(159)=6,(109)=1,(89)=1,(159)=6,(109)=1,(39)=6,(69)=3(5-9)=-4, (15-9)=6, (10-9)=1, (8-9)=-1, (15-9)=6, (10-9)=1, (3-9)=-6, (6-9)=-3. Summa =0= 0.

  • Kvadrering av avvikelser (Variansen, s2s^2):

  • För att undvika att summan blir noll kvadreras varje avvikelse. Summan av kvadrerade avvikelser (xixˉ)2\sum (x_i - \bar{x})^2 används.

    • Exempel (fortsättning): Kvadrerade avvikelser: (4)2=16,62=36,12=1,(1)2=1,62=36,12=1,(6)2=36,(3)2=9(-4)^2=16, 6^2=36, 1^2=1, (-1)^2=1, 6^2=36, 1^2=1, (-6)^2=36, (-3)^2=9. Summa av kvadrerade avvikelser =136= 136.

    • Variansen (s2s^2): Summan av kvadrerade avvikelser divideras med n1n-1 (för stickprovsdata för en bättre skattning av populationsvariansen). Variansens enhet (t.ex., cigaretter2\text{cigaretter}^2) är svårtolkad.

  • Standardavvikelse (s): Roten ur variansen, vilket ger spridningsmåttet samma enhet som de ursprungliga mätvärdena.

  • Formel: s=(xixˉ)2n1s = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n-1}}

  • Exempel (fortsättning): Medelvärde =9= 9 cigaretter/dag. Summa av kvadrerade differenser =136= 136. σ=13681=1367=19,424,4 cigaretter\sigma = \sqrt{\frac{136}{8-1}} = \sqrt{\frac{136}{7}} = \sqrt{19,42} \approx 4,4 \text{ cigaretter}.

  • Jämförelse av dieter (exempel): Två dieter, A och B, båda med medelvärde viktnedgång på 4-4 kg. Diet A: s=1,49s = 1,49 kg. Diet B: s=0,74s = 0,74 kg. Diet B har mindre spridning, vilket indikerar mer konsistenta resultat.

Variationskoefficient (CV)
  • Definition: Anger hur stor standardavvikelsen är i förhållande till medelvärdet, uttryckt som en relativ spridning i procent.

  • Formel: CV=sxˉ×100%CV = \frac{s}{\bar{x}} \times 100\%

  • Exempel (blodsockermätning): Två tekniker, Metod A och Metod B.

    • Metod A: n=20,xˉ=4,10 mmol/l,s=0,132n=20, \bar{x} = 4,10 \text{ mmol/l}, s = 0,132. CV=0,1324,10×1003,2%CV = \frac{0,132}{4,10} \times 100 \approx 3,2\%

    • Metod B: n=20,xˉ=4,02 mmol/l,s=0,064n=20, \bar{x} = 4,02 \text{ mmol/l}, s = 0,064. CV=0,0644,02×1001,6%CV = \frac{0,064}{4,02} \times 100 \approx 1,6\%
      Metod B har lägre variationskoefficient, vilket indikerar högre precision.

Percentiler
  • Definition: Används för att beskriva hur stor andel av en population som ligger under ett angivet värde. Exempelvis ligger 10%10\% av observationerna under den 10:e percentilen.

  • Användning: Främst vid stort antal observationer.

  • Positionsformel: Den kk-te percentilen (PkP_k) kan approximeras med positionen Position=k(n+1)100\text{Position} = \frac{k(n+1)}{100} vid sorterad data.

  • Exempel: Beräkna den 50:e percentilen (medianen) för: 156,160,165,171,176,182,185,186,190156, 160, 165, 171, 176, 182, 185, 186, 190 (sorterade värden). Antal observationer (nn) = 99.

    • Position =50(9+1)100=5= \frac{50(9+1)}{100} = 5 (den 5:e observationen).

    • Den 5:e observationen är 176 cm176 \text{ cm}, vilket är medianen.

Kvartilavstånd
  • Definition: Delar ett datamaterial i fyra lika stora delar baserat på tre kvartilgränser (Q<em>1,Q</em>2,Q3Q<em>1, Q</em>2, Q_3).

    • Q1Q_1 (Undre kvartil): 25:e percentilen.

    • Q2Q_2 (Median): 50:e percentilen.

    • Q3Q_3 (Övre kvartil): 75:e percentilen.

  • Kvartilavstånd (Interquartile Range, IQR): Q<em>3Q</em>1Q<em>3 - Q</em>1. Detta intervall innehåller de mittersta 50%50\% av värdena.

  • Exempel: Data: 156,163,165,174,176,182,184,186156, 163, 165, 174, 176, 182, 184, 186 (sorterade). Baserat på en specifik beräkningsmetod:

    • Q1164 cmQ_1 \approx 164 \text{ cm}

    • Q2175 cmQ_2 \approx 175 \text{ cm}

    • Q3183 cmQ_3 \approx 183 \text{ cm}

    • Kvartilavstånd =183164=19 cm= 183 - 164 = 19 \text{ cm}.

Variationsvidd (Range)
  • Definition: Skillnaden mellan det högsta och lägsta värdet i ett datamaterial (maxmin\text{max} - \text{min}). Mycket känsligt för extremvärden.

  • Exempel: 156,163,165,174,176,182,184,186156, 163, 165, 174, 176, 182, 184, 186. Variationsvidd =186156=30 cm= 186 - 156 = 30 \text{ cm}. Kan även anges som 30 cm (186 - 156)30 \text{ cm (186 - 156)}.

Modalprocent
  • Definition: Anger hur stor andel (procent) av datamaterialet som typvärdet utgör.

  • Exempel: Om typvärdet för en produkt är Vanilj och dess frekvens är 20%20\%, är modalprocenten 20,0%20,0\%.

Sammanfattning: Val av Spridningsmått

Valet av spridningsmått styrs av det lägesmått som valts utifrån datans skalnivå och fördelning.

Lägesmått

Spridningsmått

Medelvärde

Standardavvikelse, Variationskoefficient

Median

Percentiler, Kvartilavstånd

Typvärde

Variationsvidd, Modalprocent

Fördelning

Fördelningsform beskriver om data är symmetriskt eller asymmetriskt (skedvfördelat). Visuella verktyg som Box Plot, Stapeldiagram och Histogram används för att åskådliggöra fördelningen.

Box Plot (Lådagram)
  • Beskriver: Medianen, kvartilerna (Q<em>1,Q</em>3Q<em>1, Q</em>3), minsta och största värden inom ett rimligt intervall, samt avvikelser (outliers) och extrema avvikelser.

  • Outlier: Ett värde som ligger mer än 1,51,5 gånger kvartilavståndet (IQR=Q<em>3Q</em>1IQR = Q<em>3 - Q</em>1) ovanför Q<em>3Q<em>3 eller under Q</em>1Q</em>1.

  • Extrem Outlier: Ett värde som ligger mer än 33 gånger kvartilavståndet ovanför Q<em>3Q<em>3 eller under Q</em>1Q</em>1.

Stapeldiagram (Stolpdiagram)
  • Användning: För kategoriska variabler (nominell eller ordinal skala).

  • Axlar: Kategorier på x-axeln, antal eller procent på y-axeln.

  • Utseende: Staplarna är åtskilda från varandra.

Histogram
  • Användning: För kontinuerliga variabler (intervall- eller kvotskala).

  • Axlar: Kontinuerliga värden på x-axeln, antal individer på y-axeln.

  • Utseende: Staplarna ligger intill varandra för att visa kontinuiteten i datan.

Utförlig Sammanfattning: Datanivå, Lägesmått, Spridningsmått och Form

Denna tabell ger en komplett översikt över lämpliga deskriptiva mått beroende på datans skalnivå.

Datanivå

Lägesmått

Spridningsmått

Form (grafisk presentation)

Nominal

Typvärde

Modalprocent

- (Stapeldiagram för frekvenser, men inte för form i meningen skevhet)

Ordinal – få skalsteg

Typvärde

Modalprocent

Stapeldiagram

Ordinal – många skalsteg

Median, Typvärde

Percentiler, Kvartilavstånd

Box Plot, Stapeldiagram

Intervall och kvotdata - symmetrisk

Medelvärde, Median

Standardavvikelse, Variationskoefficient (Kvartilavstånd)

Histogram, Box Plot

Intervall och kvotdata - sned

Median

Kvartilavstånd

Histogram, Box Plot

Normalfördelning (Kapitel 7)

Normalfördelningen är en av de viktigaste teoretiska fördelningarna inom statistiken.

Egenskaper
  • Teoretisk fördelning: Definieras av en matematisk formel.

  • Parametrar: Definieras helt av dess medelvärde (μ\mu) och standardavvikelse (σ\sigma).

  • Symmetrisk: Alltid symmetrisk kring sitt medelvärde (μ\mu), vilket innebär att μ\mu också är medianen och typvärdet.

  • Grafisk representation: Har en karakteristisk klockform.

Normalfördelningens Betydelse (Empiriska Regeln)

Den empiriska regeln beskriver andelen data som faller inom vissa standardavvikelser från medelvärdet i en normalfördelning.

  • 68,3%68,3\% av observationerna ligger inom ±1\pm 1 standardavvikelse från medelvärdet (μ±σ\mu \pm \sigma).

  • 95,4%95,4\% av observationerna ligger inom ±2\pm 2 standardavvikelser från medelvärdet (μ±2σ\mu \pm 2\sigma).

  • 99,7%99,7\% av observationerna ligger inom ±3\pm 3 standardavvikelser från medelvärdet (μ±3σ\mu \pm 3\sigma).

Exempel på Normalfördelning

Om medelvärdet (μ=178 cm\mu = 178 \text{ cm}) och standardavvikelsen (σ=6 cm\sigma = 6 \text{ cm}) för kroppslängd:

  • 68,3%68,3\% av individerna har en längd mellan 172184 cm172 - 184 \text{ cm} (178±6178 \pm 6).

  • 95,4%95,4\% av individerna har en längd mellan 166190 cm166 - 190 \text{ cm} (178±2×6178 \pm 2 \times 6).

  • 99,7%99,7\% av individerna har en längd mellan 160196 cm160 - 196 \text{ cm} (178±3×6178 \pm 3 \times 6).

Övergripande Sammanfattning och Slutsats

Flödesschema för statistisk metod och val av deskriptiva mått:

  1. Målpopulation

  2. Stickprov

  3. Deskriptiv statistik (organisera och sammanställa data)

  4. Analytisk statistik (dra slutsatser)

  5. Slutsats

Val av mått baserat på fördelning:
  • Snedfördelat data: Använd Median som lägesmått och Percentiler eller Kvartilavstånd som spridningsmått.

  • Normalfördelat data (eller symmetriskt kvot/intervall data): Använd Medelvärde som lägesmått och Standardavvikelse som spridningsmått.