2. Statisitca Descriptiva_MD (2)

Analiza statistică descriptivă

Definiție

Statistică descriptivă se ocupă cu descrierea detaliată a distribuției datelor studiate. Acesta include tehnici și metode necesare pentru a obține o înțelegere clară a caracteristicilor acestor date. Statistică descriptivă permite comparații ale distribuției datelor cu distribuția normală, facilitând analiza variabilității și a tendințelor.

Indicatori principali

  • Indicatori ai tendinței centrale: Acestea arată valorile tipice ale datelor, incluzând media, mediana și modul, care sunt esențiale pentru a înțelege punctul de centralitate al unui set de date.

  • Indicatori ai dispersiei: Acestea descriu împrăștierea datelor în jurul unei valori medii, incluzând varianța, abaterea standard și coeficientul de variație, care indică măsura în care valorile indivizilor se îndepărtează de media setului de date.

  • Indicatori ai formei distribuției: Acestea caracterizează forma grafică a distribuției, cum ar fi asimetria și aplatizarea, importante pentru a evalua dacă datele urmează o distribuție normală sau nu.

Indicatori ai formei distribuției

Indicatori statistici descriptivi

Se referă la forma curbei de distribuție grafică, evidențiind modul în care datele sunt distribuite în jurul mediei.

Tipuri de distribuții

  • Distribuții gaussiene:

    • Unimodală: are un singur vârf în jurul mediei.

    • Plurimodală: are mai multe vârfuri, indicând prezența subgrupurilor distincte în dataset.

  • Distribuții non-gaussiene: nu respectă caracteristicile unei curbe normale, putând avea forme variate ce necesită analize specifice.

Curba de distribuție normală

Reprezintă frecvența rezultatelor în determinate succesive, având graficele cu forma unui clopot. Se determină prin diferențele între media rezultatelor și rezultatele individuale. Pe axa orizontală se află aceste diferențe, iar pe cea verticală frecvențele, având o importanță deosebită în analiza statistică.

Histogramă

Determină numărul intervalelor de grupare (de clasă). Formula lui Sturges: M = 1 + 3.22 * log(n) oferă un ghid pentru alegerea numărului de clase. Lungimea intervalului de grupare este calculată cu formula: d = (X_max - X_min) / (1 + 3.22 * log(n)) pentru a ajuta la vizualizarea distribuției datelor.

Asimetria (Skewness)

Definiție

Reflectă gradul de asimetrie a distribuției în jurul valorii medii. Utilizarea funcției Excel: skew(aria) permite calcularea asimetriei pentru un set de date.

Tipologii de asimetrie

  • Asimetrică negativă: coada se extinde spre stânga, indicând o distribuție în care majoritatea valorilor sunt concentrată spre partea dreaptă.

  • Asimetrică pozitivă: coada se extinde spre dreapta, sugerând că există extreme mari în partea dreaptă.

  • Simetrie: distribuită uniform în jurul mediei, ceea ce semnalează o distribuită normală.

Aplatizarea (Kurtosis)

Definiție

Caracterizează gradul de aplatizare a distribuției comparativ cu distribuția normală, măsurând cât de mult se îndepărtează forma distribuției de o formă normală. Funcția Excel: kurt(aria) permite evaluarea acestei caracteristici.

Tipuri de distribuții

  • Leptokurtic: are un vârf mai înalt și cozi mai grele, indicând o dată concentrată în jurul mediei.

  • Platykurtic: curbă aplatizată, ce sugerează o distribuție mai uniformă a datelor.

Amplitudinea

Formula: A = A_max - A_min, oferă o măsură simplă a variabilității totale dintr-un set de date.

Indicatori ai tendinței centrale

Media

Funcția Excel: Average(aria) este utilizată pentru a calcula media aritmetică. Aceasta poate fi influențată de valori extreme, ceea ce este esențial de menționat când se analizează datele.

Mediana

Funcția Excel: median(aria) împarte seria de date în două părți egale, oferind o măsură mai robustă a centralității atunci când datele conțin valori extreme. Se calculează diferit în funcție de numărul de valori (par sau impar).

n=numar masuratori/nr valori

Modul

Funcția Excel: mode(aria) este valoarea care apare cel mai des. Poate fi nesigur în eșantioane mici, dar oferă informații importante despre cele mai frecvente rezultate dintr-un set de date.

Indicatori ai împrăștierii

Varianta (Dispersie)

Formula: Varianța 𝑺𝒙 𝟐 măsoară variabilitatea setului de date, fiind crucială în analiza statistica.

Abaterea standard (Deviatia standard)

Formula: 𝑆𝑥 = ±√𝑆𝑥 2, aceasta măsoară precizia determinărilor față de medie, fiind o metrică esențială în statistica descriptivă. Este calculată ca rădăcină pătrată din varianță.

Eroarea standard

Reflectă influența erorilor în determinări și este calculată pentru a determina exactitatea datelor.

Coeficientul de variație

Raport procentual între abaterea standard și media șirului de valori, oferind un indicativ al dispersiei datelor în contextul mediei.

Statistică inferențială

Definiție

Testele statistice pentru a determina legături semnificative între variabilele unui studiu, extinzând aplicațiile statisticii descriptive.

Tipuri principale de teste

  • Teste de valabilitate (GRUBBS): măsoară integritatea și validitatea rezultatelor obținute.

  • Teste de concordanță (goodness of fit): examinează cât de bine datele se potrivesc cu o distribuție așteptată.

  • Teste de semnificație: determină dacă rezultatele obținute sunt semnificative statistic.

  • Corelații și regresii: metode utilizate pentru a evalua relațiile între variabile.

Teste de valabilitate

Testul Grubbs

Permite identificarea rezultatelor aberante (outliers), care pot afecta semnificativ media rezultatelor. Utilizarea acestui test ajută la curățarea eșantioanelor de date.

Teste de concordanță (Goodness-Of-Fit)

Definiție

Teste pentru a determina dacă un eșantion provine dintr-o populație cu o anumită distribuție, esențial în validarea ipotezelor statistice.

Exemple de teste

  • Testul Kolmogorov-Smirnov: compară distribuția observată cu o distribuție teoretică.

  • Testul Anderson-Darling: similar cu Kolmogorov-Smirnov, dar oferă o putere mai mare de a detecta abaterile de la normalitate.

  • Testul Chi-Square: examinează diferențele între frecvențele observate și cele așteptate.

  • Testul Shapiro-Wilk: evaluează normalitatea distribuției datelor.