2. Statisitca Descriptiva_MD (2)
Analiza statistică descriptivă
Definiție
Statistică descriptivă se ocupă cu descrierea detaliată a distribuției datelor studiate. Acesta include tehnici și metode necesare pentru a obține o înțelegere clară a caracteristicilor acestor date. Statistică descriptivă permite comparații ale distribuției datelor cu distribuția normală, facilitând analiza variabilității și a tendințelor.
Indicatori principali
Indicatori ai tendinței centrale: Acestea arată valorile tipice ale datelor, incluzând media, mediana și modul, care sunt esențiale pentru a înțelege punctul de centralitate al unui set de date.
Indicatori ai dispersiei: Acestea descriu împrăștierea datelor în jurul unei valori medii, incluzând varianța, abaterea standard și coeficientul de variație, care indică măsura în care valorile indivizilor se îndepărtează de media setului de date.
Indicatori ai formei distribuției: Acestea caracterizează forma grafică a distribuției, cum ar fi asimetria și aplatizarea, importante pentru a evalua dacă datele urmează o distribuție normală sau nu.
Indicatori ai formei distribuției
Indicatori statistici descriptivi
Se referă la forma curbei de distribuție grafică, evidențiind modul în care datele sunt distribuite în jurul mediei.
Tipuri de distribuții
Distribuții gaussiene:
Unimodală: are un singur vârf în jurul mediei.
Plurimodală: are mai multe vârfuri, indicând prezența subgrupurilor distincte în dataset.
Distribuții non-gaussiene: nu respectă caracteristicile unei curbe normale, putând avea forme variate ce necesită analize specifice.
Curba de distribuție normală
Reprezintă frecvența rezultatelor în determinate succesive, având graficele cu forma unui clopot. Se determină prin diferențele între media rezultatelor și rezultatele individuale. Pe axa orizontală se află aceste diferențe, iar pe cea verticală frecvențele, având o importanță deosebită în analiza statistică.
Histogramă
Determină numărul intervalelor de grupare (de clasă). Formula lui Sturges: M = 1 + 3.22 * log(n) oferă un ghid pentru alegerea numărului de clase. Lungimea intervalului de grupare este calculată cu formula: d = (X_max - X_min) / (1 + 3.22 * log(n)) pentru a ajuta la vizualizarea distribuției datelor.
Asimetria (Skewness)
Definiție
Reflectă gradul de asimetrie a distribuției în jurul valorii medii. Utilizarea funcției Excel: skew(aria) permite calcularea asimetriei pentru un set de date.
Tipologii de asimetrie
Asimetrică negativă: coada se extinde spre stânga, indicând o distribuție în care majoritatea valorilor sunt concentrată spre partea dreaptă.
Asimetrică pozitivă: coada se extinde spre dreapta, sugerând că există extreme mari în partea dreaptă.
Simetrie: distribuită uniform în jurul mediei, ceea ce semnalează o distribuită normală.
Aplatizarea (Kurtosis)
Definiție
Caracterizează gradul de aplatizare a distribuției comparativ cu distribuția normală, măsurând cât de mult se îndepărtează forma distribuției de o formă normală. Funcția Excel: kurt(aria) permite evaluarea acestei caracteristici.
Tipuri de distribuții
Leptokurtic: are un vârf mai înalt și cozi mai grele, indicând o dată concentrată în jurul mediei.
Platykurtic: curbă aplatizată, ce sugerează o distribuție mai uniformă a datelor.
Amplitudinea
Formula: A = A_max - A_min, oferă o măsură simplă a variabilității totale dintr-un set de date.
Indicatori ai tendinței centrale
Media
Funcția Excel: Average(aria) este utilizată pentru a calcula media aritmetică. Aceasta poate fi influențată de valori extreme, ceea ce este esențial de menționat când se analizează datele.
Mediana
Funcția Excel: median(aria) împarte seria de date în două părți egale, oferind o măsură mai robustă a centralității atunci când datele conțin valori extreme. Se calculează diferit în funcție de numărul de valori (par sau impar).
n=numar masuratori/nr valori
Modul
Funcția Excel: mode(aria) este valoarea care apare cel mai des. Poate fi nesigur în eșantioane mici, dar oferă informații importante despre cele mai frecvente rezultate dintr-un set de date.
Indicatori ai împrăștierii
Varianta (Dispersie)
Formula: Varianța 𝑺𝒙 𝟐 măsoară variabilitatea setului de date, fiind crucială în analiza statistica.
Abaterea standard (Deviatia standard)
Formula: 𝑆𝑥 = ±√𝑆𝑥 2, aceasta măsoară precizia determinărilor față de medie, fiind o metrică esențială în statistica descriptivă. Este calculată ca rădăcină pătrată din varianță.
Eroarea standard
Reflectă influența erorilor în determinări și este calculată pentru a determina exactitatea datelor.
Coeficientul de variație
Raport procentual între abaterea standard și media șirului de valori, oferind un indicativ al dispersiei datelor în contextul mediei.
Statistică inferențială
Definiție
Testele statistice pentru a determina legături semnificative între variabilele unui studiu, extinzând aplicațiile statisticii descriptive.
Tipuri principale de teste
Teste de valabilitate (GRUBBS): măsoară integritatea și validitatea rezultatelor obținute.
Teste de concordanță (goodness of fit): examinează cât de bine datele se potrivesc cu o distribuție așteptată.
Teste de semnificație: determină dacă rezultatele obținute sunt semnificative statistic.
Corelații și regresii: metode utilizate pentru a evalua relațiile între variabile.
Teste de valabilitate
Testul Grubbs
Permite identificarea rezultatelor aberante (outliers), care pot afecta semnificativ media rezultatelor. Utilizarea acestui test ajută la curățarea eșantioanelor de date.
Teste de concordanță (Goodness-Of-Fit)
Definiție
Teste pentru a determina dacă un eșantion provine dintr-o populație cu o anumită distribuție, esențial în validarea ipotezelor statistice.
Exemple de teste
Testul Kolmogorov-Smirnov: compară distribuția observată cu o distribuție teoretică.
Testul Anderson-Darling: similar cu Kolmogorov-Smirnov, dar oferă o putere mai mare de a detecta abaterile de la normalitate.
Testul Chi-Square: examinează diferențele între frecvențele observate și cele așteptate.
Testul Shapiro-Wilk: evaluează normalitatea distribuției datelor.