Data 70% toets

Data Voorbewerking (Pre-processing)

Datakwaliteit:
Het proces begint met het verkennen van de datakwaliteit, waarbij gecontroleerd wordt of de data logisch is en of er fouten in zitten. Dit is cruciaal, aangezien slechte data ("garbage in, garbage out") de resultaten kunnen beïnvloeden. Het doel is om de betrouwbaarheid van de data te waarborgen door fouten te identificeren en te corrigeren.

Missende Waarden:
Het omgaan met missende waarden is een essentieel onderdeel van preprocessing. De bronnen leggen de nadruk op het begrijpen van de oorzaak van missende data (meetfouten, invoerfouten, dataset bias). Oplossingen voor missende waarden zijn onder andere:

  • Verwijderen: Het verwijderen van rijen of kolommen met missende data (listwise deletion of pairwise deletion).

  • Imputeren: Het invullen van missende waarden door technieken zoals het invullen met kolomgemiddelden, modus, voorspellingen op basis van andere variabelen, of het creëren van een "missing" categorie.

  • Tijdreeksen: Bij tijdreeksen kan imputatie sequentieel plaatsvinden om de ontbrekende waarden logisch op te vullen.

Uitschieters:
Uitschieters zijn waarden die significant afwijken van de rest van de data. De bronnen maken een onderscheid tussen echte uitschieters (natuurlijke variatie) en uitschieters door meet- of invoerfouten. Methoden voor het detecteren van uitschieters zijn onder andere:

  • Sorteren: Ordenen van data om afwijkende waarden op te sporen.

  • Visualisatie: Het gebruik van grafieken zoals boxplots of scatterplots om uitschieters te identificeren.

  • Statistische detectie: Methoden zoals de interkwartielafstand (IQR) om uitschieters statistisch te detecteren.

Data Cleaning:
Naast missende waarden en uitschieters omvat data cleaning ook het verwijderen van irrelevante of foutieve data, en het toevoegen van externe datasets indien nodig. Het doel is om de data klaar te maken voor verdere analyse.

Tidy Data:
Het concept van "tidy data" zorgt ervoor dat de data in een georganiseerd formaat staat, waarin elke kolom een variabele is, elke rij een observatie, en elke cel een waarde. Dit maakt de data gemakkelijker te analyseren en te visualiseren.

Data Transformatie:
Het omzetten van categorische variabelen naar numerieke formaten wordt aangeduid als feature encoding, bijvoorbeeld via one-hot encoding. Daarnaast is feature engineering het proces waarbij nieuwe variabelen worden gemaakt op basis van bestaande data om nieuwe inzichten te verkrijgen.

Classificatie

Definitie:
Classificatie is het toewijzen van labels aan data op basis van kenmerken. De relatie tussen de kenmerken (attributen) en het label wordt beschreven door een classificatiemodel. Het label is altijd categorisch.

Attributen en Labels:
Attributen kunnen kwantitatief of categorisch zijn, maar het label is altijd categorisch. Wanneer het label een numerieke waarde is, spreken we van een regressiemodel.

Beslisbomen:
Beslisbomen splitsen data op basis van beslissingsregels, die bepalen welke attributen het meest informatief zijn voor het bepalen van het label. Entropie, een maat voor wanorde, wordt gebruikt om de beste splitsingen te identificeren.

Machine Learning:
Classificatie is een vorm van machine learning waarbij modellen getraind worden op gelabelde data om classificaties te maken. Het model leert van de data en maakt voorspellingen op basis van nieuwe, onbekende gegevens.

Data Visualisatie

Verhaal Vertellen:
Datavisualisatie is belangrijk om patronen in de data te ontdekken en om een verhaal te vertellen. Goed gekozen visualisaties helpen niet alleen bij het begrijpen van de data, maar maken de bevindingen ook toegankelijk voor anderen.

Soorten Visualisaties:

  • Histogrammen: Worden gebruikt om de verdeling van numerieke data te visualiseren.

  • Boxplots: Visualiseren de spreiding van data, inclusief mediaan en kwartielen.

  • Scatterplots: Tonen de relatie tussen twee numerieke variabelen.

  • Bubblecharts: Vergroten de complexiteit door de toevoeging van een extra variabele via de grootte van de bubbels.

Explanatory vs. Exploratory:
Er wordt een onderscheid gemaakt tussen explanatory visualizations (gericht op het communiceren van een duidelijke boodschap aan een breder publiek) en exploratory visualizations (gericht op het ontdekken van patronen binnen de data voor interne analyses).

T-toets en ANOVA

T-toets:
De t-toets vergelijkt de gemiddelden van twee groepen. Varianten zijn onder andere de gepaarde t-toets (voor metingen vóór en na op dezelfde subjecten) en de onafhankelijke t-toets (voor twee verschillende groepen). De voorwaarden voor de t-toets zijn onder andere aselecte steekproeven en normale verdeling.

ANOVA:
ANOVA (Analysis of Variance) vergelijkt de gemiddelden van meer dan twee groepen en voorkomt foutinflatie die optreedt bij meerdere t-toetsen. Indien de nulhypothese verworpen wordt, moet er een post-hoc test worden uitgevoerd om te bepalen welke groepen significant van elkaar verschillen.

Chi-kwadraattoets

Principe:
De chi-kwadraattoets vergelijkt verwachte en waargenomen aantallen om te testen of er een significante relatie bestaat tussen variabelen. Er zijn twee varianten:

  • Chi-kwadraat voor aanpassing: Test of de verdeling van een variabele overeenkomt met een verwachte verdeling.

  • Chi-kwadraat voor homogeniteit: Test of de verdeling van een variabele onafhankelijk is van een andere variabele.

Non-parametrische toetsen

Wilcoxon Rangtekentoets:
Deze toets wordt gebruikt voor het vergelijken van gepaarde observaties, bijvoorbeeld voor het testen van veranderingen binnen dezelfde groep.

Mann-Whitney U toets:
Deze toets wordt gebruikt om te testen of twee onafhankelijke steekproeven uit dezelfde populatie komen, zonder te veronderstellen dat de data normaal verdeeld is.

Correlatie

Correlatiecoëfficiënt (r):
De correlatiecoëfficiënt meet de sterkte en richting van een lineaire relatie tussen twee variabelen. Een positieve waarde duidt op een positieve relatie, terwijl een negatieve waarde op een negatieve relatie wijst.

Pearson Correlatie:
Deze wordt gebruikt voor lineaire relaties tussen continue variabelen. De gegevens moeten normaal verdeeld zijn en er mogen geen uitschieters aanwezig zijn.

Spearman Rangcorrelatie:
Dit is een niet-lineaire variant die geschikt is voor variabelen die niet normaal verdeeld zijn of wanneer de relatie tussen de variabelen niet lineair is.

Regressie

Lineaire Regressie:
Deze techniek beschrijft de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen met een rechte lijn. Het model maakt het mogelijk om voorspellingen te doen op basis van deze lineaire relatie.

Evaluatie van Regressiemodellen:

  • MAE (Mean Absolute Error): Het gemiddelde van de absolute verschillen tussen de voorspelde en werkelijke waarden.

  • RMSE (Root Mean Squared Error): De wortel van het gemiddelde van de gekwadrateerde verschillen.

  • : Geeft de mate van verklaarde variantie aan, oftewel hoe goed het model de werkelijke data benadert.

Meervoudige Lineaire Regressie:
Dit model breidt lineaire regressie uit door meerdere onafhankelijke variabelen te gebruiken.

Clustering

Definitie:
Clustering is een unsupervised learning techniek waarbij data in groepen (clusters) wordt verdeeld op basis van overeenkomsten. Het doel is om data te groeperen zodat data binnen een cluster meer op elkaar lijkt dan data in andere clusters.

K-means Clustering:
Een populaire methode van partitionele clustering die de data in k clusters verdeelt door het minimaliseren van de afstand van elke data-punt tot het centrum van zijn cluster.

Machine Learning

Supervised Learning:
Modellen worden getraind op gelabelde data (waarbij de uitkomst al bekend is). Voorbeelden zijn classificatie en regressie.

Unsupervised Learning:
Modellen worden getraind op ongelabelde data. Clustering is een typisch voorbeeld van unsupervised learning.

Workflow:
De machine learning workflow bestaat uit:

  • Data Preparation: Het opschonen van de data en het verwijderen van irrelevante of missende data.

  • Data Splitting: Het verdelen van de data in train-, validatie- en testsets om het model te trainen en evalueren.

  • Model Training: Het proces waarbij het model leert van de data.

  • Model Evaluatie: Het testen van het model op de testset om de nauwkeurigheid te bepalen