Looks like no one added any tags here yet for you.
Good of Fit
maat over hoe goed een statistisch model past bij reeks waarnemingen
Lack of Fit
hoe slecht het past (H= geen lof)
wat doe je bij hoge lof?
mogelijk linear naar kwadraat verband gaan of y transformeren naar In of log
R²
meet in hoeverre model in staat is bepaalde uitkomst te voorspellen
R² adjusted
houdt rekening met voorspellers en variabelen en bestraft de toevoeging van onnodige variabelen
R² Pred
R² = 0
slecht
R² = 1
goed wordt beter bij meerdere waarde
Uitbijter
outlier en leverage point
leverage point
extreme x waarde
outlier
extreme y waarde
uitbijter bepaal je met cooks distance
CD² groter dan 1
autocorrelatie
systematische samenhang tussen 2 grootheden → je wilt geen correlatie
durban watson
rond 2 is goed geen correlatie andere inclusief zegt niet of er wel of geen correlatie is
residual
fout goeveel je ernaast zit
error
afstand van 1 punt tot lijn van gemiddelde lengte van lijn
regressie
samenhang tussen 2 variabelen
wat voorspel je met regressiemodel?
voorspel de waarde van afhankelijke variabelen op basis van de waarde van 1 of meer onafhankelijke variabelen
wat is de beste lijn?
lijn waarbij het totaal van gewaarde afwijking (error)kleinst is
CI (betrouwbaarheidsinterval)
waarde valt waarschijnlijk in gegeven interval van 95%
PI (predicted interval)
schatting van interval waarin nieuwe waarde gaat vallen (in welk interval nieuwe y valt bij gegeven x)
R²=0 betekend
geen correlatie, een kromme lijn is dan beter. want deze gaat beter door data en verklaard de data beter
grote R² (1)
betekend niet gelijk dat model beter kan voorspelen met kleine PI
influentiel punt
effect op waarde als deze wel of niet wordt meegenomen in model (waarde zoals SD, R² of coefficienten)
groot residu
punt ver van lijn
LINE
L- check lijn van scatterplot
I- independent
N-normaal verdeeld (anderson darling)
E-equivalent verdeeld
Equivalent verdeeld
spreiding van residuen rondom het gemiddelde 0 bij alle waarde ongeveer hetzelfde is
Durban watson
checkt correlatie, bij 2 is geen correlatie
positieve steriele correlatie
pauze in dezelfde stapgrootte
negatieve steriele correlatie
van plus naar min
bij niet normale verdeling?
box cox transformatie
wortel (zwakke correlatie)
log normaal (meest gebruikt) of log 10
1/x (sterke correlatie)
heteroscadastiteit
variantie neemt toe (klustering) met x waarde (dus niet equivalent verdeeld)
Hoe los je heteroscadastitiet op?
y waarde transformeren
wortel trekken van y waarde (milde manier)
1/Y (forse manier)
log/In van y nemen
Wat doe je als je geen rechte lijn hebt van waarnemingen?
kwadraat toevoegen
Co-lineariteit
wortel VIF
factor waarmee de SD van variabelen is toegenomen tov als er geen correlatie ou zijn
VIF = 5 of hoger
sterk gecorreleerd, gooi eruit
Waar kijkt stepwijze naar? welke waarde verwijderd het?
gooit eruit gebaseerd op p waarde
Hoe bepaal je welke variabelen je in kwadraat moet zetten?
kijk naar residuplot per variabelen. Zijn redisuen plot per predictor gebogen? voeg hier kwadraat toe
Orthogonale desigb
onafhankelijke design (zorgt voor makkelijke interpetatie)
Waarom verwijder je factoren of interacties voor vrijheidsgraden?
Voor SS error → PE wordt kleiner significant factoren veranderd
wat gebeurd er als PE kleiner wordt door verwijderd factoren?
significantie van interactie veranderd
Experimenteel design
collectie van methode om experimenten op systematische manier te plannen waardoor max. informatie verkregen wordt (slim plannen)
factorial design
hoog en laag niveau (2 niveaus)
Interactie
effect op afhankelijke variabelen (y) van onafhankelijke variabelen afhankelijk van waarde van andere onafhankelijke waarde
wanneer is geen interactie te zien?
als lijn paralel loopt
PSE
ruwe schatting van fout in lijn (slecht te schatten of interactie significant is)
hoe bereken je de significantie van interactie (dus niet via plot)
bereken SD van fout verwijder niet significante coefficienten
ruis
niet significante coefficienten (p waarde boven 0,05. h0= niet significant)
eisen regressie model
linear in parameters
onafhankelijke variabelen
residuen normaal verdeeld
SD = constant
reisuden mogen geen trend in lijn laten zien
R² adjusted en predicted max 20%
geen trend als
de verdeling rondom 0 lijn random is (test met durban watson test → correlatie)
wat gebeurd er als je overbodige factoren in de model laat?
bij prediction test zorgt dit voor ruis → predictie is niet nauwkeurig (groter interval) → kleine R² → grote PRESS
Centrumpunten
hoeft geen factor te verwidjeren om PE en SD van coefficenten te kunnen bepalen (4 of 5 cnpt)
waarom voer je centrumpunt meetingen uit?
om lof te kunnen bepalen
om te kunnen bepalen of er PE is
om te zein of curvature aanwezig is
Curvature
betekend 1 kwadrant of meer nodig in model als curvature aanwezig is . H0= is geen curvature Ha= significante kromming
Axiaal punt
zorgt ervoor dat design kan roteren ( bepaal door a op bepaalde afstand vanaf centrumpunt te plaatsen
algemene structuur CCD (central composite design)
2^k factoren + 2k axiaal punten + Nc centrumpunten (met deze waarde kunnen coefficienten die voor kwadratische termen staan bepaald worden)
Factorial 2^k moet minimaal .. zijn (tabel groen geel rood)
V of full liefst full
CCD
varieert over 5 levels, resolutie is V of hoger (full), moet roteerbaar zijn doordat a op gelijke afstand wort geplaats van centrumpunten hierdoor is variantie van repsons hetzelfde
CCC (centrum composite circumsiced)
5 levels a is groter dan 1 en kleiner dan -1 (buiten)
CCF (Face)
3 levels, a +- 1 (op)
CCI (insribed)
level 5 a= 1 (in)
PE
nodig voor bepaling van significantie van LOF en coefficienten
pure error
occurs for repeated values of dependent variable, Y for a fixed value of independent variable, X.
Predicted error
ifference between the predicted values made by some model and the actual value
overfit model
goeie R² slechte R² predict
underfit model
slechte R² goeie R² predic
box cox transformatie gebruiken als
geen constante waarde hebt (trompet vorm) of data niet normaal verdeeld is
ED deisgn op 2 niveaus
hoog en laag (2^k)
ED design op 3 niveaus
Hoog, laag en midden (3^k)
full factorial deisgn met 3 factoren
2^4
Na meting vul je repsons in in factorial design. wat dan?
bekijk resultaten in pareto chart. zijn response significant? (rode lijn) zo niet haal laagste eruit (grootste VIF of p waarde) houd hoofdfactor erin
Variantie in plot
neet van verspreiding van reeks waarde
Hoe goed kan model nieuwe repons geven of voorspellen?
bij grote data
model met traning set en validatie
bij kleine data
-(leave one out cross validatie)
haal steeds 1 punt uit model
Wat gebeurd er als je veel factoren in desig hebt
geeft ruis minder factoren orgt voor betere verspreiding
Wanneer verwijder je geen factoren?
-als je model wil dupliceren
centrumpunten toegevoegd
Waarom moet je randomiser aanzetten?
voorkomt systematische afwijking door ctpt op verschillende momenten uti te voeren vormt zich geen trend
waneer gebruik ej blokken in ED?
als je alle experimentne niet onder dezelfde omstandigheden kan uitvoeren