Looks like no one added any tags here yet for you.
Receptief
kwantitatief onderzoek accuraat kunnen beoordelen en interpreteren
Productief
zelf een kwantitatieve studie kunnen opzetten en uitvoeren, bv. voor een vakpaper, bachelorproef, masterproef,...
Overdraagbare vaardigheid
zelf, zowel receptief als productief, op een kritische manier met kwantitatieve data kunnen opgaan in je latere professionele leven, bv. als journalist, leraar, in de communicatiesector, enzovoort
Fundamenteel onderzoek
wil een antwoord geven op een onderzoeksvraag zuiver vanuit wetenschappelijke nieuwsgierigheid, praktische toepassing enkel mogelijk op langere termijn: alleszins niet in zich
bv: Wat leidde tot de opkomst van de zwakke werkwoordelijke vervoeging in het Germaans?
Toegepast onderzoek
wil iets nuttigs doen
computationele toepassing ontwikkelen of verbeteren, bv plagiaatopsporing, auditieve zelftesten
Maatschappelijk relevant inzicht bekomen
bv: hoe kunnen we Belgische administratieve terminologie het best vertalen(/uitleggen) aan immigranten?
Kwalitatieve analyse/onderzoek
data wordt rechtstreeks geanalyseerd, bv. diepte-interviews met ervaringsdeskundigen, is (bijna) altijd empirisch
bv onderzoeksvraag: Wat is de semantische structuur van clausal epistemic model markers?
Kwantitatieve analyse/onderzoek
data wordt eerst verwerkt tot een gestructureerde, kwantificeerbare dataset, vervolgens statistisch geanalyseerd (bv. via grafieken, kaarten, p-waardes, enquêtes...) en die worden ten slotte geïnterpreteerd, is empirisch of simulationeel
bv onderzoeksvraag: Welke woord-eigenschappen beïnvloeden de productieve kennis van L2-woordenschat?
Combinatie tussen kwantitatieve/kwalitatieve analyse = mogelijk
Kwalitatieve analyse: enkele lezersbrieven in kranten over taal nauwgezet bestuderen: welke thema's komen aan bod?
Kwantitatieve analyse: een grote verzameling lezersbrieven (automatisch) categoriseren in die thema's, en dan een diachrone vergelijking maken.
bv onderzoeksvraag: Hoe gebruiken L2-leerders machinevertalingsapplicaties en meertalige woordenboeken?
Empirie/empirisch onderzoek
data toont de werkelijkheid, bv. hoe heeft COVID zich in Europa vs. in China verspreid?
Simulatie/simulationeel onderzoek
data toont hoe de werkelijkheid er zou uitzien volgens theorie, bv hoe snel of traag verspreidt COVID zich in een populatie van 200 mensen onder verschillende aannames?
Experimenteel onderzoek (hoort bij empirisch onderzoek)
je bouwt als onderzoeker zelf de setting waarin je je observaties doet
voordeel = strike controle over de context
Observationeel onderzoek (hoort bij empirisch onderzoek)
je vertrekt van systematische observaties van de werkelijkheid die je als onderzoeker zo min mogelijk probeert te verstoren
voordeel = ecologische validiteit
Hypothese-toetsing (hoort bij observationeel onderzoek)
theorie-gedreven onderzoek: start van een theorie, stel op basis van theorie een hypothese op, en test die aan de hand van data
bevestigd/weerlegt een hypothese
Hypothese-generatie (hoort bij observationeel onderzoek)
data-gedreven onderzoek: start van data, zoek in de data naar tendensen, vind een tendens, en bedenk een verklaring daarvoor op basis van theorie
levert een hypothese op, die je daarna op nieuwe data kan toetsen
Complexiteitsprincipe (hoort bij hypothese-toetsing)
Als er meer en minder expliciete grammaticale opties zijn, krijgen de meer expliciete opties bijna altijd de voorkeur in grammaticaal meer complexe contexten. (Rohdenburg)
bv: optionele voorzetsels worden meestal vaker gebruikt als de daaropvolgende constituent complex is
big data
veel data, maar beheersbaar met traditionele statistische technieken
Big Data
terrabites en petabites → aangepaste technieken nodig (L'Heureux et al.)
Corpus
(digitale) gestructureerde verzameling taalmateriaal, bv. krantenartikels, boeken, chatlogs, forumbijdragen, getranscribeerde en opgenomen gesprekken, lezingen, enz.
bedoeld als representatieve steekproef van (een deel van) het taalgebruik
basis van bijna alle observationele onderzoek in de taalkunde
off the shelf of zelf verzameld
laatste 20 jaar: enorme groei zowel in aantal beschikbare corpora als in grootte van de corpora
vaak copyright & GDPR-problemen
verzameling van ruwe observaties waaruit je data geëxtraheerd kan worden
Gebalanceerde corpora
poging om representatief te zijn voor het gehele taalgebruik (Corpus Gesproken Nederlands/CGN; SoNar)
Corpora met 1 register
typisch voor historische corpora
(C-CLAMP; Brieven als Buit)
Referentiecorpora
corpora die onveranderd blijven en die handig zijn voor repliceerbaarheid
(SoNaR; CGN; C-CLAMP; Brieven als Buit)
Monitorcorpora
corpora die regelmatig (vaak automatisch) groeien
(News on the Web/NOW; Corpus Hedendaags Nederlands)
Opbouw onderzoeksplan observationeel hypothesetoetsingsonderzoek
- Literatuurstudie
- Onderzoeksvraag
- Theoretische hypothese
- Operationalisatie en dataverzameling
- Statistische analyse
Literatuurstudie
onderzoek beginnen adhv lezen
Onderzoeksvraag
je kiest een vraag op basis van de literatuurstudie (of je had al een vraag):
- een vraag die nog niet beantwoord is
- een vraag die al beantwoord is, maar nog niet op de manier die je voor ogen hebt: converging/conflicting evidence
- een vraag die al beantwoord is, op exact de manier die je voor ogen hebt: replicatieonderzoek
Theoretische hypothese
concreet antwoord op de onderzoeksvraag, kan vrij direct zijn en uit de theoretische literatuur/literatuurstudie komen, kan ook zelf bedacht zijn op basis van de data
= kan principieel overal vandaan komen
Operationalisatie en dataverzameling
Testbare toepassing van de theoretische hypothese op de data = Crux van je onderzoeksplan: link theorie en methodologie
Bestaat uit twee delen
1. Afbakening: waartoe beperk ik mijn onderzoek?
2. Keuze van variabelen
1) Afbakening (hoort bij operationalisatie en dataverzameling)
- Welke.......ga ik proberen te onderzoeken?
- Keuze van corpus
- Testen van een corpus: lijk ik voldoende voorkomens te vinden die relevant zijn voor mijn onderzoek?
2) Keuze van de variabelen (hoort bij operationalisatie en dataverzameling)
- afhankelijke variabelen (= responsvariabele): ARGUMENTSCONSTRUCTIE (transitief of reflexief)
- onafhankelijke variabelen (= predictorvariabelen): variabelen die mogelijk een invloed hebben op de afhankelijke variabele
Onafhankelijke variabelen = hypothese gedreven variabelen
onafhankelijke variabelen waarvoor je een hypothese hebt die je wilt testen
Onafhankelijke variabelen = controlevariabelen
onafhankelijke variabelen waarin je bij deze studie niet echt geïnteresseerd bent, maar die redelijkerwijze wel een invloed kunnen hebben op de afhankelijke variabele en waarvoor je wil controleren
Operationalisatie: problemen
- Validiteit
- Betrouwbaarheid
- Circulariteit
- Collineariteit
Validiteit (probleem operationalisatie)
meet je meetinstrument wel wat je wil dat het meet?
Betrouwbaarheid (probleem operationalisatie)
meet je meetinstrument wel consistent in verschillende contexten?
Circulariteit (probleem operationalisatie)
wordt je onafhankelijke variabele beïnvloed door je afhankelijke variabele?
Collineariteit
onafhankelijke variabelen die sterk correleren/overlappen met elkaar, heel moeilijk om te meten welke variabele verantwoordelijk is voor het 'echte' effect → als deze variabelen hetzelfde concept operationaliseren, kan je overwegen ze samen te voegen
Statistische analyse
hoe ga je beslissen of je geoperationaliseerde hypothese bevestigd of weerlegd wordt?
Descriptieve statistiek (hoort bij statistische analyse)
samenvattingen en visualisaties van je dataset in de vorm van tabellen, grafieken, kaarten, enz.
Inferentiële statistiek (hoort bij statistische analyse)
tests die je iets vertellen over de hele 'populatie'
bv: het gebruik van de transitieve en reflexieve constructie van de psychologische werkwoorden bij Nederlandstaligen
Criteria om je corpus te kiezen
- grootte
- representativiteit
- praktische moeilijkheden eigen aan het type data
- periode
- opgenomen variëteiten en registers
- aanwezigheid metadata
- aanwezigheid taalkundige annotatie
Grootte als corpus-kies-criteria
groot genoeg om je voldoende voorkomens op te leveren
bv. een dataset van 1000-10000 voorkomens volstaat voor de meeste alternantiestudies, meer is niet noodzakelijk beter
Representativiteit als corpus-kies-criteria
afhankelijk van het type taalgebruik waarover je een uitspraak wil doen
bv. al het hedendaagse taalgebruik van Nederlandstaligen, enkel spontaan, gesproken taalgebruik, geschreven taal,...
Praktische moeilijkheden eigen aan het type data als corpus-kies-criteria
chatdata, gesproken taal, tweets,...
Periode als corpus-kies-criteria
belangrijke keuze bij historisch onderzoek
bv:
C-CLAMP: 1837-1999
Brieven als Buit: 1661-1673; 1751-1758; 1773-1783
Corpus of Historical Dutch: 1550-1850
Opgenomen variëteiten en registers als corpus-kies-criteria
Nederlands-, Belgisch- en Surinaams-Nederlands, socio/etnolecten, enz
Aanwezigheid metadata als corpus-kies-criteria
- Corpus Gesproken Nederlands: uitgebreide informatie over opleidingsniveau, beroepsniveau, geboortejaar, geboorteplaats, woonplaats, geslacht van de sprekers
- Sonar: beperkte metadata voor een deel van het materiaal
CONDIV: geen metadata
Aanwezigheid taalkundige annotatie als corpus-kies-criteria
- Syntactische annotatie SoNaR: maakt het mogelijk automatisch bv. de lengte van een constituent te bepalen, het syntactische hoofd te selecteren, te bepalen of het definiet of indefiniet is,...
- Morfologische annoatie CGN (& SoNaR): maakt het mogelijk automatisch een onderscheid te maken tussen erger als adjectief, bijwoord en werkwoord
- Annotatie bevat vaak fouten → indien mogelijk, gebruik enkel de originele tekst om voorkomens te vinden, en vervolgens de annotatie om alvast een deel van de informatie automatisch toe te voegen, zodat je die later handmatig kan controleren (gaat VEEL sneller dan handmatig toevoegen)
Voorbeelden online corpora
OpenSonar, Taalmaterialen INT, Instituut voor de Nederlandse Taal, Sketch Engine, English-corpora.org,...
Voordelen online corpora
- Gebruiksgemak voor beginnende onderzoekers of kleinschalige studies
- Compromis bij copyrightproblemen
Nadelen online corpora
- afhankelijk van organisatie die corpus beheert
- regelmatig technische problemen
- gevaar voor repliceerbaarheid: updates, wijzigingen aan corpus (soms zonder melding)
- beperkt in opzoekmogelijkheden
- beperkt in extractiemogelijkheden
- verschillende online interfaces, veranderen wel eens
Voorbeelden offline corpora
Python, AntCon, ConDiv-corpus, Moroccorp-corpus
Gevaren in dataverzameling
- dataselectie introduceert een scheeftrekking
- dubbele voorkomens en bijna dubbele voorkomens
- onzuiverheden i.d corpus
- selectiebias
Niet-authentieke dubbele voorkomens
fouten bij corpussamenstelling
bv. ondertitelcomponent bij SoNaR
Authentieke dubbele voorkomens
Spam, met name bij chatdata en internetmateriaal, en vaste/terugkerende uitdrukkingen
Centrale vraag: Mag ik op basis van mijn data concluderen dat mijn hypothese bevestigd wordt? en de fouten mogelijk
twee fouten mogelijk =
1) Type 1-fout, oftewel vals-positief: op basis van je steekproef beschouw je de hypothese als bevestigd, maar ze is niet waar in de gehele populatie
2) Type 2-fout, oftewel vals-negatief: op basis van je steekproef beschouw je de hypothese als niet bevestigd, maar ze is wel waar in de gehele populatie
vermijden van het ene type fout verhoogt steeds de kans op het andere type
Centrale vraag: Mag ik op basis van mijn data concluderen dat mijn hypothese bevestigd wordt?
Benodigdheden:
- een test = chikwadraadstest
- een score = de p-waarde
- een cesuur = de alfa waarde (kleiner/gelijk aan 0,05)
p-waarde
de kans, aangenomen dat de nulhypothese juist is in de populatie, dat we toch in onze steekproef een verdeling vinden als de onze of een nog schevere verdeling = P( D | H0 )
IS NIET de kans dat de nulhypothese H0 juist is, gegeven de verdeling in je steekproef: P( D | H0 ) ≠ P ( H0 | D )
als deze p-waarde laag is, verwerpen we de nulhypothese, en beschouwen we onze hypothese als bevestigd
alfa-waarde
de cesuur om te beslissen of we de hypothese als bevestigd of niet-bevestigd beschouwen
Bayes' theorema
P(H0 | D ) = P D H0 ) ∗ P (H0) gedeeld door P (D)
Karl Pearson (1900)
stelt Pearson's chikwadraattest formeel voor om de p-waarde te berekenen voor de samenhang tussen twee categorische variabelen
Ronald Fisher
stelt ≤ 0,05 voor als alfa-waarde
- werkte vooral in toegepast onderzoek, waar een experiment doorgaans niet herhaald werd en een praktische beslissing nodig was
- benadrukte later dat de keuze van cesuur afhankelijk is van de context
2 categorische variabelen, nodig voor de test
1) Pearsons chikwadraat
-onafhankelijkheidstoets (chisquared test of independence)
2) 2x2 tabel en de verwacht celwaarden onder de nulhypothese zijn kleiner dan 5: Fishers exacte test
Gemiddelde (centrummaat)
de som van alle waarden gedeeld door het aantal waarden
Mediaan (centrummaat)
orden alle observaties van klein naar groot en kies dan de middelste in de rij. Bij een even aantal observaties neem je het gemiddelde van de beide middelste observaties
Modus (centrummaat)
de waarde die het vaakst voorkomt. (is zelden nuttig, wordt zelden gebruikt
spreidingsmaat gebaseerd op het gemiddelde: variantie (s tot de 2de)
neem de verschillen tussen het gemiddelde en alle observaties, doe die tot de 2e macht, neem daar de som van, en deel die door het aantal observaties min 1
(tot de 2de macht doen om ze positief te maken, anders doen ze elkaar teniet, en om grote afwijkingen sterker te laten meetellen)
spreidingsmaat gebaseerd op het gemiddelde: standaardafwijking (s)
standaardafwijking oftewel standaarddeviatie: neem de vierkantswortel van de variantie
intuïtief: De standaardafwijking is de gemiddelde afwijking van het gemiddelde
deling door n - 1
leidt bijna altijd tot een variantie en een standaardafwijking die dichter licht bij de echte variantie en standaardafwijking in heel de populatie dan een deling door n bij normaal verdeelde data
spreidingsmaten gebaseerd op de mediaan: Q1
eerste kwartiel (Q1): mediaan van de laagste helft observaties
spreidingsmaten gebaseerd op de mediaan: Q3
derde kwartiel (Q3): mediaan van de hoogste helft observaties
spreidingsmaten gebaseerd op de mediaan: interkwartielafstand
verschil tussen het eerste en het derde kwartiel
spreidingsmaten gebaseerd op de mediaan: mediaan absolute afwijking (median absolute deviation, MAD)
tegenhanger van de standaardafwijking, is gebaseerd op de mediaan i.p.v. het gemiddelde
- standaardafwijking: De gemiddelde afwijking van het gemiddelde
- mediaan absolute afwijking: de mediaan afwijking van de mediaan
bereken de verschillen tussen de mediaan en alle observaties, neem de absolute waarde daarvan, en neem vervolgens de mediaan van die verschillen
Normaalverdeling
wordt volledig bepaald door gemiddelde en standaardafwijking/variantie: als je die kent, kan je voor elke waarde het aantal voorkomens berekenen (en dus de kans dat een observatie die waarde heeft)
- afwijkingen in beide richtingen zijn even waarschijnlijk
- extreme uitschieters zijn zeldzaam: des te extremer, des te zeldzamer
Hoe weten of variabele normaal verdeeld is in de populatie?
- visueel: lijkt de steekproef op een normaalverdeling?
- normaliteitstest uitvoeren op de variabele in je steekproef
- theorie: zijn er goede redenen om aan te nemen dat de variabele al dan niet normaal verdeeld is?
theorie: zijn er goede redenen om aan te nemen dat de variabele al dan niet normaal verdeeld is?
1) natuurlijke fenomenen en hun correlaten zijn doorgaans normaal verdeeld: temperatuursmetingen, lichaamslengte, IQ, testscores,...
2) woordlengte = niet
3) reactietijden = niet echt, vanwege sterkere positieve dan negatieve afwijkingen
Doosdiagram (boxplot)
wordt opgebouwd uit:
- mediaan = middellijn
- Q1 = onderkant doos
- Q3 = bovenkant doos
- interkwartielafstand = lengte van de doos
vooral populair om de verdeling van een numerische meting voor twee of meer categorieën te vergelijken
numerische variabele x categorische variabele
Histogram
- wordt voornamelijk gebruikt om de frequentieverdeling van continue data weer te geven
- verdeelt de data in verschillende intervallen en toont hoeveel waarnemingen er in elk interval vallen
- breedte van de balken in een histogram representeert de breedte van de intervallen
- hoogte van de balken geeft de frequentie of de relatieve frequentie van de data binnen dat interval weer
- worden vaak gebruikt in statistiek en data-analyse om inzicht te krijgen in de verdeling van continue variabelen, zoals leeftijd, lengte, gewicht,...
- heeft altijd een schaalverdeling heeft op de x-as
- maak je bij een continue verdeling, dit gaat altijd om kwantitatieve data (interval of ratio)
Staafdiagram
- wordt gebruikt om de verdeling van categorische data weer te geven
- toont de relatieve groottes van verschillende categorieën door middel van verticale balken
- elke balk in een staafdiagram vertegenwoordigt een categorie, en de hoogte van de balk geeft de frequentie, het percentage of een andere relevante maatstaf weer voor die categorie
- handig om patronen of trends in categorische data te visualiseren, zoals bijvoorbeeld de verdeling van de favoriete kleuren onder respondenten van een enquête
- hebben geen schaalverdeling op de x-as
- maak je bij een discrete verdeling, dit gaat bijna altijd om kwalitatieve data (nominaal of ordinaal)
Logaritme
het getal waar je een vast basisgetal tot moet verheffen om een bepaald getal te krijgen
bv: log (100, 10) = 2
2 = het kwadraat, want 10 tot de 2de is 100
bij een logaritme ga je op zoek naar de macht waartoe je het 2de getal moet verheffen om het 1ste getal te bekomen
Logaritmische transformatie
je voert deze uit omdat het makkelijker is om meer data te vergelijken, je kiest een vast basisgetal, en gaat voor elke imputdata het logaritme berekenen
bv: log (100, 10) = 2
10 als basisgetal, 100 als imput, dan word je logaritme 2
logaritme van 0 bestaat niet
Het logaritme van 0 bestaat niet, omdat er geen getal bestaat tot dewelke je een ander getal kan doen om 0 te bekomen. R geeft daarom min oneindig als resultaat
multimodaal corpus
een verzameling van gegevens die meerdere communicatiemodaliteiten omvatten, zoals spraak, gebaren, gezichtsuitdrukkingen, schriftelijke tekst, video, audio en andere vormen van communicatie
echt multimodaal corpus gaat zowel over de taal als de spraak
multimodaal corpus voorbeeld
video-opnames van gesprekken waarbij zowel de spraak als de gezichtsuitdrukkingen en handgebaren van de deelnemers worden vastgelegd. Deze data kunnen worden geanalyseerd om te begrijpen hoe mensen gebaren gebruiken om hun gesproken taal te ondersteunen of te benadrukken.
Elicitatie
wanneer je in een experiment reacties/taalgebruik gaat uitlokken en mensen in een situatie zet waarbij ze taal gaan produceren en taal en gebaren gaan gebruiken. Je probeert ze in de richting te duwen waar naar jij geïnteresseerd bent
mensen aanzetten tot het gebruiken van bepaald taalgebruik omdat dat nut heeft voor jou experiment, en in een bepaalde situatie de reacties gaan uitlokken waarnaar jij opzoek bent
Controlegroep
een controlegroep is een groep participanten in een wetenschappelijk experiment die geen behandeling of interventie ontvangt. De groep werkt als basislijn om de effecten van het experiment op de participerende groep mee te vergelijken
(dus in andere woorden, een vergelijkingsgroep die het experiment niet ondergaat, en die gebruikt wordt om de effecten van het experiment te controleren/vergelijken met de groep die het experiment wel is ondergaan)
placebo groep
ELAN
EUDICO Linguistic Annotator, is een softwareprogramma dat gebruikt wordt om audio-en videodata te annoteren
computerprogramma dat gebruikt wordt bij de notatie van de multimodale taal, verschillende gebaren en uitdrukkingen
het programma helpt bij het nauwkeurig annoteren van opnames, wat essentieel is voor het analyseren van taal en communicatie
wordt vooral gebruikt voor:
- het analyseren van gesproken talen en dialecten.
- het bestuderen van gebarentalen en multimodale communicatie
- het documenteren en archiveren van bedreigde talen.
- het onderzoeken van interacties in verschillende sociale en culturele contexten
Experimenteel onderzoek
onderzoek waarbij kwantitatieve gegevens in een gecontroleerde omgeving worden verzameld om een toetsbare hypothese volgend uit een onderzoeksvraag te beantwoorden,
je creëert een dataset in een bepaalde context, waarbij je zo veel mogelijk factoren controleert
Corpusonderzoek
je observeert het taalgebruik dat in een natuurlijke setting werd geproduceerd
Participanten
de mensen die meedoen aan een onderzoek (in dit geval het experimenteel onderzoek, en zijn de participanten de taalgebruikers)
Psycholinguïstiek
onderzoekt de cognitieve mechanismes achter taalverwerking en taalproductie en hoe taal opgeslagen en georganiseerd is in het brein
Neurolinguïstiek
onderzoekt welke hersengebieden betrokken zijn bij taalverwerking en taalproductie, en welke hersengebieden verantwoordelijk zijn voor welk deelproces
Offline onderzoek
meet de taalkundige competentie oftewel het product, kan via internet plaatsvinden (web-based)
bv. gebruikte naam voor object, correct gebruik lidwoorden
Online onderzoek
meet de taalkundige performance oftewel het proces, kan fysiek plaatsvinden (lab-based)
bv. tijd die het kost voor object benoemd is, hersenactiviteit bij, horen foutief lidwoord
Veelgebruikte manier om metingen te verrichten binnen de taalkunde zijn:
- Uitgelokte productie
- Lexicale decisie
- Self-paced reading
- Eye-tracking
- EEG
- fMRI
Uitgelokte productie (manier om metingen te verrichten i.d taalkunde)
Participanten produceren een woord of een zin die gestuurd wordt door middel van een prompt
Lexicale decisie (manier om metingen te verrichten i.d taalkunde)
Participanten moeten hun oordeel geven over een stimulus bijv. of het een bestaand woord of een non-woord is
Self-paced reading (manier om metingen te verrichten i.d taalkunde)
Participanten lezen een zin woord voor woord. We meten de reactiesnelheid: hoeveel tijd hebben participanten nodig om een woord te verwerken?
Eye-tracking (manier om meting te verrichten i.d taalkunde)
De oogbewegingen van participanten worden gevolgd. Vaak wordt eye-tracking gebruikt in combinatie met het visual world paradigma: naar welke afbeeldingen kijken participanten en vanaf wanneer alleen nog maar naar de target?
EEG (manier om metingen te verrichten i.d taalkunde)
We meten de elektrische hersenactiviteit tijdens het aanbieden van stimuli. Er wordt gebruik gemaakt van ERP's, oftewel event-related brain potentials
fMRI (manier om metingen te verrichten i.d taalkunde)
In neurolinguïstisch onderzoek wordt de locatie en mate van hersenactiviteit gemeten tijdens de verwerking van taal