Статистика 101

0.0(0)
studied byStudied by 0 people
0.0(0)
full-widthCall Kai
learnLearn
examPractice Test
spaced repetitionSpaced Repetition
heart puzzleMatch
flashcardsFlashcards
GameKnowt Play
Card Sorting

1/120

flashcard set

Earn XP

Description and Tags

Study Analytics
Name
Mastery
Learn
Test
Matching
Spaced

No study sessions yet.

121 Terms

1
New cards

"Які дві групи, найбільш схильні до заниження середнього заробітку, були пропущені у вибірці випускників Єльського університету 1924 року в книзі ""Як брехати зі статистикою""?"

Групи, чиї адреси були невідомі, та ті, хто не бажав повідомляти про свої доходи.

2
New cards

Що таке описова статистика?

Галузь статистики, що займається організацією та узагальненням даних у вигляді таблиць, графіків та числових показників.

3
New cards

Що таке інференційна (статистика висновків)?

Галузь статистики, яка використовує дані з вибірки для узагальнень та висновків про всю популяцію.

4
New cards

Які дані називаються якісними (категоріальними)?

Дані, що є результатом категоризації або опису атрибутів популяції, наприклад, колір волосся або група крові.

5
New cards

Що таке кількісні дані?

Дані, які завжди є числами і є результатом підрахунку або вимірювання атрибутів.

6
New cards

Що таке вибіркове упередження (bias)?

Систематична помилка у вибірці, через яку деякі члени популяції мають більшу ймовірність бути обраними, ніж інші, що призводить до спотворених результатів.

7
New cards

Який тип упередження виникає, коли опитування проводяться вдень від дверей до дверей?

Упередження проти працюючих людей, оскільки їх переважно немає вдома.

8
New cards

Що таке середнє арифметичне (mean)?

Число, що вимірює центральну тенденцію даних; сума всіх значень, поділена на кількість значень.

9
New cards

Символ $\bar{x}$ позначає середнє значення для _____, а символ $\mu$ позначає середнє значення для _____.

вибірки; популяції

10
New cards

Що таке медіана (median)?

Значення, що поділяє впорядкований набір даних навпіл; половина значень менша або дорівнює медіані, а інша половина — більша або дорівнює.

11
New cards

Що таке мода (mode)?

Значення, яке найчастіше зустрічається у наборі даних.

12
New cards

Що таке викид (outlier) у статистиці?

Спостереження, яке значно відрізняється від інших даних у наборі.

13
New cards

Назвіть чотири основні методи випадкової вибірки.

Проста випадкова, систематична, стратифікована та кластерна вибірка.

14
New cards

Який метод вибірки є невипадковим і часто призводить до упереджених даних?

Зручна вибірка (convenience sampling).

15
New cards

Що таке відносна частота (relative frequency)?

Частка (або відсоток) спостережень, що потрапляють у певну категорію чи клас; розраховується як частота, поділена на загальну кількість спостережень.

16
New cards

Що таке дисперсія (variance)?

Середнє значення квадратів відхилень від середнього арифметичного, що вимірює розкид даних.

17
New cards

Символ $s^2$ позначає дисперсію для _____, а символ $\sigma^2$ позначає дисперсію для _____.

вибірки; популяції

18
New cards

Що таке стандартне відхилення (standard deviation)?

Міра розсіювання даних, що дорівнює квадратному кореню з дисперсії.

19
New cards

Що таке z-оцінка (z-score)?

Стандартизована оцінка, яка показує, на скільки стандартних відхилень певне значення відхиляється від середнього.

20
New cards

Які середнє значення та стандартне відхилення має стандартний нормальний розподіл?

Середнє значення дорівнює 0, а стандартне відхилення — 1.

21
New cards

У теорії ймовірностей, якщо подія є неможливою, її ймовірність дорівнює _____.

0

22
New cards

У теорії ймовірностей, якщо подія є достовірною (відбудеться напевно), її ймовірність дорівнює _____.

1

23
New cards

Що таке біноміальний експеримент (дослід Бернуллі)?

Статистичний експеримент, що має фіксовану кількість незалежних випробувань, лише два можливі результати («успіх» і «невдача») та однакову ймовірність успіху для кожного випробування.

24
New cards

Що таке центральна гранична теорема?

Теорема, яка стверджує, що розподіл вибіркових середніх наближається до нормального розподілу при збільшенні розміру вибірки, незалежно від форми розподілу популяції.

25
New cards

Що таке довірчий інтервал (confidence interval)?

Діапазон значень, який, імовірно, містить істинний параметр популяції з певним рівнем довіри.

26
New cards

Що таке похибка (margin of error) у довірчому інтервалі?

Величина, що додається та віднімається від точкової оцінки для створення довірчого інтервалу; показує точність оцінки.

27
New cards

Що таке нульова гіпотеза ($H_0$)?

Твердження про відсутність ефекту або різниці, яке дослідник намагається спростувати.

28
New cards

Що таке альтернативна гіпотеза ($H_a$ або $H_1$)?

Твердження, яке дослідник хоче довести, і яке суперечить нульовій гіпотезі.

29
New cards

Що таке р-значення (p-value)?

Ймовірність отримати спостережувані або ще більш екстремальні результати, якщо нульова гіпотеза є істинною.

30
New cards

Якщо p-значення менше за рівень значущості ($\alpha$), яке рішення приймається щодо нульової гіпотези?

Нульова гіпотеза відхиляється.

31
New cards

Що таке помилка першого роду (Type I error) у перевірці гіпотез?

Відхилення істинної нульової гіпотези.

32
New cards

Що таке помилка другого роду (Type II error) у перевірці гіпотез?

Неспроможність відхилити хибну нульову гіпотезу.

33
New cards

Що таке статистична потужність (statistical power)?

Ймовірність правильно відхилити хибну нульову гіпотезу (тобто уникнути помилки другого роду).

34
New cards

Тест гіпотези, де альтернативна гіпотеза стверджує, що параметр 'більший' або 'менший' за певне значення, називається _____.

одностороннім (one-tailed) тестом

35
New cards

Тест гіпотези, де альтернативна гіпотеза стверджує, що параметр 'не дорівнює' певному значенню, називається _____.

двостороннім (two-tailed) тестом

36
New cards

Для чого використовується t-тест (t-test)?

Для порівняння середніх значень однієї або двох груп, коли стандартне відхилення популяції невідоме, а розмір вибірки малий.

37
New cards

Для чого використовується дисперсійний аналіз (ANOVA)?

Для порівняння середніх значень трьох або більше груп, щоб визначити, чи існує статистично значуща різниця між ними.

38
New cards

Що таке F-відношення (F-ratio) в ANOVA?

Статистика, що обчислюється як відношення варіабельності між групами до варіабельності всередині груп.

39
New cards

Для чого використовується критерій хі-квадрат (chi-square test)?

Для визначення, чи існує значущий зв'язок між двома категоріальними змінними, або чи відповідає спостережуваний розподіл очікуваному.

40
New cards

Що таке кореляція?

Статистична міра, яка виражає ступінь, до якого дві змінні лінійно пов'язані (тобто вони змінюються разом із постійною швидкістю).

41
New cards

Що означає, коли кажуть, що кореляція не означає _____?

причинно-наслідкового зв'язку (causation)

42
New cards

Що таке лінійна регресія?

Статистичний метод моделювання зв'язку між залежною змінною та однією або кількома незалежними змінними шляхом підгонки лінійного рівняння до спостережуваних даних.

43
New cards

Що таке лінія найкращої відповідності (best-fit line) у регресійному аналізі?

Лінія, яка найкраще представляє дані на діаграмі розсіювання, зазвичай визначена методом найменших квадратів.

44
New cards

Що таке коефіцієнт детермінації ($r^2$)?

Частка дисперсії залежної змінної, яку можна передбачити на основі незалежної змінної (змінних) у регресійній моделі.

45
New cards

Яка головна проблема з графіками, що починають вертикальну вісь не з нуля, а, наприклад, з 90%?

Вони візуально перебільшують незначні зміни, створюючи хибне враження про їхню величину.

46
New cards

Пастка хибного відкриття (false discovery rate) - це частка статистично значущих результатів, які насправді є _____.

хибнопозитивними (false positives)

47
New cards

Яку проблему створює проведення багатьох порівнянь у дослідженні без відповідної корекції?

Це значно збільшує ймовірність отримання хибнопозитивного результату (помилки першого роду) через випадковість.

48
New cards

Що таке інформаційна асиметрія?

Ситуація, в якій одна сторона угоди має більше або кращу інформацію, ніж інша, що створює нерівновагу влади.

49
New cards

"Згідно з ""Фрікономікою"", чому агенти з нерухомості продають власні будинки довше і дорожче, ніж будинки своїх клієнтів?"

Через різницю в стимулах: додатковий прибуток для агента від вищої ціни будинку клієнта незначний, тоді як для власного будинку він є суттєвим.

50
New cards

"Згідно з ""Фактологією"", яка головна причина прогнозованого зростання населення світу на 4 мільярди до 2100 року?"

Збільшення кількості дорослих (віком від 15 до 74 років), а не дітей.

51
New cards

"Який інстинкт, за Гансом Рослінгом, змушує нас поділяти світ на два табори: ""ми"" і ""вони"", або ""розвинені країни"" і ""країни, що розвиваються""?"

Інстинкт розриву (The Gap Instinct).

52
New cards

Замість поділу на два рівні, Ганс Рослінг пропонує модель з чотирма рівнями доходу. На якому рівні зараз проживає більшість населення світу?

На середніх рівнях доходу (рівні 2 і 3).

53
New cards

Який інстинкт змушує нас вірити, що все стає гіршим, через вибіркове висвітлення негативних новин у ЗМІ?

Інстинкт негативізму (The Negativity Instinct).

54
New cards

Що показує графік середньої кількості дітей на одну жінку у світі з 1965 року до сьогодні?

Різке зниження з приблизно 5 дітей до менш ніж 2,5 дитини.

55
New cards

Який інстинкт змушує нас припускати, що тенденції, які ми спостерігаємо, продовжуватимуться по прямій лінії?

Інстинкт прямої лінії (The Straight Line Instinct).

56
New cards

Що є більш небезпечним з точки зору глобальної смертності: стихійні лиха чи діарея?

Діарея, хоча стихійні лиха викликають більше страху та уваги ЗМІ.

57
New cards

"Чому, згідно з ""Фактологією"", не варто порівнювати абсолютні числа (наприклад, викиди CO2), а треба дивитися на коефіцієнти на душу населення?"

Тому що коефіцієнти на душу населення дають змогу коректно порівнювати групи різного розміру і показують більш реальну картину.

58
New cards

Який інстинкт змушує нас робити неправильні узагальнення на основі яскравих прикладів або стереотипів?

Інстинкт узагальнення (The Generalization Instinct).

59
New cards

"Згідно з ""Фактологією"", чому важливо оновлювати свої знання про світ?"

Світ постійно змінюється, і застарілі дані призводять до хибного світогляду та неправильних рішень.

60
New cards

Який інстинкт змушує нас шукати винних, коли щось йде не так, замість того, щоб аналізувати систему та складні причини?

Інстинкт провини (The Blame Instinct).

61
New cards

"Який інстинкт змушує нас приймати поспішні рішення під тиском відчуття ""зараз або ніколи""?"

Інстинкт терміновості (The Urgency Instinct).

62
New cards

"У ""Суперфрікономіці"" дослідження Джона Ліста з грою ""Диктатор"" показало, що люди поводяться альтруїстично, коли за ними спостерігають, але стають егоїстичними, коли можуть _____ свої гроші."

забрати (або вкрасти)

63
New cards

"Чому, згідно з ""Суперфрікономікою"", вуличні повії заробляють значно менше, ніж елітні, незважаючи на те, що ризикують більше?"

Через наявність сутенера, який забирає значну частину їхнього заробітку.

64
New cards

"Згідно з ""Фрікономікою"", що було справжньою причиною падіння злочинності в США у 1990-х роках?"

Легалізація абортів у 1973 році, що призвела до народження меншої кількості дітей у несприятливих умовах.

65
New cards

"Як дослідники ""Фрікономіки"" виявили шахрайство вчителів у Чикаго?"

За допомогою алгоритму, який аналізував нетипові патерни відповідей у тестах учнів (наприклад, однакові неправильні відповіді на складні запитання).

66
New cards

"Чому, за даними ""Фрікономіки"", більшість вуличних наркоторговців живуть зі своїми матерями, незважаючи на міф про величезні прибутки?"

"Структура наркокартелю схожа на корпорацію, де лише верхівка отримує великі гроші, а рядові ""піхотинці"" заробляють мало і сильно ризикують."

67
New cards

Що таке регресійний аналіз?

Статистичний метод, який дозволяє дослідити зв'язок між однією залежною змінною та однією або кількома незалежними змінними.

68
New cards

Який метод використовується для знаходження лінії найкращої відповідності в регресійному аналізі?

Метод найменших квадратів, який мінімізує суму квадратів вертикальних відстаней від точок даних до лінії.

69
New cards

Що таке дискретна змінна?

Змінна, яка може приймати лише певні, зазвичай цілочисельні, значення (наприклад, кількість дітей у сім'ї).

70
New cards

Що таке неперервна змінна?

Змінна, яка може приймати будь-яке значення в межах певного діапазону (наприклад, зріст або вага).

71
New cards

Що таке номінальний рівень вимірювання?

Рівень вимірювання, при якому дані класифікуються за категоріями без природного порядку (наприклад, марки автомобілів).

72
New cards

Що таке порядковий (ординальний) рівень вимірювання?

Рівень вимірювання, при якому дані можна впорядкувати, але різниця між значеннями не є значущою (наприклад, рівень освіти: середній, вищий).

73
New cards

Що таке інтервальний/відносний рівень вимірювання?

Рівень вимірювання, при якому дані мають упорядкованість, рівні інтервали між значеннями та (для відносного) значущий нуль (наприклад, температура, дохід).

74
New cards

Як впливає збільшення розміру вибірки на ширину довірчого інтервалу?

Збільшення розміру вибірки робить довірчий інтервал вужчим (точнішим).

75
New cards

"Яка проблема виникає при дихотомізації неперервних змінних (наприклад, поділ пацієнтів на ""надмірну вагу"" та ""нормальну"")?"

Це призводить до втрати інформації та зниження статистичної потужності.

76
New cards

Чому публікаційна упередженість (publication bias) є проблемою в науці?

Тому що дослідження зі статистично значущими результатами мають більше шансів бути опублікованими, що створює спотворене уявлення про справжній ефект.

77
New cards

Що таке p-hacking?

Практика маніпулювання даними або аналізом (наприклад, виключення викидів, спроба різних статистичних тестів) доти, доки не буде отримано статистично значущий результат (p < 0.05).

78
New cards

У контексті перевірки гіпотез, що таке рівень значущості $\alpha$?

Поріг ймовірності (зазвичай 0.05), який використовується для прийняття рішення про відхилення нульової гіпотези; це також ймовірність помилки першого роду.

79
New cards

Для чого використовується тест Тьюкі (Tukey's HSD test) після ANOVA?

Для проведення множинних порівнянь, щоб визначити, які саме середні груп статистично значуще відрізняються одна від одної.

80
New cards

Що таке стандартизований розмір ефекту, наприклад, d Коена?

Міра, яка описує величину різниці між групами в одиницях стандартного відхилення, що дозволяє порівнювати результати різних досліджень.

81
New cards

У чому полягає основна відмінність між незалежними та залежними (парними) вибірками?

У незалежних вибірках спостереження в одній групі не пов'язані зі спостереженнями в іншій, тоді як у залежних вибірках кожне спостереження в одній групі має відповідне спостереження в іншій (наприклад, вимірювання до і після).

82
New cards

"Чому, згідно з ""Суперфрікономікою"", хіміотерапія залишається поширеним методом лікування раку, незважаючи на її часто низьку ефективність і високу токсичність?"

Через фінансові стимули для онкологів та лікарень, а також через надію пацієнтів, навіть якщо шанси на успіх невеликі.

83
New cards

"Згідно з ""Фактологією"", як змінилася кількість смертей від стихійних лих за останнє століття?"

Зменшилася більш ніж удвічі завдяки кращим системам попередження, інфраструктурі та реагуванню на надзвичайні ситуації.

84
New cards

Що таке відтворюваність (reproducibility) у науковому дослідженні?

Здатність іншого дослідника отримати ті самі результати, використовуючи ті самі вихідні дані та методи аналізу.

85
New cards

Що таке кумулятивна перевага (cumulative advantage)?

"Принцип, за яким початковий успіх або перевага призводить до подальших можливостей і успіхів, створюючи ефект ""снігової кулі""."

86
New cards

"Згідно з ""Суперфрікономікою"", чому легалізація проституції може призвести до зниження заробітків для деяких повій, таких як Еллі?"

Тому що високі заробітки частково зумовлені премією за ризик і нелегальність; легалізація збільшить пропозицію та знизить ціни.

87
New cards

Що таке ефект плацебо?

Позитивний терапевтичний ефект, що виникає внаслідок віри пацієнта в ефективність лікування, навіть якщо воно не має активної діючої речовини.

88
New cards

Що таке сліпе рандомізоване контрольоване дослідження (blind randomized controlled trial)?

Експериментальний дизайн, де учасники випадковим чином розподіляються на групи (лікування та контроль), і вони не знають, до якої групи належать, щоб мінімізувати упередження.

89
New cards

"Чому згідно з ""Як брехати зі статистикою"", варто запитувати ""Середнє чого?"" при аналізі даних про середню заробітну плату?"

Тому що до середнього можуть бути включені або виключені певні групи (наприклад, частково зайняті, керівники), що суттєво впливає на кінцевий результат.

90
New cards

Що таке confounding variable (змішана змінна)?

Третя змінна, яка пов'язана як з незалежною, так і з залежною змінною, і може створювати хибний зв'язок між ними.

91
New cards

Що таке негативна екстерналія?

Витрати, які третя сторона несе внаслідок економічної діяльності, в якій вона не бере участі (наприклад, забруднення навколишнього середовища).

92
New cards

У дослідженні, де респондентів запитують про їхні читацькі звички, чому результати можуть показати, що журнал Harper's є значно популярнішим за True Story, хоча дані про тираж свідчать про протилежне?

Респонденти схильні давати соціально бажані відповіді, щоб виглядати більш інтелектуально розвиненими.

93
New cards

У чому полягає головна небезпека використання середнього арифметичного (mean) для опису зарплат у великій корпорації з ієрархічною структурою?

Декілька дуже високих зарплат топ-менеджерів можуть значно завищити середнє значення, створюючи хибне враження про типову зарплату.

94
New cards

Який метод графічного обману використовується, коли незначне зростання (наприклад, з $19,500,000 до $20,200,000) зображується як стрімкий злет від нижньої до верхньої частини графіка?

Усічення осі Y, тобто початок шкали не з нуля, а зі значно вищого значення (наприклад, $19,000,000).

95
New cards

Якщо дослідник проводить тест гіпотез і отримує $p$-значення $0.1799$ при рівні значущості $\alpha = 0.05$, яке рішення він має прийняти щодо нульової гіпотези ($H_0$)?

Не відхиляти $H_0$, оскільки отримані дані не є достатньо незвичайними, щоб спростувати її.

96
New cards

Що таке коефіцієнт детермінації ($r^2$) в контексті лінійної регресії?

Частка загальної варіативності залежної змінної, яку можна пояснити її лінійним зв'язком з незалежною змінною.

97
New cards

У чому полягає «помилка базового відсотка» (base rate fallacy) при інтерпретації результатів медичного тестування або наукових експериментів?

В ігноруванні початкової ймовірності (поширеності) явища при оцінці нових доказів.

98
New cards

Яка головна причина того, що, згідно з прогнозами ООН, населення світу до 2100 року збільшиться ще на 4 мільярди людей?

Збільшиться кількість дорослих у віці від 15 до 74 років.

99
New cards

Що виявило дослідження ринку нерухомості, порівнюючи продаж будинків, що належали самим агентам, і будинків, що належали їхнім клієнтам?

Агенти тримали власні будинки на ринку довше і продавали їх за вищою ціною, ніж будинки клієнтів.

100
New cards

Згідно з аналізом даних про борців сумо, який статистичний показник вказував на можливе шахрайство у поєдинках останнього дня турніру?

Борці з результатом 7 перемог і 7 поразок перемагали своїх опонентів з результатом 8-6 приблизно у 80% випадків.