Статистика 101 | Quizlet

0.0(0)
studied byStudied by 0 people
0.0(0)
full-widthCall Kai
learnLearn
examPractice Test
spaced repetitionSpaced Repetition
heart puzzleMatch
flashcardsFlashcards
GameKnowt Play
Card Sorting

1/78

flashcard set

Earn XP

Description and Tags

Study Analytics
Name
Mastery
Learn
Test
Matching
Spaced

No study sessions yet.

79 Terms

1
New cards

Який термін описує систематичну помилку в статистичних даних?

Зміщення (Bias).

2
New cards

Що таке нульова гіпотеза ($H_0$)?

Це твердження про відсутність ефекту або різниці, яке дослідник намагається спростувати.

3
New cards

Як називається помилка, коли ми відхиляємо істинну нульову гіпотезу?

Помилка першого роду (Type I error).

4
New cards

Помилка, коли ми не можемо відхилити хибну нульову гіпотезу, називається _____.

Помилка другого роду (Type II error).

5
New cards

Що вимірює p-значення (p-value)?

Ймовірність отримати спостережувані результати (або ще більш екстремальні) за умови, що нульова гіпотеза є істинною.

6
New cards

Що таке центральна гранична теорема?

Теорема, згідно з якою розподіл вибіркових середніх наближається до нормального розподілу при збільшенні розміру вибірки, незалежно від форми розподілу генеральної сукупності.

7
New cards

Як називається процедура, коли дослідники публічно заявляють, що вони планують робити і як аналізувати результати, ще до проведення випробування?

Попередня реєстрація (preregistration).

8
New cards

Упередження, за якого дослідження з позитивними або статистично значущими результатами мають більше шансів бути опублікованими, ніж дослідження з негативними результатами, називається _____.

Публікаційне упередження (publication bias).

9
New cards

Яка помилка вибірки виникає, коли вибірка не є випадково обраною з усієї сукупності?

Зміщення вибірки (sampling bias).

10
New cards

Чому опитування 'Literary Digest' у 1936 році дало вкрай неточний прогноз результатів президентських виборів?

Через зміщення вибірки: респондентів обирали за автомобільними реєстраціями та телефонними довідниками, що представляло більш заможну частину населення.

11
New cards

Як називається груба міра середньої кількості, на яку спостереження відхиляються від свого середнього значення?

Стандартне відхилення (Standard Deviation).

12
New cards

Що таке дисперсія (variance)?

Середнє арифметичне квадратів відхилень значень від їхнього середнього.

13
New cards

Яка міра центральної тенденції є значенням, що ділить відсортований набір даних навпіл?

Медіана.

14
New cards

Що таке мода в наборі даних?

Значення, яке зустрічається найчастіше.

15
New cards

Термін 'регресія до середнього' означає тенденцію, за якою _____.

Екстремальні значення при повторному вимірюванні мають тенденцію наближатися до середнього.

16
New cards

Що таке діаграма розсіювання (scatterplot)?

Графік, який відображає зв'язок між двома кількісними змінними, де кожна точка представляє одне спостереження.

17
New cards

Що вимірює коефіцієнт кореляції '$r$?

Силу та напрямок лінійного зв'язку між двома кількісними змінними.

18
New cards

Якого значення набуває коефіцієнт кореляції '$r$' при ідеальній позитивній лінійній залежності?

+1.

19
New cards

Що означає фраза 'кореляція не означає причинно-наслідкового зв'язку'?

Наявність зв'язку між двома змінними не доводить, що одна змінна є причиною змін в іншій.

20
New cards

Як називається метод, що використовується для моделювання зв'язку між залежною змінною та однією чи кількома незалежними змінними?

Регресійний аналіз.

21
New cards

Що таке викид (outlier) у наборі даних?

Спостереження, яке значно відрізняється від інших спостережень у наборі даних.

22
New cards

Який принцип стверджує, що якість висновків статистичного аналізу залежить від якості вхідних даних?

Принцип 'Сміття на вході, сміття на виході' (Garbage in, garbage out).

23
New cards

Назвіть графік, який використовується для візуалізації розподілу однієї числової змінної шляхом групування даних у 'кошики' (bins).

Гістограма.

24
New cards

Що таке квартилі?

Три точки (25-й, 50-й та 75-й процентилі), які ділять відсортований набір даних на чотири рівні частини.

25
New cards

Для візуалізації зв'язку між числовою та категоріальною змінними часто використовують _____.

Коробкові діаграми (boxplots) або скрипкові діаграми (violin plots).

26
New cards

Як називається таблиця, що узагальнює дані для двох категоріальних змінних, показуючи кількість спостережень для кожної комбінації категорій?

Таблиця спряженості (contingency table).

27
New cards

У машинному навчанні, як називається проблема, коли модель дуже добре працює на тренувальних даних, але погано узагальнює нові дані?

Перенавчання (overfitting).

28
New cards

Для чого в машинному навчанні дані зазвичай поділяють на тренувальну та тестову вибірки?

Для оцінки здатності моделі узагальнювати результати на нових, не бачених раніше даних.

29
New cards

Що таке A/B тестування?

Контрольований експеримент з двома варіантами (A і B), який використовується для порівняння двох версій чогось, щоб визначити, яка з них є ефективнішою.

30
New cards

Яка міра оцінки моделі класифікації показує частку правильно класифікованих об'єктів?

Точність (Accuracy).

31
New cards

Що таке матриця помилок (confusion matrix)?

Таблиця, що показує кількість правильних і неправильних прогнозів, розбитих за кожним класом.

32
New cards

Назвіть метод класифікації, який прогнозує клас нового об'єкта на основі класу більшості з його 'k' найближчих сусідів.

Метод k-найближчих сусідів (K-Nearest Neighbors, KNN).

33
New cards

Як називається деревоподібна модель рішень та їхніх можливих наслідків, що використовується для класифікації?

Дерево рішень (Decision Tree).

34
New cards

Що таке бустинг (boosting) у машинному навчанні?

Ансамблевий метод, який послідовно будує моделі, де кожна наступна модель намагається виправити помилки попередньої.

35
New cards

Який метод навчання без вчителя використовується для групування схожих об'єктів у наборі даних?

Кластеризація (Clustering).

36
New cards

Що таке бажання видавати бажане за дійсне (wishful thinking) у контексті аналізу даних?

Тенденція інтерпретувати інформацію таким чином, щоб вона підтверджувала заздалегідь бажаний висновок.

37
New cards

Яку метрику використовують для кількісної оцінки нерівності, наприклад, у розподілі доходів чи багатства?

Індекс Джині (Gini index).

38
New cards

Який термін означає полювання за закономірностями в даних без попередньої гіпотези, що може призвести до хибних висновків?

Підглядання в дані (data snooping).

39
New cards

Що таке ресемплінг (resampling)?

Процес багаторазового взяття вибірок із спостережуваних даних для оцінки невизначеності статистики або для перевірки гіпотез.

40
New cards

Бутстреп (bootstrap) — це техніка ресемплінгу, де вибірки беруться _____ з оригінального набору даних.

з поверненням

41
New cards

Який тест зазвичай використовується для перевірки гіпотези про те, чи є значуща різниця між середніми двох незалежних груп?

t-тест для двох незалежних вибірок.

42
New cards

Для порівняння середніх значень трьох або більше груп використовується статистичний тест під назвою _____.

Дисперсійний аналіз (ANOVA).

43
New cards

Який тест використовується для визначення, чи існує статистично значущий зв'язок між двома категоріальними змінними?

Хі-квадрат тест ($\chi^2$).

44
New cards

Який тип даних має категорії, що не мають природного порядку (наприклад, кольори або марки автомобілів)?

Номінальні дані (Nominal data).

45
New cards

Дані, категорії яких можна впорядкувати, але відстані між ними не є значущими, називаються _____.

Порядковими даними (Ordinal data).

46
New cards

Що таке стандартизована оцінка (z-score)?

Міра, що показує, на скільки стандартних відхилень певне значення відрізняється від середнього значення розподілу.

47
New cards

Який термін використовується для оцінки розміру ефекту, що виражає різницю між двома середніми у одиницях стандартного відхилення?

d Коена (Cohen's d).

48
New cards

Ефект, за якого опублікованими стають лише статистично значущі результати, що призводить до хибного уявлення про досліджуване явище, називається _____.

Ефект картотечної шафи (file drawer effect).

49
New cards

Що таке мультиколінеарність у регресійному аналізі?

Ситуація, коли дві або більше незалежні змінні в моделі множинної регресії сильно корелюють між собою.

50
New cards

Який коефіцієнт у множинній регресії показує, яка частка дисперсії залежної змінної пояснюється незалежними змінними?

Коефіцієнт детермінації ($R^2$).

51
New cards

Що таке логістична регресія?

Статистичний метод, який використовується для прогнозування ймовірності бінарного результату (наприклад, так/ні, 1/0).

52
New cards

У логістичній регресії, _____ є відношенням ймовірності успіху до ймовірності невдачі.

Шанси (Odds).

53
New cards

Що таке залишки (residuals) у регресійному аналізі?

Різниця між спостережуваним значенням залежної змінної та значенням, передбаченим моделлю.

54
New cards

Як називається змінна, яка впливає як на незалежну, так і на залежну змінну, створюючи хибний зв'язок між ними?

Змішана змінна (confounding variable).

55
New cards

Що таке статистична потужність (statistical power) тесту?

Ймовірність правильно відхилити хибну нульову гіпотезу (тобто уникнути помилки другого роду).

56
New cards

Стандартна помилка середнього ($SE_{\bar{x}}$) вимірює _____.

Очікувану мінливість вибіркових середніх навколо середнього генеральної сукупності.

57
New cards

Яка діаграма використовується для представлення частот або пропорцій для кожної категорії у вигляді стовпців?

Стовпчаста діаграма (Bar chart).

58
New cards

У якому типі тестування (однобічному чи двобічному) ми перевіряємо наявність ефекту в певному напрямку?

В однобічному (one-tailed) тестуванні.

59
New cards

Що таке міжквартильний розмах (IQR)?

Різниця між третім (75-й процентиль) і першим (25-й процентиль) квартилями.

60
New cards

Що є основною метою 'кризи відтворюваності' (replication crisis) в науці?

Підвищення надійності та прозорості наукових досліджень через повторення експериментів та валідацію результатів.

61
New cards

Що таке статистична дискримінація (statistical discrimination)?

Використання групових статистичних даних для прийняття рішень щодо окремих осіб, що може бути правильним в середньому, але несправедливим у конкретному випадку.

62
New cards

Який принцип стверджує, що для порівняння ефекту лікування необхідна група, яка не отримує цього лікування?

Принцип наявності контрольної групи.

63
New cards

Що таке стандартизація (нормалізація) даних?

Процес перетворення даних для приведення їх до спільного масштабу, часто шляхом обчислення z-оцінок.

64
New cards

Як називається модель, що використовувалася на Уолл-стріт для оцінки ризиків перед фінансовою кризою 2008 року і виявилася неефективною?

Модель 'Вартість під ризиком' (Value at Risk, VaR).

65
New cards

Чому великий розмір вибірки не виправляє зміщення вибірки?

Тому що велика зміщена вибірка лише дає дуже точну оцінку неправильної відповіді.

66
New cards

Що таке ефект взаємодії (interaction effect) у двофакторному дисперсійному аналізі?

Ситуація, коли вплив одного фактора на залежну змінну змінюється залежно від рівня іншого фактора.

67
New cards

Як називається тест, що використовується для попарного порівняння середніх після значущого результату ANOVA?

Тест Тьюкі (Tukey's HSD test).

68
New cards

Що таке частка поясненої дисперсії, що використовується для оцінки розміру ефекту в ANOVA?

Ета-квадрат ($\eta^2$).

69
New cards

Назвіть непараметричний аналог t-тесту для двох незалежних вибірок.

U-критерій Манна-Уітні.

70
New cards

Який непараметричний тест є аналогом однофакторного ANOVA?

Тест Крускала-Уолліса (Kruskal-Wallis H test).

71
New cards

Що таке вибірка з поверненням (sampling with replacement)?

Процедура, за якою кожен обраний елемент повертається до сукупності перед наступним вибором, що дозволяє обирати його повторно.

72
New cards

Як називається спостереження, відсутність якого суттєво змінює рівняння регресії?

Впливове спостереження (influential observation).

73
New cards

Що є головною перевагою ієрархічної кластеризації над k-середніми?

Вона не вимагає попереднього визначення кількості кластерів і створює візуально зрозумілу дендрограму.

74
New cards

Яка процедура використовується для зменшення кількості змінних у наборі даних шляхом створення нових, некорельованих змінних, що називаються головними компонентами?

Аналіз головних компонент (Principal Component Analysis, PCA).

75
New cards

Що таке 'випадковий ліс' (random forest) у машинному навчанні?

Ансамблевий метод, який створює багато дерев рішень і усереднює їхні прогнози для підвищення точності та уникнення перенавчання.

76
New cards

Що таке лог-шанси (log odds) у логістичній регресії?

Натуральний логарифм шансів, який використовується для лінеаризації моделі та дозволяє ймовірності змінюватися від 0 до 1.

77
New cards

У якому підході до аналізу даних дослідник спочатку формулює гіпотезу, а потім збирає дані для її перевірки?

У конфірматорному аналізі даних (confirmatory data analysis).

78
New cards

Який підхід до аналізу даних фокусується на виявленні закономірностей та формулюванні гіпотез на основі наявних даних?

Розвідувальний аналіз даних (exploratory data analysis).

79
New cards

Яка філософська проблема виникає через те, що можна знайти безліч теорій, які відповідають будь-якому набору даних?

Проблема недовизначеності теорії даними (underdetermination).