1/78
Name | Mastery | Learn | Test | Matching | Spaced |
|---|
No study sessions yet.
Який термін описує систематичну помилку в статистичних даних?
Зміщення (Bias).
Що таке нульова гіпотеза ($H_0$)?
Це твердження про відсутність ефекту або різниці, яке дослідник намагається спростувати.
Як називається помилка, коли ми відхиляємо істинну нульову гіпотезу?
Помилка першого роду (Type I error).
Помилка, коли ми не можемо відхилити хибну нульову гіпотезу, називається _____.
Помилка другого роду (Type II error).
Що вимірює p-значення (p-value)?
Ймовірність отримати спостережувані результати (або ще більш екстремальні) за умови, що нульова гіпотеза є істинною.
Що таке центральна гранична теорема?
Теорема, згідно з якою розподіл вибіркових середніх наближається до нормального розподілу при збільшенні розміру вибірки, незалежно від форми розподілу генеральної сукупності.
Як називається процедура, коли дослідники публічно заявляють, що вони планують робити і як аналізувати результати, ще до проведення випробування?
Попередня реєстрація (preregistration).
Упередження, за якого дослідження з позитивними або статистично значущими результатами мають більше шансів бути опублікованими, ніж дослідження з негативними результатами, називається _____.
Публікаційне упередження (publication bias).
Яка помилка вибірки виникає, коли вибірка не є випадково обраною з усієї сукупності?
Зміщення вибірки (sampling bias).
Чому опитування 'Literary Digest' у 1936 році дало вкрай неточний прогноз результатів президентських виборів?
Через зміщення вибірки: респондентів обирали за автомобільними реєстраціями та телефонними довідниками, що представляло більш заможну частину населення.
Як називається груба міра середньої кількості, на яку спостереження відхиляються від свого середнього значення?
Стандартне відхилення (Standard Deviation).
Що таке дисперсія (variance)?
Середнє арифметичне квадратів відхилень значень від їхнього середнього.
Яка міра центральної тенденції є значенням, що ділить відсортований набір даних навпіл?
Медіана.
Що таке мода в наборі даних?
Значення, яке зустрічається найчастіше.
Термін 'регресія до середнього' означає тенденцію, за якою _____.
Екстремальні значення при повторному вимірюванні мають тенденцію наближатися до середнього.
Що таке діаграма розсіювання (scatterplot)?
Графік, який відображає зв'язок між двома кількісними змінними, де кожна точка представляє одне спостереження.
Що вимірює коефіцієнт кореляції '$r$?
Силу та напрямок лінійного зв'язку між двома кількісними змінними.
Якого значення набуває коефіцієнт кореляції '$r$' при ідеальній позитивній лінійній залежності?
+1.
Що означає фраза 'кореляція не означає причинно-наслідкового зв'язку'?
Наявність зв'язку між двома змінними не доводить, що одна змінна є причиною змін в іншій.
Як називається метод, що використовується для моделювання зв'язку між залежною змінною та однією чи кількома незалежними змінними?
Регресійний аналіз.
Що таке викид (outlier) у наборі даних?
Спостереження, яке значно відрізняється від інших спостережень у наборі даних.
Який принцип стверджує, що якість висновків статистичного аналізу залежить від якості вхідних даних?
Принцип 'Сміття на вході, сміття на виході' (Garbage in, garbage out).
Назвіть графік, який використовується для візуалізації розподілу однієї числової змінної шляхом групування даних у 'кошики' (bins).
Гістограма.
Що таке квартилі?
Три точки (25-й, 50-й та 75-й процентилі), які ділять відсортований набір даних на чотири рівні частини.
Для візуалізації зв'язку між числовою та категоріальною змінними часто використовують _____.
Коробкові діаграми (boxplots) або скрипкові діаграми (violin plots).
Як називається таблиця, що узагальнює дані для двох категоріальних змінних, показуючи кількість спостережень для кожної комбінації категорій?
Таблиця спряженості (contingency table).
У машинному навчанні, як називається проблема, коли модель дуже добре працює на тренувальних даних, але погано узагальнює нові дані?
Перенавчання (overfitting).
Для чого в машинному навчанні дані зазвичай поділяють на тренувальну та тестову вибірки?
Для оцінки здатності моделі узагальнювати результати на нових, не бачених раніше даних.
Що таке A/B тестування?
Контрольований експеримент з двома варіантами (A і B), який використовується для порівняння двох версій чогось, щоб визначити, яка з них є ефективнішою.
Яка міра оцінки моделі класифікації показує частку правильно класифікованих об'єктів?
Точність (Accuracy).
Що таке матриця помилок (confusion matrix)?
Таблиця, що показує кількість правильних і неправильних прогнозів, розбитих за кожним класом.
Назвіть метод класифікації, який прогнозує клас нового об'єкта на основі класу більшості з його 'k' найближчих сусідів.
Метод k-найближчих сусідів (K-Nearest Neighbors, KNN).
Як називається деревоподібна модель рішень та їхніх можливих наслідків, що використовується для класифікації?
Дерево рішень (Decision Tree).
Що таке бустинг (boosting) у машинному навчанні?
Ансамблевий метод, який послідовно будує моделі, де кожна наступна модель намагається виправити помилки попередньої.
Який метод навчання без вчителя використовується для групування схожих об'єктів у наборі даних?
Кластеризація (Clustering).
Що таке бажання видавати бажане за дійсне (wishful thinking) у контексті аналізу даних?
Тенденція інтерпретувати інформацію таким чином, щоб вона підтверджувала заздалегідь бажаний висновок.
Яку метрику використовують для кількісної оцінки нерівності, наприклад, у розподілі доходів чи багатства?
Індекс Джині (Gini index).
Який термін означає полювання за закономірностями в даних без попередньої гіпотези, що може призвести до хибних висновків?
Підглядання в дані (data snooping).
Що таке ресемплінг (resampling)?
Процес багаторазового взяття вибірок із спостережуваних даних для оцінки невизначеності статистики або для перевірки гіпотез.
Бутстреп (bootstrap) — це техніка ресемплінгу, де вибірки беруться _____ з оригінального набору даних.
з поверненням
Який тест зазвичай використовується для перевірки гіпотези про те, чи є значуща різниця між середніми двох незалежних груп?
t-тест для двох незалежних вибірок.
Для порівняння середніх значень трьох або більше груп використовується статистичний тест під назвою _____.
Дисперсійний аналіз (ANOVA).
Який тест використовується для визначення, чи існує статистично значущий зв'язок між двома категоріальними змінними?
Хі-квадрат тест ($\chi^2$).
Який тип даних має категорії, що не мають природного порядку (наприклад, кольори або марки автомобілів)?
Номінальні дані (Nominal data).
Дані, категорії яких можна впорядкувати, але відстані між ними не є значущими, називаються _____.
Порядковими даними (Ordinal data).
Що таке стандартизована оцінка (z-score)?
Міра, що показує, на скільки стандартних відхилень певне значення відрізняється від середнього значення розподілу.
Який термін використовується для оцінки розміру ефекту, що виражає різницю між двома середніми у одиницях стандартного відхилення?
d Коена (Cohen's d).
Ефект, за якого опублікованими стають лише статистично значущі результати, що призводить до хибного уявлення про досліджуване явище, називається _____.
Ефект картотечної шафи (file drawer effect).
Що таке мультиколінеарність у регресійному аналізі?
Ситуація, коли дві або більше незалежні змінні в моделі множинної регресії сильно корелюють між собою.
Який коефіцієнт у множинній регресії показує, яка частка дисперсії залежної змінної пояснюється незалежними змінними?
Коефіцієнт детермінації ($R^2$).
Що таке логістична регресія?
Статистичний метод, який використовується для прогнозування ймовірності бінарного результату (наприклад, так/ні, 1/0).
У логістичній регресії, _____ є відношенням ймовірності успіху до ймовірності невдачі.
Шанси (Odds).
Що таке залишки (residuals) у регресійному аналізі?
Різниця між спостережуваним значенням залежної змінної та значенням, передбаченим моделлю.
Як називається змінна, яка впливає як на незалежну, так і на залежну змінну, створюючи хибний зв'язок між ними?
Змішана змінна (confounding variable).
Що таке статистична потужність (statistical power) тесту?
Ймовірність правильно відхилити хибну нульову гіпотезу (тобто уникнути помилки другого роду).
Стандартна помилка середнього ($SE_{\bar{x}}$) вимірює _____.
Очікувану мінливість вибіркових середніх навколо середнього генеральної сукупності.
Яка діаграма використовується для представлення частот або пропорцій для кожної категорії у вигляді стовпців?
Стовпчаста діаграма (Bar chart).
У якому типі тестування (однобічному чи двобічному) ми перевіряємо наявність ефекту в певному напрямку?
В однобічному (one-tailed) тестуванні.
Що таке міжквартильний розмах (IQR)?
Різниця між третім (75-й процентиль) і першим (25-й процентиль) квартилями.
Що є основною метою 'кризи відтворюваності' (replication crisis) в науці?
Підвищення надійності та прозорості наукових досліджень через повторення експериментів та валідацію результатів.
Що таке статистична дискримінація (statistical discrimination)?
Використання групових статистичних даних для прийняття рішень щодо окремих осіб, що може бути правильним в середньому, але несправедливим у конкретному випадку.
Який принцип стверджує, що для порівняння ефекту лікування необхідна група, яка не отримує цього лікування?
Принцип наявності контрольної групи.
Що таке стандартизація (нормалізація) даних?
Процес перетворення даних для приведення їх до спільного масштабу, часто шляхом обчислення z-оцінок.
Як називається модель, що використовувалася на Уолл-стріт для оцінки ризиків перед фінансовою кризою 2008 року і виявилася неефективною?
Модель 'Вартість під ризиком' (Value at Risk, VaR).
Чому великий розмір вибірки не виправляє зміщення вибірки?
Тому що велика зміщена вибірка лише дає дуже точну оцінку неправильної відповіді.
Що таке ефект взаємодії (interaction effect) у двофакторному дисперсійному аналізі?
Ситуація, коли вплив одного фактора на залежну змінну змінюється залежно від рівня іншого фактора.
Як називається тест, що використовується для попарного порівняння середніх після значущого результату ANOVA?
Тест Тьюкі (Tukey's HSD test).
Що таке частка поясненої дисперсії, що використовується для оцінки розміру ефекту в ANOVA?
Ета-квадрат ($\eta^2$).
Назвіть непараметричний аналог t-тесту для двох незалежних вибірок.
U-критерій Манна-Уітні.
Який непараметричний тест є аналогом однофакторного ANOVA?
Тест Крускала-Уолліса (Kruskal-Wallis H test).
Що таке вибірка з поверненням (sampling with replacement)?
Процедура, за якою кожен обраний елемент повертається до сукупності перед наступним вибором, що дозволяє обирати його повторно.
Як називається спостереження, відсутність якого суттєво змінює рівняння регресії?
Впливове спостереження (influential observation).
Що є головною перевагою ієрархічної кластеризації над k-середніми?
Вона не вимагає попереднього визначення кількості кластерів і створює візуально зрозумілу дендрограму.
Яка процедура використовується для зменшення кількості змінних у наборі даних шляхом створення нових, некорельованих змінних, що називаються головними компонентами?
Аналіз головних компонент (Principal Component Analysis, PCA).
Що таке 'випадковий ліс' (random forest) у машинному навчанні?
Ансамблевий метод, який створює багато дерев рішень і усереднює їхні прогнози для підвищення точності та уникнення перенавчання.
Що таке лог-шанси (log odds) у логістичній регресії?
Натуральний логарифм шансів, який використовується для лінеаризації моделі та дозволяє ймовірності змінюватися від 0 до 1.
У якому підході до аналізу даних дослідник спочатку формулює гіпотезу, а потім збирає дані для її перевірки?
У конфірматорному аналізі даних (confirmatory data analysis).
Який підхід до аналізу даних фокусується на виявленні закономірностей та формулюванні гіпотез на основі наявних даних?
Розвідувальний аналіз даних (exploratory data analysis).
Яка філософська проблема виникає через те, що можна знайти безліч теорій, які відповідають будь-якому набору даних?
Проблема недовизначеності теорії даними (underdetermination).