1/79
Looks like no tags are added yet.
Name | Mastery | Learn | Test | Matching | Spaced |
---|
No study sessions yet.
Чем различаются термины “Машинное обучение” и “Искусственный интеллект”?
Искусственный интеллект — это широкая область, целью которой является создание систем, имитирующих человеческий интеллект. Машинное обучение — подмножество ИИ, сосредоточенное на алгоритмах, обучающихся на данных без явного программирования.
Чем различаются теория вероятностей и математическая статистика?
Теория вероятностей изучает случайные процессы и предсказывает вероятности событий. Математическая статистика анализирует данные для вывода закономерностей. Вероятности — основа, статистика — применение.
Что такое EDA? Зачем он нужен?
Exploratory Data Analysis - исследовательский анализ данных. Нужен для понимания структуры, выявления закономерностей, аномалий и пропусков. Нужен для подготовки данных к моделированию.
Что такое таргет?
Целевая переменная, которую модель предсказывает
Чем таргет отличается от других признаков?
Таргет, это результат, а не входные данные
Что такое разметка датасета?
Присвоение таргета объектам
Чем обучение с учителем отличается от обучения без учителя?
Одно использует размеченные данные (вход + таргет) для предсказания, а другое работает с неразмеченными данными, выявляя структуру (кластеризация).
Какие задачи МО существуют?
Классификация (определение категории), регрессия (предсказание числа), кластеризация (группировка), снижение размерности (упрощение данных)
Какие функции ошибок существуют?
MSE (среднеквадратичная ошибка) - регрессия, измеряет разницу предсказаний и таргета. Cross-Entropy - классификация, оценивает вероятности. Log-loss - бинарная классификация
Что такое градиент функции?
Вектор частных производных функции по всем параметрам, показывающий направление наибольшего роста. В МО используется для минимизации ошибки
Алгоритм градиентного спуска
1) Инициализируем параметры случайно
2) Считаем функцию ошибки
3) Вычисляем градиент
4) Обновляем параметры: p = p - lr \cdot \nabla L
5) Повторяем шаги 2-4 до сходимости.
Какие проблемы могут возникнуть при применении градиентного спуска?
Затухание градиента (градиенты становятся экспоненциально малыми), взрыв градиента (градиенты становятся экспоненциально большими), застревание в локальном минимуме (если градиент приводит только в локальный, но не глобальный минимум), медленная сходимость при плохом lr
Что такое переобучение?
Когда модель слишком подстраивается под обучающие данные, включая шум, и плохо работает на новых данных.
Что такое гиперпараметр (с примерами)?
Параметр модели, задаваемый вручную до обучения. Примеры, learning rate, количество слоев в нейросети, глубина дерева
Чем валидационная выборка отличается от тестовой?
Валидационная используется во время обучения для подбора гиперпараметров, а тестовая для финальной оценки качества после обучения
Что такое бутстреп?
Метод генерации выборок случайным выбором с возвращением для оценки статистик или модели.
Что такое скользящий контроль (кросс-валидация)
Метод оценки модели, данные делятся на k частей, модель обучается на k − 1 частях и тестируется на оставшейся, повторяя k раз. Нужен для надежной оценке при малом объеме данных
Линейная регрессия
Предсказывает числа, минимизируя MSE.
Как увеличение обучающей выборки повлияет на процесс МО? А как уменьшение?
Увеличение обучающей выборки улучшает обобщение, но снижает точность оценки на тесте/валидации из-за их малого размера. Уменьшение обучающей выборки повышает риск недообучения.
Чем линейная регрессия отличается от логистической регрессии?
Линейная регрессия предсказывает числа, минимизируя MSE. Логистическая — вероятности классов (0/1), используя сигмоиду и Cross-Entropy.
Какие модели называются метрическими?
Модели, которые используют расстояния между объектами Примеры - kNN (k ближайших соседей), k-means
Какие гиперпараметры существуют у решающего дерева?
1) max_depth - глубина, которая ограничивает сложность
2) min_samples_split - мин. число объектов для разделения
3) criterion - критерий (Gini, Entropy)
Какие техники ансамблирования существуют? В чем их суть?
Ансамбли объединяют предсказания моделей для повышения качества. 1) Bagging (Random Forest). 2) Boosting (Gradient Boosting). Суть — снижение ошибки через разнообразие.
Какие свойства вероятности ты знаешь?
1) Неотрицательность: P(A) \geq 0
2) Нормализация: P(S) = 1
3) Аддитивность: P(A \cup B) = P(A) + P(B)
Какие события называются независимыми?
События A и B независимы, если P(A \cap B) = P(A) \cdot P(B), т.е. одно не влияет на другое.
Что такое парадокс Монти Холла?
Задача с тремя дверями (за одной приз). После выбора ведущий открывает пустую дверь. Смена выбора увеличивает шанс с 1/3 до 2/3.
Что такое распределение случайной величины?
Описывает вероятности значений.
Чем дискретное распределение случайной величины отличается от непрерывного? С примерами
Дискретное - конечное число (PMF - Probability Mass Function), непрерывное - диапазон (PDF - Probability Density Function). Примеры: Бернулли (дискр.), нормальное (непр.)
Что такое функция правдоподобия и где используется?
Функция правдоподобия L(\theta | x) = P(x | \theta) — вероятность данных при параметрах \theta. Используется в MLE (Maximum Likelihood Estimation) для оценки параметров.
Что такое нейрон?
Элемент нейросети, вычисляющий \sum a_iw_i + b и применяющий функцию активации.
Что такое функция активации? Для чего она нужна?
Преобразует выход нейрона, добавляя нелинейность для сложных зависимостей.
Что такое многослойный перцептрон (MLP)
Полносвязная нейросеть с входным, скрытыми и выходным слоями.
Функции активации, их недостатки и преимущества
1) Сигмоида: гладкая, вероятности, но медленная, насыщается
2) ReLU: быстрая, избегает насыщения, но обнуляет при x < 0
3) Leaky ReLU решает обнуление
4) Softmax для классификации
Чем отличаются задачи классификации; детекции и сегментации изображений?
1) Классификация: определение класса всего изображения. 2) Детекция: классификация + рамки, в которых находится объект.
3) Сегментация: классификация + опре
Что такое свёртка? Проиллюстрируй принцип её работы.
Математическая операция, применяющаяся в нейронных сетях для работы с пространственной или временной структурой (изображениями/аудио). В контексте изображений ядро свертки (фильтр, небольшая матрица с весами) скользит по изображению, умножая свои веса на значения пикселей и суммирует результат. Получается карта признаков, которая выделяет опредле
В чём преимущество свёрток перед линейными слоями в обработке изображений?
1) Свертка учитывает только небольшие локальные области, в то время как полносвязный слой нейрона приводит к огромному количеству параметров.
2) Фильтры используют разделяемые веса, что сильно уменьшает количество параметров
3) Линейные слои не учитывают пространственную структуру изображений, в отличии от сверток
Что такое receptive field?
Область входного изображения, влияющая на нейрон. Чем глубже слой, тем больше область.
Что такое pooling?
Операция уменьшения размерности карты признаков, которая сокращает объём вычислений и уменьшает вариативность к небольшим сдвигам и искажениям
Что такое эмбеддинг?
Векторное представление данных
Что такое голова?
Финальная часть модели, которая принимает эмбеддинги от backbone и решает конкретную задачу
Что такое backbone?
Основная часть нейросети, которая извлекает признаки из входных данных
В чем удобство разделения на голову и backbone?
1) Предобученный backbone можно использовать в разных задачах
2) Можно менять голову, не трогая backbone
Как работает спектрограмма?
1) Разбиение сигнала на отрезки
2) Применение оконной функции (уменьшает эффект разрывов)
3) Применение дискретного преобразования Фурье (превразает сигнал в набор комплексных чисел)
4) Построение спектрограммы в виде графика
В чём связь спектрограммы с дискретным преобразованием Фурье?
Математический инструмент, который преобразует дискретный сигнал из временной области в частотную. По сути, спектрограмма это последовательность преобразований Фурье
В чём сходство методов работы со звуком и с изображением?
Оба сигнала можно обрабатывать свёртками
Какие задачи со звуком существуют?
Классификация, генерация, разделение источников, распознавание речи
Что такое токен?
Токен — минимальная единица текста
Какие алгоритмы токенизации существуют?
Whitespace (разбиение по словам); BPE (слияние символов по частоте); SentencePiece (универсальный, на уровне байтов).
Что такое словарь?
Набор уникальных токенов
Что такое лемматизация?
Приведение слова к базовой форме (говорил - говорить)
Какие задачи существуют в NLP?
Машинный перевод; NER (Named Entity Recognition); суммаризация (саммари)
Формальное определение графа
Граф - это пара множеств G=(V,E), где V - конечное множество вершин, а E - множество ребер, соединяющих пары вершин из V
Какие характеристики графа/вершин/рёбер ты знаешь?
Направленность; взвешенность; связность; степень вершины; циклы
Что такое авторегрессия?
Предсказание следующего значения на основе предыдущих
Что такое автоэнкодер?
Сеть, сжимающая вход в скрытое представление (энкодер) и восстанавливающая его (декодер)
Что такое VAE?
Автоэнкодер с латентным пространством; подчинённым нормальному распределению
Что такое нормализующие потоки?
Обратимое преобразование простого распределения в сложное
Что такое GAN? Что такое диффузионные модели? Опиши принцип их работы.
Модель из двух частей, генератора и дескриминатора. Генератор создаёт данные, дискриминатор отличает их от реальных
Что такое диффузионные модели?
Модели, которые используют зашумление до гауссовского шума и обратно
Что такое временной ряд?
Последовательность данных, измеренных в последовательные моменты времени
Какие характеристики и свойства временных рядов ты знаешь?
Тренд (долгосрочные тенденции); сезонность (повторяющиеся колебания); шум (случайные отклонения); цикличность (нерегулярные циклические корреляции)
Что такое ACF (Autocorrelation Function)? Опиши принцип его построения.
Корреляция ряда с его лагами (собственными значениями, сдвинутыми во времени). Строится через расчёт корреляции для каждого лага (например методом Пирсона) с временным рядом
Опиши принцип работы экспоненциального сглаживания (двойного; тройного).
Метод присвоения меньших весов по мере удаления наблюдений от текущих (чем старше наблюдение, тем меньше вес). Двойное учитывает тренд, тройное учитывает тренд и сезонность
Опиши принцип работы модели AR (Autoregressive model)
Предсказывает бущдущие значения временного ряда в зависимости от предыдущих
Опиши принцип работы модели MA (Moving average model)
Предсказывает будущие значения временного ряда по прошлым ошибкам прогноза
Опиши принцип работы модели ARMA (Autoregressive moving average model)
Объединяет модели AR и MA, предсказывает будущие значения как в зависимости от предыдущих, так и по ошибкам предыдущих прогнозов
Опиши принцип работы модели ARIMA (Autoregressive integrated moving average model)
Использует принцип работы ARMA, но дополнительно приводит ряд к стационарности через дифференцирование
Что такое MDR (Markov Decision Process)?
Математическая модель для принятия решений в вероятностных условиях. где результаты зависят как от действий агента, так и от случайных событий. Задается кортежем (S, A, P(s’|s, a), R(s, a, s’), \gamma), где S - множество состояний (states), A - множество действий (actions), P(s’ | s, a) - вероятность перехода из состояния s в s’ при выполнении действий a, R(s, a, s’) - функция вознаграждения (reward), определяющая, какой выигрыш получает агент за переход, \gamma от 0 до 1 - коэффициент дисконтирования (важность будущих наград)
Что такое условие Маркова?
Фундаментальное свойство некоторых случайных процессов - будущее состояние системы зависит только от текущего состояния и не зависит от предыстории
Что такое политика?
Стратегия, определяющая действия агента в каждом возможном состоянии среды
Что такое дисконтирование?
Механизм учета будущих наград, в котором более поздние вознаграждения считаются менее ценными, чем текущие
Формула кумулятивной дисконтированной награды при детерминированной политике
G_t = R_t + \gamma R_{t+1} + \gamma² R_{t+2} + … = \sum \limits_{k=0}^{\infty} \gamma^k R_{t+k}
Что такое V-value?
Ожидаемая награда, которую может получить агент, следуя некоторой политике и начиная с определенного состояния
Что такое Q-value?
Ожидаемая награда, которую может поулчить агент, если следуя некоторой политике он выполнит определенное действие в некотором состоянии
Опиши принцип работы табличного Q-learning.
Алгоритм обучения с подреплением (reinforcement learning), который используется для нахождения оптимальной стратегии в MDR. Создается Q-таблица из состояний и действий, а далее заполняется по формуле и обновляется в зависимости от lr, \gamma (коэфициент обесценивания будущих наград) и r (награды за переход). Затем выбирается действие
Опиши принцип работы DQN (Deep Q-Network)
Расширение классического Q-learning, в котором вместо таблицы Q-значений используется нейронная сеть для аппроксимации функции Q(s, a).
Какие виды bias существуют?
Selection bias (нерепрезентативная выборка); confirmation bias (игнорирование противоречивых данных); algorithmic bias (предвзятость модели).
Какие роли в ML-команде существуют? Чем они отличаются?
Data Engineer (обеспечивает ифраструктуру); ML Engineer (развёртывание моделей); Data Scientist (EDA, тест гипотез); Research Scientist (разрабатывает новые алгоритмы и методы ML)