Лекция 1: Introduction. Naive Bayes, kNN
-
Dataset = literaly excel table with meaningful data
-
Observation (datum or data point) = строчка в таблице
- в идеале данные должны быть независимые и одинаково распределённые = неповторяющиеся (строчки разные) и общие для всех (нет строк данные в колонках которых отсутствуют или ложные)
-
Feature (признак) = столбец в таблице; признаки бывают:
- категориальные (типо как
enum) - конечные число значений - текстовые
- числовой - континуальное число значений (опр. на отрезке)
- категориальные (типо как
-
матрица признаков (design matrix) содержит все признаки и наблюдения = выбранная часть датасета для анализа