Лекция 1: Introduction. Naive Bayes, kNN

  • Dataset = literaly excel table with meaningful data

  • Observation (datum or data point) = строчка в таблице

    • в идеале данные должны быть независимые и одинаково распределённые = неповторяющиеся (строчки разные) и общие для всех (нет строк данные в колонках которых отсутствуют или ложные)
  • Feature (признак) = столбец в таблице; признаки бывают:

    • категориальные (типо как enum) - конечные число значений
    • текстовые
    • числовой - континуальное число значений (опр. на отрезке)
  • матрица признаков (design matrix) содержит все признаки и наблюдения = выбранная часть датасета для анализа