В data science и области больших данных встречается много разных типов данных, для каждого из которых требуются свои инструменты и методы. Основные категории данных перечислены ниже.
Структурированные.
Неструктурированные.
На естественном языке.
Машинные.
Графовые.
Аудио, видео и графика.
Потоковые.
Все эти типы данных представляют интерес, и их стоит рассмотреть подробнее. Структурированные данные зависят от модели данных и хранятся в фиксированном поле внутри записи. Соответственно, структурированные данные часто бывает удобно хранить в таблицах, в базах данных или файлах Excel:
Ниже представлена известная многим диаграмма Дрю Конвея, призванная прояснить что такое Data Science. Несмотря на то, что в целом она справляется с поставленной задачей, есть ряд моментов, которые следует уточнить. В этой заметке я хочу коснуться двух - так называемой "опасной зоны" и самой сути Data Science.