Вышла книга автора сайта!
Теоретическая валидизация в социологическом исследовании: Методология и методы
Виды данных в поведенческих и социальных науках
Стратегии и дизайны >> Виды данных >> Определение проблемы
Исследовательская деятельность - это, по существу, работа с данными. О них и поговорим.
Дембицкий С. Виды данных в поведенческих и социальных науках [Электронный ресурс]. - Режим доступа: http://soc-research.info/principles/3.html
Данные представляют собой определенным образом полученные и зафиксированные наблюдения относительно окружающей действительности.
Исходя из того, для каких целей были собраны данные, их можно разделить на первичные и вторичные. Первичными являются такие данные, которые собраны для решения целей данного исследования. Соответственно, вторичными являются данные, собранные в рамках другого исследования, то есть для решения целей, отличных от целей данного исследования. Принято начинать с анализа вторичных данных, а уже в случае их недостаточности переходить к сбору первичных.
Исходя из того, для каких целей были собраны данные, их можно разделить на первичные и вторичные. Первичными являются такие данные, которые собраны для решения целей данного исследования. Соответственно, вторичными являются данные, собранные в рамках другого исследования, то есть для решения целей, отличных от целей данного исследования. Принято начинать с анализа вторичных данных, а уже в случае их недостаточности переходить к сбору первичных.
Поскольку вторичные данные собираются в рамках других исследовательских проектов, всегда существует проблема их качества. Критериями его оценки являются следующие:
Критерии |
Ключевые факторы |
Процедура и методика сбора | Метод сбора данных, процент ответов, способ формирования выборки, размер выборки, объем и логика анкеты, полевой этап, анализ данных. |
Ошибки и точность | Сравнение данных, полученных из разных источников. |
Своевременность | Временной промежуток между сбором данных и их публикацией, частота обновления (если исследование предполагает несколько этапов). |
Степерь соответствия цели исследования | |
Содержание данных | Ключевые переменные, шкалы измерения, исследуемые связи. |
Надежность | Компетентность, достоверность, репутация и надежность источника информации. |
Если же говорить о сущностных характеристиках данных, то принято выделять качественные и количественные данные. Можем ли мы редуцировать данные к форме чисел или они могут быть представлены только с помощью слов? Важно проводить различие между этими двумя типами данных, поскольку они определяют способы их получения, фиксации и анализа.
Большое количество научной информации фиксируется в виде чисел. Природа чисел разрешает манипулировать соответствующими данными с помощью методов математической статистики. Такого рода данные являются количественными. Главная проблема сбора количественных данных - разработка точных измерительных инструментов в виде анкетных вопросов, шкал или тестов. Такие измерительные инструменты должны тщательно проверяться на валидность и надежность. В зависимости от особенностей измеряемых свойств и/или точности самого измерения, количественные данные можно получить с помощью одной из трех измерительных шкал – номинальной, порядковой и метрической.
Вместе с тем, существует важная информация, которую нельзя редуцировать к форме чисел. Мысли, чувства, идеи и традиции людей нуждаются в их словесном выражении. Соответствующие данные называют качественными. Вербальные концепты и взаимосвязи между ними являются менее точными, чем числа и соответствующие связи. Это делает качественные исследования более зависимыми от особенностей определения значения слов, разработки понятий и определения взаимосвязей между ними. В отличии от количественных исследований, в качественных не существует общепринятых образцов анализа соответствующих данных, что требует рефлексивности ученого (внимания к возможным субъективным смещениям).
Большое количество научной информации фиксируется в виде чисел. Природа чисел разрешает манипулировать соответствующими данными с помощью методов математической статистики. Такого рода данные являются количественными. Главная проблема сбора количественных данных - разработка точных измерительных инструментов в виде анкетных вопросов, шкал или тестов. Такие измерительные инструменты должны тщательно проверяться на валидность и надежность. В зависимости от особенностей измеряемых свойств и/или точности самого измерения, количественные данные можно получить с помощью одной из трех измерительных шкал – номинальной, порядковой и метрической.
Вместе с тем, существует важная информация, которую нельзя редуцировать к форме чисел. Мысли, чувства, идеи и традиции людей нуждаются в их словесном выражении. Соответствующие данные называют качественными. Вербальные концепты и взаимосвязи между ними являются менее точными, чем числа и соответствующие связи. Это делает качественные исследования более зависимыми от особенностей определения значения слов, разработки понятий и определения взаимосвязей между ними. В отличии от количественных исследований, в качественных не существует общепринятых образцов анализа соответствующих данных, что требует рефлексивности ученого (внимания к возможным субъективным смещениям).
По способу получения, данные можно разделить на четыре типа:
- НаблюдениеФиксация случаев, ситуаций или событий, известных из собственного опыта, в том числе с использованием специальных средств (например, камеры, диктофона, микроскопа и т.д.).
- УчастиеДанные получаются благодаря опыту, который может рассматриваться как интенсивная форма наблюдения (например, опыт обучения управлению автомобилем сообщит такие нюансы относительно авто, которые невозможно получить, лишь наблюдая за ним извне).
- ИзмерениеФиксация величины или количества какого-либо параметра (например, демографическая статистика, измерение физических величин и т.д.).
- ИнтерегацияДанные получаются посредством вопросов к людям (информация относительно убеждений людей, их мотивации и т.д.).
- Show More
В data science и области больших данных выделяют много разных типов данных, для каждого из которых требуются свои инструменты и методы. Основные категории данных перечислены ниже.
- Структурированные.
- Неструктурированные.
- На естественном языке.
- Машинные.
- Графовые.
- Аудио, видео и графика.
- Потоковые.
SQL (Structured Query Language, язык структурированных запросов) является основным средством управления и обращения с запросами к данным, хранящимся в базах данных. Также иногда встречаются структурированные данные, которые достаточно трудно сохранить в традиционной реляционной базе данных (один из примеров — иерархические данные, например генеалогическое дерево).
Впрочем, мир не состоит из структурированных данных; просто это представление удобно для человека и машин. Чаще реальные данные хранятся в неструктурированном виде. Неструктурированные данные трудно подогнать под конкретную модель данных, потому что их содержимое зависит от контекста или имеет переменный характер. Один из примеров неструктурированных данных — обычные сообщения электронной почты:
Впрочем, мир не состоит из структурированных данных; просто это представление удобно для человека и машин. Чаще реальные данные хранятся в неструктурированном виде. Неструктурированные данные трудно подогнать под конкретную модель данных, потому что их содержимое зависит от контекста или имеет переменный характер. Один из примеров неструктурированных данных — обычные сообщения электронной почты:
Хотя сообщение содержит структурированные элементы (отправитель, заголовок, тело), одни и те же задачи могут решаться множеством разных способов, например, существует бесчисленное количество вариантов упоминания конкретного человека в сообщениях. Проблема дополнительно усложняется существованием тысяч языков и диалектов.
Сообщение электронной почты, написанное человеком (наподобие показанного выше), также является идеальным примером данных на естественном языке.
Данные на естественном языке составляют особую разновидность неструктурированных данных; обработка таких данных достаточно сложна, потому что она требует знания как лингвистики, так и специальных методов data science.
Сообщество обработки данных на естественном языке добилось успеха в области распознавания сущностей, распознавания тематических областей, обобщения, завершения текста и анализа эмоциональной окраски, но модели, адаптированные для одной предметной области, плохо обобщаются для других областей. Даже самые современные методы не смогут расшифровать смысл произвольного фрагмента текста. И этот факт вряд ли кого-то удивит: у людей также возникают проблемы с восприятием естественного языка. Он неоднозначен по своей природе. Сама концепция смысла выглядит спорно. Два человека слушают один разговор; вынесут ли они одинаковый смысл из него? Даже смысл отдельных слов может изменяться в зависимости от настроения говорящего.
К машинным данным относится информация, автоматически генерируемая компьютером, процессом, приложением или устройством без вмешательства человека. Машинные данные становятся одним из основных источников информации, и ситуация вряд ли изменится. Wikibon предсказывает, что рыночная стоимость промышленного Интернета (термин, предложенный компанией Frost&Sullivan для обозначения совокупности сложного физического оборудования с сетевыми датчиками и программным обеспечением) к 2020 году составит приблизительно 540 миллиардов долларов. По оценкам IDC (International Data Corporation), количество узлов сети к 2020 году в 26 раз превысит численность населения. Эта сеть часто называется Интернетом вещей.
Анализ машинных данных из-за их громадных объемов и скоростей сильно зависит от инструментов с высокой масштабируемостью. К примерам машинных данных относятся журналы веб-серверов, записи детализации звонков, журналы сетевых событий и телеметрии:
Сообщение электронной почты, написанное человеком (наподобие показанного выше), также является идеальным примером данных на естественном языке.
Данные на естественном языке составляют особую разновидность неструктурированных данных; обработка таких данных достаточно сложна, потому что она требует знания как лингвистики, так и специальных методов data science.
Сообщество обработки данных на естественном языке добилось успеха в области распознавания сущностей, распознавания тематических областей, обобщения, завершения текста и анализа эмоциональной окраски, но модели, адаптированные для одной предметной области, плохо обобщаются для других областей. Даже самые современные методы не смогут расшифровать смысл произвольного фрагмента текста. И этот факт вряд ли кого-то удивит: у людей также возникают проблемы с восприятием естественного языка. Он неоднозначен по своей природе. Сама концепция смысла выглядит спорно. Два человека слушают один разговор; вынесут ли они одинаковый смысл из него? Даже смысл отдельных слов может изменяться в зависимости от настроения говорящего.
К машинным данным относится информация, автоматически генерируемая компьютером, процессом, приложением или устройством без вмешательства человека. Машинные данные становятся одним из основных источников информации, и ситуация вряд ли изменится. Wikibon предсказывает, что рыночная стоимость промышленного Интернета (термин, предложенный компанией Frost&Sullivan для обозначения совокупности сложного физического оборудования с сетевыми датчиками и программным обеспечением) к 2020 году составит приблизительно 540 миллиардов долларов. По оценкам IDC (International Data Corporation), количество узлов сети к 2020 году в 26 раз превысит численность населения. Эта сеть часто называется Интернетом вещей.
Анализ машинных данных из-за их громадных объемов и скоростей сильно зависит от инструментов с высокой масштабируемостью. К примерам машинных данных относятся журналы веб-серверов, записи детализации звонков, журналы сетевых событий и телеметрии:
Машинные данные на рисунке выше хорошо укладываются в структуру классической базы данных. Это не лучший формат для данных с высокой степенью связности или «сетевых» данных, в которых достаточно значимую роль играют отношения между сущностями.
Термин «графовые данные» может сбить с толку, потому что любые данные могут быть представлены в виде графа. Под «графом» в данном случае имеется в виду понятие графа из математической теории графов — математическая структура для моделирования попарных отношений между объектами. Вкратце, в графовых, или сетевых, данных особое внимание уделяется связям или смежности объектов. Графовые структуры данных используют узлы, ребра и свойства для представления и хранения графических данных. Графовые данные естественным образом подходят для представления социальных сетей, а их структура позволяет вычислять такие специфические метрики, как влияние участников и кратчайший путь между двумя людьми.
Примеры графовых данных встречаются на многих веб-сайтах социальных сетей. Например, в LinkedIn можно увидеть, кого вы знаете в той или иной компании. Ваш список читателей в Твиттере также является примером графовых данных. Сила и мощь связанных данных проявляется при анализе нескольких перекрывающихся графов, построенных на одних и тех же узлах. Например, представьте, что ребра обозначают «друзей» на Facebook. А теперь возьмем другой граф с теми же людьми, но связывающий коллег по бизнесу через LinkedIn, и третий граф, основанный на интересе к фильмам на Netflix. Наложение этих трех графов позволит получить ответы на многие интересные вопросы.
Для хранения графовых данных используются графовые базы данных, а для построения запросов к ним — такие специализированные языки запросов, как SPARQL.
Работа с графовыми данными создает специфические проблемы, причем для компьютера эта задача становится еще сложнее.
Аудио, видео и графика — типы данных, ставящие непростые задачи перед специалистом data science. Задачи, тривиальные с точки зрения человека (например, распознавание объекта на картинке), оказываются сложными для компьютера. В 2014 году компания MLBAM (Major League Baseball Advanced Media) объявила, что объем записываемых видеоматериалов для одного бейсбольного матча будет увеличен приблизительно до 7 Тбайт с целью проведения оперативного анализа. Высокоскоростные камеры на стадионах записывают движения мяча и спортсменов для того, например, чтобы вычислять в реальном времени траекторию движения защитника.
Недавно компании DeepMind удалось создать алгоритм, который способен обучаться играть в видеоигры. Алгоритм получает на входе содержимое экрана и учится интерпретировать эти данные в сложном процессе глубокого обучения. Это замечательное достижение, и компания Google приобрела DeepMind для разработки искусственного интеллекта. Алгоритм обучения получает данные, генерируемые компьютерной игрой, т. е. потоковые данные.
Потоковые данные могут принимать почти любую из перечисленных форм, однако у них имеется одно дополнительное свойство. Данные поступают в систему при возникновении некоторых событий, а не загружаются в хранилище данных большими массивами. И хотя формально они не являются отдельной разновидностью данных, мы выделяем их в особую категорию, потому что вам придется приспособить свой рабочий процесс для работы с потоковой информацией.
Примерами потоковых данных могут служить раздел «Что происходит?» в Твиттере, прямые трансляции спортивных и музыкальных мероприятий и данные биржевых котировок.
Термин «графовые данные» может сбить с толку, потому что любые данные могут быть представлены в виде графа. Под «графом» в данном случае имеется в виду понятие графа из математической теории графов — математическая структура для моделирования попарных отношений между объектами. Вкратце, в графовых, или сетевых, данных особое внимание уделяется связям или смежности объектов. Графовые структуры данных используют узлы, ребра и свойства для представления и хранения графических данных. Графовые данные естественным образом подходят для представления социальных сетей, а их структура позволяет вычислять такие специфические метрики, как влияние участников и кратчайший путь между двумя людьми.
Примеры графовых данных встречаются на многих веб-сайтах социальных сетей. Например, в LinkedIn можно увидеть, кого вы знаете в той или иной компании. Ваш список читателей в Твиттере также является примером графовых данных. Сила и мощь связанных данных проявляется при анализе нескольких перекрывающихся графов, построенных на одних и тех же узлах. Например, представьте, что ребра обозначают «друзей» на Facebook. А теперь возьмем другой граф с теми же людьми, но связывающий коллег по бизнесу через LinkedIn, и третий граф, основанный на интересе к фильмам на Netflix. Наложение этих трех графов позволит получить ответы на многие интересные вопросы.
Для хранения графовых данных используются графовые базы данных, а для построения запросов к ним — такие специализированные языки запросов, как SPARQL.
Работа с графовыми данными создает специфические проблемы, причем для компьютера эта задача становится еще сложнее.
Аудио, видео и графика — типы данных, ставящие непростые задачи перед специалистом data science. Задачи, тривиальные с точки зрения человека (например, распознавание объекта на картинке), оказываются сложными для компьютера. В 2014 году компания MLBAM (Major League Baseball Advanced Media) объявила, что объем записываемых видеоматериалов для одного бейсбольного матча будет увеличен приблизительно до 7 Тбайт с целью проведения оперативного анализа. Высокоскоростные камеры на стадионах записывают движения мяча и спортсменов для того, например, чтобы вычислять в реальном времени траекторию движения защитника.
Недавно компании DeepMind удалось создать алгоритм, который способен обучаться играть в видеоигры. Алгоритм получает на входе содержимое экрана и учится интерпретировать эти данные в сложном процессе глубокого обучения. Это замечательное достижение, и компания Google приобрела DeepMind для разработки искусственного интеллекта. Алгоритм обучения получает данные, генерируемые компьютерной игрой, т. е. потоковые данные.
Потоковые данные могут принимать почти любую из перечисленных форм, однако у них имеется одно дополнительное свойство. Данные поступают в систему при возникновении некоторых событий, а не загружаются в хранилище данных большими массивами. И хотя формально они не являются отдельной разновидностью данных, мы выделяем их в особую категорию, потому что вам придется приспособить свой рабочий процесс для работы с потоковой информацией.
Примерами потоковых данных могут служить раздел «Что происходит?» в Твиттере, прямые трансляции спортивных и музыкальных мероприятий и данные биржевых котировок.
- default_titleМалхотра Н. Маркетинговые исследования. - М: Вильямс, 2007. - 1200 с.
- default_titleWalliman N. Social Research Methods. - London, Thousand Oaks, New Delhi: Sage, 2006. – 224 p.
- default_titleСилен Д., Мейсман А., Али М. Основы Data Science и Big Data. Python и наука о данных. - СПб.: Питер, 2017. - 336 с.
- Show More