Stacks Image p13125_n13115
Вышла книга автора сайта!
Теоретическая валидизация в социологическом исследовании: Методология и методы

Виды данных в поведенческих и социальных науках

Stacks Image 354
Исследовательская деятельность - это, по существу, работа с данными. О них и поговорим.
0 Нажми, если пригодилось =ъ
Дембицкий С. Виды данных в поведенческих и социальных науках [Электронный ресурс]. - Режим доступа: http://soc-research.info/principles/3.html
Данные представляют собой определенным образом полученные и зафиксированные наблюдения относительно окружающей действительности.
Исходя из того, для каких целей были собраны данные, их можно разделить на первичные и вторичные. Первичными являются такие данные, которые собраны для решения целей данного исследования. Соответственно, вторичными являются данные, собранные в рамках другого исследования, то есть для решения целей, отличных от целей данного исследования. Принято начинать с анализа вторичных данных, а уже в случае их недостаточности переходить к сбору первичных.
Stacks Image 83
Поскольку вторичные данные собираются в рамках других исследовательских проектов, всегда существует проблема их качества. Критериями его оценки являются следующие:
Критерии
Ключевые факторы
Процедура и методика сбора Метод сбора данных, процент ответов, способ формирования выборки, размер выборки, объем и логика анкеты, полевой этап, анализ данных.
Ошибки и точность Сравнение данных, полученных из разных источников.
Своевременность Временной промежуток между сбором данных и их публикацией, частота обновления (если исследование предполагает несколько этапов).
Степерь соответствия цели исследования  
Содержание данных Ключевые переменные, шкалы измерения, исследуемые связи.
Надежность Компетентность, достоверность, репутация и надежность источника информации.
Если же говорить о сущностных характеристиках данных, то принято выделять качественные и количественные данные. Можем ли мы редуцировать данные к форме чисел или они могут быть представлены только с помощью слов? Важно проводить различие между этими двумя типами данных, поскольку они определяют способы их получения, фиксации и анализа.
Большое количество научной информации фиксируется в виде чисел. Природа чисел разрешает манипулировать соответствующими данными с помощью методов математической статистики. Такого рода данные являются количественными. Главная проблема сбора количественных данных - разработка точных измерительных инструментов в виде анкетных вопросов, шкал или тестов. Такие измерительные инструменты должны тщательно проверяться на валидность и надежность. В зависимости от особенностей измеряемых свойств и/или точности самого измерения, количественные данные можно получить с помощью одной из трех измерительных шкал – номинальной, порядковой и метрической.
Вместе с тем, существует важная информация, которую нельзя редуцировать к форме чисел. Мысли, чувства, идеи и традиции людей нуждаются в их словесном выражении. Соответствующие данные называют качественными. Вербальные концепты и взаимосвязи между ними являются менее точными, чем числа и соответствующие связи. Это делает качественные исследования более зависимыми от особенностей определения значения слов, разработки понятий и определения взаимосвязей между ними. В отличии от количественных исследований, в качественных не существует общепринятых образцов анализа соответствующих данных, что требует рефлексивности ученого (внимания к возможным субъективным смещениям).
По способу получения, данные можно разделить на четыре типа:
  • НаблюдениеФиксация случаев, ситуаций или событий, известных из собственного опыта, в том числе с использованием специальных средств (например, камеры, диктофона, микроскопа и т.д.).
  • УчастиеДанные получаются благодаря опыту, который может рассматриваться как интенсивная форма наблюдения (например, опыт обучения управлению автомобилем сообщит такие нюансы относительно авто, которые невозможно получить, лишь наблюдая за ним извне).
  • ИзмерениеФиксация величины или количества какого-либо параметра (например, демографическая статистика, измерение физических величин и т.д.).
  • ИнтерегацияДанные получаются посредством вопросов к людям (информация относительно убеждений людей, их мотивации и т.д.).
  • Show More
В data science и области больших данных выделяют много разных типов данных, для каждого из которых требуются свои инструменты и методы. Основные категории данных перечислены ниже.
  • Структурированные.
  • Неструктурированные.
  • На естественном языке.
  • Машинные.
  • Графовые.
  • Аудио, видео и графика.
  • Потоковые.
Все эти типы данных представляют интерес, и их стоит рассмотреть подробнее. Структурированные данные зависят от модели данных и хранятся в фиксированном поле внутри записи. Соответственно, структурированные данные часто бывает удобно хранить в таблицах, в базах данных или файлах Excel:
Stacks Image 14319
SQL (Structured Query Language, язык структурированных запросов) является основным средством управления и обращения с запросами к данным, хранящимся в базах данных. Также иногда встречаются структурированные данные, которые достаточно трудно сохранить в традиционной реляционной базе данных (один из примеров — иерархические данные, например генеалогическое дерево).
Впрочем, мир не состоит из структурированных данных; просто это представление удобно для человека и машин. Чаще реальные данные хранятся в неструктурированном виде. Неструктурированные данные трудно подогнать под конкретную модель данных, потому что их содержимое зависит от контекста или имеет переменный характер. Один из примеров неструктурированных данных — обычные сообщения электронной почты:
Stacks Image 14323
Хотя сообщение содержит структурированные элементы (отправитель, заголовок, тело), одни и те же задачи могут решаться множеством разных способов, например, существует бесчисленное количество вариантов упоминания конкретного человека в сообщениях. Проблема дополнительно усложняется существованием тысяч языков и диалектов.
Сообщение электронной почты, написанное человеком (наподобие показанного выше), также является идеальным примером данных на естественном языке.
Данные на естественном языке составляют особую разновидность неструктурированных данных; обработка таких данных достаточно сложна, потому что она требует знания как лингвистики, так и специальных методов data science.
Сообщество обработки данных на естественном языке добилось успеха в области распознавания сущностей, распознавания тематических областей, обобщения, завершения текста и анализа эмоциональной окраски, но модели, адаптированные для одной предметной области, плохо обобщаются для других областей. Даже самые современные методы не смогут расшифровать смысл произвольного фрагмента текста. И этот факт вряд ли кого-то удивит: у людей также возникают проблемы с восприятием естественного языка. Он неоднозначен по своей природе. Сама концепция смысла выглядит спорно. Два человека слушают один разговор; вынесут ли они одинаковый смысл из него? Даже смысл отдельных слов может изменяться в зависимости от настроения говорящего.
К машинным данным относится информация, автоматически генерируемая компьютером, процессом, приложением или устройством без вмешательства человека. Машинные данные становятся одним из основных источников информации, и ситуация вряд ли изменится. Wikibon предсказывает, что рыночная стоимость промышленного Интернета (термин, предложенный компанией Frost&Sullivan для обозначения совокупности сложного физического оборудования с сетевыми датчиками и программным обеспечением) к 2020 году составит приблизительно 540 миллиардов долларов. По оценкам IDC (International Data Corporation), количество узлов сети к 2020 году в 26 раз превысит численность населения. Эта сеть часто называется Интернетом вещей.
Анализ машинных данных из-за их громадных объемов и скоростей сильно зависит от инструментов с высокой масштабируемостью. К примерам машинных данных относятся журналы веб-серверов, записи детализации звонков, журналы сетевых событий и телеметрии:
Stacks Image 14327
Машинные данные на рисунке выше хорошо укладываются в структуру классической базы данных. Это не лучший формат для данных с высокой степенью связности или «сетевых» данных, в которых достаточно значимую роль играют отношения между сущностями.
Термин «графовые данные» может сбить с толку, потому что любые данные могут быть представлены в виде графа. Под «графом» в данном случае имеется в виду понятие графа из математической теории графов — математическая структура для моделирования попарных отношений между объектами. Вкратце, в графовых, или сетевых, данных особое внимание уделяется связям или смежности объектов. Графовые структуры данных используют узлы, ребра и свойства для представления и хранения графических данных. Графовые данные естественным образом подходят для представления социальных сетей, а их структура позволяет вычислять такие специфические метрики, как влияние участников и кратчайший путь между двумя людьми.
Примеры графовых данных встречаются на многих веб-сайтах социальных сетей. Например, в LinkedIn можно увидеть, кого вы знаете в той или иной компании. Ваш список читателей в Твиттере также является примером графовых данных. Сила и мощь связанных данных проявляется при анализе нескольких перекрывающихся графов, построенных на одних и тех же узлах. Например, представьте, что ребра обозначают «друзей» на Facebook. А теперь возьмем другой граф с теми же людьми, но связывающий коллег по бизнесу через LinkedIn, и третий граф, основанный на интересе к фильмам на Netflix. Наложение этих трех графов позволит получить ответы на многие интересные вопросы.
Для хранения графовых данных используются графовые базы данных, а для построения запросов к ним — такие специализированные языки запросов, как SPARQL.
Работа с графовыми данными создает специфические проблемы, причем для компьютера эта задача становится еще сложнее.
Аудио, видео и графика — типы данных, ставящие непростые задачи перед специалистом data science. Задачи, тривиальные с точки зрения человека (например, распознавание объекта на картинке), оказываются сложными для компьютера. В 2014 году компания MLBAM (Major League Baseball Advanced Media) объявила, что объем записываемых видеоматериалов для одного бейсбольного матча будет увеличен приблизительно до 7 Тбайт с целью проведения оперативного анализа. Высокоскоростные камеры на стадионах записывают движения мяча и спортсменов для того, например, чтобы вычислять в реальном времени траекторию движения защитника.
Недавно компании DeepMind удалось создать алгоритм, который способен обучаться играть в видеоигры. Алгоритм получает на входе содержимое экрана и учится интерпретировать эти данные в сложном процессе глубокого обучения. Это замечательное достижение, и компания Google приобрела DeepMind для разработки искусственного интеллекта. Алгоритм обучения получает данные, генерируемые компьютерной игрой, т. е. потоковые данные.
Потоковые данные могут принимать почти любую из перечисленных форм, однако у них имеется одно дополнительное свойство. Данные поступают в систему при возникновении некоторых событий, а не загружаются в хранилище данных большими массивами. И хотя формально они не являются отдельной разновидностью данных, мы выделяем их в особую категорию, потому что вам придется приспособить свой рабочий процесс для работы с потоковой информацией.
Примерами потоковых данных могут служить раздел «Что происходит?» в Твиттере, прямые трансляции спортивных и музыкальных мероприятий и данные биржевых котировок.
  • default_titleМалхотра Н. Маркетинговые исследования. - М: Вильямс, 2007. - 1200 с.
  • default_titleWalliman N. Social Research Methods. - London, Thousand Oaks, New Delhi: Sage, 2006. – 224 p.
  • default_titleСилен Д., Мейсман А., Али М. Основы Data Science и Big Data. Python и наука о данных. - СПб.: Питер, 2017. - 336 с.
  • Show More
free counters
Яндекс.Метрика