Социологическое образование

Модификация социологических данных средствами R

manMini
После того, как массив «почищен» и готов к работе, часто возникает необходимость модификации имеющихся переменных. В одних случаях это связано с обще логикой анализа (например, исключение из анализа т.н. «выбросов»), в других - с требованиями используемого статистического метода (например, «подгонка» формы распределения), в третьих - с необходимостью получения новой информации на основании имеющейся (например, вычисление индексов). Рассмотрим эти ситуации более подробно.
В случае использования числовой переменной с большим диапазоном возможных значений, следует проверить ее на наличие «выбросов» - нетипично больших или малых значений. Для визуализации последних можно использовать функцию boxplot(), позволяющую построить диаграмму размахов. В качестве данных создадим вектор значений «salary» на основании переменной «l3», исключив из нее респондентов без доходов и использовав только тех респондентов, которые были опрошены в рамках последнего этапа исследования, то есть в 2014 году.

finalUSind$salary <- NA
indexes <- which(finalUSind$l3 > 0 & finalUSind$year == 2014)
finalUSind$salary[indexes] <- finalUSind$l3[indexes]
boxplot(salary, horizontal = T, las = 1, col = "slategray3",
        outpch = 16, outcol = "slategray3")

Полученная диаграмма (см. рис.1) показывает нижнюю и верхнюю границы «выбросов», квартили, медиану и сами «выбросы» (они отмечены точками). Читать дальше...
Comments

Логический контроль (чистка) данных

Копия clean_all_the_data_maybe
Очень часто операторы, которые вводят данные и формируют массив, не являются аналитиками и не обращают внимания на содержательное соотношение ответов в пределах каждой из анкет (например, относительно возраста и образования), поскольку процесс ввода данных ими часто доведен до автоматизма. Кроме того, когда оператор недостаточно опытен, внимателен или плохо ознакомился с анкетой или паспортом для ввода данных, в массив могут попасть значения, отличающиеся от соответствующих в анкете. Поэтому непосредственно после ввода данных количественных исследований возникает необходимость логического контроля массива. Под логическим контролем подразумевается проверка данных массива на предмет присутствия в них логических несоответствий. Например, если человек говорит, что его возраст 16 лет и при этом он имеет высшее образование, следует проверить не является ли это ошибкой ввода. В отечественной литературе этап логического контроля данных практически не описан. Его основы и правила написания соответствующего синтаксиса приведены в справке статистического пакета «ОСА for Windows» (справка доступна из самой программы). В зарубежной литературе контролю данных уделяется значительно больше внимания (см., например: [1]). На популярном образовательном портале «Coursera» (https://www.coursera.org/) этой теме посвящен отдельный курс.
Контроль массива данных также называют «чисткой массива». Последнее определение чаще используется в кругу отечественных исследователей, поэтому далее мы будем использовать именно его. Это крайне важный этап управления данными, который позволяет:
  • определить ошибки ввода операторами;
  • привести массив к удобному формату для дальнейшей работы с ним;
  • найти анкеты, которые могли быть фальсифицированы.
Последний пункт не является основной сферой, для которой используется чистка данных. Хотя практика показывает, что некоторые анкеты, которые содержат множество логических противоречий, желательно проверить дополнительно связавшись с респондентом (при наличии его контактов), если ранее эта анкета не попала в выборочный контроль после полевых работ. Читать дальше...
Comments

Работа с пропущенными данными: теория и практика

missingdata
Многие переменные (а во многих социологических исследованиях, основывающихся на массовых опросах, - подавляющее их большинство) имеют пропущенные значения. Последние ведут к снижению статистической мощности (то есть снижают вероятность нахождения реальных закономерностей в данных), а также могут быть причиной систематических ошибок [Бослаф, 2015: с. 450].
Обработка пропущенных значений является достаточно развитой исследовательской областью с общепринятой терминологией и множеством решений для различных дисциплин и конкретных исследований. С попыткой широкого обобщения основ обработки пропущенных данных в социальных науках можно ознакомиться, например, в работе Даниэля Ньюмана [Newman, 2014]. В рамках же данной статьи мы обратимся к главным понятиям этой теории, а также основным методам решения проблемы пропущенных значений.
Виды пропусков
Принято выделять три вида пропусков - полностью случайные, случайные и неслучайные пропуски (данная терминология ведет свое начало от известной работы Дональда Рубина [Rubin, 1976]). Полностью случайные пропуски (ПСП-допущение) имеют место в тех случаях, когда подвыборка имеющихся значений по переменной(-ым), подлежащей изучению, по-прежнему является моделью генеральной совокупности. Примером может служить случай, когда пропуски по некоторой переменной (например, политические предпочтения) не зависят от значений переменных-предикторов (например, пол, возраст, регион проживания и т.д.), а также от значений самих пропусков (например, не возникает ситуации, когда респонденты с определенной политической позицией чаще других не дают ответа на соответствующий вопрос). Выбор модели полностью случайных пропусков - единственное допущение, которое можно проверить эмпирически. Что касается случайных и неслучайных пропусков, соответствующие допущения невозможно проверить на основании имеющегося массива.
При случайных пропусках (СП-допущение) их значения зависят от значений переменных-предикторов и не зависят от собственных значений пропусков. Так, если пропуски в ответах на вопрос о политических предпочтениях чаще встречаются среди людей старшего возраста (но внутри этой группы они распределены случайно), то речь идет о случайных пропусках. В этом случае возникает вероятность смещения результатов оценивания параметров по выборке в целом (если значение по соответствующей подгруппе отличается от общего среднего).
Если же вероятность пропусков по определенным переменным зависит от величины самих пропущенных значений по этим переменным, то говорят о неслучайных пропусках (НП-допущение). Например, люди с левыми политическими взглядами с меньшей вероятностью склонны сообщать соответствующую информацию. Такие пропуски вносят систематические ошибки в результаты анализа. Читать дальше...
Comments

Виды лонгитюдного исследовательского дизайна

Время
Ушел в отпуск для окончания монографии на основании кандидатской диссертации. Есть время чуть активнее наполнять блог. Ну и поэтому небольшой кусок из этой самой монографии. На тему лонгитюда, так как соответствующего материала в русскоязычной литературе очень мало. Определенная специфика изложения связана прежде всего с тем, что рассматривается лонгитюдный дизайн в контексте теоретической валидизации.
----------------------
Согласно одному из классических определений, исследовательский дизайн представляет собой комбинацию требований относительно сбора и анализа данных, необходимых для достижения целей исследования [Mouton, 1996: p. 32].
Исследовательский дизайн задает рамки сбора и анализа данных и определяет пригодные исследовательские методы. Принимая во внимание необходимость темпоральной реконструкции исследуемого феномена [Головаха, 2004: с. 14], наилучшим дизайном для теоретической валидизации является лонгитюдный дизайн, заключающийся в повторяемых наблюдениях с целью выяснения характера изменений феномена, происходящих во времени. Читать дальше...
Comments

Немного истории: как появился этот сайт

portrait_wmt1
Похож на Билла Гейтса. Похож, но не он =) Это Уильям Трочим, человек который имеет непосредственное отношение к созданию моего веб-сайта. Последний существует порядка трех лет, из которых большую половину я занимался его наполнением, дизайном и редизайном. За это время количество уникальных посетителей в плотную приблизилось к 40 тысячам, а среднее количество посещений в день - к 100. Не самые выдающиеся показатели, но в целом я доволен. Все таки, тематика сайта не самая востребованная.
Однако вернемся к герою моей сегодняшней статьи. Зовут его - Уильям Трочим. Он профессор Корнельского университета (Нью-Йорк) и доктор философии по методологии и оценочным исследованиям (Ph.D. Methodology and Evaluation Research). Каким образом он связан с созданием моего сайта? Дело в том, что именно сайт В.Трочима вдохновил меня на создание собственного. Поэтому сегодня я хочу немного рассказать о его интернет ресурсе - Методы социальных исследований. Читать дальше...
Comments