Социологическое образование
Модификация социологических данных средствами R
19/07/15 20:20
После того, как массив «почищен» и готов к работе, часто возникает необходимость модификации имеющихся переменных. В одних случаях это связано с обще логикой анализа (например, исключение из анализа т.н. «выбросов»), в других - с требованиями используемого статистического метода (например, «подгонка» формы распределения), в третьих - с необходимостью получения новой информации на основании имеющейся (например, вычисление индексов). Рассмотрим эти ситуации более подробно.
В случае использования числовой переменной с большим диапазоном возможных значений, следует проверить ее на наличие «выбросов» - нетипично больших или малых значений. Для визуализации последних можно использовать функцию boxplot(), позволяющую построить диаграмму размахов. В качестве данных создадим вектор значений «salary» на основании переменной «l3», исключив из нее респондентов без доходов и использовав только тех респондентов, которые были опрошены в рамках последнего этапа исследования, то есть в 2014 году.
Полученная диаграмма (см. рис.1) показывает нижнюю и верхнюю границы «выбросов», квартили, медиану и сами «выбросы» (они отмечены точками). Читать дальше...
В случае использования числовой переменной с большим диапазоном возможных значений, следует проверить ее на наличие «выбросов» - нетипично больших или малых значений. Для визуализации последних можно использовать функцию boxplot(), позволяющую построить диаграмму размахов. В качестве данных создадим вектор значений «salary» на основании переменной «l3», исключив из нее респондентов без доходов и использовав только тех респондентов, которые были опрошены в рамках последнего этапа исследования, то есть в 2014 году.
finalUSind$salary <- NA indexes <- which(finalUSind$l3 > 0 & finalUSind$year == 2014) finalUSind$salary[indexes] <- finalUSind$l3[indexes] boxplot(salary, horizontal = T, las = 1, col = "slategray3", outpch = 16, outcol = "slategray3")
Полученная диаграмма (см. рис.1) показывает нижнюю и верхнюю границы «выбросов», квартили, медиану и сами «выбросы» (они отмечены точками). Читать дальше...
Comments
Логический контроль (чистка) данных
10/07/15 00:23
Очень часто операторы, которые вводят данные и формируют массив, не являются аналитиками и не обращают внимания на содержательное соотношение ответов в пределах каждой из анкет (например, относительно возраста и образования), поскольку процесс ввода данных ими часто доведен до автоматизма. Кроме того, когда оператор недостаточно опытен, внимателен или плохо ознакомился с анкетой или паспортом для ввода данных, в массив могут попасть значения, отличающиеся от соответствующих в анкете. Поэтому непосредственно после ввода данных количественных исследований возникает необходимость логического контроля массива. Под логическим контролем подразумевается проверка данных массива на предмет присутствия в них логических несоответствий. Например, если человек говорит, что его возраст 16 лет и при этом он имеет высшее образование, следует проверить не является ли это ошибкой ввода. В отечественной литературе этап логического контроля данных практически не описан. Его основы и правила написания соответствующего синтаксиса приведены в справке статистического пакета «ОСА for Windows» (справка доступна из самой программы). В зарубежной литературе контролю данных уделяется значительно больше внимания (см., например: [1]). На популярном образовательном портале «Coursera» (https://www.coursera.org/) этой теме посвящен отдельный курс.
Контроль массива данных также называют «чисткой массива». Последнее определение чаще используется в кругу отечественных исследователей, поэтому далее мы будем использовать именно его. Это крайне важный этап управления данными, который позволяет:
Контроль массива данных также называют «чисткой массива». Последнее определение чаще используется в кругу отечественных исследователей, поэтому далее мы будем использовать именно его. Это крайне важный этап управления данными, который позволяет:
- определить ошибки ввода операторами;
- привести массив к удобному формату для дальнейшей работы с ним;
- найти анкеты, которые могли быть фальсифицированы.
Работа с пропущенными данными: теория и практика
26/06/15 22:39
Многие переменные (а во многих социологических исследованиях, основывающихся на массовых опросах, - подавляющее их большинство) имеют пропущенные значения. Последние ведут к снижению статистической мощности (то есть снижают вероятность нахождения реальных закономерностей в данных), а также могут быть причиной систематических ошибок [Бослаф, 2015: с. 450].
Обработка пропущенных значений является достаточно развитой исследовательской областью с общепринятой терминологией и множеством решений для различных дисциплин и конкретных исследований. С попыткой широкого обобщения основ обработки пропущенных данных в социальных науках можно ознакомиться, например, в работе Даниэля Ньюмана [Newman, 2014]. В рамках же данной статьи мы обратимся к главным понятиям этой теории, а также основным методам решения проблемы пропущенных значений.
Виды пропусков
Принято выделять три вида пропусков - полностью случайные, случайные и неслучайные пропуски (данная терминология ведет свое начало от известной работы Дональда Рубина [Rubin, 1976]). Полностью случайные пропуски (ПСП-допущение) имеют место в тех случаях, когда подвыборка имеющихся значений по переменной(-ым), подлежащей изучению, по-прежнему является моделью генеральной совокупности. Примером может служить случай, когда пропуски по некоторой переменной (например, политические предпочтения) не зависят от значений переменных-предикторов (например, пол, возраст, регион проживания и т.д.), а также от значений самих пропусков (например, не возникает ситуации, когда респонденты с определенной политической позицией чаще других не дают ответа на соответствующий вопрос). Выбор модели полностью случайных пропусков - единственное допущение, которое можно проверить эмпирически. Что касается случайных и неслучайных пропусков, соответствующие допущения невозможно проверить на основании имеющегося массива.
При случайных пропусках (СП-допущение) их значения зависят от значений переменных-предикторов и не зависят от собственных значений пропусков. Так, если пропуски в ответах на вопрос о политических предпочтениях чаще встречаются среди людей старшего возраста (но внутри этой группы они распределены случайно), то речь идет о случайных пропусках. В этом случае возникает вероятность смещения результатов оценивания параметров по выборке в целом (если значение по соответствующей подгруппе отличается от общего среднего).
Если же вероятность пропусков по определенным переменным зависит от величины самих пропущенных значений по этим переменным, то говорят о неслучайных пропусках (НП-допущение). Например, люди с левыми политическими взглядами с меньшей вероятностью склонны сообщать соответствующую информацию. Такие пропуски вносят систематические ошибки в результаты анализа. Читать дальше...
Обработка пропущенных значений является достаточно развитой исследовательской областью с общепринятой терминологией и множеством решений для различных дисциплин и конкретных исследований. С попыткой широкого обобщения основ обработки пропущенных данных в социальных науках можно ознакомиться, например, в работе Даниэля Ньюмана [Newman, 2014]. В рамках же данной статьи мы обратимся к главным понятиям этой теории, а также основным методам решения проблемы пропущенных значений.
Виды пропусков
Принято выделять три вида пропусков - полностью случайные, случайные и неслучайные пропуски (данная терминология ведет свое начало от известной работы Дональда Рубина [Rubin, 1976]). Полностью случайные пропуски (ПСП-допущение) имеют место в тех случаях, когда подвыборка имеющихся значений по переменной(-ым), подлежащей изучению, по-прежнему является моделью генеральной совокупности. Примером может служить случай, когда пропуски по некоторой переменной (например, политические предпочтения) не зависят от значений переменных-предикторов (например, пол, возраст, регион проживания и т.д.), а также от значений самих пропусков (например, не возникает ситуации, когда респонденты с определенной политической позицией чаще других не дают ответа на соответствующий вопрос). Выбор модели полностью случайных пропусков - единственное допущение, которое можно проверить эмпирически. Что касается случайных и неслучайных пропусков, соответствующие допущения невозможно проверить на основании имеющегося массива.
При случайных пропусках (СП-допущение) их значения зависят от значений переменных-предикторов и не зависят от собственных значений пропусков. Так, если пропуски в ответах на вопрос о политических предпочтениях чаще встречаются среди людей старшего возраста (но внутри этой группы они распределены случайно), то речь идет о случайных пропусках. В этом случае возникает вероятность смещения результатов оценивания параметров по выборке в целом (если значение по соответствующей подгруппе отличается от общего среднего).
Если же вероятность пропусков по определенным переменным зависит от величины самих пропущенных значений по этим переменным, то говорят о неслучайных пропусках (НП-допущение). Например, люди с левыми политическими взглядами с меньшей вероятностью склонны сообщать соответствующую информацию. Такие пропуски вносят систематические ошибки в результаты анализа. Читать дальше...
Виды лонгитюдного исследовательского дизайна
23/05/14 19:04
Ушел в отпуск для окончания монографии на основании кандидатской диссертации. Есть время чуть активнее наполнять блог. Ну и поэтому небольшой кусок из этой самой монографии. На тему лонгитюда, так как соответствующего материала в русскоязычной литературе очень мало. Определенная специфика изложения связана прежде всего с тем, что рассматривается лонгитюдный дизайн в контексте теоретической валидизации.
----------------------
Согласно одному из классических определений, исследовательский дизайн представляет собой комбинацию требований относительно сбора и анализа данных, необходимых для достижения целей исследования [Mouton, 1996: p. 32].
Исследовательский дизайн задает рамки сбора и анализа данных и определяет пригодные исследовательские методы. Принимая во внимание необходимость темпоральной реконструкции исследуемого феномена [Головаха, 2004: с. 14], наилучшим дизайном для теоретической валидизации является лонгитюдный дизайн, заключающийся в повторяемых наблюдениях с целью выяснения характера изменений феномена, происходящих во времени. Читать дальше...
----------------------
Согласно одному из классических определений, исследовательский дизайн представляет собой комбинацию требований относительно сбора и анализа данных, необходимых для достижения целей исследования [Mouton, 1996: p. 32].
Исследовательский дизайн задает рамки сбора и анализа данных и определяет пригодные исследовательские методы. Принимая во внимание необходимость темпоральной реконструкции исследуемого феномена [Головаха, 2004: с. 14], наилучшим дизайном для теоретической валидизации является лонгитюдный дизайн, заключающийся в повторяемых наблюдениях с целью выяснения характера изменений феномена, происходящих во времени. Читать дальше...
Немного истории: как появился этот сайт
25/04/14 21:48
Похож на Билла Гейтса. Похож, но не он =) Это Уильям Трочим, человек который имеет непосредственное отношение к созданию моего веб-сайта. Последний существует порядка трех лет, из которых большую половину я занимался его наполнением, дизайном и редизайном. За это время количество уникальных посетителей в плотную приблизилось к 40 тысячам, а среднее количество посещений в день - к 100. Не самые выдающиеся показатели, но в целом я доволен. Все таки, тематика сайта не самая востребованная.
Однако вернемся к герою моей сегодняшней статьи. Зовут его - Уильям Трочим. Он профессор Корнельского университета (Нью-Йорк) и доктор философии по методологии и оценочным исследованиям (Ph.D. Methodology and Evaluation Research). Каким образом он связан с созданием моего сайта? Дело в том, что именно сайт В.Трочима вдохновил меня на создание собственного. Поэтому сегодня я хочу немного рассказать о его интернет ресурсе - Методы социальных исследований. Читать дальше...
Однако вернемся к герою моей сегодняшней статьи. Зовут его - Уильям Трочим. Он профессор Корнельского университета (Нью-Йорк) и доктор философии по методологии и оценочным исследованиям (Ph.D. Methodology and Evaluation Research). Каким образом он связан с созданием моего сайта? Дело в том, что именно сайт В.Трочима вдохновил меня на создание собственного. Поэтому сегодня я хочу немного рассказать о его интернет ресурсе - Методы социальных исследований. Читать дальше...