Jun 2015
Работа с пропущенными данными: теория и практика
26/06/15 22:39 Относится к категории: Эмпирическая социология | Анализ данных | R | Социологическое образование
Многие переменные (а во многих социологических исследованиях, основывающихся на массовых опросах, - подавляющее их большинство) имеют пропущенные значения. Последние ведут к снижению статистической мощности (то есть снижают вероятность нахождения реальных закономерностей в данных), а также могут быть причиной систематических ошибок [Бослаф, 2015: с. 450].
Обработка пропущенных значений является достаточно развитой исследовательской областью с общепринятой терминологией и множеством решений для различных дисциплин и конкретных исследований. С попыткой широкого обобщения основ обработки пропущенных данных в социальных науках можно ознакомиться, например, в работе Даниэля Ньюмана [Newman, 2014]. В рамках же данной статьи мы обратимся к главным понятиям этой теории, а также основным методам решения проблемы пропущенных значений.
Виды пропусков
Принято выделять три вида пропусков - полностью случайные, случайные и неслучайные пропуски (данная терминология ведет свое начало от известной работы Дональда Рубина [Rubin, 1976]). Полностью случайные пропуски (ПСП-допущение) имеют место в тех случаях, когда подвыборка имеющихся значений по переменной(-ым), подлежащей изучению, по-прежнему является моделью генеральной совокупности. Примером может служить случай, когда пропуски по некоторой переменной (например, политические предпочтения) не зависят от значений переменных-предикторов (например, пол, возраст, регион проживания и т.д.), а также от значений самих пропусков (например, не возникает ситуации, когда респонденты с определенной политической позицией чаще других не дают ответа на соответствующий вопрос). Выбор модели полностью случайных пропусков - единственное допущение, которое можно проверить эмпирически. Что касается случайных и неслучайных пропусков, соответствующие допущения невозможно проверить на основании имеющегося массива.
При случайных пропусках (СП-допущение) их значения зависят от значений переменных-предикторов и не зависят от собственных значений пропусков. Так, если пропуски в ответах на вопрос о политических предпочтениях чаще встречаются среди людей старшего возраста (но внутри этой группы они распределены случайно), то речь идет о случайных пропусках. В этом случае возникает вероятность смещения результатов оценивания параметров по выборке в целом (если значение по соответствующей подгруппе отличается от общего среднего).
Если же вероятность пропусков по определенным переменным зависит от величины самих пропущенных значений по этим переменным, то говорят о неслучайных пропусках (НП-допущение). Например, люди с левыми политическими взглядами с меньшей вероятностью склонны сообщать соответствующую информацию. Такие пропуски вносят систематические ошибки в результаты анализа. Читать дальше...
Обработка пропущенных значений является достаточно развитой исследовательской областью с общепринятой терминологией и множеством решений для различных дисциплин и конкретных исследований. С попыткой широкого обобщения основ обработки пропущенных данных в социальных науках можно ознакомиться, например, в работе Даниэля Ньюмана [Newman, 2014]. В рамках же данной статьи мы обратимся к главным понятиям этой теории, а также основным методам решения проблемы пропущенных значений.
Виды пропусков
Принято выделять три вида пропусков - полностью случайные, случайные и неслучайные пропуски (данная терминология ведет свое начало от известной работы Дональда Рубина [Rubin, 1976]). Полностью случайные пропуски (ПСП-допущение) имеют место в тех случаях, когда подвыборка имеющихся значений по переменной(-ым), подлежащей изучению, по-прежнему является моделью генеральной совокупности. Примером может служить случай, когда пропуски по некоторой переменной (например, политические предпочтения) не зависят от значений переменных-предикторов (например, пол, возраст, регион проживания и т.д.), а также от значений самих пропусков (например, не возникает ситуации, когда респонденты с определенной политической позицией чаще других не дают ответа на соответствующий вопрос). Выбор модели полностью случайных пропусков - единственное допущение, которое можно проверить эмпирически. Что касается случайных и неслучайных пропусков, соответствующие допущения невозможно проверить на основании имеющегося массива.
При случайных пропусках (СП-допущение) их значения зависят от значений переменных-предикторов и не зависят от собственных значений пропусков. Так, если пропуски в ответах на вопрос о политических предпочтениях чаще встречаются среди людей старшего возраста (но внутри этой группы они распределены случайно), то речь идет о случайных пропусках. В этом случае возникает вероятность смещения результатов оценивания параметров по выборке в целом (если значение по соответствующей подгруппе отличается от общего среднего).
Если же вероятность пропусков по определенным переменным зависит от величины самих пропущенных значений по этим переменным, то говорят о неслучайных пропусках (НП-допущение). Например, люди с левыми политическими взглядами с меньшей вероятностью склонны сообщать соответствующую информацию. Такие пропуски вносят систематические ошибки в результаты анализа. Читать дальше...
Comments
База даних з показниками UNDP, Freedom House, World Value Survey, ACE для усіх країн світу за 2012 рік
Прежде всего хочу поблагодарить свою бывшую студентку и нынешнюю аспирантку Богдану Хляпатуру за помощь в сборе данных. Самостоятельно я бы наверно не осилил...
ССЫЛКА НА МАССИВ С ДАННЫМИ (если будете использовать, буду благодарен за ссылку на этот сайт)
ПОСИЛАННЯ НА СТАТТЮ, ДЕ ЦІ ДАНІ ПРОАНАЛІЗОВАНІ
А тепер трохи про дані =)
Усі рейтингові дані Freedom House та статистичні показники UNDP збиралися за станом на 2012 р., незважаючи на те, що на момент збору даних для окремих країн вже були наявні дані Freedom House за 2013 р. Таке рішення зумовлене бажанням часової уніфікації емпіричної бази при використанні якомога найсучасніших даних (на момент збору дані UNDP були станом на 2012 рік). Проте повністю втілити це бажання не вдалося. По-перше, час проведення масових опитувань в рамках проекту World Value Survey датується періодом з 2005-го по 2008 р. (альтернативних баз даних у даному випадку немає). По-друге, база даних ACE-проекту не дозволяє обирати рік, а містить лише найактуальнішу інформацію. Втім, в останньому випадку, дані про виборчі системи в переважній більшості датуються 2012 р. й лише інколи – 2011 чи 2013-м. З-поміж показників Freedom House були зафіксовані (тобто внесені до масиву даних) п’ять показників про свободу преси (свобода законодавчої, політичної та економічної сфери, що зумовлюють свободу преси, а також похідні від цих показників – рівень свободи преси загалом та відповідний статус країни) та чотири показники про стан свободи в країні (політичні та громадянські права, а також похідні від цих показники – загальний рівень свободи та відповідний статус країни). За показниками свободи преси на 2012 р. наявні дані для 196 країн, а за показниками стану свободи в країні – для 195 країн. Також на основі даних Freedom House була введена змінна регіону розміщення країни, що містить шість зон: Америка, Західна Європа, Середній Схід та Північна Африка, Центральна та Південна Африка, Центральна та Східна Європа/Євразія, Азійсько-Тихоокеанській регіон. Читать дальше...
ССЫЛКА НА МАССИВ С ДАННЫМИ (если будете использовать, буду благодарен за ссылку на этот сайт)
ПОСИЛАННЯ НА СТАТТЮ, ДЕ ЦІ ДАНІ ПРОАНАЛІЗОВАНІ
А тепер трохи про дані =)
Усі рейтингові дані Freedom House та статистичні показники UNDP збиралися за станом на 2012 р., незважаючи на те, що на момент збору даних для окремих країн вже були наявні дані Freedom House за 2013 р. Таке рішення зумовлене бажанням часової уніфікації емпіричної бази при використанні якомога найсучасніших даних (на момент збору дані UNDP були станом на 2012 рік). Проте повністю втілити це бажання не вдалося. По-перше, час проведення масових опитувань в рамках проекту World Value Survey датується періодом з 2005-го по 2008 р. (альтернативних баз даних у даному випадку немає). По-друге, база даних ACE-проекту не дозволяє обирати рік, а містить лише найактуальнішу інформацію. Втім, в останньому випадку, дані про виборчі системи в переважній більшості датуються 2012 р. й лише інколи – 2011 чи 2013-м. З-поміж показників Freedom House були зафіксовані (тобто внесені до масиву даних) п’ять показників про свободу преси (свобода законодавчої, політичної та економічної сфери, що зумовлюють свободу преси, а також похідні від цих показників – рівень свободи преси загалом та відповідний статус країни) та чотири показники про стан свободи в країні (політичні та громадянські права, а також похідні від цих показники – загальний рівень свободи та відповідний статус країни). За показниками свободи преси на 2012 р. наявні дані для 196 країн, а за показниками стану свободи в країні – для 195 країн. Також на основі даних Freedom House була введена змінна регіону розміщення країни, що містить шість зон: Америка, Західна Європа, Середній Схід та Північна Африка, Центральна та Південна Африка, Центральна та Східна Європа/Євразія, Азійсько-Тихоокеанській регіон. Читать дальше...