Перекодировка переменных

Модификация социологических данных средствами R

manMini
После того, как массив «почищен» и готов к работе, часто возникает необходимость модификации имеющихся переменных. В одних случаях это связано с обще логикой анализа (например, исключение из анализа т.н. «выбросов»), в других - с требованиями используемого статистического метода (например, «подгонка» формы распределения), в третьих - с необходимостью получения новой информации на основании имеющейся (например, вычисление индексов). Рассмотрим эти ситуации более подробно.
В случае использования числовой переменной с большим диапазоном возможных значений, следует проверить ее на наличие «выбросов» - нетипично больших или малых значений. Для визуализации последних можно использовать функцию boxplot(), позволяющую построить диаграмму размахов. В качестве данных создадим вектор значений «salary» на основании переменной «l3», исключив из нее респондентов без доходов и использовав только тех респондентов, которые были опрошены в рамках последнего этапа исследования, то есть в 2014 году.

finalUSind$salary <- NA
indexes <- which(finalUSind$l3 > 0 & finalUSind$year == 2014)
finalUSind$salary[indexes] <- finalUSind$l3[indexes]
boxplot(salary, horizontal = T, las = 1, col = "slategray3",
        outpch = 16, outcol = "slategray3")

Полученная диаграмма (см. рис.1) показывает нижнюю и верхнюю границы «выбросов», квартили, медиану и сами «выбросы» (они отмечены точками). Читать дальше...
Comments