Анализ данных

Алгоритм сравнения социально-демографических групп: на примере установок на гражданскую активность

Stacks Image 3
Далее представлен пример визуализации результатов проверки множественных гипотез (тест Вилкоксона) после контроля методом Беньямин-Хохберта.

Цель визуализации - это, прежде всего, комплексное (и, как я надеюсь, интуитивно понятное) описание различий между набором социально-демографических групп, а не проверка влияния ряда факторов на независимую переменную.

В качестве параметра, подлежащего сравнению, использован индекс построенный на основании следующих индикаторов:
  • Мне все равно какая будет власть, только бы не стало хуже
  • Я свой выбор давно уже сделал, поэтому не хочу принимать
    участие в нынешней политической жизни
  • Какой смысл бороться за свои права, если власть
    своими действиями откровенно их игнорирует

Диапазон возможных значений от 3 до 15, где меньшие значения говорят о более пассивных установках, а большие - о более активных.

Представленный подход носит универсальный характер, т.е. он не привязан к этой конкретной теме и его легко реализовать для других статистических описаний (особенно учитывая, что он реализовано для непараметрических данных).

В этой заметке я сосредоточился на технической реализации, поэтому будет неудивительно, если у Вас возникнут вопросы и критические заменчания.

Анализ данных проведен на массиве данных социологического мониторинга «Украинское общество» 2016 года (Институт социологии НАН Украина).

Для анализа и визуализации использован язык программирования R.
Читать дальше...
Comments

Анализ вопросов с возможностью множественного выбора в R

В нашем последнем мониторинге (ИС НАНУ, 2016) есть такой вопрос:
По Вашему мнению, что сегодня объединяет людей в украинском обществе? (Отметьте все подходящие ответы)
Поскольку отмечать можно было все подходящие ответы, то детальный анализ не такой простой как может показаться на первый взгляд. Ну и решил я поковыряться в этом всем с помощью R. Сначала стал придумывать как добраться до всех комбинаций, существующих в данных… и в принципе добрался, но не могу сказать, что это мне очень сильно помогло. Но было забавно. Поэтому ниже в статье мои скромные скрипты, если вдруг кто-то решит таким же заниматься. Допускаю, что в определенных случаях они могут быть вполне полезными (например, при ограничениях на количество выбираемых альтернатив).
P.s. - когда я понял что ковыряние в имеющихся комбинациях не очень перспективно, то обратился к старому доброму многомерному шкалированию (эти команды тоже есть). Результат на рисунке. Проценты показывают как часто выбиралась альтернатива. Цвет точек показывает установки на гражданскую активность. Зеленые точки показывают мотивы, выбираемые респондентами, среди которых повышенная представленность установок на гражданскую активность, желтые – с обычной представленностью, красная – с пониженной представленностью. Интерпретации получаются весьма интересные =)
Stacks Image 14017
Читать дальше...
Comments

Типы данных в data science

В data science и области больших данных встречается много разных типов данных, для каждого из которых требуются свои инструменты и методы. Основные категории данных перечислены ниже.
  • Структурированные.
  • Неструктурированные.
  • На естественном языке.
  • Машинные.
  • Графовые.
  • Аудио, видео и графика.
  • Потоковые.
Все эти типы данных представляют интерес, и их стоит рассмотреть подробнее. Структурированные данные зависят от модели данных и хранятся в фиксированном поле внутри записи. Соответственно, структурированные данные часто бывает удобно хранить в таблицах, в базах данных или файлах Excel:
Stacks Image 14017
Читать дальше...
Comments

Изменения в политической культуре Украины (2006, 2016 года)

Установки на демократию и гражданскую активность в Украине (2016 год):
Stacks Image 14003

Недавно я представил результаты различных способов кластеризации для социологического теста «Типы политической культуры» (Е.И. Головаха). Теперь важно сравнить различные способы кластеризация с точки зрения фиксации изменений, которые произошли в политической культуре украинского общества (см. таблицу ниже). При этом из анализа исключена кластеризация с помощью латентного классового анализа, так как она приводит к формированию по различным годам плохо сопоставимых групп – в 2006 году группы выглядят значительнее гомогеннее, чем в 2016. Кроме того, для кластерного анализа проанализированы два решения – для пяти и четырех групп. Читать дальше...
Comments

Влияние способа кластеризации на результаты использования теста "Типы политической культуры"

political divide
Тема сегодняшней статьи - влияние выбора метода статистической обработки на результаты кластеризации / типологии. В качестве примера используется применение социологического теста «Типы политической культуры» (Е.И. Головаха). Концепция данного теста заключается в использовании двух измерительных шкал - «демократии / антидемократии» и « гражданской активности / пассивности». Соответственно, в оригинальном варианте в результате ее использования респондента можно отнести к одной из четырех групп: активным демократам, пассивным демократам, пассивным антидемократам, активным антидемократам. При этом предлагается использовать кластерный анализ методом К-средних. Далее представлены результаты использования как кластерного анализа, так и ряда его альтернатив - идеальной точки деления, концептуальной типологии и латентного классового анализа.

Способы кластеризации

Идеальная точка деления задает координату, разбивающую всю совокупность респондентов на четыре группы. Поскольку в данном случае мы имеем две аддитивные шкалы с диапазоном возможных значений от 6 до 30, значение, которое делит этот диапазон на две равные половины составляет 17,5. Интуитивным улучшением этого способа является введение некоторой зоны вокруг точки деления (далее это будет 2,5 балла по обеим осям), попадание в которую трактуется как неопределенная позиция в отношении демократии и гражданской активности.

Концептуальная типология
заключается в использовании содержательных принципов анализа ответов респондентов, позволяющих сгруппировать наблюдения в рамках теоретически обоснованных групп. Для этого теста я использовал два взаимосвязанных содержательных принципа анализа: 1) «веер» ответов «полностью согласен / скорее согласен / трудно сказать, согласен или нет / скорее не согласен / абсолютно не согласен» задает три основных модальности – согласия, неопределенности и несогласия; 2) шесть индикаторов позволяют выразить респонденту одну из четырех базовых установок – поддержки (в ответах преобладает согласие), амбивалентности (в ответах в равной мере присутствует и согласие, и несогласие), сопротивления (в ответах преобладает несогласие), неопределенности (в ответах преобладает неопределенность).
Исходя из этих принципов, техническое решение для концептуальной типологии будет заключаться в перечислении всех возможных комбинаций для шести индикаторов. При этом я не проводил различия между «полностью согласен» и «скорее согласен», а также между «полностью не согласен» и «скорее не согласен»: Читать дальше...
Comments

Критерий Шапиро-Уилка: выборки и статистическая значимость

В процессе написания статьи, посвященной сокращенному варианту SCL-90-R (SCL-9-NR), столкнулся с проверкой распределения на нормальность посредством критерия Шапиро-Уилка. Проверялось это дело на двух выборках - для Киева и Львова (по 200 человек в каждой). Пришлось прибегнуть к некоторым ухищрениям. Вот собственно о них кратенько в этой заметке.
Stacks Image 84131
Stacks Image 84135

Киев

Stacks Image 84133
Stacks Image 84137

Львов

Читать дальше...
Comments

Модификация социологических данных средствами R

manMini
После того, как массив «почищен» и готов к работе, часто возникает необходимость модификации имеющихся переменных. В одних случаях это связано с обще логикой анализа (например, исключение из анализа т.н. «выбросов»), в других - с требованиями используемого статистического метода (например, «подгонка» формы распределения), в третьих - с необходимостью получения новой информации на основании имеющейся (например, вычисление индексов). Рассмотрим эти ситуации более подробно.
В случае использования числовой переменной с большим диапазоном возможных значений, следует проверить ее на наличие «выбросов» - нетипично больших или малых значений. Для визуализации последних можно использовать функцию boxplot(), позволяющую построить диаграмму размахов. В качестве данных создадим вектор значений «salary» на основании переменной «l3», исключив из нее респондентов без доходов и использовав только тех респондентов, которые были опрошены в рамках последнего этапа исследования, то есть в 2014 году.

finalUSind$salary <- NA
indexes <- which(finalUSind$l3 > 0 & finalUSind$year == 2014)
finalUSind$salary[indexes] <- finalUSind$l3[indexes]
boxplot(salary, horizontal = T, las = 1, col = "slategray3",
        outpch = 16, outcol = "slategray3")

Полученная диаграмма (см. рис.1) показывает нижнюю и верхнюю границы «выбросов», квартили, медиану и сами «выбросы» (они отмечены точками). Читать дальше...
Comments

Логический контроль (чистка) данных

Копия clean_all_the_data_maybe
Очень часто операторы, которые вводят данные и формируют массив, не являются аналитиками и не обращают внимания на содержательное соотношение ответов в пределах каждой из анкет (например, относительно возраста и образования), поскольку процесс ввода данных ими часто доведен до автоматизма. Кроме того, когда оператор недостаточно опытен, внимателен или плохо ознакомился с анкетой или паспортом для ввода данных, в массив могут попасть значения, отличающиеся от соответствующих в анкете. Поэтому непосредственно после ввода данных количественных исследований возникает необходимость логического контроля массива. Под логическим контролем подразумевается проверка данных массива на предмет присутствия в них логических несоответствий. Например, если человек говорит, что его возраст 16 лет и при этом он имеет высшее образование, следует проверить не является ли это ошибкой ввода. В отечественной литературе этап логического контроля данных практически не описан. Его основы и правила написания соответствующего синтаксиса приведены в справке статистического пакета «ОСА for Windows» (справка доступна из самой программы). В зарубежной литературе контролю данных уделяется значительно больше внимания (см., например: [1]). На популярном образовательном портале «Coursera» (https://www.coursera.org/) этой теме посвящен отдельный курс.
Контроль массива данных также называют «чисткой массива». Последнее определение чаще используется в кругу отечественных исследователей, поэтому далее мы будем использовать именно его. Это крайне важный этап управления данными, который позволяет:
  • определить ошибки ввода операторами;
  • привести массив к удобному формату для дальнейшей работы с ним;
  • найти анкеты, которые могли быть фальсифицированы.
Последний пункт не является основной сферой, для которой используется чистка данных. Хотя практика показывает, что некоторые анкеты, которые содержат множество логических противоречий, желательно проверить дополнительно связавшись с респондентом (при наличии его контактов), если ранее эта анкета не попала в выборочный контроль после полевых работ. Читать дальше...
Comments

Работа с пропущенными данными: теория и практика

missingdata
Многие переменные (а во многих социологических исследованиях, основывающихся на массовых опросах, - подавляющее их большинство) имеют пропущенные значения. Последние ведут к снижению статистической мощности (то есть снижают вероятность нахождения реальных закономерностей в данных), а также могут быть причиной систематических ошибок [Бослаф, 2015: с. 450].
Обработка пропущенных значений является достаточно развитой исследовательской областью с общепринятой терминологией и множеством решений для различных дисциплин и конкретных исследований. С попыткой широкого обобщения основ обработки пропущенных данных в социальных науках можно ознакомиться, например, в работе Даниэля Ньюмана [Newman, 2014]. В рамках же данной статьи мы обратимся к главным понятиям этой теории, а также основным методам решения проблемы пропущенных значений.
Виды пропусков
Принято выделять три вида пропусков - полностью случайные, случайные и неслучайные пропуски (данная терминология ведет свое начало от известной работы Дональда Рубина [Rubin, 1976]). Полностью случайные пропуски (ПСП-допущение) имеют место в тех случаях, когда подвыборка имеющихся значений по переменной(-ым), подлежащей изучению, по-прежнему является моделью генеральной совокупности. Примером может служить случай, когда пропуски по некоторой переменной (например, политические предпочтения) не зависят от значений переменных-предикторов (например, пол, возраст, регион проживания и т.д.), а также от значений самих пропусков (например, не возникает ситуации, когда респонденты с определенной политической позицией чаще других не дают ответа на соответствующий вопрос). Выбор модели полностью случайных пропусков - единственное допущение, которое можно проверить эмпирически. Что касается случайных и неслучайных пропусков, соответствующие допущения невозможно проверить на основании имеющегося массива.
При случайных пропусках (СП-допущение) их значения зависят от значений переменных-предикторов и не зависят от собственных значений пропусков. Так, если пропуски в ответах на вопрос о политических предпочтениях чаще встречаются среди людей старшего возраста (но внутри этой группы они распределены случайно), то речь идет о случайных пропусках. В этом случае возникает вероятность смещения результатов оценивания параметров по выборке в целом (если значение по соответствующей подгруппе отличается от общего среднего).
Если же вероятность пропусков по определенным переменным зависит от величины самих пропущенных значений по этим переменным, то говорят о неслучайных пропусках (НП-допущение). Например, люди с левыми политическими взглядами с меньшей вероятностью склонны сообщать соответствующую информацию. Такие пропуски вносят систематические ошибки в результаты анализа. Читать дальше...
Comments

Взвешивание данных таблиц сопреженности в R

1371192895
Пару месяцев назад столкнулся с необходимостью взвешивания данных в R. Для решения этой задачи существует библиотека weights, разработанная доцентом Мичиганского университета Джошем Пасеком. Это расширение, среди прочего, позволяет взвешивать средние значения, одномерные распределения и результаты некоторых статистических тестов. Но в случае необходимости взвешивания таблиц сопряженности эта библиотека мало применима. Единственная возможность - создание новой переменной, категории которой сгенерированы как результат перекрестной классификации категорий переменных, образующих таблицу сопряженности. Например, для переменных пол (две категории) и образование (три категории) необходимо создать новую переменную с шестью категориями и уже к ней применить функцию wpct() библиотеки weights. Способ, по правде сказать, не самый интересный. Других возможностей для взвешивания таблиц сопряженности я не обнаружил. Поэтому решил написать свою функцию. При этом я столкнулся со следующими вопросами: 1) как осуществляется взвешивание данных таблиц сопряженности? 2) как валидизировать функцию? 3) какие средства самого R лучше использовать? Читать дальше...
Comments

Статистические выводы: таблицы сопряженности и сравнение средних

eq_1
На рисунке, если что, изображена кривая нормального распределения :)
В предыдущих двух главах было рассмотрено построение частотных таблиц (в том числе и таблиц сопряженности), а также средних значений, как методы описательной статистики. Как известно эти методы позволяют делать и статистические выводы. Последним и посвящена эта глава.
В случае таблиц сопряженности предварительно необходимо создать соответствующие объекты и уже к ним применять статистические критерии. В случае же сравнения средних значений работа может вестись как с массивом данных напрямую, так и со специально созданными векторами.
Читать дальше...
Comments

Описательные статистики: средние значения

uw
Наконец возвращаюсь к анализу данных в R. Сложно было подобрать изображение для статьи о средних значениях... Потом вспомнил об усредненных фото женских лиц разной национальности. Тоже способ агрегации данных :) Если просмотреть все фото, то украинские женщины точно в ряду самых красивых.
Вобщем прикоснемся к прекрасному - обобщению данных с помощью средних значений. Самый простой способ заключается в использовании функции summary(). Она может быть применена как к вектору, так и к фрейму данных (в последнем случае обобщенные данные будут выведены для всех переменных массива). В зависимости от того, является ли переменная фактором или просто чиcловым вектором, выведенные результаты будут соответственно или в виде одномерного частотного распределения, или в виде набора показателей (минимальное значение, первый квартиль, медиана, среднее, третий квартиль, максимальное значение). Для примера я использую массив с показателями Freedom House и UNDP по всем странам мира.
Чтобы не загромождать текст, выведу сводку данных только для трех переменных массива - статуса свободы, ожидаемой продолжительности жизни и среднего количества лет обучения в стране: Читать дальше...
Comments

Data Science: набор интегрированных спецкурсов на курсере

Вот такой ништяк можно получить от университета Джона Хопкинса:
Снимок экрана 2014-07-29 в 01.03.50
Но стоить это будет 490 баксов + необходимо успешно пройти курсы. Вернее сначала вы можете успешно пройти курсы, а уже потом заплатить за сертификаты, при желании, конечно. Следовательно, все курсы абсолютно бесплатны. Набор тем действительно исчерпывающий. Остаются вопросы по отдельным лекторам. Например, Роджер Пэнг, как по мне, какой-то унылый. Но ценность информации это не уменьшает. Подробности здесь.

Comments

Скрипт для согласования концептов: 1 и 0

Копия 326028
Ровно два месяца прошло со времени, когда я в последний раз опубликовал статью, посвященную R. Пора наверстывать упущенное. Сегодняшний материал не для онлайн учебника по R, а просто полезная для гуманитариев штука: скрипт для создания матриц из едииниц и нулей. В первую очередь он необходим для проведения процедуры согласования концептов. С последней можно ознакомиться здесь (конкретно про единицы и нули см. стр. 103-105). Кроме этого, такого рода матрицы можно использовать для решения многих задач с применением многомерного шкалирования (на ум, например, приходит специфический способ социометрического исследования).
Чтобы хоть как-то объяснить сущность этих матриц, приведу цитату (с остальным можно ознакомиться перейдя по ссылке выше): "... результаты (...) представляются в виде квадратной таблицы (матрицы), которая имеет количество строк и столбцов равное количеству утверждений. Все значения этой матрицы могут принимать только два значения – «0» или «1». Единица является показателем того, что утверждения по строке и столбцу размещаются (...) в одной группе, в то время как ноль указывает на то, что они размещаются в разных группах". Читать дальше...
Comments

Описательные статистики: одномерные и многомерные частотные распределения

Magnetized-Float-Table-by-RPR-2
В отличии от SPSS, в R таблицы (частотные распределения) являются не просто способом представления числовых данных, результаты которого подлежат лишь ограниченному редактированию (как текстовый объект в MS Word или числовой в MS Excel), а полноценным программным объектом, в работе с которым доступны средства индексации, редактирования, включения в программные конструкции и прочее. Все это делает частотные распределения в R максимально гибкими и продуктивными в использовании.
Объект данных таблица создается с помощью функции table(), которая может принимать в качестве аргумента различные массивы данных (например, векторы, множества, фреймы). Эта функция является базовой при построении как одномерных, так и многомерных таблиц сопряженности. К полученному в результате ее использования объекту применяются другие функции, позволяющие строить таблицы модифицированные под потребности исследователя. Читать дальше...
Comments

Краткое руководство по SPSS: часть 2

500px-SPSS_logo.svg
Сегодняшняя статья посвещена перекодировке и вычислению переменных, а также построению фильтров в SPSS. Эти процедуры используются для подготовки данных перед их анализом, а именно для создания новых переменных на основании уже имеющихся (перекодировка и вычисление) и отбора определенной части респондентов для анализа (фильтры).
Рассмотрим некоторые ситуации, когда это может пригодиться.
Случай первый.
Есть переменная с пятью категориями: 1 - совсем не доверяю, 2 - преимущественно не доверяю, 3 - сложно сказать, доверяю или нет, 4 - преимущественно доверяю, 5 - полностью доверяю. Для ее дальнейшего использования в построении таблицы сопряженности необходимо перекодировать ее в переменную с тремя категориями.
Случай второй.
Есть набор переменных, фиксирующих принадлежность респондента к общественным организациям различных типов (0 - не принадлежит, 1 - принадлежит). Необходимо вычислить по каждому респонденту, в каком количестве организаций он состоит.
Случай третий.
Из всей совокупности респондентов отобрать для дальнейшего анализа только тех, которые проживают в центральном и южном регионах Украины.
Рассмотрим решение каждой из этих задач с помощью SPSS. Читать дальше...
Comments

Краткое руководство по SPSS: часть 1

500px-SPSS_logo.svg
По независящим от меня обстоятельствам я не смогу провести пары на этой неделе. А поскольку мы должны были встречаться со специалистами и магистрами НАУ последний раз (и поскольку я должен был завершить вычитку тем по основам работы с SPSS), я закончу обещанное в своем блоге. Сегодня я представлю материалы по основам анализа данных, а на следующей неделе я подготовлю материалы по подготовке данных (фильтры, перекодировка и вычисление данных).
1. Основы построения одномерных частотных распределений.
2. Основы расчета мер центральной тенденции (мода, медиана, среднее арифметическое) и вариативности (размах, дисперсия, стандартное отклонение).
3. Основы построения таблиц сопряженности.
4. Основы расчета коэффициентов корреляции.
За более развернутым изложениям относительно работы в SPSS вы можете обратиться к книге Наследова.
Конечно же, сами по себе навыки работы в SPSS не являются достаточными, поэтому вам следует ознакомиться со следующим материалом: Читать дальше...
Comments

Рекурсия и изменение глобальных объектов

DrawingHandsLg
Сегодняшняя статья имеет отношение к функциональному программированию и посвещена сразу двум темам: использованию рекурсивных функций и изменению внешних (т.н. глобальных) по отношению к функции объектов с помощью ее синтаксиса. Понятие рекурсии и глобальных/локальных переменных являются одними из базовых в функциональном программировании. Данные темы будут проиллюстрированы на основании создания функции, предназначенной для ввода данных непосредственно из анкет. Конечно же эту задачу можно решить и с помощью способов, описанных в главе "Создание массива данных в R": создания векторов (один респондент - один вектор) или с помощью функции fix(), которая вызывает привычное окно со строками и столбцами. Вместе с тем, эти способы являются неоправданно трудоемкими, когда речь идет о вводе больших массивов данных. Также они ведут к большему количеству ошибок ввода. Что касается специально созданной для этого функции, то она позволяет частично контролировать вводимые данные, а также автоматически сливает их в общий массив. Читать дальше...
Comments

Основы программирования: авторские функции

images
Во многих случаях (когда необходимо решить специфическую задачу) можно обойтись написанием скрипта (здесь имеется ввиду программный код для конкретного случая) по типу того, который приведен в предыдущей статье (создание фреймов данных для каждого года и запись их в список). Маловероятно, что такие скрипты понадобятся в дальнешем. Поэтому их специфическая адаптация для других ситуаций не требуется.
Вместе с тем, возникают и ситуации, когда необходимо написать такой программный код, который бы решал одну и ту же задачу, возникающую часто и требующую учета изменяющихся ключевых данных. По этой причине, в процессе работы можно применять не только уже имеющиеся функции, но и создавать свои собственные. Такие авторские функции позволяют использовать уже имеющиеся в R функции, условные операторы, циклы, списки и многое другое. Для многих языков программирование функциональное программирование является одной из основ. В случае R (если мы говорим про анализ данных) многие задачи уже реализованы как в базовой версии, так и виде расширений. Несмотря на это, функциональное программирование в R также является важным дополнением, существенно расширяющим возможности исследователя. Читать дальше...
Comments

Основы программирования: списки

Копия List_Cat
"Список - это упорядоченный набор объектов (компонентов). Список может объединять разные (возможно, не связанные между собой) объекты под одним именем. К примеру, список может представлять собой сочетание векторов, матриц, таблиц данных и даже других списков" (Роберт Кабаков. Анализ и визуализация данных на языке R). Главное преимущество списков связано с их гибкостью. Во-первых, как уже упомянуто, они могут включать данные и объекты разных типов. Во-вторых, размер списков не задается при их создании и может меняться в соответствии с интересами исследователя. Эти две особенности отличают списки от векторов. Третьим, но менее важным отличием является то, что доступ к элементам списков возможно как по индексам, так и по ключевым словам. В этом смысле списки в R объединяют свойства как списков, так и словарей (если использовать Python-овскую терминологию).
Именно списки очень удобно использовать в работе циклов - добавление новых элементов будет идти не по пути перезаписи списка, а по пути его расширения. Благодаря использованию циклов, условных операторов и списков открываются широкие возможности решения творческих задач как в рамках программирования в целом, так и в рамках анализа данных в частности. Читать дальше...
Comments

Основы программирования: условные операторы

Копия images
Согласно Wiki, "условный оператор (условная инструкция, оператор ветвления) — оператор, конструкция языка программирования, обеспечивающая выполнение определённой команды (набора команд) только при условии истинности некоторого логического выражения, либо выполнение одной из нескольких команд (наборов команд) в зависимости от значения некоторого выражения... Существует две основные формы условных операторов: условный оператор (оператор if) и оператор многозначного выбора (переключатель, case, switch)". Говоря более простым языком, операторы типа if и switch используются в R для того, чтобы определенная часть кода запускалась только в тех ситуациях, когда это необходимо исследователю. При этом таких частей кода может быть несколько, как и условий, которые приводят к запуску каждой из них. Читать дальше...
Comments

Основы программирования: циклы

Копия loop-image-for-blog



Согласно Wiki, "цикл — разновидность управляющей конструкции в высокоуровневых языках программирования, предназначенная для организации многократного исполнения набора инструкций... Последовательность инструкций, предназначенная для многократного исполнения, называется телом цикла. Единичное выполнение тела цикла называется итерацией. Выражение определяющее, будет в очередной раз выполняться итерация, или цикл завершится, называется условием выхода или условием окончания цикла (либо условием продолжения в зависимости от того, как интерпретируется его истинность — как признак необходимости завершения или продолжения цикла). Переменная, хранящая текущий номер итерации, называется счётчиком итераций цикла или просто счётчиком цикла". Читать дальше...
Comments

Управление данными: работа с переменными

Копия tools-24dqof6




Довольно часто подготовка к анализу может занимать намного больше времени, чем сам анализ. Поэтому проблемы управления данными занимают важное место в аналитическом процессе. И поскольку R является не только средой статистической обработки данных, но и языком программирования, он предоставляет множество инструментов по управлению данными.
В сегодняшней статье я хочу коснуться только части из них, а именно: вычисления новых переменных, перекодировки имеющихся, работы с пропущенными значениями, "склеивания" массивов, выборки переменных и наблюдений. Читать дальше...
Comments

Работа с переменными-факторами. Влияние типа переменной на особенности анализа

Снимок экрана 2013-11-02 в 15.08.17



R выдвигает достаточно жесткие требования к организации данных. В частности это касается категориальных (номинальных и порядковых) переменных, которые называются в R факторами. В сегодняшней статье я коснусь особенностей создания факторов, ограничений, связанных с их обработкой, а также возможностей, предоставляемых R Commander при работе с ними. Текст статьи предполагает вашу осведомленность с типами переменных. Освежить соответствующие знания можно здесь, здесь и здесь.

Читать дальше...
Comments

R Commander - графический интерфейс пользователя для работы с R. Использование файлов R Script для организации работы

Снимок экрана 2013-10-25 в 21.19.34



Одной из особенностей R является первоначальное отсутствие графического интерфейса пользователя, такого как, например, в SPSS. Вместе с тем, существуют расширения, позволяющие использовать авторские графические интерфейсы. Одним из наиболее популярных является R Commander. Он предоставляет широкие возможности для импорта и экспорта данных, использования основных методов анализа и построения графиков. Сегодняшняя статья посвящена именно ему.
Кроме того, я расскажу также об использовании файлов R Script, которые позволяют фиксировать аналитический процесс и в случае необходимости быстро осуществить его вновь.

Читать дальше...
Comments

Создание массива данных в R

RDataInput



Это первая из серии статей, посвященных основам использования R. Одной из их особенностей будет направленность на специфику социологического анализа. Следовательно те моменты, которые есть в R, но не касаются социологии я буду намерено опускать.
Как и в других средах анализа данных, в R можно открыть, создать или импортировать данные. Я остановлюсь на каждом из этих способов. А поскольку вопрос создания массива данных тесно связан с типами и структурами данных, постольку соответствующим темам также будет уделено внимание.

Читать дальше...
Comments

Среда статистических вычислений R: краткая история возникновения, преимущества и недостатки, текущее состояние использования

R



Прежде чем перейти к рассмотрению заявленных в названии статьи вопросов, хочется сказать о следующем. Отечественная социология демонстрирует удивительную инертность во многих вещах. Но если ситуацию с освоением качественного подхода можно объяснить историческими особенностями нашей социологии, то недостаток, а часто и отсутствие, внимания к современным разработкам в области количественного социологии не всегда легко понять. Исходя из этого, главная задача данной статьи - познакомить читателей с чрезвычайно продуктивной и популярной зарубежом средой статистической обработки, которая уже в обозримом будущем может составить конкуренцию таким известным в нашей социологии программам обработки данных как SPSS и ОСА.

Читать дальше...
Comments