Аналіз статистичних даних

Скрипт для согласования концептов: 1 и 0

Копия 326028
Ровно два месяца прошло со времени, когда я в последний раз опубликовал статью, посвященную R. Пора наверстывать упущенное. Сегодняшний материал не для онлайн учебника по R, а просто полезная для гуманитариев штука: скрипт для создания матриц из едииниц и нулей. В первую очередь он необходим для проведения процедуры согласования концептов. С последней можно ознакомиться здесь (конкретно про единицы и нули см. стр. 103-105). Кроме этого, такого рода матрицы можно использовать для решения многих задач с применением многомерного шкалирования (на ум, например, приходит специфический способ социометрического исследования).
Чтобы хоть как-то объяснить сущность этих матриц, приведу цитату (с остальным можно ознакомиться перейдя по ссылке выше): "... результаты (...) представляются в виде квадратной таблицы (матрицы), которая имеет количество строк и столбцов равное количеству утверждений. Все значения этой матрицы могут принимать только два значения – «0» или «1». Единица является показателем того, что утверждения по строке и столбцу размещаются (...) в одной группе, в то время как ноль указывает на то, что они размещаются в разных группах". Читать дальше...
Comments

Описательные статистики: одномерные и многомерные частотные распределения

Magnetized-Float-Table-by-RPR-2
В отличии от SPSS, в R таблицы (частотные распределения) являются не просто способом представления числовых данных, результаты которого подлежат лишь ограниченному редактированию (как текстовый объект в MS Word или числовой в MS Excel), а полноценным программным объектом, в работе с которым доступны средства индексации, редактирования, включения в программные конструкции и прочее. Все это делает частотные распределения в R максимально гибкими и продуктивными в использовании.
Объект данных таблица создается с помощью функции table(), которая может принимать в качестве аргумента различные массивы данных (например, векторы, множества, фреймы). Эта функция является базовой при построении как одномерных, так и многомерных таблиц сопряженности. К полученному в результате ее использования объекту применяются другие функции, позволяющие строить таблицы модифицированные под потребности исследователя. Читать дальше...
Comments

Основы программирования: авторские функции

images
Во многих случаях (когда необходимо решить специфическую задачу) можно обойтись написанием скрипта (здесь имеется ввиду программный код для конкретного случая) по типу того, который приведен в предыдущей статье (создание фреймов данных для каждого года и запись их в список). Маловероятно, что такие скрипты понадобятся в дальнешем. Поэтому их специфическая адаптация для других ситуаций не требуется.
Вместе с тем, возникают и ситуации, когда необходимо написать такой программный код, который бы решал одну и ту же задачу, возникающую часто и требующую учета изменяющихся ключевых данных. По этой причине, в процессе работы можно применять не только уже имеющиеся функции, но и создавать свои собственные. Такие авторские функции позволяют использовать уже имеющиеся в R функции, условные операторы, циклы, списки и многое другое. Для многих языков программирование функциональное программирование является одной из основ. В случае R (если мы говорим про анализ данных) многие задачи уже реализованы как в базовой версии, так и виде расширений. Несмотря на это, функциональное программирование в R также является важным дополнением, существенно расширяющим возможности исследователя. Читать дальше...
Comments

Основы программирования: списки

Копия List_Cat
"Список - это упорядоченный набор объектов (компонентов). Список может объединять разные (возможно, не связанные между собой) объекты под одним именем. К примеру, список может представлять собой сочетание векторов, матриц, таблиц данных и даже других списков" (Роберт Кабаков. Анализ и визуализация данных на языке R). Главное преимущество списков связано с их гибкостью. Во-первых, как уже упомянуто, они могут включать данные и объекты разных типов. Во-вторых, размер списков не задается при их создании и может меняться в соответствии с интересами исследователя. Эти две особенности отличают списки от векторов. Третьим, но менее важным отличием является то, что доступ к элементам списков возможно как по индексам, так и по ключевым словам. В этом смысле списки в R объединяют свойства как списков, так и словарей (если использовать Python-овскую терминологию).
Именно списки очень удобно использовать в работе циклов - добавление новых элементов будет идти не по пути перезаписи списка, а по пути его расширения. Благодаря использованию циклов, условных операторов и списков открываются широкие возможности решения творческих задач как в рамках программирования в целом, так и в рамках анализа данных в частности. Читать дальше...
Comments

Основы программирования: условные операторы

Копия images
Согласно Wiki, "условный оператор (условная инструкция, оператор ветвления) — оператор, конструкция языка программирования, обеспечивающая выполнение определённой команды (набора команд) только при условии истинности некоторого логического выражения, либо выполнение одной из нескольких команд (наборов команд) в зависимости от значения некоторого выражения... Существует две основные формы условных операторов: условный оператор (оператор if) и оператор многозначного выбора (переключатель, case, switch)". Говоря более простым языком, операторы типа if и switch используются в R для того, чтобы определенная часть кода запускалась только в тех ситуациях, когда это необходимо исследователю. При этом таких частей кода может быть несколько, как и условий, которые приводят к запуску каждой из них. Читать дальше...
Comments

Основы программирования: циклы

Копия loop-image-for-blog



Согласно Wiki, "цикл — разновидность управляющей конструкции в высокоуровневых языках программирования, предназначенная для организации многократного исполнения набора инструкций... Последовательность инструкций, предназначенная для многократного исполнения, называется телом цикла. Единичное выполнение тела цикла называется итерацией. Выражение определяющее, будет в очередной раз выполняться итерация, или цикл завершится, называется условием выхода или условием окончания цикла (либо условием продолжения в зависимости от того, как интерпретируется его истинность — как признак необходимости завершения или продолжения цикла). Переменная, хранящая текущий номер итерации, называется счётчиком итераций цикла или просто счётчиком цикла". Читать дальше...
Comments

Управление данными: работа с переменными

Копия tools-24dqof6




Довольно часто подготовка к анализу может занимать намного больше времени, чем сам анализ. Поэтому проблемы управления данными занимают важное место в аналитическом процессе. И поскольку R является не только средой статистической обработки данных, но и языком программирования, он предоставляет множество инструментов по управлению данными.
В сегодняшней статье я хочу коснуться только части из них, а именно: вычисления новых переменных, перекодировки имеющихся, работы с пропущенными значениями, "склеивания" массивов, выборки переменных и наблюдений. Читать дальше...
Comments

Работа с переменными-факторами. Влияние типа переменной на особенности анализа

Снимок экрана 2013-11-02 в 15.08.17



R выдвигает достаточно жесткие требования к организации данных. В частности это касается категориальных (номинальных и порядковых) переменных, которые называются в R факторами. В сегодняшней статье я коснусь особенностей создания факторов, ограничений, связанных с их обработкой, а также возможностей, предоставляемых R Commander при работе с ними. Текст статьи предполагает вашу осведомленность с типами переменных. Освежить соответствующие знания можно здесь, здесь и здесь.

Читать дальше...
Comments

R Commander - графический интерфейс пользователя для работы с R. Использование файлов R Script для организации работы

Снимок экрана 2013-10-25 в 21.19.34



Одной из особенностей R является первоначальное отсутствие графического интерфейса пользователя, такого как, например, в SPSS. Вместе с тем, существуют расширения, позволяющие использовать авторские графические интерфейсы. Одним из наиболее популярных является R Commander. Он предоставляет широкие возможности для импорта и экспорта данных, использования основных методов анализа и построения графиков. Сегодняшняя статья посвящена именно ему.
Кроме того, я расскажу также об использовании файлов R Script, которые позволяют фиксировать аналитический процесс и в случае необходимости быстро осуществить его вновь.

Читать дальше...
Comments

Создание массива данных в R

RDataInput



Это первая из серии статей, посвященных основам использования R. Одной из их особенностей будет направленность на специфику социологического анализа. Следовательно те моменты, которые есть в R, но не касаются социологии я буду намерено опускать.
Как и в других средах анализа данных, в R можно открыть, создать или импортировать данные. Я остановлюсь на каждом из этих способов. А поскольку вопрос создания массива данных тесно связан с типами и структурами данных, постольку соответствующим темам также будет уделено внимание.

Читать дальше...
Comments

Среда статистических вычислений R: краткая история возникновения, преимущества и недостатки, текущее состояние использования

R



Прежде чем перейти к рассмотрению заявленных в названии статьи вопросов, хочется сказать о следующем. Отечественная социология демонстрирует удивительную инертность во многих вещах. Но если ситуацию с освоением качественного подхода можно объяснить историческими особенностями нашей социологии, то недостаток, а часто и отсутствие, внимания к современным разработкам в области количественного социологии не всегда легко понять. Исходя из этого, главная задача данной статьи - познакомить читателей с чрезвычайно продуктивной и популярной зарубежом средой статистической обработки, которая уже в обозримом будущем может составить конкуренцию таким известным в нашей социологии программам обработки данных как SPSS и ОСА.

Читать дальше...
Comments