Анализ данных

Социологический блог

Алгоритм сравнения социально-демографических групп: на примере установок на гражданскую активность

22/04/19 14:44

Stacks Image 3

Далее представлен пример визуализации результатов проверки множественных гипотез (тест Вилкоксона) после контроля методом Беньямин-Хохберта.

Цель визуализации - это, прежде всего, комплексное (и, как я надеюсь, интуитивно понятное) описание различий между набором социально-демографических групп, а не проверка влияния ряда факторов на независимую переменную.

В качестве параметра, подлежащего сравнению, использован индекс построенный на основании следующих индикаторов:

Мне все равно какая будет власть, только бы не стало хуже
Я свой выбор давно уже сделал, поэтому не хочу принимать
участие в нынешней политической жизни
Какой смысл бороться за свои права, если власть
своими действиями откровенно их игнорирует

Диапазон возможных значений от 3 до 15, где меньшие значения говорят о более пассивных установках, а большие - о более активных.

Представленный подход носит универсальный характер, т.е. он не привязан к этой конкретной теме и его легко реализовать для других статистических описаний (особенно учитывая, что он реализовано для непараметрических данных).

В этой заметке я сосредоточился на технической реализации, поэтому будет неудивительно, если у Вас возникнут вопросы и критические заменчания.

Анализ данных проведен на массиве данных социологического мониторинга «Украинское общество» 2016 года (Институт социологии НАН Украина).

Для анализа и визуализации использован язык программирования R.

Читать дальше...

Тэги: Гражданская активность, Множественная проверка статистических гипотез, Визуализация

Анализ вопросов с возможностью множественного выбора в R

30/03/17 22:10

В нашем последнем мониторинге (ИС НАНУ, 2016) есть такой вопрос:
По Вашему мнению, что сегодня объединяет людей в украинском обществе? (Отметьте все подходящие ответы)
Поскольку отмечать можно было все подходящие ответы, то детальный анализ не такой простой как может показаться на первый взгляд. Ну и решил я поковыряться в этом всем с помощью R. Сначала стал придумывать как добраться до всех комбинаций, существующих в данных… и в принципе добрался, но не могу сказать, что это мне очень сильно помогло. Но было забавно. Поэтому ниже в статье мои скромные скрипты, если вдруг кто-то решит таким же заниматься. Допускаю, что в определенных случаях они могут быть вполне полезными (например, при ограничениях на количество выбираемых альтернатив).
P.s. - когда я понял что ковыряние в имеющихся комбинациях не очень перспективно, то обратился к старому доброму многомерному шкалированию (эти команды тоже есть). Результат на рисунке. Проценты показывают как часто выбиралась альтернатива. Цвет точек показывает установки на гражданскую активность. Зеленые точки показывают мотивы, выбираемые респондентами, среди которых повышенная представленность установок на гражданскую активность, желтые – с обычной представленностью, красная – с пониженной представленностью. Интерпретации получаются весьма интересные =)

Stacks Image 14017

Читать дальше...

Тэги: Социологический мониторинг "Украинское общество", Многомерное шкалирование, Мотивация для объединения граждан, Гражданская активность

Типы данных в data science

22/02/17 13:26

Источник представленных материалов

В data science и области больших данных встречается много разных типов данных, для каждого из которых требуются свои инструменты и методы. Основные категории данных перечислены ниже.

Структурированные.
Неструктурированные.
На естественном языке.
Машинные.
Графовые.
Аудио, видео и графика.
Потоковые.

Все эти типы данных представляют интерес, и их стоит рассмотреть подробнее. Структурированные данные зависят от модели данных и хранятся в фиксированном поле внутри записи. Соответственно, структурированные данные часто бывает удобно хранить в таблицах, в базах данных или файлах Excel:

Stacks Image 14017

Читать дальше...

Тэги: Big data, Типы данных, Книга Основы Data Science и Big Data

Изменения в политической культуре Украины (2006, 2016 года)

16/02/17 11:40

Установки на демократию и гражданскую активность в Украине (2016 год):

Stacks Image 14003

Недавно я представил результаты различных способов кластеризации для социологического теста «Типы политической культуры» (Е.И. Головаха). Теперь важно сравнить различные способы кластеризация с точки зрения фиксации изменений, которые произошли в политической культуре украинского общества (см. таблицу ниже). При этом из анализа исключена кластеризация с помощью латентного классового анализа, так как она приводит к формированию по различным годам плохо сопоставимых групп – в 2006 году группы выглядят значительнее гомогеннее, чем в 2016. Кроме того, для кластерного анализа проанализированы два решения – для пяти и четырех групп. Читать дальше...

Тэги: Социологические тесты, Е.И.Головаха, Кластерный анализ, Идеальная точка деления, Концептуальная типология, Латентный классовый анализ

Влияние способа кластеризации на результаты использования теста "Типы политической культуры"

30/11/16 10:48

political divide

Тема сегодняшней статьи - влияние выбора метода статистической обработки на результаты кластеризации / типологии. В качестве примера используется применение социологического теста «Типы политической культуры» (Е.И. Головаха). Концепция данного теста заключается в использовании двух измерительных шкал - «демократии / антидемократии» и « гражданской активности / пассивности». Соответственно, в оригинальном варианте в результате ее использования респондента можно отнести к одной из четырех групп: активным демократам, пассивным демократам, пассивным антидемократам, активным антидемократам. При этом предлагается использовать кластерный анализ методом К-средних. Далее представлены результаты использования как кластерного анализа, так и ряда его альтернатив - идеальной точки деления, концептуальной типологии и латентного классового анализа.

Способы кластеризации

Идеальная точка деления задает координату, разбивающую всю совокупность респондентов на четыре группы. Поскольку в данном случае мы имеем две аддитивные шкалы с диапазоном возможных значений от 6 до 30, значение, которое делит этот диапазон на две равные половины составляет 17,5. Интуитивным улучшением этого способа является введение некоторой зоны вокруг точки деления (далее это будет 2,5 балла по обеим осям), попадание в которую трактуется как неопределенная позиция в отношении демократии и гражданской активности.

Концептуальная типология заключается в использовании содержательных принципов анализа ответов респондентов, позволяющих сгруппировать наблюдения в рамках теоретически обоснованных групп. Для этого теста я использовал два взаимосвязанных содержательных принципа анализа: 1) «веер» ответов «полностью согласен / скорее согласен / трудно сказать, согласен или нет / скорее не согласен / абсолютно не согласен» задает три основных модальности – согласия, неопределенности и несогласия; 2) шесть индикаторов позволяют выразить респонденту одну из четырех базовых установок – поддержки (в ответах преобладает согласие), амбивалентности (в ответах в равной мере присутствует и согласие, и несогласие), сопротивления (в ответах преобладает несогласие), неопределенности (в ответах преобладает неопределенность).
Исходя из этих принципов, техническое решение для концептуальной типологии будет заключаться в перечислении всех возможных комбинаций для шести индикаторов. При этом я не проводил различия между «полностью согласен» и «скорее согласен», а также между «полностью не согласен» и «скорее не согласен»: Читать дальше...

Тэги: Социологические тесты, Е.И.Головаха, Кластерный анализ, Идеальная точка деления, Концептуальная типология, Латентный классовый анализ

Критерий Шапиро-Уилка: выборки и статистическая значимость

21/01/16 18:51

В процессе написания статьи, посвященной сокращенному варианту SCL-90-R (SCL-9-NR), столкнулся с проверкой распределения на нормальность посредством критерия Шапиро-Уилка. Проверялось это дело на двух выборках - для Киева и Львова (по 200 человек в каждой). Пришлось прибегнуть к некоторым ухищрениям. Вот собственно о них кратенько в этой заметке.

Stacks Image 84131

Stacks Image 84135

Киев

Stacks Image 84133

Stacks Image 84137

Львов

Читать дальше...

Тэги: Критерий Шапиро-Уилка, SCL-90-R, SCL-9-NR

Модификация социологических данных средствами R

19/07/15 20:20

manMini

После того, как массив «почищен» и готов к работе, часто возникает необходимость модификации имеющихся переменных. В одних случаях это связано с обще логикой анализа (например, исключение из анализа т.н. «выбросов»), в других - с требованиями используемого статистического метода (например, «подгонка» формы распределения), в третьих - с необходимостью получения новой информации на основании имеющейся (например, вычисление индексов). Рассмотрим эти ситуации более подробно.
В случае использования числовой переменной с большим диапазоном возможных значений, следует проверить ее на наличие «выбросов» - нетипично больших или малых значений. Для визуализации последних можно использовать функцию boxplot(), позволяющую построить диаграмму размахов. В качестве данных создадим вектор значений «salary» на основании переменной «l3», исключив из нее респондентов без доходов и использовав только тех респондентов, которые были опрошены в рамках последнего этапа исследования, то есть в 2014 году.

finalUSind$salary <- NA
indexes <- which(finalUSind$l3 > 0 & finalUSind$year == 2014)
finalUSind$salary[indexes] <- finalUSind$l3[indexes]
boxplot(salary, horizontal = T, las = 1, col = "slategray3",
        outpch = 16, outcol = "slategray3")

Полученная диаграмма (см. рис.1) показывает нижнюю и верхнюю границы «выбросов», квартили, медиану и сами «выбросы» (они отмечены точками). Читать дальше...

Тэги: Перекодировка переменных, Вычисление переменных, Преобразование переменных

Логический контроль (чистка) данных

10/07/15 00:23

Копия clean_all_the_data_maybe

Очень часто операторы, которые вводят данные и формируют массив, не являются аналитиками и не обращают внимания на содержательное соотношение ответов в пределах каждой из анкет (например, относительно возраста и образования), поскольку процесс ввода данных ими часто доведен до автоматизма. Кроме того, когда оператор недостаточно опытен, внимателен или плохо ознакомился с анкетой или паспортом для ввода данных, в массив могут попасть значения, отличающиеся от соответствующих в анкете. Поэтому непосредственно после ввода данных количественных исследований возникает необходимость логического контроля массива. Под логическим контролем подразумевается проверка данных массива на предмет присутствия в них логических несоответствий. Например, если человек говорит, что его возраст 16 лет и при этом он имеет высшее образование, следует проверить не является ли это ошибкой ввода. В отечественной литературе этап логического контроля данных практически не описан. Его основы и правила написания соответствующего синтаксиса приведены в справке статистического пакета «ОСА for Windows» (справка доступна из самой программы). В зарубежной литературе контролю данных уделяется значительно больше внимания (см., например: [1]). На популярном образовательном портале «Coursera» (https://www.coursera.org/) этой теме посвящен отдельный курс.
Контроль массива данных также называют «чисткой массива». Последнее определение чаще используется в кругу отечественных исследователей, поэтому далее мы будем использовать именно его. Это крайне важный этап управления данными, который позволяет:

определить ошибки ввода операторами;
привести массив к удобному формату для дальнейшей работы с ним;
найти анкеты, которые могли быть фальсифицированы.

Последний пункт не является основной сферой, для которой используется чистка данных. Хотя практика показывает, что некоторые анкеты, которые содержат множество логических противоречий, желательно проверить дополнительно связавшись с респондентом (при наличии его контактов), если ранее эта анкета не попала в выборочный контроль после полевых работ. Читать дальше...

Тэги: Техническая чистка данных, Логическая чистка данных, Ошибки ввода

Работа с пропущенными данными: теория и практика

26/06/15 22:39

missingdata

Многие переменные (а во многих социологических исследованиях, основывающихся на массовых опросах, - подавляющее их большинство) имеют пропущенные значения. Последние ведут к снижению статистической мощности (то есть снижают вероятность нахождения реальных закономерностей в данных), а также могут быть причиной систематических ошибок [Бослаф, 2015: с. 450].
Обработка пропущенных значений является достаточно развитой исследовательской областью с общепринятой терминологией и множеством решений для различных дисциплин и конкретных исследований. С попыткой широкого обобщения основ обработки пропущенных данных в социальных науках можно ознакомиться, например, в работе Даниэля Ньюмана [Newman, 2014]. В рамках же данной статьи мы обратимся к главным понятиям этой теории, а также основным методам решения проблемы пропущенных значений.
Виды пропусков
Принято выделять три вида пропусков - полностью случайные, случайные и неслучайные пропуски (данная терминология ведет свое начало от известной работы Дональда Рубина [Rubin, 1976]). Полностью случайные пропуски (ПСП-допущение) имеют место в тех случаях, когда подвыборка имеющихся значений по переменной(-ым), подлежащей изучению, по-прежнему является моделью генеральной совокупности. Примером может служить случай, когда пропуски по некоторой переменной (например, политические предпочтения) не зависят от значений переменных-предикторов (например, пол, возраст, регион проживания и т.д.), а также от значений самих пропусков (например, не возникает ситуации, когда респонденты с определенной политической позицией чаще других не дают ответа на соответствующий вопрос). Выбор модели полностью случайных пропусков - единственное допущение, которое можно проверить эмпирически. Что касается случайных и неслучайных пропусков, соответствующие допущения невозможно проверить на основании имеющегося массива.
При случайных пропусках (СП-допущение) их значения зависят от значений переменных-предикторов и не зависят от собственных значений пропусков. Так, если пропуски в ответах на вопрос о политических предпочтениях чаще встречаются среди людей старшего возраста (но внутри этой группы они распределены случайно), то речь идет о случайных пропусках. В этом случае возникает вероятность смещения результатов оценивания параметров по выборке в целом (если значение по соответствующей подгруппе отличается от общего среднего).
Если же вероятность пропусков по определенным переменным зависит от величины самих пропущенных значений по этим переменным, то говорят о неслучайных пропусках (НП-допущение). Например, люди с левыми политическими взглядами с меньшей вероятностью склонны сообщать соответствующую информацию. Такие пропуски вносят систематические ошибки в результаты анализа. Читать дальше...

Тэги: Обработка пропусков, NA

Взвешивание данных таблиц сопреженности в R

30/04/15 21:22

1371192895

Пару месяцев назад столкнулся с необходимостью взвешивания данных в R. Для решения этой задачи существует библиотека weights, разработанная доцентом Мичиганского университета Джошем Пасеком. Это расширение, среди прочего, позволяет взвешивать средние значения, одномерные распределения и результаты некоторых статистических тестов. Но в случае необходимости взвешивания таблиц сопряженности эта библиотека мало применима. Единственная возможность - создание новой переменной, категории которой сгенерированы как результат перекрестной классификации категорий переменных, образующих таблицу сопряженности. Например, для переменных пол (две категории) и образование (три категории) необходимо создать новую переменную с шестью категориями и уже к ней применить функцию wpct() библиотеки weights. Способ, по правде сказать, не самый интересный. Других возможностей для взвешивания таблиц сопряженности я не обнаружил. Поэтому решил написать свою функцию. При этом я столкнулся со следующими вопросами: 1) как осуществляется взвешивание данных таблиц сопряженности? 2) как валидизировать функцию? 3) какие средства самого R лучше использовать? Читать дальше...

Тэги: Взвешивание данных, Частотные распределения, Обобщение данных, Анализ статистических данных, Среда статистических вычислений R

Статистические выводы: таблицы сопряженности и сравнение средних

20/08/14 23:43

eq_1

На рисунке, если что, изображена кривая нормального распределения :)
В предыдущих двух главах было рассмотрено построение частотных таблиц (в том числе и таблиц сопряженности), а также средних значений, как методы описательной статистики. Как известно эти методы позволяют делать и статистические выводы. Последним и посвящена эта глава.
В случае таблиц сопряженности предварительно необходимо создать соответствующие объекты и уже к ним применять статистические критерии. В случае же сравнения средних значений работа может вестись как с массивом данных напрямую, так и со специально созданными векторами.
Читать дальше...

Тэги: Средние значения, Частотные распределения, Статистические выводы

Описательные статистики: средние значения

06/08/14 14:04

Наконец возвращаюсь к анализу данных в R. Сложно было подобрать изображение для статьи о средних значениях... Потом вспомнил об усредненных фото женских лиц разной национальности. Тоже способ агрегации данных :) Если просмотреть все фото, то украинские женщины точно в ряду самых красивых.
Вобщем прикоснемся к прекрасному - обобщению данных с помощью средних значений. Самый простой способ заключается в использовании функции summary(). Она может быть применена как к вектору, так и к фрейму данных (в последнем случае обобщенные данные будут выведены для всех переменных массива). В зависимости от того, является ли переменная фактором или просто чиcловым вектором, выведенные результаты будут соответственно или в виде одномерного частотного распределения, или в виде набора показателей (минимальное значение, первый квартиль, медиана, среднее, третий квартиль, максимальное значение). Для примера я использую массив с показателями Freedom House и UNDP по всем странам мира.
Чтобы не загромождать текст, выведу сводку данных только для трех переменных массива - статуса свободы, ожидаемой продолжительности жизни и среднего количества лет обучения в стране: Читать дальше...

Тэги: Средние значения, Обобщение данных

Data Science: набор интегрированных спецкурсов на курсере

29/07/14 00:59

Вот такой ништяк можно получить от университета Джона Хопкинса:
Снимок экрана 2014-07-29 в 01.03.50
Но стоить это будет 490 баксов + необходимо успешно пройти курсы. Вернее сначала вы можете успешно пройти курсы, а уже потом заплатить за сертификаты, при желании, конечно. Следовательно, все курсы абсолютно бесплатны. Набор тем действительно исчерпывающий. Остаются вопросы по отдельным лекторам. Например, Роджер Пэнг, как по мне, какой-то унылый. Но ценность информации это не уменьшает. Подробности здесь.

Тэги: Онлайн образование, Coursera

Скрипт для согласования концептов: 1 и 0

06/06/14 15:51

Копия 326028

Ровно два месяца прошло со времени, когда я в последний раз опубликовал статью, посвященную R. Пора наверстывать упущенное. Сегодняшний материал не для онлайн учебника по R, а просто полезная для гуманитариев штука: скрипт для создания матриц из едииниц и нулей. В первую очередь он необходим для проведения процедуры согласования концептов. С последней можно ознакомиться здесь (конкретно про единицы и нули см. стр. 103-105). Кроме этого, такого рода матрицы можно использовать для решения многих задач с применением многомерного шкалирования (на ум, например, приходит специфический способ социометрического исследования).
Чтобы хоть как-то объяснить сущность этих матриц, приведу цитату (с остальным можно ознакомиться перейдя по ссылке выше): "... результаты (...) представляются в виде квадратной таблицы (матрицы), которая имеет количество строк и столбцов равное количеству утверждений. Все значения этой матрицы могут принимать только два значения – «0» или «1». Единица является показателем того, что утверждения по строке и столбцу размещаются (...) в одной группе, в то время как ноль указывает на то, что они размещаются в разных группах". Читать дальше...

Тэги: Анализ статистических данных, Среда статистических вычислений R, Аналіз статистичних даних, Середовище статистичних розрахунків R, Массивы данных

Описательные статистики: одномерные и многомерные частотные распределения

06/04/14 18:47

Magnetized-Float-Table-by-RPR-2

В отличии от SPSS, в R таблицы (частотные распределения) являются не просто способом представления числовых данных, результаты которого подлежат лишь ограниченному редактированию (как текстовый объект в MS Word или числовой в MS Excel), а полноценным программным объектом, в работе с которым доступны средства индексации, редактирования, включения в программные конструкции и прочее. Все это делает частотные распределения в R максимально гибкими и продуктивными в использовании.
Объект данных таблица создается с помощью функции table(), которая может принимать в качестве аргумента различные массивы данных (например, векторы, множества, фреймы). Эта функция является базовой при построении как одномерных, так и многомерных таблиц сопряженности. К полученному в результате ее использования объекту применяются другие функции, позволяющие строить таблицы модифицированные под потребности исследователя. Читать дальше...

Тэги: Частотные распределения, Обобщение данных, Анализ статистических данных, Среда статистических вычислений R, Аналіз статистичних даних, Середовище статистичних розрахунків R

Краткое руководство по SPSS: часть 2

16/03/14 16:33

Сегодняшняя статья посвещена перекодировке и вычислению переменных, а также построению фильтров в SPSS. Эти процедуры используются для подготовки данных перед их анализом, а именно для создания новых переменных на основании уже имеющихся (перекодировка и вычисление) и отбора определенной части респондентов для анализа (фильтры).
Рассмотрим некоторые ситуации, когда это может пригодиться.
Случай первый.
Есть переменная с пятью категориями: 1 - совсем не доверяю, 2 - преимущественно не доверяю, 3 - сложно сказать, доверяю или нет, 4 - преимущественно доверяю, 5 - полностью доверяю. Для ее дальнейшего использования в построении таблицы сопряженности необходимо перекодировать ее в переменную с тремя категориями.
Случай второй.
Есть набор переменных, фиксирующих принадлежность респондента к общественным организациям различных типов (0 - не принадлежит, 1 - принадлежит). Необходимо вычислить по каждому респонденту, в каком количестве организаций он состоит.
Случай третий.
Из всей совокупности респондентов отобрать для дальнейшего анализа только тех, которые проживают в центральном и южном регионах Украины.
Рассмотрим решение каждой из этих задач с помощью SPSS. Читать дальше...

Тэги: Помощь студентам, Национальный авиационный университет

Краткое руководство по SPSS: часть 1

04/03/14 16:34

По независящим от меня обстоятельствам я не смогу провести пары на этой неделе. А поскольку мы должны были встречаться со специалистами и магистрами НАУ последний раз (и поскольку я должен был завершить вычитку тем по основам работы с SPSS), я закончу обещанное в своем блоге. Сегодня я представлю материалы по основам анализа данных, а на следующей неделе я подготовлю материалы по подготовке данных (фильтры, перекодировка и вычисление данных).
1. Основы построения одномерных частотных распределений.
2. Основы расчета мер центральной тенденции (мода, медиана, среднее арифметическое) и вариативности (размах, дисперсия, стандартное отклонение).
3. Основы построения таблиц сопряженности.
4. Основы расчета коэффициентов корреляции.
За более развернутым изложениям относительно работы в SPSS вы можете обратиться к книге Наследова.
Конечно же, сами по себе навыки работы в SPSS не являются достаточными, поэтому вам следует ознакомиться со следующим материалом: Читать дальше...

Тэги: Помощь студентам, Национальный авиационный университет

Рекурсия и изменение глобальных объектов

23/02/14 13:37

DrawingHandsLg

Сегодняшняя статья имеет отношение к функциональному программированию и посвещена сразу двум темам: использованию рекурсивных функций и изменению внешних (т.н. глобальных) по отношению к функции объектов с помощью ее синтаксиса. Понятие рекурсии и глобальных/локальных переменных являются одними из базовых в функциональном программировании. Данные темы будут проиллюстрированы на основании создания функции, предназначенной для ввода данных непосредственно из анкет. Конечно же эту задачу можно решить и с помощью способов, описанных в главе "Создание массива данных в R": создания векторов (один респондент - один вектор) или с помощью функции fix(), которая вызывает привычное окно со строками и столбцами. Вместе с тем, эти способы являются неоправданно трудоемкими, когда речь идет о вводе больших массивов данных. Также они ведут к большему количеству ошибок ввода. Что касается специально созданной для этого функции, то она позволяет частично контролировать вводимые данные, а также автоматически сливает их в общий массив. Читать дальше...

Тэги: Рекурсивные функции, Изменение глобальных объектов, Автоматизация ввода данных

Основы программирования: авторские функции

03/01/14 19:22

images

Во многих случаях (когда необходимо решить специфическую задачу) можно обойтись написанием скрипта (здесь имеется ввиду программный код для конкретного случая) по типу того, который приведен в предыдущей статье (создание фреймов данных для каждого года и запись их в список). Маловероятно, что такие скрипты понадобятся в дальнешем. Поэтому их специфическая адаптация для других ситуаций не требуется.
Вместе с тем, возникают и ситуации, когда необходимо написать такой программный код, который бы решал одну и ту же задачу, возникающую часто и требующую учета изменяющихся ключевых данных. По этой причине, в процессе работы можно применять не только уже имеющиеся функции, но и создавать свои собственные. Такие авторские функции позволяют использовать уже имеющиеся в R функции, условные операторы, циклы, списки и многое другое. Для многих языков программирование функциональное программирование является одной из основ. В случае R (если мы говорим про анализ данных) многие задачи уже реализованы как в базовой версии, так и виде расширений. Несмотря на это, функциональное программирование в R также является важным дополнением, существенно расширяющим возможности исследователя. Читать дальше...

Тэги: Анализ статистических данных, Среда статистических вычислений R, Аналіз статистичних даних, Середовище статистичних розрахунків R

Основы программирования: списки

29/12/13 20:54

Копия List_Cat

"Список - это упорядоченный набор объектов (компонентов). Список может объединять разные (возможно, не связанные между собой) объекты под одним именем. К примеру, список может представлять собой сочетание векторов, матриц, таблиц данных и даже других списков" (Роберт Кабаков. Анализ и визуализация данных на языке R). Главное преимущество списков связано с их гибкостью. Во-первых, как уже упомянуто, они могут включать данные и объекты разных типов. Во-вторых, размер списков не задается при их создании и может меняться в соответствии с интересами исследователя. Эти две особенности отличают списки от векторов. Третьим, но менее важным отличием является то, что доступ к элементам списков возможно как по индексам, так и по ключевым словам. В этом смысле списки в R объединяют свойства как списков, так и словарей (если использовать Python-овскую терминологию).
Именно списки очень удобно использовать в работе циклов - добавление новых элементов будет идти не по пути перезаписи списка, а по пути его расширения. Благодаря использованию циклов, условных операторов и списков открываются широкие возможности решения творческих задач как в рамках программирования в целом, так и в рамках анализа данных в частности. Читать дальше...

Тэги: Анализ статистических данных, Среда статистических вычислений R, Аналіз статистичних даних, Середовище статистичних розрахунків R

Основы программирования: условные операторы

13/12/13 23:47

Копия images

Согласно Wiki, "условный оператор (условная инструкция, оператор ветвления) — оператор, конструкция языка программирования, обеспечивающая выполнение определённой команды (набора команд) только при условии истинности некоторого логического выражения, либо выполнение одной из нескольких команд (наборов команд) в зависимости от значения некоторого выражения... Существует две основные формы условных операторов: условный оператор (оператор if) и оператор многозначного выбора (переключатель, case, switch)". Говоря более простым языком, операторы типа if и switch используются в R для того, чтобы определенная часть кода запускалась только в тех ситуациях, когда это необходимо исследователю. При этом таких частей кода может быть несколько, как и условий, которые приводят к запуску каждой из них. Читать дальше...

Тэги: Анализ статистических данных, Среда статистических вычислений R, Аналіз статистичних даних, Середовище статистичних розрахунків R

Основы программирования: циклы

22/11/13 23:24

Копия loop-image-for-blog

Согласно Wiki, "цикл — разновидность управляющей конструкции в высокоуровневых языках программирования, предназначенная для организации многократного исполнения набора инструкций... Последовательность инструкций, предназначенная для многократного исполнения, называется телом цикла. Единичное выполнение тела цикла называется итерацией. Выражение определяющее, будет в очередной раз выполняться итерация, или цикл завершится, называется условием выхода или условием окончания цикла (либо условием продолжения в зависимости от того, как интерпретируется его истинность — как признак необходимости завершения или продолжения цикла). Переменная, хранящая текущий номер итерации, называется счётчиком итераций цикла или просто счётчиком цикла". Читать дальше...

Тэги: Анализ статистических данных, Среда статистических вычислений R, Аналіз статистичних даних, Середовище статистичних розрахунків R

Управление данными: работа с переменными

10/11/13 14:44

Копия tools-24dqof6

Довольно часто подготовка к анализу может занимать намного больше времени, чем сам анализ. Поэтому проблемы управления данными занимают важное место в аналитическом процессе. И поскольку R является не только средой статистической обработки данных, но и языком программирования, он предоставляет множество инструментов по управлению данными.
В сегодняшней статье я хочу коснуться только части из них, а именно: вычисления новых переменных, перекодировки имеющихся, работы с пропущенными значениями, "склеивания" массивов, выборки переменных и наблюдений. Читать дальше...

Тэги: Анализ статистических данных, Среда статистических вычислений R, Аналіз статистичних даних, Середовище статистичних розрахунків R

Работа с переменными-факторами. Влияние типа переменной на особенности анализа

02/11/13 15:08

Снимок экрана 2013-11-02 в 15.08.17

R выдвигает достаточно жесткие требования к организации данных. В частности это касается категориальных (номинальных и порядковых) переменных, которые называются в R факторами. В сегодняшней статье я коснусь особенностей создания факторов, ограничений, связанных с их обработкой, а также возможностей, предоставляемых R Commander при работе с ними. Текст статьи предполагает вашу осведомленность с типами переменных. Освежить соответствующие знания можно здесь, здесь и здесь.

Читать дальше...

Тэги: Анализ статистических данных, Среда статистических вычислений R, Аналіз статистичних даних, Середовище статистичних розрахунків R

R Commander - графический интерфейс пользователя для работы с R. Использование файлов R Script для организации работы

25/10/13 20:37

Снимок экрана 2013-10-25 в 21.19.34

Одной из особенностей R является первоначальное отсутствие графического интерфейса пользователя, такого как, например, в SPSS. Вместе с тем, существуют расширения, позволяющие использовать авторские графические интерфейсы. Одним из наиболее популярных является R Commander. Он предоставляет широкие возможности для импорта и экспорта данных, использования основных методов анализа и построения графиков. Сегодняшняя статья посвящена именно ему.
Кроме того, я расскажу также об использовании файлов R Script, которые позволяют фиксировать аналитический процесс и в случае необходимости быстро осуществить его вновь.

Читать дальше...

Тэги: Анализ статистических данных, Среда статистических вычислений R, Аналіз статистичних даних, Середовище статистичних розрахунків R

Создание массива данных в R

18/10/13 18:35

RDataInput

Это первая из серии статей, посвященных основам использования R. Одной из их особенностей будет направленность на специфику социологического анализа. Следовательно те моменты, которые есть в R, но не касаются социологии я буду намерено опускать.
Как и в других средах анализа данных, в R можно открыть, создать или импортировать данные. Я остановлюсь на каждом из этих способов. А поскольку вопрос создания массива данных тесно связан с типами и структурами данных, постольку соответствующим темам также будет уделено внимание.

Читать дальше...

Тэги: Анализ статистических данных, Среда статистических вычислений R, Аналіз статистичних даних, Середовище статистичних розрахунків R, Массивы данных

Среда статистических вычислений R: краткая история возникновения, преимущества и недостатки, текущее состояние использования

08/10/13 12:07

Прежде чем перейти к рассмотрению заявленных в названии статьи вопросов, хочется сказать о следующем. Отечественная социология демонстрирует удивительную инертность во многих вещах. Но если ситуацию с освоением качественного подхода можно объяснить историческими особенностями нашей социологии, то недостаток, а часто и отсутствие, внимания к современным разработкам в области количественного социологии не всегда легко понять. Исходя из этого, главная задача данной статьи - познакомить читателей с чрезвычайно продуктивной и популярной зарубежом средой статистической обработки, которая уже в обозримом будущем может составить конкуренцию таким известным в нашей социологии программам обработки данных как SPSS и ОСА.

Читать дальше...

Тэги: Анализ статистических данных, Среда статистических вычислений R, Аналіз статистичних даних, Середовище статистичних розрахунків R

Data science (3)
Europe (2)
Geopolitics (2)
Infographics (1)
R (26)
Russia (2)
SPSS (2)
Ukraine (2)
Акционализм (1)
Анализ данных (27)
Аномия (1)
Выборка (1)
Выступления (3)
Геополитика (12)
Гражданское общество (2)
Демократизация (1)
Европа (4)
Интернет ресурсы (1)
Инфографика (8)
Исследовательские дизайны (1)
Историческая социология (10)
История социологии (5)
Киберспорт (1)
Книги (7)
Массивы (3)
Методология социальных исследований (1)
Методология социологических исследований (2)
Научная жизнь (3)
Новости (6)
Обратная связь (1)
Персоналии (3)
Православные конфессии в Украине (1)
Президентская власть (1)
Психологический дистресс (18)
Психология (5)
Публицистика (2)
Революция (1)
Результаты исследований (28)
Религия (3)
Россия (2)
Согласование концептов (4)
Социальная гетерогенность (1)
Социальная работа (1)
Социологическая теория (6)
Социологические тесты (1)
Социологическое образование (5)
Теория конфликта (2)
Теория социального измерения (8)
Украина (9)
Учебные планы (2)
Философия (1)
Шкалирование (36)
Экономика (1)
Эмпирическая социология (46)

December 2020

November 2020

October 2020
September 2020

August 2020

July 2020

June 2020

May 2020

April 2020

March 2020

February 2020

January 2020

December 2019

November 2019

September 2019

August 2019

July 2019

May 2019

April 2019
March 2019

February 2019

January 2019

December 2018

November 2018

October 2018
September 2018
August 2018

July 2018

June 2018

May 2018
April 2018
March 2018

February 2018

January 2018
December 2017
November 2017
October 2017
September 2017
August 2017
July 2017
June 2017
May 2017
April 2017
March 2017
February 2017
January 2017
December 2016
November 2016
October 2016
September 2016
August 2016
July 2016
June 2016
May 2016
April 2016
March 2016
February 2016
January 2016
December 2015
November 2015
October 2015
September 2015
August 2015
July 2015
June 2015
May 2015
April 2015
March 2015
February 2015

January 2015

November 2014

October 2014

September 2014
August 2014
July 2014
June 2014
May 2014
April 2014
March 2014
February 2014
January 2014
December 2013
November 2013
October 2013
September 2013

Подписка на RSS

free counters