Статистические выводы: таблицы сопряженности и сравнение средних
20/08/14 23:43 Относится к категории: Анализ данных | R

В предыдущих двух главах было рассмотрено построение частотных таблиц (в том числе и таблиц сопряженности), а также средних значений, как методы описательной статистики. Как известно эти методы позволяют делать и статистические выводы. Последним и посвящена эта глава.
В случае таблиц сопряженности предварительно необходимо создать соответствующие объекты и уже к ним применять статистические критерии. В случае же сравнения средних значений работа может вестись как с массивом данных напрямую, так и со специально созданными векторами.
Таблицы сопряженности
Построим таблицу, связывающую тип избирательной системы и статус сободы в стране (поскольку при расчете хи-квадрат используются частоты, не будем рассчитывать проценты или пропорции):
Построим таблицу, связывающую тип избирательной системы и статус сободы в стране (поскольку при расчете хи-квадрат используются частоты, не будем рассчитывать проценты или пропорции):
1 2 3 4 5 6 7 | > someTable <- table(forT$freedom, forT$election) > someTable Мажоритарная Смешанная Пропорциональная свободная 28 11 46 частично свободная 18 18 21 несвободная 23 10 8 |
На самом деле массив сплошной, т.е. в нем присутствуют данные про все (ну или почти все) единицы генеральной совокупности. Но в дидактических целях мы будем считать это исследование выборочным. Как видно из полученных результатов, есть определенная тенденция. Теперь проверим ее с помощью критерия независимости хи-квадрат с помощью функции chisq.test(), принимающая в качестве аргумента объект-таблицу:
8 9 10 11 12 13 | > chisq.test(someTable) Pearson's Chi-squared test data: someTable X-squared = 18.9821, df = 4, p-value = 0.0007923 |
Результаты более чем однозначные. Теперь для полноты картины можно взглянуть и на распределение соответствующих процентных величин:
14 15 16 17 18 19 | > round(prop.table(someTable,2),3)*100 Мажоритарная Смешанная Пропорциональная свободная 40.6 28.2 61.3 частично свободная 26.1 46.2 28.0 несвободная 33.3 25.6 10.7 |
Кроме определения статистической значимости связи часто необходимо определить и ее силу. Для расчета соответствующих коэффициентов следует использовать функцию assocstats() библиотеки "vcd":
20 21 22 23 24 25 26 27 28 29 30 | > install.packages("vcd") > library(grid) # эта библиотека также может понадобиться > library(vcd) > assocstats(someTable) X^2 df P(> X^2) Likelihood Ratio 19.437 4 0.00064480 Pearson 18.982 4 0.00079233 Phi-Coefficient : 0.322 Contingency Coeff.: 0.307 Cramer's V : 0.228 |
Как видно в результате получены данные как для статистической значимости (X^2, df и p), так и три коэффициента связи.
Средние значения
Для сравнения средних с помощью t-критерия Стьюдента для независимых групп используется функция t.test(), принимающая в качестве агрументов:
Для сравнения средних с помощью t-критерия Стьюдента для независимых групп используется функция t.test(), принимающая в качестве агрументов:
- группы сравниваемых данных;
- равенство/неравенство дисперсий;
- односторонний/двусторонний критерий сравнения.
Группы сравниваемых данных могут быть заданы двумя способами: а) с помощью формулы вида "y ~ x", в которой y является зависимой непрерывной, а x - независимой дихотомической переменной (при этом в виде дополнительного параметра необходимо указать фрейм данных, к которому имеет отношение эта формула); б) два числовых вектора, которые необходимо сравнить.
Равенство/неравенство дисперсий задается с помощью логического аргумента var.eual.
Тип критерия определяется с помощью аргумента alternative (возможные значения - less, greater, two.sided).
Если необходимо сделать доверительный уровень отличным от 95%, используется аргумент conf.level (указывается соответствующая пропорция)
Рассмотрим пример (первый способ определения сравниваемых групп):
Равенство/неравенство дисперсий задается с помощью логического аргумента var.eual.
Тип критерия определяется с помощью аргумента alternative (возможные значения - less, greater, two.sided).
Если необходимо сделать доверительный уровень отличным от 95%, используется аргумент conf.level (указывается соответствующая пропорция)
Рассмотрим пример (первый способ определения сравниваемых групп):
31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 | > forT$freedomTwo <- NA > forT$freedomTwo[forT$freedom == "свободная"] <- "свободная" > forT$freedomTwo[forT$freedom == "частично свободная" | forT$freedom == "несвободная"] <- "несвободная" > var(forT$health[forT$freedomTwo == "свободная"],na.rm=T) [1] 47.10881 > var(forT$health[forT$freedomTwo == "несвободная"],na.rm=T) [1] 90.05752 > t.test(health ~ freedomTwo, + data = forT, + var.equal = F + ) Welch Two Sample t-test data: health by freedomTwo t = -8.0522, df = 186.753, p-value = 9.296e-14 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -11.858159 -7.191167 sample estimates: mean in group несвободная mean in group свободная 65.79143 75.31609 |
В строках с 31 по 37 даны команды для подготовки данных и проверки величины дисперсий для сравниваемых групп.
Поскольку в функции t.test() явно не заданы такие аргументы как тип критерия и доверительный уровень, то соответствующие показатели принимаются за двусторонний (two.sided) и 95% (0.95) соответственно. В строках 46 и 47 видно, что различия являются статистически значимыми - в свободных странах ожидаемая продолжительность жизни в среднем на 10 лет больше, чем в остальных.
Теперь рассмотрим второй способ:
Поскольку в функции t.test() явно не заданы такие аргументы как тип критерия и доверительный уровень, то соответствующие показатели принимаются за двусторонний (two.sided) и 95% (0.95) соответственно. В строках 46 и 47 видно, что различия являются статистически значимыми - в свободных странах ожидаемая продолжительность жизни в среднем на 10 лет больше, чем в остальных.
Теперь рассмотрим второй способ:
53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 | > firstG <- forT$income[forT$freedom == "свободная"] > secondG <- forT$income[forT$freedom == "частично свободная" | forT$freedom == "несвободная"] > var(firstG, na.rm=T) [1] 153805145 > var(secondG, na.rm=T) [1] 175370303 > t.test(firstG, secondG, + var.equal = F, + conf.level = 0.99) Welch Two Sample t-test data: firstG and secondG t = 5.121, df = 176.492, p-value = 7.903e-07 alternative hypothesis: true difference in means is not equal to 0 99 percent confidence interval: 4776.631 14660.005 sample estimates: mean of x mean of y 17861.99 8143.67 |
Использование R Commander-а
Если работать через диалоговые окна, то процесс будет иметь следующий вид.
Сначала выбираем нужную базу данных (кнопка напротив Data set):
Если работать через диалоговые окна, то процесс будет иметь следующий вид.
Сначала выбираем нужную базу данных (кнопка напротив Data set):

Далее для таблиц сопряженности:
1.

2.

Для сравнения средних (предварительно надо убедиться, что группирующая переменная имеет две категории и является переменной-фактором):
1.

2.

статью подготовил кандидат социологических наук Сергей Дембицкий
Data science (3)
Europe (2)
Geopolitics (2)
Infographics (1)
R (26)
Russia (2)
SPSS (2)
Ukraine (2)
Акционализм (1)
Анализ данных (27)
Аномия (1)
Выборка (1)
Выступления (3)
Геополитика (12)
Гражданское общество (2)
Демократизация (1)
Европа (4)
Интернет ресурсы (1)
Инфографика (8)
Исследовательские дизайны (1)
Историческая социология (10)
История социологии (5)
Киберспорт (1)
Книги (7)
Массивы (3)
Методология социальных исследований (1)
Методология социологических исследований (2)
Научная жизнь (3)
Новости (6)
Обратная связь (1)
Персоналии (3)
Православные конфессии в Украине (1)
Президентская власть (1)
Психологический дистресс (18)
Психология (5)
Публицистика (2)
Революция (1)
Результаты исследований (28)
Религия (3)
Россия (2)
Согласование концептов (4)
Социальная гетерогенность (1)
Социальная работа (1)
Социологическая теория (6)
Социологические тесты (1)
Социологическое образование (5)
Теория конфликта (2)
Теория социального измерения (8)
Украина (9)
Учебные планы (2)
Философия (1)
Шкалирование (36)
Экономика (1)
Эмпирическая социология (46)
Europe (2)
Geopolitics (2)
Infographics (1)
R (26)
Russia (2)
SPSS (2)
Ukraine (2)
Акционализм (1)
Анализ данных (27)
Аномия (1)
Выборка (1)
Выступления (3)
Геополитика (12)
Гражданское общество (2)
Демократизация (1)
Европа (4)
Интернет ресурсы (1)
Инфографика (8)
Исследовательские дизайны (1)
Историческая социология (10)
История социологии (5)
Киберспорт (1)
Книги (7)
Массивы (3)
Методология социальных исследований (1)
Методология социологических исследований (2)
Научная жизнь (3)
Новости (6)
Обратная связь (1)
Персоналии (3)
Православные конфессии в Украине (1)
Президентская власть (1)
Психологический дистресс (18)
Психология (5)
Публицистика (2)
Революция (1)
Результаты исследований (28)
Религия (3)
Россия (2)
Согласование концептов (4)
Социальная гетерогенность (1)
Социальная работа (1)
Социологическая теория (6)
Социологические тесты (1)
Социологическое образование (5)
Теория конфликта (2)
Теория социального измерения (8)
Украина (9)
Учебные планы (2)
Философия (1)
Шкалирование (36)
Экономика (1)
Эмпирическая социология (46)
January 2021
September 2020
March 2019
September 2018
August 2018
April 2018
March 2018
December 2017
November 2017
October 2017
September 2017
August 2017
July 2017
June 2017
May 2017
April 2017
March 2017
February 2017
January 2017
December 2016
November 2016
October 2016
September 2016
August 2016
July 2016
June 2016
May 2016
April 2016
March 2016
February 2016
January 2016
December 2015
November 2015
October 2015
September 2015
August 2015
July 2015
June 2015
May 2015
April 2015
March 2015
February 2015
August 2014
July 2014
June 2014
May 2014
April 2014
March 2014
February 2014
January 2014
December 2013
November 2013
October 2013
September 2013
December 2020
November 2020
October 2020September 2020
August 2020
July 2020
June 2020
May 2020
April 2020
March 2020
February 2020
January 2020
December 2019
November 2019
October 2019September 2019
August 2019
July 2019
June 2019May 2019
April 2019March 2019
February 2019
January 2019
December 2018
November 2018
October 2018September 2018
August 2018
July 2018
June 2018
May 2018April 2018
March 2018
February 2018
January 2018December 2017
November 2017
October 2017
September 2017
August 2017
July 2017
June 2017
May 2017
April 2017
March 2017
February 2017
January 2017
December 2016
November 2016
October 2016
September 2016
August 2016
July 2016
June 2016
May 2016
April 2016
March 2016
February 2016
January 2016
December 2015
November 2015
October 2015
September 2015
August 2015
July 2015
June 2015
May 2015
April 2015
March 2015
February 2015
January 2015
December 2014November 2014
October 2014
September 2014August 2014
July 2014
June 2014
May 2014
April 2014
March 2014
February 2014
January 2014
December 2013
November 2013
October 2013
September 2013