Обобщение данных

Взвешивание данных таблиц сопреженности в R

1371192895
Пару месяцев назад столкнулся с необходимостью взвешивания данных в R. Для решения этой задачи существует библиотека weights, разработанная доцентом Мичиганского университета Джошем Пасеком. Это расширение, среди прочего, позволяет взвешивать средние значения, одномерные распределения и результаты некоторых статистических тестов. Но в случае необходимости взвешивания таблиц сопряженности эта библиотека мало применима. Единственная возможность - создание новой переменной, категории которой сгенерированы как результат перекрестной классификации категорий переменных, образующих таблицу сопряженности. Например, для переменных пол (две категории) и образование (три категории) необходимо создать новую переменную с шестью категориями и уже к ней применить функцию wpct() библиотеки weights. Способ, по правде сказать, не самый интересный. Других возможностей для взвешивания таблиц сопряженности я не обнаружил. Поэтому решил написать свою функцию. При этом я столкнулся со следующими вопросами: 1) как осуществляется взвешивание данных таблиц сопряженности? 2) как валидизировать функцию? 3) какие средства самого R лучше использовать? Читать дальше...
Comments

Описательные статистики: средние значения

uw
Наконец возвращаюсь к анализу данных в R. Сложно было подобрать изображение для статьи о средних значениях... Потом вспомнил об усредненных фото женских лиц разной национальности. Тоже способ агрегации данных :) Если просмотреть все фото, то украинские женщины точно в ряду самых красивых.
Вобщем прикоснемся к прекрасному - обобщению данных с помощью средних значений. Самый простой способ заключается в использовании функции summary(). Она может быть применена как к вектору, так и к фрейму данных (в последнем случае обобщенные данные будут выведены для всех переменных массива). В зависимости от того, является ли переменная фактором или просто чиcловым вектором, выведенные результаты будут соответственно или в виде одномерного частотного распределения, или в виде набора показателей (минимальное значение, первый квартиль, медиана, среднее, третий квартиль, максимальное значение). Для примера я использую массив с показателями Freedom House и UNDP по всем странам мира.
Чтобы не загромождать текст, выведу сводку данных только для трех переменных массива - статуса свободы, ожидаемой продолжительности жизни и среднего количества лет обучения в стране: Читать дальше...
Comments

Описательные статистики: одномерные и многомерные частотные распределения

Magnetized-Float-Table-by-RPR-2
В отличии от SPSS, в R таблицы (частотные распределения) являются не просто способом представления числовых данных, результаты которого подлежат лишь ограниченному редактированию (как текстовый объект в MS Word или числовой в MS Excel), а полноценным программным объектом, в работе с которым доступны средства индексации, редактирования, включения в программные конструкции и прочее. Все это делает частотные распределения в R максимально гибкими и продуктивными в использовании.
Объект данных таблица создается с помощью функции table(), которая может принимать в качестве аргумента различные массивы данных (например, векторы, множества, фреймы). Эта функция является базовой при построении как одномерных, так и многомерных таблиц сопряженности. К полученному в результате ее использования объекту применяются другие функции, позволяющие строить таблицы модифицированные под потребности исследователя. Читать дальше...
Comments