Уменьшение погрешностей, возникающих в результате округления выборки

Stacks Image 12777
На прошлой неделе я впервые выступил в роли официального оппонента на защите кандидатской диссертации. Защищался Антон Пигида с такой темой диссертации: «Оценивание и учет дизайн-эффекта в многоступенчатых стратифицированных выборках для общенациональных социальных исследований в Украине». Защита состоялась на факультете социологии КНУ им. Т.Г. Шевченко. Можно сказать мне повезло, т.к. диссертация весьма интересная. Чтобы отметить это событие, с разрешения автора публикую небольшую часть этой работы. В оригинале текст на украинском. А здесь, пока я переводил, внес некоторые стилистические правки, а также упустил иллюстративный материал.
Собственно мысли Антона:
Один из неочевидных источников погрешности выборки - ошибки, возникающие вследствие округления чисел при ее построении.
При проектировании выборки для эмпирического исследования обычно работают с дробными числами. Например, объем страты рассчитывается как пропорциональная доля выборки, что обычно является действительным (дробным) числом. Но на последнем этапе, при переходе к количеству респондентов, все числа необходимо округлить до натуральных (мы не можем планировать страты, например, с 12.6 респондентами). Для этого обычно применяют классическое округления до ближайшего натурального числа или до ближайшего большего натурального числа [Turner, 2003; Suhr 2009; Westfall 2011; Chaudhuri, 2003]. Вместе с тем, применение обычных правил дает неудовлетворительный результат: объем выборки может измениться - мы можем получить меньшую выборку, но с худшей репрезентативностью, или же большую выборку, что влияет на удорожание исследования. В обоих случаях может появиться такая погрешность как смещение структуры выборочной совокупности относительно генеральной. В современной литературе этой проблеме не посвящается достаточного внимания. Она не рассматривается, поскольку воспринимается как очевидная или неважна. Однако на практике встреча с ней является неизбежной и способы ее преодоления являются очевидными.
В данной работе предлагается алгоритм вычисления объема компонентов выборки (страт или квот) для случайной выборки с наименьшим отклонением от заданных параметров. Он позволяет минимизировать ухудшение соответствия структур выборки и генеральной совокупности, а также приблизить финальную репрезентативность к первоначально запланированной.
Основная сложность заключается в том, что после округления числа, у него «исчезает» или «появляется» часть, представляющая собой разницу между исходным числом и округленным числом, то есть остаток округления. Накопление таких остатков и приводит к общей разнице между суммами начального ряда значений и результирующего (т.е. округленного). Данный алгоритм позволяет учесть соответствующие расхождения, благодаря добавлению выявленной на данном этапе разницы к еще неокругленному числу на следующем. При этом для избавления от возможного систематического сдвига при округлении чисел, которые идут рядом в таблице квот, используется случайный выбор элемента, который будет округляться следующим, то есть к которому будет прибавляться остаток от предыдущего округления.
Алгоритм лучше всего представить в виде блок-схемы:
Stacks Image 12638

Операции добавления остатка от прошлого округления, расчета новой разницы, округление числа и случайный отбор следующего числа повторяются до тех пор пока не будут округлены все элементы.
Так как алгоритм содержит в себе случайный отбор, каждое новое его использование на одних и тех же исходных данных будет давать немного отличающийся результат.
Data science (3)
Europe (2)
Geopolitics (2)
Infographics (1)
R (26)
Russia (2)
SPSS (2)
Ukraine (2)
Акционализм (1)
Анализ данных (27)
Аномия (1)
Выборка (1)
Выступления (3)
Геополитика (12)
Гражданское общество (2)
Демократизация (1)
Европа (4)
Интернет ресурсы (1)
Инфографика (8)
Исследовательские дизайны (1)
Историческая социология (10)
История социологии (5)
Киберспорт (1)
Книги (7)
Массивы (3)
Методология социальных исследований (1)
Методология социологических исследований (2)
Научная жизнь (3)
Новости (6)
Обратная связь (1)
Персоналии (3)
Православные конфессии в Украине (1)
Президентская власть (1)
Психологический дистресс (18)
Психология (5)
Публицистика (2)
Революция (1)
Результаты исследований (28)
Религия (3)
Россия (2)
Согласование концептов (4)
Социальная гетерогенность (1)
Социальная работа (1)
Социологическая теория (6)
Социологические тесты (1)
Социологическое образование (5)
Теория конфликта (2)
Теория социального измерения (8)
Украина (9)
Учебные планы (2)
Философия (1)
Шкалирование (36)
Экономика (1)
Эмпирическая социология (46)

free counters
Яндекс.Метрика