Stacks Image p13143_n13115
Вышла книга автора сайта!
Теоретическая валидизация в социологическом исследовании: Методология и методы

Природа случайных ошибок и распределение выборочных статистик

Никто не любит ошибаться, но некоторые ошибки просто неизбежны!
Stacks Image 362
0 Нажми, если пригодилось =ъ
Дембицкий С. Природа случайных ошибок и распределение выборочных средних [Электронный ресурс]. - Режим доступа: http://www.soc-research.info/quantitative/3.html
Отличия в характеристиках выборочной и генеральной совокупностей называются ошибками репрезентативности. Можно выделить два вида таких ошибок – систематические и случайные.
Систематические ошибки - это определенные постоянные смещения, не уменьшающиеся при увеличении количества опрошенных. В свою очередь, случайные ошибки – это те, которые при увеличении выборки изменяются по вероятностным законам.
Систематическую ошибку можно устранить, изменяя процедуру формирования выборки; случайная же ошибка будет всегда, при любом выборочном опросе. Тем не менее, систематическая ошибка является значительно опаснее, поскольку: а) ее невозможно оценить; б) она не уменьшается с увеличением выборки.
Классическим примером краха исследования по причине систематических ошибок является предвыборный опрос, проведеленный Литерири дайджест в 1936 году. По его результатам на выборах президента США должен был победить Альфред Лэндон. Показательно то, что для исследования проводимого Литерари Дайджест было отобрано более 2 млн. респондентов. На самих же выборах победил Теодор Рузвельт, победу которого предсказывали Гэлап и Роупер на основе опроса всего 4000 человек.
Ошибка Литерари Дайджест заключалась в том, что основой выборки (часть генеральной совокупности из которой отбирались респонденты) выступили телефонные книги. Телефоны же в 1936 году имели преимущественно зажиточные слои населения США, большинство которых собиралось голосовать за Альфреда Лэндона. Следовательно полученная выборка отражала не всех избирателей США, а лишь их специфическую группу. Очевидно и то, что увеличении выборки получаемой таким способом никак бы не помогло, так как новые респонденты точно так же представляли бы зажиточных американцев.
Выборка же Гэлапа и Роупера носила случайный характер и отображала все населения США, что позволило им сделать правильный прогноз.
Но если систематические ошибки не уменьшаются с увеличением количества опрошенных и способ устранения таких ошибок следует искать прежде всего в особенностях построения самой выборки, то случайные ошибки подчиняются вероятностным законам и подлежат оценке. Одно из главных их свойств заключается в том, что они уменьшаются с увеличением выборки. Рассмотрим соответствующий пример (отчасти фантастический).
Рассмотрим следующий премер.
Представим себе огромный лототрон на 100.000 шаров, в котором 10.000 шаров с №1, 10.000 - с №2, 10.000 - с №3, 10.000 - с №4, 10.000 - с №5, 10.000 - с №6, 10.000 - с №7, 10.000 - с №8, 10.000 - с №9 и 10.000 - с №10. При условии правильной работы лототрона каждый шар имеет равную вероятность выпадения (по крайней мере в самом начале, а после того как шары начнут выпадать, вероятности будут очень близки). Следовательно, вероятность выпадения шара с любым из номеров равна 10% (№1 - 10%, №2 - 10% и т.д.). И если бы не было случайных ошибок, то любая выборка, позволяющая полностью реализовать модель генеральной совокупности имела бы по 10% шаров с каждым из номеров. Конечно же получение такой выборки в реальности очень редкое явление по причине именно случайных ошибок, которые вносят ту или иную степень несоответствия генеральной совокупности и ее модели - случайной выборки.
Далее приведены данные, полученные с помощью компьютерной программы, моделирующей описанный выше лототрон:
Номер шара
Количество выпавших шаров после 25, 50, 75 и 100 срабатываний лототрона
25
50
75
100
№1
20%
18%
14,6%
13%
№2
8%
4%
8%
8%
№3
16%
12%
12%
11%
№4
4%
6%
6,6%
7%
№5
8%
10%
12%
10%
№6
4%
14%
10,6%
12%
№7
16%
14%
10,6%
10%
№8
8%
8%
8%
8%
№9
8%
4%
4%
8%
№10
8%
10%
13,3%
13%
Макс.откл.
10%
8%
6%
3%
Среднее
4,92
5,18
5,25
5,48
Если бы случайные ошибки отсутствовали, то после выпадения первых 25 шаров распределение состояло из 8% и 12% для того или иного шара (не по 10%, т.к. в результате деления 25 на 10 не выходит целых чисел), после 50 шаров - из 10% для каждого шара, после 75 шаров - из 9,3% и 10,7% для того или иного шара, после 100 - опять из 10%.
Но как мы видим на каждом из четырех этапов возникли случайные ошибки. На первом этапе наиболее часто выпадал шар №1 и максимальное отклонение от истинного значения составило 10%. На втором этапе максимальная случайная ошибка также наблюдается для шара №1, но становится уже несколько меньше - 8%. На третем этапе максимальная ошибка наблюдается уже для шара №9, который из 75 срабатываний лототрона выпал всего лишь в 4% случаев. Следовательно, максимальная ошибка уменьшилась с 8% до 6%. Наконец на последнем этапе максимальная ошибка уменьшается до 3% (шары №1, №4, №10). Таким образом, с увеличением нашей выборки случайная ошибка падала. Чисто теоретически случайные ошибки могли влиять только на один (или два) из шаров, но возникновение каждой следующей случайной ошибки на одном и том же шаре является все менее и менее вероятным (попробуйте поподбрасывать монету - сколько раз подряд выпадет только одна из сторон?), в то время как возникновения таких ошибок на других шарах является более вероятным событием. В итоге выходит, что случайные ошибки имеют тенденцию к взаимному компенсированию.
Один из важнейших принципов работы в рамках количественной социологии заключается в том, что используя различные виды распределений выборочных статистик социолог может оценить какова вероятность того, что результаты выборки получены вследствие случайных ошибок, т.е. оценить их возможное влияние на результаты исследования.
Обратите внимание на последнюю строку таблицы, показывающую среднее значения для выборки на каждом из этапов. Как вы должны помнить из двух предыдущих глав, распределение всех возможных выборочных средних в данном случае отвечает номральному распределению. Соответственно, получение выборки, среднее значение которой близко к истинному среднему значению (в нашем случае оно равно 5,5) значительно выше, чем вероятность получения выборки, среднее значение которой значительно отличается от истинного. Исходя из приведенных данных, чем больше наша выборка, тем ближе среднее значение для выборки к среднему значению для генеральной совокупности. Отличие между выборочным и генеральным средними на каждом этапе также можно трактовать в качестве случайных ошибок. Как видно, на последнем этапе, при выборке всего в 100 наблюдений, величина случайной ошибки составляет всего 0,02.
  • default_titleПаніотто В., Максименко В., Харченко Н. Статистичний аналіз соціологічних даних. - К.: Видавничий Дім «KM Академия», 2004.
  • Show More
free counters
Яндекс.Метрика