Относительно проблематичности статистической проверки теоретических конструктов
22/03/14 12:46 Относится к категории: Эмпирическая социология | Шкалирование
Само по себе подтверждение гипотез мало о чем говорит, если опирается исключительно на кабинетные размышления и результаты измерения (пусть его и принято называть в социологии наблюдением). Даже использование «ломаных» теоретических конструктов может привести к получению статистически значимых результатов, а также демонстрации высоких коэффициентов корреляции или значимых различий (соответствующий пример приведен ниже). Поэтому измерение «замкнутое само на себя» подходит для решения многих задач, но лучше всего – для получения наукообразных атрефактов.
Я уже не говорю о комичных, но повсеместно распространенных в социологии ситуациях, когда статистически значимые результаты, полученные на больших выборках (скажем от 1500 и выше единиц), расцениваются в качестве ценных с научной точки зрения (или подтверждающих что-либо) лишь по факту своей статистической значимости. А на больших выборках, как известно, практически все статистически значимо.
Я уже не говорю о комичных, но повсеместно распространенных в социологии ситуациях, когда статистически значимые результаты, полученные на больших выборках (скажем от 1500 и выше единиц), расцениваются в качестве ценных с научной точки зрения (или подтверждающих что-либо) лишь по факту своей статистической значимости. А на больших выборках, как известно, практически все статистически значимо.
Такие размышления выдвигают на передний план проблему теоретической валидности, достижение которой призвано обеспечить исследователя валидными, в отношении изучаемых социальных феноменов, теоретическими конструктами. Следовательно, теоретическая валидизация является во многом автономной и определяющей, в отношении дальнейшей операционализации и эмпирической интерпретации, сферой. Легко представить ситуацию, когда теоретический конструкт описан достаточно исчерпывающе, однако разработанная методика не обеспечивает удовлетворительного отображения данного конструкта. Согласно «лучшим» традициям количественного подхода, в такой ситуации можно смело отказаться от теоретического конструкта, не прошедшего проверку. И противоположный случай – хотя методика позволяет вполне адекватно отобразить конструкт, но этот конструкт содержательно не валиден (например, охватывает только часть концептуального поля, которое находится в фокусе исследования). В данном случае будут приняты опять таки ошибочные выводы – в этот раз уже о правильности невалидного конструкта.
Для более подробного описания последней ситуации обратимся к следующему примеру. В одной из своих недавних публикаций [Дембицкий, 2012] я описал специфику теоретической валидизации измерительных шкал. В качестве демонстрационного примера была взята шкала, предназначенная для определения типа студента, указывающего на его отношение к учебе (безразличный, декларативно заинтересованный или ответственный) на основании используемых студентом поведенческих стратегий. В ходе валидизации этой шкалы был проведен ряд опросов, в том числе и с помощью экспертов, в качестве которых выступили преподаватели и сами студенты (в этом случае они оценивали не только себя, но и своих одногруппников). Два таких опроса (N1 = 22, N2 = 23) я и использую для того, чтобы показать как «ломаный» конструкт может привести к хорошим статистическим результатам.
В первом из них каждый из четырех экспертов (три преподавателя и один студент) оценили каждого из студентов одной учебной группы по 10-бальшой шкале (смотри приложение 1). Не вдаваясь в подробности, отмечу лишь то, что значения от 1 до 5 соответствовали безразличному типу, от 6 до 7 – декларативно заинтересованному, от 8 до 10 – ответственному. Далее были рассчитаны: а) обобщенная оценка на основании среднего арифметического оценок всех экспертов; б) коэффициент корреляции между обобщенной оценкой каждого студента и его средним баллом успешности сдачи сессий за четыре года обучения. Так вот, этот коэффициент корреляции был равен 0,93 (p < 0,01%).
В лучших традициях количественного подхода я бы мог решить, что я получил подтверждение (по крайней мере, частичное) правильности применяемого теоретического конструкта. Но я и так знал, что он правильный, ведь я использовал валидный теоретический конструкт (валидность конструкта была достигнута на предыдущих этапах исследования посредством качественных методов).
Давайте теперь посмотрим, что произойдет, если из содержания используемого теоретического конструкта убрать значительную часть, а именно информацию – о безразличном типе (часть шкалы от 1 до 5). В этом случае каждому студенту, который получил обобщенную оценку от 1 до 5,499 (таких было восемь человек или 36,4% от общего числа), необходимо присвоить 6, а остальные оценки оставить без изменений. Насколько сильно изменился коэффициент корреляции? После преобразования шкалы он стал равен 0,70 (вероятность ошибки по-прежнему не превышала 0,01%).
Вместе с тем, это всего лишь мыслительный эксперимент. Поэтому я провел дополнительный методический эксперимент в учебной группе другого вуза. В качестве экспертов выступили два преподавателя, хорошо знакомые с группой, и двое старост. На первом этапе они оценили всех студентов с помощью шкалы, которая была специально искажена. В ней отсутствовала вторая часть (от 6 до 10), то есть оценка осуществлялась на основании только двух типов студентов – безразличного и декларативно заинтересованного, представленных пунктами шкалы от 1 до 5 (смотри приложение 2). Лишь один из экспертов (одна из старост) поставила валидность шкалы под сомнение, но после объяснения что это методический эксперимент и так надо, заполнила анкету. Усредненные результаты оценок экспертов показали высокую взаимосвязь со средним баллом успешности сдачи сессий за четыре года обучения (r = 0,80; p < 0,01%).
Через месяц я попросил этих экспертов повторить оценку, но уже с использованием полноценной 10-бальной шкалы. В результате коэффициент корреляции вырос незначительно, а именно до 0,81. Отталкиваясь исключительно от статистической информации можно сделать вывод, что валидность этих шкал (по крайней мере, при использовании в отношении этой конкретной группы студентов) является одинаковой. Вместе с тем, очень вероятно, что в случае использования неполноценной шкалы, эксперты ориентировались в первую очередь на числовые пункты, а не на содержание двух описанных в вопросе типов. По моему мнению, такая ситуация может иметь место в том случае, когда эксперты хорошо знакомы с изучаемой проблемой. Соответственно, неучтенная в тексте вопроса информация все равно учитывается ими в силу их знаний и опыта. Таким образом, статистическая валидность шкалы компенсируется посредством когнитивных возможностей экспертов. А вот содержательная (а более широко – теоретическая) валидность шкалы является сомнительной, поскольку она не позволяет перейти к трем типам студентов. В свою очередь полноценный вариант шкалы является валидным во всех отношениях – и в статистическом, и в теоретическом.
На этом примере я хочу показать лишь одно – искаженные конструкты вполне могут получить «подтверждение» на основании результатов измерения с дальнейшей статистической проверкой. И эта проблема не может быть решена в рамках количественного подхода.
Первоочередное значение в разработке валидных теоретических конструктов должно занимать изучение окружающей социальной действительности посредством тщательного наблюдения происходящих в ней процессов, а также личного взаимодействия с участниками таких процессов.
Для более подробного описания последней ситуации обратимся к следующему примеру. В одной из своих недавних публикаций [Дембицкий, 2012] я описал специфику теоретической валидизации измерительных шкал. В качестве демонстрационного примера была взята шкала, предназначенная для определения типа студента, указывающего на его отношение к учебе (безразличный, декларативно заинтересованный или ответственный) на основании используемых студентом поведенческих стратегий. В ходе валидизации этой шкалы был проведен ряд опросов, в том числе и с помощью экспертов, в качестве которых выступили преподаватели и сами студенты (в этом случае они оценивали не только себя, но и своих одногруппников). Два таких опроса (N1 = 22, N2 = 23) я и использую для того, чтобы показать как «ломаный» конструкт может привести к хорошим статистическим результатам.
В первом из них каждый из четырех экспертов (три преподавателя и один студент) оценили каждого из студентов одной учебной группы по 10-бальшой шкале (смотри приложение 1). Не вдаваясь в подробности, отмечу лишь то, что значения от 1 до 5 соответствовали безразличному типу, от 6 до 7 – декларативно заинтересованному, от 8 до 10 – ответственному. Далее были рассчитаны: а) обобщенная оценка на основании среднего арифметического оценок всех экспертов; б) коэффициент корреляции между обобщенной оценкой каждого студента и его средним баллом успешности сдачи сессий за четыре года обучения. Так вот, этот коэффициент корреляции был равен 0,93 (p < 0,01%).
В лучших традициях количественного подхода я бы мог решить, что я получил подтверждение (по крайней мере, частичное) правильности применяемого теоретического конструкта. Но я и так знал, что он правильный, ведь я использовал валидный теоретический конструкт (валидность конструкта была достигнута на предыдущих этапах исследования посредством качественных методов).
Давайте теперь посмотрим, что произойдет, если из содержания используемого теоретического конструкта убрать значительную часть, а именно информацию – о безразличном типе (часть шкалы от 1 до 5). В этом случае каждому студенту, который получил обобщенную оценку от 1 до 5,499 (таких было восемь человек или 36,4% от общего числа), необходимо присвоить 6, а остальные оценки оставить без изменений. Насколько сильно изменился коэффициент корреляции? После преобразования шкалы он стал равен 0,70 (вероятность ошибки по-прежнему не превышала 0,01%).
Вместе с тем, это всего лишь мыслительный эксперимент. Поэтому я провел дополнительный методический эксперимент в учебной группе другого вуза. В качестве экспертов выступили два преподавателя, хорошо знакомые с группой, и двое старост. На первом этапе они оценили всех студентов с помощью шкалы, которая была специально искажена. В ней отсутствовала вторая часть (от 6 до 10), то есть оценка осуществлялась на основании только двух типов студентов – безразличного и декларативно заинтересованного, представленных пунктами шкалы от 1 до 5 (смотри приложение 2). Лишь один из экспертов (одна из старост) поставила валидность шкалы под сомнение, но после объяснения что это методический эксперимент и так надо, заполнила анкету. Усредненные результаты оценок экспертов показали высокую взаимосвязь со средним баллом успешности сдачи сессий за четыре года обучения (r = 0,80; p < 0,01%).
Через месяц я попросил этих экспертов повторить оценку, но уже с использованием полноценной 10-бальной шкалы. В результате коэффициент корреляции вырос незначительно, а именно до 0,81. Отталкиваясь исключительно от статистической информации можно сделать вывод, что валидность этих шкал (по крайней мере, при использовании в отношении этой конкретной группы студентов) является одинаковой. Вместе с тем, очень вероятно, что в случае использования неполноценной шкалы, эксперты ориентировались в первую очередь на числовые пункты, а не на содержание двух описанных в вопросе типов. По моему мнению, такая ситуация может иметь место в том случае, когда эксперты хорошо знакомы с изучаемой проблемой. Соответственно, неучтенная в тексте вопроса информация все равно учитывается ими в силу их знаний и опыта. Таким образом, статистическая валидность шкалы компенсируется посредством когнитивных возможностей экспертов. А вот содержательная (а более широко – теоретическая) валидность шкалы является сомнительной, поскольку она не позволяет перейти к трем типам студентов. В свою очередь полноценный вариант шкалы является валидным во всех отношениях – и в статистическом, и в теоретическом.
На этом примере я хочу показать лишь одно – искаженные конструкты вполне могут получить «подтверждение» на основании результатов измерения с дальнейшей статистической проверкой. И эта проблема не может быть решена в рамках количественного подхода.
Первоочередное значение в разработке валидных теоретических конструктов должно занимать изучение окружающей социальной действительности посредством тщательного наблюдения происходящих в ней процессов, а также личного взаимодействия с участниками таких процессов.
blog comments powered by Disqus