Логическая чистка данных

Логический контроль (чистка) данных

Копия clean_all_the_data_maybe
Очень часто операторы, которые вводят данные и формируют массив, не являются аналитиками и не обращают внимания на содержательное соотношение ответов в пределах каждой из анкет (например, относительно возраста и образования), поскольку процесс ввода данных ими часто доведен до автоматизма. Кроме того, когда оператор недостаточно опытен, внимателен или плохо ознакомился с анкетой или паспортом для ввода данных, в массив могут попасть значения, отличающиеся от соответствующих в анкете. Поэтому непосредственно после ввода данных количественных исследований возникает необходимость логического контроля массива. Под логическим контролем подразумевается проверка данных массива на предмет присутствия в них логических несоответствий. Например, если человек говорит, что его возраст 16 лет и при этом он имеет высшее образование, следует проверить не является ли это ошибкой ввода. В отечественной литературе этап логического контроля данных практически не описан. Его основы и правила написания соответствующего синтаксиса приведены в справке статистического пакета «ОСА for Windows» (справка доступна из самой программы). В зарубежной литературе контролю данных уделяется значительно больше внимания (см., например: [1]). На популярном образовательном портале «Coursera» (https://www.coursera.org/) этой теме посвящен отдельный курс.
Контроль массива данных также называют «чисткой массива». Последнее определение чаще используется в кругу отечественных исследователей, поэтому далее мы будем использовать именно его. Это крайне важный этап управления данными, который позволяет:
  • определить ошибки ввода операторами;
  • привести массив к удобному формату для дальнейшей работы с ним;
  • найти анкеты, которые могли быть фальсифицированы.
Последний пункт не является основной сферой, для которой используется чистка данных. Хотя практика показывает, что некоторые анкеты, которые содержат множество логических противоречий, желательно проверить дополнительно связавшись с респондентом (при наличии его контактов), если ранее эта анкета не попала в выборочный контроль после полевых работ. Читать дальше...
Comments