Техническая чистка данных
Логический контроль (чистка) данных
10/07/15 00:23 Относится к категории: Эмпирическая социология | Анализ данных | R | Социологическое образование
Очень часто операторы, которые вводят данные и формируют массив, не являются аналитиками и не обращают внимания на содержательное соотношение ответов в пределах каждой из анкет (например, относительно возраста и образования), поскольку процесс ввода данных ими часто доведен до автоматизма. Кроме того, когда оператор недостаточно опытен, внимателен или плохо ознакомился с анкетой или паспортом для ввода данных, в массив могут попасть значения, отличающиеся от соответствующих в анкете. Поэтому непосредственно после ввода данных количественных исследований возникает необходимость логического контроля массива. Под логическим контролем подразумевается проверка данных массива на предмет присутствия в них логических несоответствий. Например, если человек говорит, что его возраст 16 лет и при этом он имеет высшее образование, следует проверить не является ли это ошибкой ввода. В отечественной литературе этап логического контроля данных практически не описан. Его основы и правила написания соответствующего синтаксиса приведены в справке статистического пакета «ОСА for Windows» (справка доступна из самой программы). В зарубежной литературе контролю данных уделяется значительно больше внимания (см., например: [1]). На популярном образовательном портале «Coursera» (https://www.coursera.org/) этой теме посвящен отдельный курс.
Контроль массива данных также называют «чисткой массива». Последнее определение чаще используется в кругу отечественных исследователей, поэтому далее мы будем использовать именно его. Это крайне важный этап управления данными, который позволяет:
Контроль массива данных также называют «чисткой массива». Последнее определение чаще используется в кругу отечественных исследователей, поэтому далее мы будем использовать именно его. Это крайне важный этап управления данными, который позволяет:
- определить ошибки ввода операторами;
- привести массив к удобному формату для дальнейшей работы с ним;
- найти анкеты, которые могли быть фальсифицированы.
Comments