Работа с данными в любой сфере - страница 46

Шрифт
Интервал

стр.

. Также можно получить пропущенное значение на основе нескольких значений, например для получения значения прибыли из разницы доходов и расходов. Имейте в виду, что мы вводим информацию в обоих примерах, исходя из предположения, что при сборе данных не было ошибок.

• Оставьте запись как есть. Можно просто оставить ячейку без данных незаполненной. Это особенно полезно, если определенные поля не имеют никакого отношения к нашему анализу и, следовательно, могут быть исключены из тестирования. Прием может также использоваться, если мы планируем применить метод, который незначительно пострадает от потери данных (то есть метод, использующий усредненные значения), или если мы используем программный комплекс, который может должным образом преодолеть отсутствие информации. В случаях, когда вы оставляете запись как есть, я бы рекомендовал отмечать, где ваши данные содержат пробелы, чтобы можно было учесть любые возникшие впоследствии аномалии.

• Полностью удалите запись. Иногда недостающие данные имеют решающее значение для анализа. В этом случае подходит один-единственный способ – удаление из анализа всей строки, так как недостающая информация делает данные непригодными для использования. Очевидно, однако, что результаты станут менее значимыми по мере уменьшения выборки. Таким образом, этот подход, вероятно, лучше всего работает с большими массивами данных, где пропуск одной строки не сильно повлияет на статистическую значимость всего массива данных.

• Замените отсутствующие данные средним/медианным значением. Это популярный подход для столбцов, содержащих числовую информацию, так как он позволяет произвольно восполнять любые пробелы, не внося значительных изменений в массив данных. Чтобы вычислить среднее, мы складываем все значения и делим сумму на количество значений. Чтобы вычислить медиану, мы находим последовательное среднее значение в нашем диапазоне данных (если число значений нечетное, просто сложите два средних числа и разделите сумму на два). Обычно предпочтительнее вычислять медиану, а не среднее значение, поскольку первая меньше подвержена влиянию резко отличающихся значений, а это означает, что экстремальные значения по обе стороны от медианного диапазона не будут искажать результаты.

• Заполните пропуски, исследуя корреляции и сходства. Этот подход снова зависит от числового значения отсутствующих данных и требует использования моделей прогнозирования возможных пропущенных значений. Например, мы могли бы использовать прогностический алгоритм (скажем, алгоритм k-ближайших соседей, который мы обсудим в главе 6) для вставки недостающих данных на основе существующих сходств между записями в нашем массиве данных.

• Введите фиктивную переменную для отсутствующих данных. Это требует добавления столбца в наш массив данных: везде, где мы находим пропущенные данные, мы присваиваем ячейке значение «да» – а когда они не пропущены, даем ей значение «нет». Затем мы можем изучить, как переменная коррелирует с другими значениями в нашем анализе, и ретроспективно рассмотреть возможные причины отсутствия этих данных.

Действия в случае наличия резко отклоняющихся значений

Предположим, что мы работаем на компанию, продающую аксессуары для телефонов, и хотим найти среднее количество чехлов одной модели, проданных каждому из наших дистрибьюторов. Мы работаем уже много лет, поэтому у нас большие массивы данных. У сотрудника, ответственного за ввод этих значений в базу данных, был плохой день, и, вместо того чтобы ввести в столбец «продукт» количество единиц продукта, он вставил туда номер телефона дистрибьютора. Эта ошибка аномально увеличила наш средний показатель в этой колонке (и означала бы, что один дистрибьютор купил по крайней мере 100 млн единиц продукта!). Если бы мы проанализировали эту запись отдельно, то, вероятно, заметили бы ошибку. Но если бы мы просто рассчитали среднее значение, не глядя на данные, наш отчет был бы искажен этим резко отклоняющимся значением – и это сделало бы его непригодным.

Тем не менее важно различать резко отклоняющиеся значения, которые могут быть отнесены к ошибочной информации, и те, что являются правильными, но выходят за пределы нормального диапазона значений. Если дистрибьютор


стр.

Похожие книги