Работа с данными в любой сфере - страница 47
Многие массивы данных содержат резко отклоняющиеся значения, и наша задача – понять, где они находятся, и убедиться, что они не искажают фатально наши отчеты. Это во многом будет зависеть от того, какой анализ мы хотим провести. Например, если бы мы хотели выяснить для издательства среднее количество единиц, проданных книжным магазинам по всему миру, и при этом знали, что резко отклоняющееся значение связано с исключительным заказом на поставку, мы могли бы удалить запись, даже если она достоверна.
Можно найти резко отклоняющиеся значения в массиве данных без их поиска вручную путем создания кривой распределения (также известной как колоколообразная кривая нормального распределения) на основе значений столбцов. Кривые распределения графически отображают на пути к их вершине наиболее вероятное значение или событие из ваших данных, и их достаточно просто создать, даже в Excel[38]. После создания кривой распределения можно определить значения, выходящие за пределы нормального диапазона.
В предоставленном нам массиве данных из воображаемого фонда венчурного капитала (рис. 5.2) отражался общий рост стартапов в Соединенных Штатах. Поскольку сборщик данных не был связан со стартапами, некоторая информация отсутствовала, так как она либо не была общедоступной, либо компании-стартапы не желали предоставлять информацию такого уровня.
Как вы можете видеть, различные типы информации отсутствуют в столбцах, а иногда в одной строке есть несколько пустых значений. Давайте применим на практике методы исправления недостающих данных. Вернитесь к методам, представленным выше, и подумайте, как бы вы могли решить проблему недостающих данных самостоятельно, прежде чем читать ответы ниже.
Сотрудники
Замените отсутствующие данные средним/медианным значением. Это числовое значение, и поэтому мы можем на место любого из пропущенных значений «сотрудников» использовать общую или отраслевую медиану для этого столбца. (Отраслевой медианный показатель предпочтительнее, поскольку он будет аналогичен отсутствующему показателю.)
Отрасль
Оставьте запись как есть,илиточно определите, какая именно информация отсутствует,илиполностью удалите запись. Выяснить, к какой отрасли относится компания, можно просто исследуя, что она делает, и на этом построить ваши предположения. Но выбор зависит от того, насколько важна отрасль для нашего анализа. Если отрасль важна, а мы не можем ее определить, нужно удалить запись из анализа.
Год основания компании
Оставьте запись как есть,илиточно определите, какая именно информация отсутствует,илиполностью удалите запись. Несмотря на то что дата – это число, оно не является числовым значением (с ним нельзя выполнять арифметические операции). Значит, мы не можем заменить его средним значением, а если мы не можем узнать, когда была создана компания, то мы должны воспринимать эту информацию как отсутствующую.
Штат
Оставьте запись как есть,илиточно определите, какая именно информация отсутствует,илиполностью удалите запись. Мы можем безошибочно предположить, какие сведения должны быть на месте недостающих данных. Но требуется осторожность: в случаях, когда город с таким названием может находиться более чем в одном штате, речь не может идти о 100 %-ной точности предложенного значения, и поэтому нам необходимо решить, насколько важны эти данные для нашего анализа.
Расходы
Точно определите, какая именно информация отсутствует. Это легко, мы можем рассчитать расходы, просто вычитая прибыль из дохода.
Доходы, расходы и прибыль, рост
Замените отсутствующие данные средним/медианным значением. Чтобы вычислить эти недостающие данные, требуется больше шагов. Нужно сначала заменить рост доходов и расходов, используя медианы отрасли, а затем мы сможем рассчитать прибыль как разницу между доходами и расходами.
Excel пытается упростить задачу, автоматически переформатируя определенные значения. Это может привести к различным сбоям в процессе ETL, и, поскольку программа Excel часто используется для хранения данных, я уделю ей особое внимание. Одна общая жалоба, которую я слышал от пользователей Excel, – требование программы преобразовывать длинные числовые значения (такие, как номера телефонов и кредитных карт) в научную формулу