Работа с данными в любой сфере - страница 45

Шрифт
Интервал

стр.

Пропущенные данные возникают, если для данной ячейки нет доступной информации или если лицо, ответственное за вставку данных, не добавило их в ячейку. Пропущенные данные – частое явление в науке о данных, и, вероятнее всего, оно обусловлено человеческим фактором.

Что может произойти, если мы не восстановим недостающие данные

Мы всегда должны знать о любых пробелах в нашей информации. Ниже вы увидите реальный пример данных, извлеченных из электронной таблицы Excel в CSV-файл, который показывает (по годам) выплаты дивидендов (рис. 5.1).

Как вы можете видеть, часть запятых не разделяют никакую информацию, то есть в пяти столбцах в выделенной строке 504 (26-Apr-15) отсутствуют поля данных.

Нам повезло, что отсутствующие столбцы пережили извлечение – часто отсутствующие значения данных не обрамляются запятыми. В таком случае при использовании на массиве данных алгоритма данные были бы откалиброваны неправильно, в результате чего данные в строке ниже оказались бы сдвинуты для того, чтобы соответствовать требуемому количеству столбцов массива данных. Здесь это означало бы, что дата 24-Apr-15 будет выведена в столбец непосредственно справа от значения «10000000/10000000 Stock Split».

Подобное отсутствие данных может вызвать значительные проблемы на этапе анализа, если мы не отловим проблему заранее. Я знал некоторых неопытных аналитиков данных, которые проверяли верхние 100 строк своего массива данных, но это ошибка новичка: если есть ошибки, вы с гораздо большей вероятностью увидите их в конце массива данных, потому что упущения будут сдвигать информацию.

Исправление поврежденных данных

Чтобы исправить поврежденные данные и сделать их доступными для прочтения машиной, мы можем сначала попробовать следующее:

• повторно извлечь их из исходного файла, чтобы увидеть, не был ли файл поврежден во время первого извлечения;

• поговорить с сотрудником, ответственным за данные, чтобы узнать, может ли он пролить свет на то, как должны выглядеть эти данные, или

• исключить из анализа строки, содержащие поврежденные данные[36].

Общение с коллегами

Если вы оказались в ситуации, когда вам не хватает данных и необходимо повторить ваши шаги, чтобы получить дополнительные исходные данные и тем самым обеспечить продвижение проекта, советую поступать следующим образом:

• Всегда будьте вежливы с сотрудниками, которые дают вам данные. Некоторые могут быть раздражены вашими усилиями по сбору данных, что будет проявиться в их манере общаться, но вы должны постараться оставаться нейтральным. Помните, что эти люди не являются аналитиками данных и не могут испытывать такую же радость в процессе их сбора, как вы! Объясните им, что проекты, основанные на данных, имеют разные результаты и требуют разных типов данных. Возможно, вам придется несколько раз обратиться к команде, ответственной за массивы данных, поэтому будьте дружелюбны и сделайте их своими единомышленниками.

• Убедитесь, что все, с кем вы общаетесь, полностью понимают проблему, которую вы пытаетесь решить, а также свою роль в этом процессе. Видение более широкой картины поможет коллегам с большей терпимостью относиться к вашим запросам.

• Всегда имейте под рукой список информационных активов компании. Когда вы отправитесь на охоту за новыми данными, он пригодится, чтобы выявить то, что у организации уже есть, и уменьшит вероятность повторного сбора одних и тех же данных. Я рекомендую в этом перечне записывать названия источников, а также столбцов баз данных и их дескрипторов.

Восполнение недостающих данных

Если мы не можем решить проблему, используя любой из этих методов, то придется рассматривать часть данных как отсутствующие. Существуют различные способы решения проблемы пропущенных данных в электронных таблицах:

• Точно определите, какая именно информация отсутствует. Это можно сделать для информации, полученной из других данных. Например, предположим, что у нас есть электронная таблица с данными о местоположении клиента, которая содержит значения столбцов как для «штата», так и для «города»; запись, соответствующая «штату», отсутствует, но значение «города» – «Солт-Лейк-Сити». Тогда мы можем быть уверены, что штат – «Юта»


стр.

Похожие книги