Работа с данными в любой сфере - страница 43

Шрифт
Интервал

стр.

2. РБД комбинирует массивы данных. Объединить массивы данных в реляционной базе данных легко; гораздо труднее это сделать в Excel. Реляционные базы данных были разработаны для этой цели, и они позволяют легко создавать новые массивы данных путем объединения общих значений в РБД. Все, что от вас требуется, – это умение выполнить простую команду. Поскольку комбинирование таблиц не является основной функцией Excel[34], для объединения данных в одну таблицу там требуются расширенные навыки программирования.

3. РБД масштабируема. Реляционные базы данных были специально разработаны для масштабируемости; поскольку они объединяют массивы данных, ожидается, что они должны быть в состоянии справиться с большим количеством информационных единиц. Что означает – независимо от того, есть ли у вас пять или пять миллиардов строк, – ваша реляционная база данных вряд ли рухнет в критический момент. Excel гораздо более ограничена в плане емкости, и по мере роста массива данных производительность программы ухудшается, поскольку она изо всех сил пытается справиться с перегрузкой.

Очистка данных

Мы знаем, что в реальном мире данные, скорее всего, будут поступать к нам грязными, но среди практиков есть некоторые разногласия относительно того, как и когда их нужно очищать. Одни очищают данные перед их преобразованием, а другие – только после загрузки в новую базу данных. Я предпочитаю очищать данные на каждом этапе процесса ETL – это может показаться неэффективной тратой времени, но я обнаружил, что нет лучшего способа защититься от неприятностей в дальнейшем. К сожалению, подготовка данных всегда будет занимать много времени, но чем больше осмотрительности вы проявите на этом этапе, тем больше ускорите процесс анализа данных в целом.

1. Извлеките данные

Нам нужно извлечь данные: 1) чтобы убедиться, что мы не изменяем каким-либо образом исходный источник; и 2) потому что данные, которые мы хотим проанализировать, часто хранятся в разных местах. Некоторые примеры возможных местоположений:

• база данных;

• таблицы Excel;

• сайт;

• Twitter;

• CSV-файл;

• бумажный отчет.

Если мы используем данные из нескольких источников, нам придется извлечь их в единую базу данных или хранилище, чтобы проанализировать. Но их не всегда легко извлечь из мест, которые используют форматирование, специфическое для конкретной системы, – например, из Excel, к которой мы вернемся позже в этой главе.

CSV-файлы

Как специалист по данным, вы познакомитесь с этими типами файлов довольно близко. Это самый простой тип необработанных файлов с данными, полностью лишенными какого-либо форматирования, что делает их доступными для любого количества программ, в которые мы можем их импортировать. В CSV-файлах строки размещаются на новых строках и столбцы разделяются запятыми в каждой строке. Отсюда и аббревиатура, которая расшифровывается как comma separated values (данные, разделенные запятой).

Прелесть работы с необработанными файлами заключается в том, что вы никогда не потеряете или не повредите информацию при загрузке массива данных в программу. Именно поэтому они являются стандартом для большинства практиков.

Почему важно извлекать данные, даже если они находятся только в одном месте

Технически вы можете анализировать данные непосредственно в пределах их хранилища (исходная база данных, электронная таблица Excel и т. д.). Хотя этот метод не рекомендуется, он приемлем для быстрых вычислений, таких как вычисление суммы столбца значений в Excel. Тем не менее для серьезных проектов в области науки о данных работать с данными в их первоначальном хранилище запрещено. Иначе вы можете случайно изменить необработанные данные, что поставит под угрозу вашу работу.

И это наилучший сценарий, поскольку он затрагивает только вас и ваш индивидуальный проект. Работа в хранилище вместо извлечения исходных данных в тестовую базу делает данные уязвимыми для повреждения пользователями, и ваша работа может даже привести к сбою внутренних систем учреждения. Необходимо взять паузу, прежде чем начать работать с данными организации. Нам, аналитикам данных, доверяют важную, существенную информацию о компании, поэтому мы должны убедиться, что оставляем данные такими же, какими они были, когда мы приступили к проекту.


стр.

Похожие книги