Работа с данными в любой сфере - страница 44

Шрифт
Интервал

стр.

Программное обеспечение для извлечения данных

Для извлечения и чтения данных существует несколько бесплатных программ, и они обязательно отучат вас от вредных привычек, которые часто формируются у пользователей Excel. Эти программы хорошо работают с данными, которые находятся в необработанном файле формата CSV[35].

Хотя это может занять некоторое время, данные в большинстве случаев могут быть урезаны до необработанных CSV-файлов. И если вы работаете в большой организации, где вам нужно подать запрос на извлечение данных, то вот хорошие новости: данные, скорее всего, в любом случае будут предоставлены вам в формате CSV.

Notepad++ – инструмент, которым я пользуюсь, когда хочу посмотреть извлеченные мной данные. Это мощный редактор для просмотра CSV-файлов, и он гораздо удобнее, чем программа «Блокнот», которая стандартно поставляется с Windows. Notepad++ также имеет несколько других существенных преимуществ, таких как:

• нумерация строк, позволяющая перемещаться по файлам и отслеживать вкладки с возможными ошибками;

• функция поиска и замены, дающая возможность быстро находить значения или текст, которые не нужны в массиве данных, и изменять их;

• Notepad++ был разработан специально, чтобы вы были уверены, что ваши данные не могут случайно измениться, как это может случиться в других программах электронных таблиц;

• в то время как текстовый редактор «Блокнот», поставляющийся с Windows, как правило, имеет проблемы с большими файлами, Notepad++ может открывать файлы размером до 2 ГБ.


EditPad Lite – бесплатная программа для личного использования. Она предлагает возможности, аналогичные Notepad++, но с одним важным преимуществом: хотя обе они хорошо работают с файлами размером до 2 ГБ, я заметил, что Notepad++ иногда может «сопротивляться» массивам данных, близким к максимальному размеру файла. В результате я обнаружил, что EditPad Lite работает с большими файлами намного лучше. Если вы заметите, что перегрузили файлами Notepad++, обратитесь к EditPad Lite.

2. Преобразуйте ваши данные

Нельзя просто сбросить данные из исходного источника непосредственно в хранилище данных – если только вы не хотите работать с беспорядочным массивом данных. Преобразовав данные, можно «перевести» информацию, которую планируется использовать, на язык, соответствующий поставленным целям.

В широком смысле этап преобразования включает такие изменения, как объединение, разделение и агрегирование данных. Эти функции позволяют создавать производные таблицы, лучше согласующиеся с имеющейся задачей. Но самая важная функция преобразования – очистка данных, и именно на ней мы сосредоточимся.

На этом этапе мы должны выявить и устранить в нашей исходной базе данных любые ошибки и изъяны, которые часто охватывают весь спектр – от несоответствий форматирования и резко отклоняющихся значений до значительных пробелов в информации. Но чтобы сделать это, мы сначала должны понять, что мы ищем. Итак, как мы можем выявить грязные данные?

Грязные данные

Грязные данные – это неверная, поврежденная или отсутствующая информация.

Неверные данные – результат того, что информация была (частично или полностью) неправильно добавлена в базу данных (например, ввод значения валюты в ячейку даты). Иногда мы видим, что данные неверны. Это может быть очевидно при несоответствии между столбцами.

Например, если бы у нас была одна строка, где в ячейке страны значилась «Франция», а в ячейке города – «Рим», мы бы поняли, что она неверна. Мы также можем определить неправильные данные, ориентируясь на здравый смысл: так, мы бы знали, что запись в столбце даты рождения в виде «12/41/2001» просто не может быть правильной.

Поврежденные данные – информация, которая изначально в массиве данных была правильной, но оказалась искажена. К факторам порчи информации относятся физическое повреждение базы данных, ее изменение другим программным обеспечением или предшествующее извлечение данных нерекомендуемыми способами. Иногда данные могут просто быть повреждены из-за переноса в базу данных, не поддерживающую формат, который они имели в предыдущем хранилище.


стр.

Похожие книги