Работа с данными в любой сфере - страница 48

Шрифт
Интервал

стр.

. И это не самое худшее. Excel может конвертировать даты и денежные суммы в единый формат, соответствующий региональным настройкам вашего компьютера. Хотя это может быть удобно для отдельных электронных таблиц, которые часто используются в бизнес-аналитике, такие виды автоматизации в конечном итоге доставят вам неприятности при анализе о данных, так как форматирование Excel не предусматривает качественного перевода в базу данных. И если мы имеем дело с большим количеством данных, выбор всех единиц, измененных программой Excel, может занять много времени.

Если мы не преобразуем данные из Excel в CSV-файл, то в дальнейшем будем сталкиваться с проблемами. Если восстановить измененные даты удается, то почти невозможно восстановить номера кредитных карт, если они были заменены на числа в экспоненциальной записи. Только представьте, чем это чревато для организации, теряющей номера кредитных карт своих клиентов, особенно если вы работали с единственной копией файла.

Некоторые из наиболее распространенных проблем связаны с датами и валютой, так как их значения не являются международными и поэтому зависят от региональных настроек наших машин.

Форматы дат. Форматирование дат будет отличаться в зависимости от географического региона, и в Excel предустановлено отображение той даты, которая соответствует региональным настройкам нашего компьютера. В большинстве стран используется формат даты, начинающийся со дня, за которым следуют месяц и год (ДД/ММ/ГГГГ). Однако в Соединенных Штатах формат даты начинается с месяца, а потом идут день и год (ММ/ДД/ГГГГ). Необходимо обеспечить согласованный формат дат в нашей базе данных.

Как их исправить. Лучший способ предотвратить внесение изменений в записи программой Excel – поменять все ваши форматы дат на ГГГГ-ММ-ДД, так как это однозначный международный стандарт, не зависящий от региональных правил. В Excel выберите столбец, который хотите исправить, щелкните его правой кнопкой мыши и выберите пункт «Формат ячеек». В окне «Категории» выберите «Дата». В окне «Тип» вы должны увидеть формат ГГГГ-ММ-ДД. Выберите его и нажмите «OK». Даты будут изменены.

Форматы валют. Форматы валют также будут зависеть от региональных настроек вашего компьютера. В этих случаях необходимо учитывать не только символ валюты, но и используемые десятичные знаки. Символы валюты должны быть полностью удалены из ваших данных, так как в противном случае они будут читаться как текст. Страны используют различные десятичные знаки для своей валюты: они отделяются либо точкой (например, £30.00 в Великобритании), либо запятой (например, €30,00 в Германии).

Обратите внимание, что это касается как десятичной точки, так и разделителя тысяч. Сумма £30,000 будет читаться как тридцать тысяч фунтов в таких странах, как Австралия, где запятую используют для обозначения тысяч, но ее можно читать как тридцать фунтов в таких странах, как Швеция, где запятую используют для указания десятичных знаков. Базы данных функционируют с системами с десятичной запятой, и любые запятые, включая разделители тысяч, должны быть удалены из данных.

Как их исправить. Мы хотим лишить числа символов и запятых. Если в вашей стране используется система с десятичной запятой, необходимо сначала изменить региональные параметры компьютера, чтобы убедиться, что запятая изменена на точку. Выберите столбец, щелкните его правой кнопкой мыши и кликните «Формат ячеек». В окне «Категории» выберите «Валюта». Снимите флажок «Использовать разделитель 1000», чтобы убедиться, что запятые не будут использоваться; выберите «Нет» из выпадающего списка «Символ» и потом – «2» для количества десятичных знаков. Это удалит лишние символы из наших данных[40].

3. Загрузите данные

После того как мы преобразовали данные в нужный формат, можно загрузить их в нашу конечную цель: хранилище. Как только этот процесс будет завершен, мы должны вручную просмотреть данные в последний раз, прежде чем пропускать их через машинный алгоритм, чтобы быть абсолютно уверенными, что мы работаем с достаточно подготовленными данными.


стр.

Похожие книги