Проверка качества после загрузки
Загрузка данных в хранилище иногда может вызывать проблемы. Возможно, вы пропустили очистку некоторых грязных данных на предыдущем этапе или некоторые данные просто были загружены неправильно. По этой причине необходимо научиться перепроверять данные в хранилище.
Ниже приведены приемы проверки качества, которые вы всегда должны применять на этом этапе:
• Подсчитайте количество строк в конечном массиве данных и сравните с исходным массивом данных. Если результаты разнятся, вернитесь к исходному массиву, чтобы выяснить, что произошло. К сожалению, иногда самый быстрый способ проверить – просто посмотреть, то есть прокрутить данные строка за строкой. Лучше двигаться снизу вверх, а не сверху вниз, потому что любые ошибки в данных, скорее всего, будут внизу.
• Проверьте столбцы на асимметричность. Чтобы полностью обезопасить себя от проблем на этапе анализа, проверьте как верхние 100, так и нижние 100 строк.
• Проверьте столбцы, подверженные повреждению. Обычно это относится к датам и балансам – они, как мы установили ранее, наиболее уязвимы.
• Проверьте текстовые значения. Если у нас есть текстовые значения в свободной форме, полученные из опросов, в ходе которых респонденты набирали ответы на открытый вопрос, то загрузить такой текст в базу данных может оказаться непростой задачей. Обычно базы данных ограничивают максимальное количество букв в столбце. Это может привести к отсечению части ответа, в результате чего данные будут отсутствовать, а иногда даже влиять на остальную часть массива данных. Текст свободной формы тоже иногда содержит символы, такие как кавычки, которые базы данных могут не распознать или использовать неправильно, поскольку они являются символами квалификатора.
Подумайте (снова) как консультант
Проверка качества – заключительная часть подготовки данных, так что на этой стадии есть риск сбавить обороты. Проследите, чтобы этого не случилось, ведь обеспечение качества играет важнейшую роль в деле подготовки ваших данных. Мне посчастливилось войти в область науки о данных через мир консалтинга, который уделяет большое внимание проверке качества. На этой стадии работа аналитика данных оценивается коллегами. Цифры должны совпадать, и результаты должны иметь смысл. Не бойтесь этого этапа – он предназначен не для того, чтобы подловить вас, а чтобы помочь защитить вас от ошибок в дальнейшем.
Компании, имеющие опыт работы с данными, разрабатывают строгие процедуры, которым аналитики данных должны следовать буквально, прежде чем проводить какой-либо анализ. В некоторых даже есть консультанты, проверяющие ваши действия столько времени, сколько на это потребуется. Неверный результат будет по меньшей мере стоить денег, а в худшем случае может серьезно повлиять на бизнес-операции. Вот почему так важно убедиться, что контроль качества выполнен, прежде чем перейти к следующему шагу.
Теперь, когда у вас есть прекрасное хранилище кристально чистых данных и вы знаете вопрос или серию вопросов, которые вы хотите им задать, вы можете наконец перейти к моему любимому этапу: анализу.