Работа с данными в любой сфере - страница 29

Шрифт
Интервал

стр.

Сookie – это один из примеров того, как сбор данных становится частью нашего общества. То, как большинство миллениалов используют социальные сети – например, свободно выражая свое мнение, общаясь в чате, загружая свои фотографии, отмечая друзей, – должно показать, что их мир обособлен от мира беби-бумеров и они иначе (как правило) ведут себя в интернете. Я не считаю этические соображения просто неудобными препятствиями, которые аналитик данных может предпочесть игнорировать. Но я задаю вопрос читателю: действительно ли мы должны подавлять развитие технологий, исходя из наших сегодняшних опасений? Или же нам следует стремиться к установлению баланса между темпами технологического роста и темпами разработки соответствующих этических принципов[25]?

Подготовьтесь к изучению второй части

Будем надеяться, что вы уже нашли что-то в своем личном и/или профессиональном опыте, что можно применить в вашей работе с данными. Отметьте навыки, которые вы можете использовать, напишите их в черновике резюме – работодатели ищут аналитиков данных, и вам существенно помогут свидетельства того, что ваше мышление изменилось и стало таким, какое необходимо для профессионалов в области данных.

Часть вторая

«Когда и где я могу получить их?» Сбор и анализ данных

Практически в любой сфере жизни нас часто больше всего возбуждают самые сложные задачи. И проекты, в основе которых лежит использование данных, порой ставят перед нами именно такие цели. Нужно задать новые вопросы данным, так как от аналитиков данных всегда ждут решения проблемы. Когда я начинаю новый проект, мне нравится думать, что я веду разговор с данными; я общаюсь с ними, чтобы быть уверенным в том, что смогу представить их в полном и достоверном виде клиенту или участникам проекта. По моему собственному опыту и опыту моих коллег, окончательные результаты часто открывают глаза, приводя к значительным изменениям во всех учреждениях, – от тех, что занимаются практической работой, до организационных структур. Некоторые из этих результатов могут быть непосредственно связаны с бизнес-проблемой, которую вам было предложено решить, а другие способны осветить такие аспекты деловой активности, к которым организация прежде не имела доступа.

Значит, у данных есть потенциал. Это делает их столь захватывающими. Они всегда сообщают нам что-то, будь эта информация новой или нет. Они дают шанс продолжать изучать возможности и тем самым получать различные результаты – а для этого надо задавать различные вопросы о данных, преобразовывать их с помощью различных методов и применять к ним различные алгоритмы.

Процесс анализа и обработки данных

Из-за огромного потенциала данных доступ к ним может быть затруднен, особенно если это большой массив, который содержит различные виды данных, или если компания, для которой вы работаете, просто не знает, какие данные у них собраны. Именно здесь требуется анализ данных. Он предлагает надежную и здравую технологию для любого типа проекта, связанного с данными, независимо от объема и вида доступных сведений, и призван помочь вам выстроить свой проект от его концепции до формы представления заказчику. Первый разработанный Джо Блицштайном и Ганспетером Пфистером процесс анализа данных ведет нас через каждый этап проекта, с момента, когда мы впервые размышляем, как подойти к данным, до оформления результатов ясным и эффективным образом.

Процесс состоит из пяти этапов:

1. Сформулируйте вопрос.

2. Подготовьте данные.

3. Проанализируйте данные.

4. Визуализируйте выводы.

5. Представьте выводы.


Каждый из этапов добавляет к вашему массиву данных то, что мне нравится называть «слой интереса». Хотя к некоторым из этих этапов можно возвращаться в ходе процесса, прохождение их в линейном порядке уменьшит вероятность ошибки на более позднем этапе проекта и поможет определить, на каком шаге произошел сбой.

Поскольку этот процесс является неотъемлемой частью каждого проекта в области науки о данных и поскольку каждый этап требует различных навыков, мы будем рассматривать этапы раздельно во второй и третьей частях книги. Вторая часть посвящена первым трем этапам. Эти первые три шага позволят нам: 1) сформулировать обоснованный вопрос или серию вопросов, на которые необходимо ответить с помощью данных; 2) собрать массив данных таким образом, чтобы он отвечал на поставленные вопросы, и 3) получить ответ из массива данных путем анализа или прогнозирования. На мой взгляд, эти этапы потребуют от вас наибольшего вклада. Если вы проделаете всю предварительную работу, то визуализировать и представить выводы будет просто, потому что вы уже достигнете целей вашего проекта.


стр.

Похожие книги