Работа с данными в любой сфере - страница 31

Шрифт

Интервал

Итак, вы потратили время на создание лесов для вашего проекта и обеспечение того, чтобы они не рухнули под тяжестью вопросов, которые вы задаете, так что теперь пришло время исследования. В главах 6 и 7 приведены решения для типов анализов, которые вы можете выполнять, а также краткий перечень их преимуществ и ограничений, чтобы повысить вашу уверенность в выборе алгоритма, оптимального для целей конкретного проекта.

Начало работы

Хотя эта часть в основном теоретическая, она имеет практическое значение, и поэтому я настоятельно рекомендую рассмотреть возможность применения каждого из пяти этапов, описанных выше, к вашему собственному проекту параллельно с чтением книги. Тогда вы освоите некоторые из необходимых инструментов, прежде чем начать изучение этой части.

Массив данных

Если у вас еще нет собственного массива данных, с которым вы можете работать, не волнуйтесь. Существует множество общедоступных массивов данных – вы можете бесплатно использовать их в собственных экспериментах. Большим преимуществом является то, что вы сразу же погрузитесь в использование реальных массивов данных, а не тех, что были специально созданы для обучения. По моему опыту, реальные массивы данных позволят вам испытать чувство победы в результате извлечения идей из реальной информации, и добавят вес утверждению, что наука о данных имеет важное значение для будущего развития огромного количества дисциплин.

Действительно интересных и разнообразных массивов данных, доступных в интернете для загрузки и использования, очень много, однако выбор за вами. Вот только несколько для начала:

• World Bank Data. Данные Всемирного банка – ценный ресурс глобальных данных о развитии.

• European Union Open Data Portal. Портал открытых данных Европейского союза – правительственные данные государств – членов ЕС.

• Million Song Dataset. Сборник метаданных и аудиозаписей популярной музыки.

• The CIA World Factbook. Всемирный справочник ЦРУ – массивы данных из 267 стран по темам от истории до инфраструктуры.

• National Climatic Data Center. Национальный центр климатических данных – сведения об окружающей среде США.

Программное обеспечение

Новичку в науке о данных необходимо понять, что данные не имеют своего собственного «языка» и что они могут «говорить» с нами только через машину или элемент программного обеспечения. Под «языком» данных я здесь подразумеваю способ, которым машина передает данные специалисту. О скорости автомобиля, цикле цветения растений, температуре наружного воздуха и количестве жителей в городе данные просто есть. Это ряд компонентов, но отношения, которые мы устанавливаем между ними, – дело человека или компьютера. Если продолжить аналогию с языком, я бы сказал, что данные можно сравнить с отдельными буквами, которые ждут, когда кто-то расставит их в соответствующем порядке, чтобы сформировать слова и предложения. Таким образом, от нас зависит (через инструменты, которые мы применяем), чтобы наши данные работали.

Наличие доступа к программному обеспечению не является обязательным требованием для тех, кто изучает данные с помощью этой книги, поскольку она сосредоточена на практическом применении, а не на кодировании. Но если вы хотите попробовать использовать некоторые из приведенных здесь примеров, я рекомендовал бы либо R, либо Python – оба этих языка представляют собой программные средства анализа данных и доступны для бесплатной загрузки в Windows, Linux/Unix и Mac ОС X. В настоящее время это два самых распространенных в отрасли инструмента с открытым исходным кодом.

Сформулируйте вопрос

Я часто слышу, как другие аналитики данных сетуют на то, что данных слишком много и что сама идея разобраться с таким количеством информации для ответа на бизнес-вопрос ошеломляет. С учетом почти постоянного потока «выхлопных данных» как мы можем надеяться управлять собранной информацией таким образом, чтобы это способствовало ее рассмотрению? Мы не можем просто прогнать все имеющиеся у нас сведения через некий алгоритм и скрестить пальцы в надежде получить нужные нам результаты.

Похожие книги

S. D. F.

W Cat

Записки парасистемного программиста

Евгений Вениаминович Лишак

Создание отдела продаж с Битрикс24.CRM

1С-Битрикс

Этюды для программистов

Чарлз Уэзерелл