Итак, вы потратили время на создание лесов для вашего проекта и обеспечение того, чтобы они не рухнули под тяжестью вопросов, которые вы задаете, так что теперь пришло время исследования. В главах 6 и 7 приведены решения для типов анализов, которые вы можете выполнять, а также краткий перечень их преимуществ и ограничений, чтобы повысить вашу уверенность в выборе алгоритма, оптимального для целей конкретного проекта.
Начало работы
Хотя эта часть в основном теоретическая, она имеет практическое значение, и поэтому я настоятельно рекомендую рассмотреть возможность применения каждого из пяти этапов, описанных выше, к вашему собственному проекту параллельно с чтением книги. Тогда вы освоите некоторые из необходимых инструментов, прежде чем начать изучение этой части.
Массив данных
Если у вас еще нет собственного массива данных, с которым вы можете работать, не волнуйтесь. Существует множество общедоступных массивов данных – вы можете бесплатно использовать их в собственных экспериментах. Большим преимуществом является то, что вы сразу же погрузитесь в использование реальных массивов данных, а не тех, что были специально созданы для обучения. По моему опыту, реальные массивы данных позволят вам испытать чувство победы в результате извлечения идей из реальной информации, и добавят вес утверждению, что наука о данных имеет важное значение для будущего развития огромного количества дисциплин.
Действительно интересных и разнообразных массивов данных, доступных в интернете для загрузки и использования, очень много, однако выбор за вами. Вот только несколько для начала:
• World Bank Data. Данные Всемирного банка – ценный ресурс глобальных данных о развитии.
• European Union Open Data Portal. Портал открытых данных Европейского союза – правительственные данные государств – членов ЕС.
• Million Song Dataset. Сборник метаданных и аудиозаписей популярной музыки.
• The CIA World Factbook. Всемирный справочник ЦРУ – массивы данных из 267 стран по темам от истории до инфраструктуры.
• National Climatic Data Center. Национальный центр климатических данных – сведения об окружающей среде США.
Программное обеспечение
Новичку в науке о данных необходимо понять, что данные не имеют своего собственного «языка» и что они могут «говорить» с нами только через машину или элемент программного обеспечения. Под «языком» данных я здесь подразумеваю способ, которым машина передает данные специалисту. О скорости автомобиля, цикле цветения растений, температуре наружного воздуха и количестве жителей в городе данные просто есть. Это ряд компонентов, но отношения, которые мы устанавливаем между ними, – дело человека или компьютера. Если продолжить аналогию с языком, я бы сказал, что данные можно сравнить с отдельными буквами, которые ждут, когда кто-то расставит их в соответствующем порядке, чтобы сформировать слова и предложения. Таким образом, от нас зависит (через инструменты, которые мы применяем), чтобы наши данные работали.
Наличие доступа к программному обеспечению не является обязательным требованием для тех, кто изучает данные с помощью этой книги, поскольку она сосредоточена на практическом применении, а не на кодировании. Но если вы хотите попробовать использовать некоторые из приведенных здесь примеров, я рекомендовал бы либо R, либо Python – оба этих языка представляют собой программные средства анализа данных и доступны для бесплатной загрузки в Windows, Linux/Unix и Mac ОС X. В настоящее время это два самых распространенных в отрасли инструмента с открытым исходным кодом.