Работа с данными в любой сфере - страница 24
Неструктурированная аналитика работает, как вы уже догадались, с неструктурированными данными, которые составляют большую часть информации в мире. Давая определение неструктурированным данным, проще сказать, что это все, что не относится к структурированным данным (числовой информации). Это может быть текст, аудио, видео или изображения. Название объясняется тем, что этот вид данных нельзя непосредственно преобразовать в массив данных – их необходимо сначала подготовить, а поскольку неструктурированные данные зачастую нельзя автоматически перевести в исчисляемые, то в их анализе неизбежна некоторая степень субъективности. В связи с этим неструктурированная аналитика крайне важна для любого исследователя данных.
Классическим примером неструктурированной аналитики является работа с качественными опросами, которые дают данные в текстовом или ином нечисловом формате. В прошлом эти данные должны были быть преобразованы в числовую форму, прежде чем их можно было понять с помощью аналитических инструментов. Это означало, что любые вопросы, которые не предполагали множественного выбора или одного ответа – и поэтому не могли быть легко перенесены в числовой формат, – требовали от аналитика данных вручную производить численную классификацию каждого ответа.
Например, на вопрос о том, чем наслаждался посетитель Йеллоустонского национального парка во время своего пребывания в нем, можно было получить ряд ответов, включая «полевые цветы», «пикники», «занятия живописью», «наблюдение за птицами», «греблю на каяке», «отличный отель с завтраком» и т. д. Аналитик данных должен был бы прочитать все эти результаты, а затем вручную сгруппировать их в категории, которые, по его мнению, были значимыми, такие как «природа», «деятельность», «экскурсии» и «отдых». Не всегда легко сгруппировать ответы по категориям, так как здесь не исключен субъективный подход.
Вы можете себе представить, что перевод этих ответов в числа в лучшем случае представлял итоговый массив данных в немного искаженном виде.
Сегодня методы сортировки результатов по контексту кардинально изменили то, как мы проводим исследования, и новые алгоритмы в этой области помогают нам точно работать в том числе и с изображениями. Аналитики данных признают наличие проблем в методах организации качественных данных и прилагают согласованные усилия для обработки значений, которые нелегко преобразовать в цифры. Полученные алгоритмы позволяют давать гораздо более точные прогнозы, чем было возможно ранее. Теперь мы можем рассматривать слова аналогично числовым данным, например обучая аналитические инструменты идентификации вспомогательных глаголов, а также идиоматических выражений, которые имеют отдаленное отношение к заданному ключевому слову. Это позволяет машине исследовать текстовые данные куда более качественно. Здесь может прийти на ум анализ литературных произведений с помощью цифровых гуманитарных наук, но это лишь мизерная доля того, что могут делать машинные алгоритмы в этой области. Применения неструктурированной аналитики выходят далеко за рамки академической сферы и простираются в мир коммерции. Даже в криминалистике машины теперь могут просматривать письменные сообщения подозреваемых с целью установить особенности поведения, которые детектив мог не заметить.
Вы можете подумать, что люди всегда будут действовать эффективнее машин при изучении средств массовой информации: большинство из нас все еще считает, что мы всегда будем лучше понимать более широкую контекстуальную среду. Как компьютер может распознать период искусства, или стаю чаек, или эмоции лучше, чем человек? На самом деле машины уже давно могут давать ошеломляюще точные прогнозы в отношении нечисловых данных. Еще в 2011 г. исследование, проведенное Институтом нейроинформатики Рурского университета в Бохуме и кафедрой компьютерных наук Копенгагенского университета, показало, что машины могут превосходить людей в выполнении даже таких сложных задач, как идентификация дорожных знаков (Stallkamp et al., 2012). Для этого исследования команда показала испытуемым машинам и людям фотографию, разделенную на квадраты. Задача состояла в том, чтобы определить, на каких квадратах (если таковые имелись) есть полное или частичное изображение дорожного знака. Возможно, вы видели эти тесты в интернете – в настоящее время они используются для дополнительной проверки безопасности перед входом пользователя на сайт и специально разработаны, чтобы лишить роботов доступа к защищенным данным. Результаты этого исследования показывают, что мы уже не в состоянии предотвратить захват данных искусственным интеллектом.