Для того чтобы сделать исходные (сырые) данные пригодными для анализа, их нужно сначала подготовить:
Что такое реляционная база данных?
Реляционные базы данных (РБД) позволяют исследовать их реляционные данные. В таких базах данных имеют значение отношения между единицами информации во всем массиве данных.
Массивы данных в РБД связаны столбцами с одинаковыми именами. Например, если несколько массивов данных содержат столбцы с наименованием «страна», данные из этих столбцов можно сравнить в реляционной базе данных. Преимущество такой базы данных в том, что в ней больше возможностей для анализа и визуализации, необходимых для получения полезных выводов. В частности, данные в такой базе могут изучаться в нескольких массивах сразу без необходимости индивидуального извлечения.
Возможно, лучший способ проиллюстрировать преимущества реляционной базы данных – сравнить ее с Excel, которая часто используется теми, кто не привык работать с базами данных:
1. РБД поддерживает целостность. Каждая ячейка в Excel индивидуальна; типы значений, которые можно в нее поместить, не ограничиваются. Вы можете добавить даты или текст, например, под номерами телефонов или денежными величинами, и Excel это будет полностью устраивать. А вот реляционная база данных станет бить вас по рукам за такую небрежность. Типы столбцов в базе данных предопределены, что означает, что столбец, настроенный на запись дат, не будет принимать значения, не отвечающие формату даты. Затем базы данных будут следить за процессом, делая запрос по любому показателю, который не соответствует значению, предопределенному столбцом.