Искусство статистики. Как находить ответы в данных - страница 23
Крайнее проявление – это ситуация, в которой целевая совокупность состоит из людей, тогда как изучать мы можем только животных, например при анализе воздействия какого-то химического вещества на мышей. Не столь кардинальная разница будет в случае, если клинические испытания нового препарата проводились исключительно на взрослых мужчинах, а затем он использовался для женщин и детей. Мы хотели бы знать влияние на всех людей, но одним статистическим анализом тут не обойтись – мы неизбежно должны делать предположения и проявлять осторожность.
Когда есть все данные
Хотя вышеописанные исследования хорошо иллюстрируют идею извлечения информации из данных, фактически большая часть используемых сегодня данных не основывается на случайной или вообще на какой-либо выборке. Регулярно собираемые данные, скажем об онлайн-покупках или социальных взаимодействиях, а также об администрировании образовательных или правоохранительных систем, можно переориентировать, чтобы лучше понять происходящее в мире. В таких ситуациях у нас есть полные данные. С точки зрения индуктивного процесса, показанного на рис. 3.1, между этапами 2 и 3 нет разрыва – выборка и исследуемая совокупность, по сути, совпадают. Это избавляет от беспокойства по поводу малого размера выборки, однако многие другие проблемы все же могут оставаться.
Рассмотрим вопрос об уровне преступности в Великобритании и его важный политический аспект: растет он или снижается. Существуют два ключевых источника данных: один – на основе опросов, второй – официальный. Первый, «Исследование преступности в Англии и Уэльсе» – классический пример опроса, в рамках которого примерно 38 тысяч человек ежегодно рассказывают о своем опыте соприкосновения с криминалом. Как и в случае исследования Natsal о сексе, здесь могут возникать проблемы при переходе между этапами. Во-первых, приходится использовать самоотчеты (этап 1) для оценивания реального опыта людей (этап 2), поскольку они могут скрывать правду, например, о том, что сами замешаны в незаконных делах, связанных с наркотиками. Во-вторых, мы вынуждены предположить, что выборка репрезентативна для соответствующей совокупности, и учесть ее ограниченный размер (переход от этапа 2 к этапу 3). В-третьих, нам нужно признать, что план исследования не охватывает какой-то части общей целевой совокупности, скажем подростков младше 16 лет или людей в местах совместного проживания (переход от этапа 3 к этапу 4). Тем не менее «Исследование преступности в Англии и Уэльсе» с определенными оговорками считается официально признанной национальной статистикой и применяться для отслеживания долгосрочных тенденций[79].
Второй источник данных – сообщения о преступлениях, зарегистрированных полицией. Это делается для официальных целей и не является выборкой: поскольку можно учесть каждое преступление, зарегистрированное в стране, «исследуемая совокупность» совпадает с выборкой. Конечно, мы по-прежнему должны предполагать, что записанные данные действительно отображают то, что случилось с жертвами преступлений (переход от этапа 1 к этапу 2), но главная проблема возникает при утверждении, что данные об исследуемой совокупности (люди, которые сообщают о преступлениях) представляют целевую совокупность по всем преступлениям, совершенным в Англии и Уэльсе. К сожалению, полицейская статистика систематически упускает случаи, которые полиция не зарегистрировала как преступления или о которых жертвы предпочли умолчать, такие как незаконное употребление наркотиков или отказ людей сообщать о краже или вандализме, когда из-за этого падают цены на недвижимость в месте их проживания. Вот яркий пример: когда в ноябре 2014 года полицейские методы регистрации подверглись суровой критике, число зафиксированных преступлений на сексуальной почве возросло с 64 тысяч в 2014 году до 121 тысячи в 2017-м, то есть почти удвоилось за три года.
Неудивительно, что эти два разных источника данных могут приводить к различным выводам о наблюдаемых тенденциях. Например, согласно «Исследованию преступности», между 2016 и 2017 годами уровень преступности снизился на 9 %, в то время как полиция зарегистрировала на 13 % больше правонарушений. Чему тут верить? Статистики больше доверяют опросу, а сомнения в достоверности предоставляемых полицией данных привели к тому, что в 2014 году они перестали использоваться в качестве национальной статистики.