В этом разделе, посвященном качеству исследования, остается рассмотреть еще два конструкта, крайне значимых для оценки измерения: надежность и валидность. Надежность характеризует согласованность пли воспроизводимость измерений. Вопрос состоит в следующем: будут ли результаты повторных применений некой методики одинаковы или весьма близки? Чем выше степень согласованности при неоднократном применении, тем выше надежность. Цель измерения всегда заключается в максимизации надежности, Валидность, как и везде, имеет отношение к точности — в данном случае, к точности измерений. Вопрос состоит в том, точно ли отражают полученные в ходе измерения значения изучаемый конструкт, то есть измеряем ли мы именно то, что предполагали измерять? Валидность, очевидно, вопрос, касающийся всего процесса измерения. Это глобальная цель, охватывающая все частные моменты, обсуждавшиеся в данном разделе.
Всегда, когда мы что-либо измеряем, встают вопросы надежности и валидности. Однако на практике эти конструкты чаще всего рассматриваются в их отношении к двум видам измерения: к стандартизованным тестам и к обсервативным оценкам. Стандартизованным тестам и методу наблюдения посвящены оставшиеся разделы этой главы; в контексте этих двух форм измерения я более подробно остановлюсь на вопросах надежности и валидности.
Для определения, достойна ли некая измерительная операция называться тестом, не существует общепринятых критериев. В том смысле, в котором данный термин употребляется здесь, это измерительный инструмент, выполняющий функцию оценки ряда важнейших психологических характеристик. Существует множество психологических характеристик и еще больше тестов, претендующих на их измерение; список их включает несколько тысяч наименований (например, Burps, 1978). На страницах этой книги вы встретите ряд примеров: методики оценки темперамента в младенчестве (глава 10), Я-концепции у дошкольников (глава 12), полоролевого развития у старших детей (глава 12) и интеллекта в разные периоды жизни (главы 10, 11 и 13). Приведенные в качестве примера тесты — как и все тесты вообще — различаются по объекту оценки, по возрастным группам, для которых они предназначены, по схеме получения ответов и способам использования результатов тестирования. Однако общим для них всех является то, что они должны отвечать двойному критерию — валидности и надежности.
При оценке валидности теста ставится следующий вопрос: измеряет ли тест то, что, как предполагается, он должен измерять? Если это, к примеру, IQ-тест, действительно он измеряет различия в уровне интеллекта или различия показателей испытуемых обусловлены чем-то другим? Очевидно, что недостаточно назвать тест тестом интеллекта, нужны другие критерии. В целом, существует три типа критериев валидности.
Первый — тест должен отвечать требованиям содержательной валидности. Термин содержательная валидность означает адекватность, с которой задания теста характеризуют изучаемое понятие. Включает ли тест все важнейшие аспекты объекта, которые мы хотим измерить, и правильно ли оценивается значение каждого из них? Предположим, наш тест должен оценивать знания арифметики на уровне 4-го класса. Тест, содержащий примеры только на сложение, будет обладать недостаточной содержательной валидностью. Значительно лучшей содержательной валидностью будет обладать тест, включающий репрезентативную подборку задач на сложение, вычитание, умножение и деление.
Добиться содержательной валидности желательно, но это не всегда легко. Даже в отношении такого строго структурированного предмета, как элементарная арифметика, могут возникнуть расхождения, касающиеся адекватности подобранных заданий. К примеру, сколько должно быть примеров с двузначными, а сколько — с трехзначными числами; в какой контекст или в какие контексты должны быть помещены эти примеры? Когда объектом является нечто более сложное, чем элементарная арифметика, добиться содержательной валидности бывает практически невозможно. Как бы ни был широк диапазон подобранных вопросов теста, сомнительно, чтобы с помощью одного контент-анализа можно было бы продемонстрировать полноту и репрезентативность подбора вопросов для оценки любого из возможных аспектов «интеллекта». В таких случаях необходимы другие индексы валидности.