1.4. Тестирование в образовании
Сразу оговоримся, что к собственно психологическим тесты образовательные (или тесты достижений) не относятся, поскольку направлены прежде всего на оценку степени усвоения того или иного учебного материала. Тем не менее разработка психологических тестов во многом влияла и на развитие инструментов оценки знаний, эти исследования шли рука об руку, в них участвовали психологи, а поэтому в истории психодиагностики нельзя обойти вниманием тестирование в сфере образования, которая была и остается основным потребителем психологических тестов. А. Анастази справедливо замечает, что в тестах достижений основной интерес сосредоточен на том, что индивид может делать к настоящему времени. Эти тесты в отличие от тестов интеллекта и способностей в основном оцениваются в терминах валидности по содержанию.
Самые ранние сведения о проверке успеваемости в европейской школе датируются примерно 1200 г. В это время Университет Болоньи проводил первый устный экзамен на получение степени доктора философии. Это был единственный экзамен, который в то время сдавали студенты, и обычно продолжался он около недели. Интересно, что экзамен этот проходил в таверне, и студенты быстро установили традицию угощать едой и напитками как своих коллег, так и преподавателей. Естественно, что экзамен нередко переходил в пьяные ссоры и потасовки. Почти 500 лет такой устный экзамен оставался единственным видом «теста» на академическую успеваемость. В 1700 г. в Кембриджском университете устный экзамен был введен и для получения более низкой степени магистра. В начале XIX в. письменные экзамены становятся в Европе общепринятыми. В США первые письменные экзамены были введены в Массачусетсе в 1845 г.
Считается, что первопроходцем в области педагогического измерения был Реверенд Джордж Фишер, директор школы в Англии. Еще в начале 1860-х гг. этот педагог понял необходимость установления стандартов успеваемости в обучении. Для использования в своей школе Фишер разработал так называемые «книги шкал». Он присваивал значение единицы для выражения высшего показателя, которого возможно достичь, и значение пяти для обозначения наименьших достижений в таких предметах, как правописание, математика, навигация, библия, французский язык, общая история, рисование и др.
Американский врач и психолог Дж. М. Райе (1857–1934) заслуживает признания как первый из тех, кто начал массовое тестирование в школе. Он изобрел три различных теста на правописание, которые использовал для проверки примерно 33 тыс. учеников 4-8-х классов в 21 городе США. Отчет о результатах этого исследования был издан в 1897 г.
Этот отчет произвел фурор среди американских преподавателей. Одним из выводов исследования было то, что количество времени, проведенного в ежедневной тренировке по правописанию, не имеет непосредственной связи с успехами в нем (много позже по оригинальным данным Райса был рассчитан коэффициент корреляции, равный -0,12) Из этого следовало заключение о том, что детей нужно не столько учить правописанию, сколько развивать их ум. Впоследствии Райс направил свое внимание на поиск инструментов, позволяющих оценить уровень овладения арифметикой. В 1902 г. он составил серию арифметических тестов для 4-8-х классов и провел их примерно с 6 тыс. учащимися из 18 школ, расположенных в 7 городах. На следующий год был подготовлен языковой тест в форме презентации рассказа, по которому ученики должны были писать сочинение. Более чем 8 тыс. учащихся из 9 различных городов писали такие сочинения. Они были оценены Райсом по изобретенной им пятибалльной шкале, которой, как известно, предстояло большое будущее. Однако работы Райса, несмотря на их новаторский характер, не были достойно оценены его современниками. Отцом измерения в образовании в США был признан Э. Торндайк.
Проявляя интерес к статистике, Торндайк совместно с Фоксом в 1903 г. опубликовал исследование, в котором были разработаны и использованы несколько тестов, связанных с арифметическими операциями. Целью их исследования было изучение взаимоотношений между различными арифметическими операциями. В том же году Торндайк издает книгу под названием «Образовательная психология» (Educational Psychology). В ней описывались те виды тестов, которые считались наилучшими для определения успеха в обучении.
Публикация этой книги ознаменовала появление новой области – образовательной психологии, в которой нашлось место и проблемам измерения. Разработке этих проблем посвящена ставшая классической работа Торндайка «Введение в теорию умственных и социальных измерений» (Introduction to the Theory of Mental and Social Measurements, 1904). Помимо статистических методов в этой книге обсуждались принципы построения тестов.
В декабре 1909 г. Торндайк представил научной общественности свою широко известную Шкалу почерка. Эта шкала, по сути дела, была первым инструментом для измерения продукта образования. Торндайк собрал образцы почерков, которые классифицировались экспертами как различные по качеству. Для того чтобы образовать шкалу, он расположил эти образцы в порядке возрастания их качества. Шкала почерка Торндайка положила начало этапу стремительного развития тестов по многим образовательным предметам. Этому в немалой степени способствовал приток в США иммигрантов, обусловивший увеличение набора учащихся. Также возрастала необходимость в квалифицированных рабочих, что требовало их обучения и, конечно, развития инструментов для оценки его эффективности. К этому времени относится разработка арифметических тестов С. Стоуном, одним из последователей и учеников Торндайка. Широко известные как Стандартные тесты Стоуна, они внесли вклад в образовательное измерение и стали основой для исследований другого ученика Торндайка – С. А. Куртиса. Результатом усилий Куртиса стала Серия арифметических тестов А (1909). Позднее появляется значительно усовершенствованная серия В (1914).
При проверке бесплатных школ Нью-Йорка в 1910–1911 гг. впервые были использованы тесты для измерения успеваемости учеников как средство оценки эффективности школьной системы. Среди используемых в ходе этой проверки тестов (было обследовано более 30 тыс. учеников) были и тесты Куртиса. Они же были задействованы в последующих широкомасштабных исследованиях в Бостоне, Кливленде, других крупных городах США.
Среди других подготовленных Торндайком исследователей, внесших свой вклад в развитие образовательного измерения, был Б. Р. Букингем. В 1913 г. он разработал шкалу правописания, которая представляла новый тип измерительного инструмента. Уровни сложности 50 слов, отобранных для шкалы, были определены на основании процента правильных ответов учеников различных классов. После этого слова были расставлены в шкале в соответствии с их уровнем сложности. В шкалу вошли также 125 вспомогательных слов. Теоретической основой теста Букингема было положение о том, что способность к правописанию может быть измерена тем уровнем трудности, которого может достичь ученик по этой шкале. Принцип построения шкалы Букингема был использован Л. П. Айресом в его Шкале правописания, а также другими специалистами по образовательному измерению при создании тестов для разных предметных областей: С. Вуди – для тестов на математические операции; X. Г. Хотсом – для алгебры; В. А. С. Хен-моном и X. А. Брауном – для латыни; М. Р. Трабу – для языкознания, а также М. Дж. Ван-Вагененом – для тестов по истории.
Результаты тестовых исследований в крупных городах побуждают руководство школ к соответствующим нововведениям. В «Двенадцатом ежегоднике Национального общества по исследованию образования» (1913) впервые были даны официальные рекомендации по использованию тестов в школе. Руководство школ начинает активно использовать статистические методы. В университетах были разработаны специальные курсы для обучения статистическим методам будущих администраторов и технических специалистов в области образования. Основным учебником служило переработанное Торндайком «Введение в теорию умственных и социальных измерений» (1913).
Для содействия изучению работы школ независимыми организациями, городскими и окружными школьными департаментами, государственными отделами общественного обучения, а также университетскими центрами были созданы бюро образовательных исследований под руководством выдающихся специалистов в развитии измерения. Это обеспечило прогресс в области школьных измерений. Этими бюро предоставлялись услуги по обеспечению тестами персонала школ, проводилась стандартизация имеющихся тестов, создавались новые. Администрация и учителя школ знакомились с тестами и техникой их проведения. Продажа и использование тестов, по мнению Ашбо (1918), выросли до беспрецедентных размеров. Этот автор сообщал о том, что в 1916 г. было реализовано около 900 тыс. копий одного из популярных тестов, а ежегодная продажа некоторых других перевалила за 100 тыс. экземпляров. Использование тестов не ограничивалось пределами США. Они рассылались во многие страны мира. К 1918 г. В. С. Монро представил список 109 стандартизированных тестов на измерение успеваемости, которые уже были на рынке, включая 84 теста, созданных для младших классов (до 8-го класса включительно), а также 25 тестов – для старших классов. Большинство тестов для начальной школы составляли тесты на измерение успехов в математике и только один тест оценивал эффективность обучения рисованию. Тесты по иностранному языку лидировали среди тех, которые предназначались для старшеклассников.
Накануне Первой мировой войны тесты для измерения интеллекта были признаны как наиболее важные инструменты образовательной психологии. Интеллект стал особой областью исследования в образовательной психологии, и лидером этого направления также был Торндайк. В 1918 г. Торндайк формулирует принцип, на котором должно базироваться тестирование в образовании. Суть этого принципа состоит в том, что если нечто существует, то оно существует в определенном количестве. Обучение связано с изменениями в человеке; изменение заключается в различии между двумя ситуациями; каждая из этих ситуаций известна нам только по произведенному продукту – изготовленным вещам, произнесенным словам, выполненным действиям и т. п. Измерение любого из этих продуктов означает определение его количества таким образом, что в итоге мы будем знать его величину лучше, чем до измерения.
В течение 10 лет, предшествующих Первой мировой войне, а также какое-то время после нее Торндайк был своего рода оракулом образовательной психологии США, его взгляды на тесты и интеллект представлялись незыблемыми и не подлежали обсуждению.
Сегодня образовательные тесты обычно подразделяются на батареи общих достижений и тесты по конкретным учебным предметам. Батареи тестов общих достижений позволяют получить профиль показателей успешности по основным областям школьных знаний. Основное достоинство этих тестов в том, что исследователь имеет возможность сравнения основных результатов ученика, достигнутых в разных областях знаний. Иногда такое сравнение возможно и на достаточно длительных отрезках обучения, при переходе из класса в класс. Тесты по конкретным учебным предметам позволяют более глубоко проникнуть в структуру успешности усвоения определенной области знания, что особенно важно при специализации учащихся в какой-либо науке. На сегодняшний день, во всяком случае в США, наверное, очень трудно найти учебную дисциплину, по которой не существовало бы стандартизированного теста достижений. Помимо упомянутых тестов в образовании используются близкие друг другу диагностические и критериально-ориентированные методики. Первые используются для выявления причин и анализа трудностей, возникающих в обучении, с помощью вторых ведется постоянная оценка степени овладения соответствующими навыками (о критериально-ориентированном тестировании см. выше).