Надежность и валидность тестов

Оглавление:

Психодиагностика активно используется в медицине, особенно в психиатрических и неврологических клиниках. Диагностические методы для изучения психологических характеристик пациентов в этих клиниках считаются вспомогательными методами, подчиненными задачам и интересам клиники. Эти методы развиваются и расширяются в рамках специальных отраслей психологии — патопсихологии и нейропсихологии. Важную роль в клинической диагностике играют методы наблюдения и беседы, которые позволяют выявить оттенки психического и физического состояния пациента, некоторые особенности его личности, факты симуляции и диссимуляции и так далее. Наряду с ними используются экспериментальные методики, направленные на выявление нарушений познавательной деятельности (восприятия, памяти, мышления), эмоционально-волевой сферы и некоторых других особенностей.

Психодиагностическое обследование пациентов клиники проводится, во-первых, для уточнения или установления диагноза заболевания, во-вторых, для оценки эффективности терапии, в-третьих, в трудовых, военных и судебно-медицинских целях.

Другим практическим применением психодиагностики является психологическое консультирование, целью которого является помощь в решении определенных психологических проблем. Следует подчеркнуть, что это помощь людям, у которых нет патологических нарушений, то есть которые находятся в пределах медико-биологических норм, но имеют некоторые трудности психологического характера. Это могут быть проблемы детей (неуверенность в своих силах, негативизм, тревожность и т.д.), школьников (школьная дезадаптация, неуспеваемость, девиантное поведение) и взрослых (потеря смысла жизни, низкая самооценка, конфликтные отношения со сверстниками, нарушение детско-родительских отношений). В консультативной практике психологические диагнозы ставятся как на основе наблюдения и беседы, так и с помощью специальных методик. Их правильность зависит от того, насколько успешным было взаимодействие психолога с клиентом, и обеспечивается рассмотрением результатов диагностики в контексте всего процесса развития личности.

Диагностика в психологическом консультировании занимает особое место в ее применении к нормальному детству. Как считал Л.С. Выготский в начале 30-х годов 20 века, это должна быть развивающая диагностика, основной целью которой является наблюдение за ходом психического развития ребенка. Для реализации кон-.

Мониторинг требует общей оценки психического развития ребенка на основе соответствия нормативным возрастным показателям, а также выявления причин психических проблем ребенка. Последнее требует анализа полной картины его развития, включая изучение социальной ситуации развития, уровня развития ведущей для определенного возраста деятельности (игра, обучение, рисование, конструирование и т.д.). Очевидно, что такая диагностика невозможна без опоры на возрастную психологию развития. Кроме того, практика возрастного психологического консультирования требует совершенствования уже существующих и поиска новых методологических

Более того, практика возрастной психологической помощи требует совершенствования уже имеющегося методического арсенала.

Психодиагностика часто используется для решения проблем, связанных с трудовой деятельностью. Это проблемы выбора профессии, профориентации, организации профессионального обучения, оптимизации профессиональной деятельности за счет рационального распределения кадров, выявления причин брака, несчастных случаев на производстве и т.д. Роль психодиагностики в работе профессионального психолога варьируется в зависимости от типа профессии, но она должна быть обязательным этапом, выполняющим важнейшую функцию — помочь каждому найти свое место в мире труда и стать профессионалом высокого уровня в выбранной им работе.

Практическое применение психодиагностики широко используется в судебно-психологических экспертизах. Работа судебного психолога требует не только владения диагностическими методами и приемами, но и знаний в области судебно-психологической и психиатрической экспертизы.

Понятие теста

Термин «тест» в смысле обследования, проверки, который очень распространен в различных областях знаний, имеет долгую историю. Согласно Р. Пенто и М. Гравицу (1972), слово «тест» происходит из старофранцузского языка и является синонимом слова «мензурка» (лат. testa — ваза из глины). Этим словом называли небольшие сосуды из обожженной глины, используемые алхимиками для проведения экспериментов. В русском языке слово «тест» долгое время имело два значения:

1) испытательная присяга, религиозная английская клятва, которую должен принести каждый, кто занимает государственную должность, чтобы доказать, что он не является тайным католиком;

2) неглубокий плавильный сосуд или сосуд с выщелоченной золой для извлечения олова из золота или серебра (Российский энциклопедический словарь. 1877).

Термин «тест» как психологический термин приблизился к своему современному значению в конце XIX века.

В психологии тесты — это стандартизированные методы психодиагностики, позволяющие получить сопоставимые количественные и качественные показатели степени развития исследуемых характеристик.

Стандартизация таких методов означает, что они всегда и везде должны применяться одинаково, начиная с ситуации и инструкций, которые получает участник тестирования, и заканчивая тем, как рассчитываются и интерпретируются полученные результаты измерений. Сопоставимость означает, что результаты, полученные с помощью теста, можно сравнивать друг с другом, независимо от того, где, когда и кем они были получены, при условии, конечно, что тест был применен правильно. Из всех возможных психодиагностических процедур к тестам предъявляются самые высокие требования по валидности, надежности, точности и уникальности.

Существует множество видов тестов, которые делятся на группы по нескольким причинам: по предмету теста (качество, которое оценивается данным тестом); по характеристикам заданий, используемых в тесте; по материалу, предъявляемому тестируемому; по предмету оценки.

В психодиагностике известны различные классификации тестов. По характеристикам используемых тестовых заданий их можно разделить на вербальные и практические тесты, по форме процедуры тестирования — на групповые и индивидуальные, по направленности — на тесты способностей, тесты личности и тесты определенных психических функций, а по наличию или отсутствию временных ограничений — на тесты скорости и тесты достижений. Тесты также могут отличаться по принципам их построения. В последние десятилетия многие известные тесты были адаптированы к компьютерной среде (отображение, обработка данных и т.д.), их можно назвать компьютерными тестами. Ведется активная работа по разработке компьютерных тестов, которые изначально разрабатываются с учетом возможностей современной компьютерной техники.

Тест, как и любой другой когнитивный инструмент, имеет присущие ему характеристики, которые можно рассматривать как его сильные и слабые стороны при определенных условиях исследования. Эффективное использование тестов зависит от учета многих факторов, наиболее важными из которых являются: теоретическая концепция, на которой основан тот или иной тест; сфера применения; весь поведенческий комплекс, обусловленный стандартными требованиями к психологическим тестам и их психометрическим свойствам. Широко распространенные представления о «простоте» и доступности тестов не соответствуют действительности. Поскольку тест — это средство изучения сложнейших психических явлений, его нельзя трактовать просто как постановку задачи и регистрацию ее решения. Научное применение тестов возможно только при условии опоры на общепсихологические знания, компетентности в теории и практике соответствующего психодиагностического исследования. Не менее важным является соблюдение этических норм психодиагностики.

Надежность психодиагностического теста

В традиционной тестологии термин «надежность» означает относительное постоянство, стабильность, согласованность результатов теста при его основном и многократном использовании на одних и тех же испытуемых. Как A. Анастази пишет, тесту интеллекта вряд ли можно доверять, если в начале недели ребенок набрал 110 баллов, а в конце недели — 80. Повторное использование надежных методик дает схожие оценки. В этом случае в определенной степени могут совпадать как сами баллы, так и порядковое место (ранг), занимаемое обследуемым в группе. В любом случае, при повторении опыта возможны некоторые вариации, но важно, чтобы они были незначительными, в пределах одной группы. Таким образом, можно сказать, что надежность методики — это такой критерий, который говорит о точности психологических измерений, то есть позволяет судить о том, насколько достоверны полученные результаты.

Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение факторов, снижающих точность измерений. Мы предприняли попытку классифицировать такие факторы. Среди них наиболее часто упоминаются следующие:

1) Нестабильность диагностируемого объекта;

несовершенство диагностических методик (плохо составленные инструкции, разные задания, нечеткая формулировка инструкций по представлению методики испытуемым и т.д.)
изменение ситуации исследования (другое время суток, когда проводятся эксперименты, другое освещение помещения, наличие или отсутствие постороннего шума и т.д.)

4) Изменения в поведении экспериментатора (различное предъявление инструкций от опыта к опыту, различная стимуляция выполнения задания и т.д.).

5) Изменения в функциональном состоянии экспериментатора (в одном эксперименте наблюдается хорошее самочувствие, в другом — усталость и т.д.).

6) Элементы субъективности в способах оценки и интерпретации результатов (при записи ответов испытуемых ответы оцениваются по степени полноты, оригинальности и т.д.).

Если учесть все эти факторы и приложить усилия для устранения условий, снижающих точность измерений в каждом из них, можно достичь приемлемого уровня надежности испытаний. Одним из важнейших факторов, повышающих надежность психодиагностических методик, является единообразие процедуры обследования, ее строгая регламентация: одинаковые для исследуемой выборки испытуемых и условия работы, одинаковый характер инструкций, одинаковые для всех временные ограничения, методы и особенности контакта с респондентами, порядок предъявления заданий и т.д. При такой стандартизации исследовательских процедур можно значительно снизить влияние посторонних случайных факторов на результаты тестирования, тем самым повысив их надежность.

Исследуемая выборка оказывает большое влияние на надежность методик. Он может как понижать, так и завышать этот показатель, например, надежность может быть искусственно завышена, если выборка имеет низкий разброс результатов, т.е. если результаты близки по своим значениям. В этом случае при повторном опросе новые результаты также будут ранжированы в тесной группе. Возможные изменения в рейтингах испытуемых незначительны, поэтому надежность методики высокая. Такое же необоснованное завышение надежности может произойти при анализе результатов выборки, состоящей из группы с очень высокими результатами теста и группы с очень низкими результатами теста. Тогда эти широко разнесенные результаты не будут пересекаться, даже если в условия эксперимента вмешаются случайные факторы. Поэтому в руководстве обычно описывается выборка, на которой определялась надежность методологии.

В настоящее время надежность все чаще определяется на максимально однородных выборках, т.е. на выборках, сходных по полу, возрасту, уровню образования, профессиональной подготовке и т.д. Коэффициенты надежности приведены для каждой из этих выборок. Приведенный показатель надежности применим только к группам, аналогичным тем, на основе которых он был определен. Если методика применяется к выборке, отличной от той, на которой проверялась ее надежность, эту процедуру необходимо повторить.

Поскольку надежность отражает степень согласия между двумя независимо определенными рядами показателей, математико-статистический метод, используемый для определения надежности методики, — это корреляция (Пирсона или Спирмена). Чем выше надежность, тем ближе результирующий коэффициент корреляции к единице, и наоборот.

Виды валидности и её нахождение

По определению американского текстолога А. Анастази, «валидность теста — это концепция, которая говорит нам, что измеряет тест и насколько хорошо он это делает. Валидность говорит нам о том, способна ли процедура измерить определенные черты, характеристики и насколько хорошо она это делает. Наиболее распространенным способом определения теоретической валидности теста (методики) является конвергентная валидность, которая заключается в сравнении данной методики с авторитетными родственными методиками и демонстрации значимых связей с этими методиками.

Сравнение с методами, имеющими другую теоретическую основу, и постоянство отсутствия значимых связей с ними называется дискриминантной валидностью. Другим видом валидности является прагматическая валидность — проверка методики с точки зрения ее практической значимости, эффективности, полезности. Для такой валидизации, как правило, используются так называемые независимые внешние критерии, то есть внешний источник информации о проявлении измеряемой психической черты в реальной жизни и в деятельности людей, независимый от теста. Такими внешними критериями могут быть академические успехи, профессиональные достижения, успехи в различных видах деятельности, субъективные оценки (или самооценки). Например, если методика измеряет особенности развития профессионально важных качеств, то для критерия необходимо найти такую деятельность или отдельные операции, где реализуются именно эти качества.

Метод известных групп можно использовать для проверки валидности теста, когда приглашают людей, о которых известно, к какой группе они относятся по критерию (например, группа «очень успешных, дисциплинированных студентов» — высокий критерий, а группа «неуспевающих, недисциплинированных студентов» — низкий критерий, а студенты со средними баллами не участвуют в тесте), тестируют и находят корреляцию между результатами теста и критерием.

Где a — количество испытуемых, которые попадают в высокую группу по тесту и критерию, c — количество испытуемых, которые попадают в высокую группу по критерию и имеют низкие результаты теста. Для полной валидности теста пункты b и c должны быть нулевыми. Мера согласия, корреляция между крайними группами в тесте и критерием оценивается коэффициентом Гилфорда Fi. Существуют различные способы продемонстрировать достоверность теста. Тест считается валидным, если он измеряет то, что должен измерять. Внешняя валидность для психодиагностических методик означает, что результаты психодиагностики, проведенной с помощью данной методики, соответствуют внешним свойствам, не зависящим от методики и относящимся к субъекту тестирования. Это означает практически то же самое, что и эмпирическая валидность, с той разницей, что это связь между показаниями методики и основными, центральными внешними признаками поведения обследуемого. Психодиагностическая процедура считается внешне валидной, если, например, она используется для оценки черт характера индивида, и его или ее внешне наблюдаемое поведение соответствует результатам теста.

Внутренняя валидность для психодиагностических методик означает согласованность их пунктов, субтестов; согласованность результатов психодиагностики, проведенной по конкретной методике, определение оцениваемого психологического признака, используемое в самой методике. Процедура считается внутренне не валидной или недостаточно валидной, если все или часть вопросов, заданий и субтестов, включенных в нее, измеряют нечто иное, чем то, что требуется процедурой. Кажущаяся валидность описывает восприятие теста тестируемым. Тест должен восприниматься обследуемым как серьезный инструмент для изучения его личности. Кажущаяся валидность приобретает особое значение в современных условиях, когда восприятие тестов в общественном сознании доминирует благодаря многочисленным публикациям в популярных газетах и журналах так называемых квазитестов, предлагающих читателю все — от интеллекта до совместимости с будущим супругом.

Конкурентная валидность оценивается путем соотнесения разработанного теста с другими, валидность которых установлена в отношении измеряемого параметра.

Проблемы валидности

Из этого следует, что не существует единого показателя, по которому можно установить валидность психологического теста. В отличие от показателей надежности и дискриминантности, невозможно провести точные статистические расчеты, подтверждающие валидность методики. Тем не менее, разработчик должен предоставить убедительные доказательства валидности теста, что требует психологических знаний и интуиции. Хотя в классической теории тестов проблеме валидности уделяется много внимания, теоретически она никак не решается. Приоритет отдается надежности, которая обычно выражается следующим образом: валидность теста не может быть выше его надежности. Валидность — это способность теста измерять признак, для которого он предназначен. Следовательно, чем больше на результат теста или отдельного пункта влияет измеряемый признак и меньше — другие переменные (включая внешние), тем более валидным является тест. Валидность — одно из важнейших свойств психодиагностических процедур и тестов, один из основных критериев их качества.

Это понятие близко к понятию валидности, но не совсем идентично. Проблема валидности возникает при разработке и практическом применении тестов или процедур, когда необходимо установить соответствие между степенью выраженности интересующей личностной черты и методом ее измерения. Валидность показывает, что именно измеряет тест или процедура и насколько хорошо он это делает; чем более валидными они являются, тем лучше они отражают качество, для которого они были разработаны. Количественно валидность может быть выражена корреляцией результатов теста или инструмента с другими показателями — например, с успехом в выполнении смежной деятельности. Валидность может быть продемонстрирована различными способами, чаще всего комплексно. Используются и другие термины, такие как концептуальная валидность, критериальная валидность, конструктивная валидность и другие виды валидности, со своими собственными способами определения их уровня. Требование валидности очень важно, и многие критические замечания в адрес тестов или других психодиагностических процедур связаны с их сомнительной валидностью. Например, достоверность измерения интеллекта зависит от:

1) об определении интеллекта, который является особым понятием этого феномена;
2) о составе тестов, разработанных в соответствии с данной концепцией
3) в соответствии с эмпирическими критериями.

Разные концепции требуют разного состава элементов, поэтому вопрос концептуальной валидности очень важен. Чем больше пунктов соответствует авторской концепции интеллекта, тем увереннее можно говорить о концептуальной валидности теста. Корреляция теста с эмпирическим критерием указывает на его возможную валидность в отношении этого критерия. Чтобы определить валидность теста, всегда нужно задавать дополнительные вопросы: валиден для чего? С какой целью? В соответствии с каким критерием?

На странице курсовые работы по психологии вы найдете много готовых тем для курсовых по предмету «Психология».

Здесь темы рефератов по психологии

Читайте дополнительные лекции: