Надежность и валидность тестов
Содержание:
- Типы валидности тестов. ВВЕДЕНИЕ
- Надёжность как устойчивость
- Психологическая надежность или высшая психическая деятельность
- См. также
- Предугадывание ошибок
- Валидность и надежность теста. Валидность психологических тестов
- Методы оценки надежности теста;. Методы оценки надежности теста
- Надежность валидность стандартизация тестов. Стандартизация, надежность и валидность теста
Типы валидности тестов. ВВЕДЕНИЕ
Достоверность психодиагностического измерения определяется валидностью (соответствием тестовых данных измеряемому свойству), надежностью и прогностичностью применяемых психологических методик.
Валидность теста — понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает. Характеристика психодиагностической методики как валидной свидетельствует о ее соответствии и пригодности для оценивания именно того психологического качества, для которого она предназначается.
Когда говорят о степени валидности, рассматривается то, насколько результаты исследования соответствуют поставленным задачам (однако при этом валидность не измеряется в каких-либо условных единицах).
Характеристика валидности методики включает в себя не только сведения о том, что данная методика на самом деле измеряет, но также информацию об условиях, о сфере ее применения.
Валидность считается фундаментальным понятием экспериментальной психологии и психодиагностики. Выражение валидности в общих терминах наименования принципиально невозможно, так как ни один тест нельзя охарактеризовать высоким или низким уровнем валидности абстрактно, не учитывая его конкретной целенаправленности. На деле между наименованием теста и его практическим назначением нередко существует несоответствие.
Валидность теста должна определяться только относительно его специального использования. Шнейдер Л.Б. Основы экспериментальной психологии. М.: Изда-тельство «МПСИ», 2011. — 376 с.
Надёжность как устойчивость
Устойчивость результатов теста или ретестовая надежность (англ — test-retest reliability) — возможность получения одинаковых результатов у испытуемых в различных случаях.
Устойчивость определяется с помощью повторного тестирования (ретеста):
В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Наименьшим удовлетворительным значением для ретестовой надежности является 0.76.
Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Ещё один недостаток повторного тестирования — это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.
В связи с выше сказанным применяется исследование надежности психодиагностических методик с использованием параллельных форм, при которых конструируются эквивалентные или параллельные наборы заданий. При этом испытуемые выполняют совершенно другой тест при аналогичных условиях. Однако имеются трудности в доказательстве того, что обе формы являются действительно эквивалентными. Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.
Психологическая надежность или высшая психическая деятельность
Высшая нервная деятельность — это совокупность множества взаимосвязанных нервных процессов, протекающих в коре головного мозга. Эти процессы обуславливают приспособление поведения человека к постоянно изменяющимся условиям окружающей среды. В основе связи организма со средой лежит работа анализаторов. Основные характеристики анализаторов чувствительность, избирательность, адаптивность. С помощью анализаторов человек оказывается в информационном пространстве, о значении которого для его жизнедеятельности в современном мире мы уже говорили. Чем выше организация организма, чем более полную информацию он получает об окружающей среде, тем точнее строит свое поведение. Человек, в процессе своей жизнедеятельности, ориентируется не только на информацию от природной среды, все большее значение для него приобретает информация о состоянии окружающей среды (природы, социосферы, ноосферы) и собственной надежности с точки зрения персональной и общественной безопасности (опасности).
Работа высшей нервной системы расширяет диапазон адаптивной активности. Человек живет в реальном мире, что позволило Павлову выделить первую сигнальную систему, информирующую об окружающем мире через ощущения и восприятие и символическом мире, что позволило выделить и вторую сигнальную систему — специфическую нервную деятельность центральной нервной системы, связанную с речевой сигнализацией, совершением действий в ответ на словесные раздражители. Речь, имеет место только у человека и выполняет ряд функций, важных для жизнедеятелельности.
4 стр., 1724 слов
См. также
- Помимо надежности тестов, есть также надежность наблюдения — межнаблюдательская надежность. МН — это процент совпадения результатов наблюдения экспертов друг с другом.
- Анализ надёжности
- Item Response Theory
Надежность и валидность
Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.
Предугадывание ошибок
Используя свои знания о системе, QA-специалист может «предугадать», при каких входных условиях есть риск ошибок
Для этого важно иметь опыт, хорошо знать продукт и уметь выстроить коммуникации с коллегами. . Например, в спецификации указано, что поле должно принимать код из четырех цифр
В числе возможных тестов:
Например, в спецификации указано, что поле должно принимать код из четырех цифр. В числе возможных тестов:
- Что произойдет, если не ввести код?
- Что произойдет, если не ввести спецсимволы?
- Что произойдет, если ввести не цифры, а другие символы?
- Что произойдет, если ввести не четыре цифры, а другое количество?
Преимущества:
1. Эта проверка эффективна в качестве дополнения к другим техникам.
2. Выявляет тестовые случаи, которые “никогда не должны случиться”.
Недостатки:
1. Техника в значительной степени основана на интуиции.
2. Необходим опыт в тестировании подобных систем.
3. Малое покрытие тестами.
Валидность и надежность теста. Валидность психологических тестов
Валидность психологических тестов отражает соответствие их результатов сущности измеряемых психологических феноменов. Например, насколько результат теста агрессивности отражает реальный уровень агрессивности респондента.
Можно выделить два основных способа определения валидности психологических тестов.
Первый способ выявления валидности психологического теста предполагает соотнесение результатов теста с аналогичными показателями других тестов. Например, для проверки валидности теста на самооценку можно сделать следующее:
- провести тестирование испытуемых по новому тесту;
- выявить самооценку испытуемых по другому тесту (предполагается, что он валиден);
- рассчитать корреляцию показателей самооценки по двум психодиагностическим методикам;
- статистически значимая корреляция даст основания говорить о валидности нового теста.
Такой способ позволяет выявить так называемую конструктную валидность. Она отражает соответствие выявляемого психологического показателя психологическому конструкту.
Второй способ выявления валидности психологического теста предполагает соотнесение результатов теста с внешними критериями. Такая валидность называется критериальная валидность психологического теста.
Например, показателем критериальной валидности теста склонности к отклоняющемуся поведению может быть реальное число правонарушений подростка. Применительно к тесту мотивации достижений показателем критериальной валидности может быть успешность выполнения той или иной деятельности.
Методы оценки надежности теста;. Методы оценки надежности теста
До включения в тест задача должна быть оценена с точки
зрения объективности, надёжности, валидности, трудности и дискриминативности.
Объективной задача может быть признана тогда, когда она несколькими (не
менее трёх) независимыми экспертами-психологами оценивается как
соответствующая признаку, который подлежит измерению.
Надёжной задача является, если при её повторном предъявлении она
вызывает у испытуемого эквивалентную первому предъявлению реакцию.
Валидной задача считается тогда, когда в соответствии с критерием
она чаще всего правильно решается теми испытуемыми, у которых измеряемый
признак более выражен, чем у других испытуемых. (Например, в интеллектуальном
тесте валидными будут те задачи, которые правильно решают испытуемые с более
высоким интеллектом, чем с более низким).
Трудность задачи рассчитывается из соотношения процента правильных
ответов на данную задачу с учётом объёма репрезентативной выборки испытуемых.
Оптимальными для теста являются задачи, индекс трудности которых равен 50 %.
Коэффициент дискриминативности, или согласованности, отдельной
задачи с тестом позволяет оценить, насколько точно задача дифференцирует
испытуемых по измеряемому признаку. Он равен коэффициенту корреляции между
средним результатом анализируемой задачи (по принципу: правильный —
неправильный ответ) и средним первичным результатом по всем задачам теста.
Психологический диагноз предполагает использование и анализ
результатов исследования, полученных с помощью различных методик. Причём все
данные должны быть представлены в единой шкале, то есть все первичные
результаты тестовых исследований необходимо преобразовать таким образом,
чтобы они оказались сопоставимыми — стандартизация шкал теста.
Под надёжностью теста понимается степень
точности, с которой тест измеряет определённое свойство или способ поведения
личности. Надёжность теста – это характеристика точности его как
измерительного инструмента, его устойчивости к действию помех (как внешних,
так и внутренних). Эмпирическое определение надёжности теста является
обязательным условием его допуска для использования в практической
деятельности психолога.
В психометрике обоснование получили три метода оценки
надёжности тестов:
1)
метод повторного тестирования (метод тест-ретест);
2) метод тестирования параллельной, или эквивалентной,
формой теста;
3) метод деления, или расщепления теста на части. Оценка
надёжности по методу повторного тестирования требует, чтобы тест дважды
предъявлялся одной и той же выборке испытуемых через какое-то время.
Длительность временного промежутка определяется содержанием и характером
задач теста.
Второй метод оценки надёжности теста требует наличия
параллельной, то есть эквивалентной, формы теста, например формы
«А» и «Б». Репрезентативную выборку испытуемых, на
которой проверяется надёжность теста, случайным образом делят на две примерно
равночисленные группы. Затем первой группе предъявляются задачи формы
«А», а второй группе – задачи формы «Б». Через некоторое
время (не более одной недели) задачи формы «Б» решает первая
группа, а формы «А» — вторая. После этого для всей репрезентативной
выборки испытуемых отдельно вычисляются первичные результаты для форм
«А» и «Б», которые затем подвергаются корреляции.
Общим недостатком первых двух методов оценки надёжности
теста является то, что они зачастую дают заниженные или завышенные
коэффициенты надёжности. Дело в том, что дисперсия результатов, на основе
которой рассчитывается коэффициент корреляции, неоднородна по своему составу.
Наряду с дисперсией действительных индивидуальных различий в неё входят
частные дисперсии, обусловленные влиянием как внутренних, психологических,
причин (колебания внимания, усталость и др.), так и внешних (уличный шум,
поведение и высказывания исследователя и т. п.). При этом сила и сочетание
этих причин в первом и во втором тестировании могут быть различными, и
оценить их влияние или полностью их нейтрализовать оказывается невозможным.
Надежность валидность стандартизация тестов. Стандартизация, надежность и валидность теста
Рассмотрим понятия стандартизации, надежности и валидности теста с позиций классической эмпирико-статистической теории. В соответствии с этой теорией конструирование тестов для изменения психологических свойств и состояний основано на шкале интервалов. Измеряемое психическое свойство считается линейным и одномерным. Предполагается также, что распределение совокупности людей, обладающих данным свойством, описывается кривой нормального распределения. В основе психологического тестирования лежит классическая теория погрешности измерений. Считается, что тест – такой же измерительный прибор, как любой физический прибор, и результаты, которые он показывает, зависят от величины свойства у испытуемого, а также от самой процедуры измерения. Любое свойство психики имеет «истинный» показатель, а показания по тесту отклоняются от истинного на величину случайной погрешности. На показания теста влияет и «систематическая» погрешность, но она сводится к прибавлению (вычитанию) константы к «истинной» величине параметра, что для интервальной шкалы значения не имеет. Надежность теста. Если тест проводить много раз, то среднее значение будет характеристикой «истинной» величины параметра. Под надежностью теста принято понимать устойчивость результатов к воздействию случайных факторов, внешних и внутренних. Наиболее часто проводится оценка ретестовой надежности. Чем теснее коррелируют результаты начального и повторного (обычно отсроченного на несколько месяцев) проведения теста, тем он надежнее. Предполагается, что существует неограниченное количество заданий, которые могут «работать» на измеряемое свойство. Тест есть лишь выборка заданий из их генеральной совокупности. В идеале можно создать сколько угодно эквивалентных форм теста, поэтому определение надежности теста можно провести путем корреляции параллельных форм или эквивалентных равных частей, полученных путем расщепления тестового задания на две части. Поскольку в реальном тесте число заданий ограничено (не более 100), то оценка надежности теста всегда приблизительна. Тест считается надежным, если коэффициент корреляции результатов составляет не менее 0,75. Валидность теста. Проблеме валидности в классической теории теста уделяется много внимания, однако теоретически она никак не решается. Валидность означает пригодность теста измерять то свойство, для измерения которого он предназначен. Следовательно, чем больше на результат выполнения теста или отдельного задания влияет измеряемое свойство и чем меньше другие переменные (в том числе внешние), тем тест валиднее. Тест валиден (и надежен), если на его результаты влияет лишь измеряемое свойство. Тест невалиден (и ненадежен), если результаты тестирования определяются влиянием нерелевантных переменных. Существуют следующие виды валидности теста. Очевидная валидность. Тест считается валидным, если у испытуемого складывается впечатление, что он измеряет то, что должен измерять. Конкретная валидность (конвергентная – дивергентная валидность). Тест должен хорошо коррелировать с тестами, измеряющими конкретное свойство либо близкое ему по содержанию, и иметь низкие корреляции с тестами, измеряющими заведомо иные свойства. Прогностическая валидность. Тест должен коррелировать с отдаленными по времени внешними критериями. Содержательная валидность. Тест должен охватывать всю область изучаемого поведения. Конструктная валидность. Предполагает полное описание измеряемой переменной, выдвижение системы гипотез о связях ее с другими переменными, эмпирическое подтверждение (неопровержение) этих гипотез. С теоретической точки зрения единственным способом установления «внутренней» валидности теста и отдельных заданий является метод факторного анализа (и аналогичные), который позволяет: а) выявлять латентные (скрытые) свойства и вычислять значение «факторных нагрузок» – коэффициенты детерминации свойств тех или иных поведенческих признаков; б) определять меру влияния каждого латентного свойства на результаты тестирования. Стандартизация теста заключается в приведении процедуры оценок к общепринятым нормативам. Стандартизация предполагает преобразование нормальной или искусственно нормализованной шкалы первичных оценок в шкальные оценки (подробнее об этом см. 5.2). Тестовые нормы, полученные в ходе стандартизации, представляют собой систему шкал с характеристиками распределения тестового балла для различных выборок. Они не являются «внутренними» свойствами теста, а лишь облегчают его практическое применение.