Галерея диаграмм связей Психометрия
Китайская академия наук: консультант-психолог – психометрия, включая основные концепции, классические теории тестов, показатели качества психологических тестов и т. д.
Отредактировано в 2024-01-31 16:23:53Психометрия
основная концепция
Психологическое измерение и его основные свойства.
Определение: Процесс использования тестов для количественного описания психологических качеств людей на основе определенных психологических теорий.
Психологические тесты (инструменты) по сути представляют собой тесты поведенческих образцов. Объективность и стандартизированное измерение, включая 4 элемента
Выборка поведения: область поведения, то есть совокупность моделей поведения, которые можно извлечь.
Стандартизация: содержание теста, условия проведения теста (ситуационные инструкции, продолжительность и т. д.), правила выставления оценок, нормы теста (предоставление ориентира для сравнения).
сложность или скорость ответа
Доверие (надежность, последовательность) Валидность (эффективность, точность)
несколько важных людей
Гальтон-Количественное исследование стало пионером в изучении индивидуальных различий и т. д. Первый человек в психологическом тестировании
Кеттел-Диссертация «Психологическое тестирование и измерение». Впервые предложил термин психологическое тестирование.
Торндайк - «Введение в психологические и социальные измерения». Первая книга по теории тестов
Основные характеристики
Универсальность применения (возможность: измеримый, измеримый)
Косвенность (внешние поведенческие действия, например, ответы на вопросы)
Психологическое воздействие – объективность (стандартизированные вопросы, объективные результаты)
Ошибки универсальны (все измерения основаны на ошибках)
Относительность (результат, положение относительно, например: IQ)
Основные элементы
ориентир
Абсолютная контрольная точка: абсолютная нулевая точка, например: вес, рост, время реакции.
Относительная контрольная точка: искусственно определяемая нулевая точка, например: высота над уровнем моря, температура.
единица
Равное значение, например: эквивалентное значение 1~2м и 2~3м.
Изометрия: числовое значение такое же, и фактическое значение тоже такое же.
Неравные интервалы: значения одинаковы, но фактические значения разные. например: Преподаватель-доцент-профессор
Определенное значение, например: единица м, кг
Тип шкалы
Количественное определение вещей по определенному правилу, то есть выражение свойств вещей в континууме определенных единиц и точек отсчета, называется шкалой.
шкала именования
Определение – использование чисел для обозначения компонентов вещей или классификация чисел.
Нет эквивалентной единицы
Нет нулевой точки
невозможно рассчитать
например: гендерная классификация, наименование номера учащегося.
Статистические методы: частота, мода, процент, тест X2.
порядковая шкала (оценочная шкала)
Определение. Числа не только представляют категории, но и указывают Различные размеры и уровни категорий, сортировка и сортировка
Нет эквивалентной единицы
Нет нулевой точки
невозможно рассчитать
например: Классификация и сортировка оценок, оценка профессиональных званий
Статистические методы: медиана, процентиль, Ранговая корреляция, коэффициент гармонии Кендалла
изометрический масштаб
Определение – способное представлять не только категории и сорта вещей, но и равные расстояния и единицы измерения, классификацию, упорядочение, –
иметь равные единицы
относительный ноль
Может - арифметика
например: термометр, измерение высоты, измерение дробей
Статистические методы: среднее значение, стандартное отклонение, коэффициент корреляции разницы продуктов, Ранговая корреляция, t-критерий, f-критерий
Шкала отношений (шкала равных отношений)
Определение. Наиболее полная шкала, за исключением именованных уровней и т. д. расстояние и абсолютный нуль, классификация, сортировка, - x ÷;
иметь равные единицы
абсолютный ноль
Операция Can - x ÷
например: измерение высоты, весы, время боковой реакции
Статистические методы: изометрический средний геометрический коэффициент вариации.
Тип теста
Классификация по измеряемым психологическим характеристикам
тест на выявление способностей
лучший тест на поведение
тест на интеллект
Бине-Симон, первые в мире интеллектуальные весы, 1905 год; Дун Чжуншу рисует одной рукой квадрат, а другой круг (обратите внимание на тест) Конфуций: Различия в количестве отдельных учеников;
Тест способностей включает в себя: общие способности и специальные способности;
Лови неделю, пой, танцуй, рисуй SAT, DAT
тест достижений
например: Различные экзамены
Дополнение: Викторина по творчеству
Танграм династии Цин и девять звеньев (лабиринт в китайском стиле)
Дополнение: Образовательные тесты
Рабство в династии Западная Чжоу – Китайские исследования – Самый ранний образовательный тест
Династия Хань - система ежегодных экзаменов - первый письменный экзамен.
Император Ян из династии Суй — имперская экзаменационная система — просуществовала более 1300 лет.
личностный тест
типичный поведенческий тест
самоотчетный личностный тест
Вопросы с множественным выбором — MMPI, 16PF, EPQ, EPPS, личностный тест YG.
личностный проективный тест
Тест чернильных пятен Роршаха (первый проективный тест), Тест тематической апперцепции (ТАТ), Тест «Человек-домик-дерево», Песочница
Несколько важных цифр и дополнений
Крепелин — первый, кто применил тест свободных ассоциаций для диагностики психически больных. Пионер личностного тестирования
Вудворт - Анкета профиля Вудворта Первый современный личностный опросник
Личность Конфуция разделена на 3 категории, а личность Лю Шао разделена на 12 категорий. Относится к личностному тесту.
Классифицируется в соответствии с эталонным стандартом, используемым субъектами при оценке.
Нормативные тесты (по сравнению с группой людей)
Тест, который использует группу в качестве эталонного фона и использует относительное положение человека в группе для оценки уровня развития человека. Он представляет относительное положение человека в континууме способностей или знаний в группе, например, тесты на интеллект; тесты способностей и повторные тесты вступительных экзаменов в аспирантуру;
Критериальное тестирование (по сравнению со стандартом)
Это тест, который оценивает людей на основе содержания теста или определенных уровней поведенческих стандартов. Это тест, который оценивает уровень индивидуального развития на основе того, достигает ли индивидуальный уровень определенного фиксированного стандарта в этой области. Он только оценивает, достигает ли результат теста определенного уровня; определенный стандарт и не сравнивается с баллами других людей, таких как вступительный экзамен в аспирантуру, водительские права, психологический экзамен, проверяющий абсолютный уровень;
Классифицируется по степени стандартизации
Стандартизированные тесты – требования по 4 баллам
Стандартизация процесса подготовки тестов
Стандартизация реализации тестов
Стандартизация оценки тестов
стандартизация интерпретации результатов тестов
нестандартизированные тесты
Классификация по реальным методам измерения
Компьютерное тестирование (CBT)
Компьютеризированное адаптивное тестирование (CAT)
Интернет-тестирование (IBI)
Другие категории
По методу измерения
Индивидуальные тесты, например: шкала Стэнфорда-Бине, шкала интеллекта Векслера и другие шкалы интеллекта, чернильные пятна Роршаха, тематический тест апперцепции, выберите индивидуальные тесты для особых групп;
Групповые тесты, например: тест на рассуждение Равена, армейский тест A и B для самоотчета, выборочный групповой тест для достижения высокой эффективности и экономичности;
По содержанию выражения и форме реакции
Вербальный тест (бумага и карандаш) по шкале Стэнфорда-Бине/16PF
Невербальный (оперативный) тест Тест на рассуждение Ворона/Тест чернильных пятен Роршаха
Согласно тестовой функции
Тесты достижений и прогнозирования
Тесты на сложность и скорость.
Тест сложности – Уровень сложности – Дайвинг
Тест скорости – высокие и стабильные оценки; Большое количество вопросов - тест на скорость реакции/забег на 100 метров
Описательные и диагностические тесты
По типу вопроса
Субъективный тест-краткий ответ/эссе/сочинение
Тест на объективный вопрос – единственный выбор/суждение
Оценка по мере необходимости
Лучший тест на поведение – ответьте как можно лучше и получите правильный ответ. например, тест способностей
Типичный поведенческий тест – основан на привычках ответа, правильного ответа нет. например, личностный тест
классическая теория тестов
психометрическая ошибка
значение
Неточный и непоследовательный эффект измерения, вызванный изменением факторов, не имеющих ничего общего с целью измерения в процессе измерения.
тип
Случайная ошибка – трудно поддающаяся контролю ошибка, вызванная случайными факторами, не имеющими никакого отношения к цели измерения, результаты многократных измерений являются противоречивыми, направление и изменение являются совершенно случайными, если испытание/параллельное испытание повторяется; несколько раз, только среднее значение равно 0. Нормальное распределение непоследовательное и неточное представление результатов измерений.
Систематическая ошибка – постоянное и регулярное воздействие, вызванное переменными, не имеющими никакого отношения к цели измерения, стабильными и последовательными в каждом измерении, при этом результаты множественных измерений оказываются последовательными и неточными;
источник
Инструмент измерения (систематическая ошибка) — система стимул-реакция (часто называемая шкалой), основанная на наборе тестов (опросников).
Неправильная выборка вопросов
Форма вопроса неуместна
Сложность слишком высокая или слишком низкая
Неверная формулировка в инструкции.
Объект измерения (случайная ошибка – индивидуальные различия) – нормально ли воздействует истинный уровень испытуемого
Эмоции, мотивация, тенденции реагирования и т. д.
Процесс тестирования (проще всего контролировать и тестировать) – случайные факторы: физическая среда, время, непредвиденные помехи и т. д.
контроль
стандартизация
Объект измерения
Со стороны испытуемого – физическое и психическое состояние испытуемого при измерении было стабильным.
По основному тесту - главный тестер уделяет внимание стандартизированной работе системы.
Измерительные инструменты
Улучшить научность подготовки к тестам
Обратите внимание на богатство и универсальность собираемой информации.
Обратите внимание на репрезентативность выборки проектов.
Сложность проекта имеет определенный диапазон распределения
Условия тестирования просты и понятны
Процесс тестирования
Та же ситуация с тестированием
те же инструкции
Тот же лимит времени тестирования
Оценка должна быть объективной, а интерпретация результатов теста должна быть стандартизирована.
Классическая модель теории тестирования
СТТ
математическая модель X (наблюдаемая оценка) = T (истинная оценка) E (случайная ошибка)
вывод гипотезы
Если психологическую черту человека можно измерить неоднократно с помощью параллельных тестов, среднее значение наблюдаемых им оценок будет близко к истинному. То есть: E(X)=T или E(E)=0.
Предположим, E — случайная величина, подчиняющаяся нормальному распределению.
Корреляция между истинными и ошибочными оценками равна нулю. То есть: ρ(T,E) = 0
Гипотеза состоит в том, что E является случайной ошибкой и не входит в систематическую ошибку.
Корреляция между оценками ошибок в параллельных тестах равна нулю. То есть: ρ(E1, E2) = 0
Гипотеза состоит в том, что E является случайной ошибкой и не входит в систематическую ошибку.
отношение дисперсии
Sx²=St² Se²
St²=Sv² Si²
Вариация, связанная с V-тест-экспериментальным лечением Я проверяю нерелевантную вариацию – систематическая ошибка Систематическая ошибка включена в истинную долю
Sx²= Sv² Si² Se²
Показатели качества психологических тестов
надежность
определение
буквальное определение
Надежность относится к степени последовательности и стабильности результатов измерений, то есть степени надежности результатов тестов, поскольку результаты тестов меняются со временем, местом и другими факторами.
Разберитесь в своих заметках: Надежность означает согласованность результатов, полученных путем многократного использования одного и того же измерительного инструмента или эквивалентного инструмента для измерения определенной психологической черты одного и того же испытуемого в разное время и в разных случаях.
Три эквивалентных определения формулы
Коэффициент надежности: отношение истинной вариации баллов к фактической вариации баллов набора измеренных баллов (группа субъектов) (теоретическое определение).
rxx= St²/Sx²= (Sx²-Se²)/Sx²=1-Se²/Sx²
Надежность – это квадрат коэффициента корреляции между истинным баллом и фактическим баллом группы испытуемых (теоретическое определение).
rxx=p² (xt)
Надежность — это коэффициент корреляции между тестом x и его параллельным тестом x’. (Рабочее определение)
rxx=p(x,x')
эффект
Надежность является отражением размера случайной ошибки в процессе измерения.
rxx= St²/Sx² = (Sx²-Se²)/Sx²= 1-Se²/Sx²
Чем меньше Se, тем выше надежность; чем больше Se, тем меньше надежность.
Достоверность не отражает размер систематической ошибки в процессе измерения.
Надежность можно использовать для объяснения значения результатов отдельных тестов.
Разница между оценками двух тестов может сформировать новое распределение. Стандартное отклонение этого распределения представляет собой стандартную ошибку измерения. Это объективный показатель размера ошибки измерения. человека в группе через стандартную ошибку. Дайте соответствующие пояснения к результатам. То есть интервальная оценка истинного балла
SE=Sx√(1-rxx)
На экзамене обычно сначала выдаются rxx и Sx. Сначала спросите SE, а затем T.
X-Z*SE ≤T ≤X Z*SE
Надежность помогает сравнивать результаты в разных тестах.
Необработанные результаты различных тестов нельзя напрямую сравнивать. Их необходимо преобразовать в стандартные баллы, а затем сравнить. Конкретный метод заключается в использовании «стандартной ошибки разницы» для проведения теста значимости. Тест на разницу наблюдаемых оценок x
SEd=S√(2-rxx-ryy)
t=(x1-x2)/SEd
Классификация методов оценки
надежность
Показатель повторной уверенности/коэффициент стабильности Относится к степени согласованности результатов, полученных при двукратном применении одной и той же шкалы к одной и той же группе испытуемых.
1 тест, 1 группа испытуемых, 2 теста Например: личностный тест, тест скорости.
Источник ошибки: время. Например: рост, зрелость, Обучение, тренировка, случайные факторы, такие как счастье)
Метод расчета: Корреляция разницы продуктов Пирсона
Условия использования
Индивидуальные психологические характеристики, измеряемые с помощью инструмента измерения, должны быть относительно стабильными во времени.
Не должно быть очевидного эффекта практики или эффекта забывания на психологические характеристики людей, измеряемые с помощью инструмента измерения.
Никакой специальной подготовки или подготовки не должно проводиться между двумя администрациями теста.
Продолжительность интервала должна быть указана при сообщении о надежности повторных испытаний.
Репликационная надежность
Два параллельных теста (репликационные тесты) измеряют согласованность результатов, полученных одной и той же группой испытуемых.
Два повторных теста проводятся непрерывно и одновременно, что называется коэффициентом эквивалентности.
2 теста, 1 группа испытуемых, 1 тест
Источник ошибки: содержание вопроса.
Два дублирующих теста проводятся отдельно в течение периода времени, который называется коэффициентом стабильности и эквивалентности (строгий тест надежности).
2 теста, 1 группа испытуемых, 2 теста
Источник ошибки: содержание вопроса и время.
Применимо: обычно используется на стадии исследования и разработки весов. Тесты достижений/достижений проводить нельзя, поскольку испытуемые могут сдавать только один комплект тестовых листов и не могут сдавать два комплекта одновременно.
Метод расчета: корреляция разницы произведений Пирсона.
Условия использования
Уметь построить два или более действительно параллельных теста, то есть обеспечить, чтобы они были одинаковыми или схожими по содержанию вопросов, количеству, форме, сложности, дифференциации, инструкциям, ограничению времени, а также всем примерам, формулам и т. д.
Проведение двух параллельных тестов на одной и той же группе испытуемых требует разумного распределения времени, чтобы избежать влияния эффекта практики, эффекта усталости и эффекта переноса.
В отчете об испытаниях подробно объясните временной интервал между двумя тестами, порядок проведения тестов и опыт испытуемых во время теста (стандартизация).
внутренняя согласованность надежность
Определение. Оцените, измеряют ли случайные компоненты теста одни и те же психологические черты, отражая последовательность содержания выборки вопросов.
разделенная пополам надежность
Случайным образом разделите все вопросы теста на две половины, а затем оцените согласованность оценок испытуемых по двум частям (после того, как испытуемые заполнят полный набор, данные будут разделены пополам).
1 тест, 1 группа испытуемых, 1 тест тест достижений
Метод расчета: сначала используйте расчет корреляции разницы произведений Пирсона, а затем используйте формулу Спирмена-Брауна для проверки: rxx=2*rhh/(1 rhh) экзамен обычно дает разницу произведений ab rhh; например, rhh=0,5, найдите rxx; =2*0,5/(1 0,5)=2/3
Условия использования
Обычно тест можно проводить только один раз или использовать без копии, а среднее значение и дисперсия оценок испытуемых по двум полутестам должны быть равными Sa2 = Sb2, в противном случае используйте формулу Фланагана или формулу Луллена;
Тест нельзя разделить на половинные периоды и его нельзя использовать.
Чем длиннее продолжительность оценки, тем стабильнее результаты и выше надежность теста.
Источник ошибки: Содержание. Связанные вопросы необходимо размещать в одной половине. Если корреляция высокая, разумно ли разделение контента на половины?
Однородность надежность
Коэффициент внутренней согласованности, степень согласованности между всеми вопросами теста.
1 тест, 1 группа испытуемых, 1 тест тест достижений
Надежность Кудера-Ричардсона
К-Р20
Применимо только к (0, 1) продукту = оценка, вопросы с множественным выбором, вопросы на оценку
Источник ошибки: Однородность содержания вопросов, психологических и поведенческих характеристик.
К-Р21
Применимо только (0, 1) произведение = оценка, а сложность всех вопросов должна быть близкой, поскольку в расчетах используются средний балл прохождения, вопросы с одним выбором и вопросы для оценки.
Источник ошибки: Однородность содержания вопросов, психологических и поведенческих характеристик.
Альфа-коэффициент Кронбаха
Применимо (0, 1, субъективные вопросы – вопросы с кратким ответом, вопросы для эссе и т. д.)
Источник ошибки: Однородность содержания вопросов, психологических и поведенческих характеристик.
Условия использования — требуется, чтобы тест был протестирован один раз на группе испытуемых, что является более общим методом оценки надежности внутренней согласованности теста.
Условия внутренней согласованности надежности для использования
Все вопросы измеряют одну и ту же черту
Существует высокая положительная корреляция между баллами по всем вопросам.
Неприменимо для теста скорости.
При оценке надежности теста нельзя полагаться исключительно на коэффициент внутренней согласованности, а использовать комбинацию нескольких показателей надежности.
межэкспертная надежность
Несколько оценщиков дали ответы на одну и ту же группу испытуемых Уровень последовательности в подсчете баллов
Источник ошибки: сами оценщики
Метод расчета
2 оценщика - корреляция разницы продуктов Пирсона/ранговая корреляция Спирмена
3 оценщика – коэффициент гармонии Кендалла
Более 7 оценщиков – критерий хи-квадрат x2=k(N-1), df=N-1
Применимо: субъективная оценка вопросов, например, состав Тесты, которые не могут быть оценены полностью объективно, Такие как тесты на креативность, проективные тесты
Влияние испытаний на надежность и методы контроля (методы улучшения)
Факторы, влияющие на надежность
предметные факторы
Отдельные испытуемые: физическое здоровье, мотивация к сдаче теста, внимание, терпение, тревожность, стремление к победе, ответная установка и т. д. влияют на стабильность психологических качеств испытуемого.
Субъектная группа: неоднородность группы и средний уровень будут влиять на надежность, которая в основном оценивается путем расчета коэффициента корреляции. Если количество уровней группы сильно различается (неоднородно), значение надежности будет завышено, а однородность занизит значение надежности; .
Неоднородный, полная ширина диапазона, дискретное распределение, высота приемника
Однородный, узкий диапазон, концентрированное распределение, низкий rxx
Улучшение стандартизации: выберите подходящие группы испытуемых для повышения надежности теста в группах с высокой однородностью.
Основные факторы испытаний
Тестируемый: впечатление/давление/намеки, оказываемые испытуемому возрастом, полом, внешним видом, речью и поведением, мимикой и т. д., в том числе не строгое следование инструкциям теста, контроль процесса тестирования и т. д., повлияют на оценку. распределение испытуемых по различным сценариям тестирования.
Рецензент: Оценка не объективна, и при подсчете баллов произошла ошибка.
Улучшение стандартизации: главный экзаменатор строго соблюдает процедуры проведения теста, а оценщики должны строго следовать стандартам, чтобы выставлять оценки, стандартизировать инструкции, контролировать время теста и заказывать тестовые вопросы, обеспечивать необходимое обучение рейтеров, строго контролировать; ошибки при выставлении оценок и обеспечить соблюдение стандартов оценки и последовательность результатов выставления оценок.
Измерительные инструменты. Устойчивость измерительных инструментов является ключом к успеху или неудаче измерения.
Выборка тестовых вопросов: чем больше вопросов, тем выше надежность
Сложность вопросов теста. Низкая или высокая сложность не позволяет измерить различия между людьми. Средняя сложность является наиболее подходящей и может повысить надежность теста.
Однородность тестовых вопросов. Чем выше однородность, тем выше надежность.
Улучшение стандартизации: тщательно составлять шкалы испытаний, Избегайте больших систематических ошибок
Соответствующим образом увеличьте продолжительность теста, соответственно увеличьте количество тестов и избегайте слишком длинных (слишком больших) тестов, чтобы избежать эффекта практики и усталости испытуемых.
Сложность новых вопросов умеренная и контролируется на среднем уровне, так что сложность всех вопросов близка к нормальному распределению, а распределение баллов имеет широкий диапазон.
Улучшите распознавание вопросов, чтобы распределение баллов по испытуемым имело более широкий диапазон.
Новые вопросы имеют то же содержание, что и исходный тест.
Процесс тестирования
Тестовая среда
Температура, свет, звук и размер пространства влияют на психологическое состояние испытуемых при ответе, делая результаты тестов нестабильными и влияя на надежность.
Неожиданные перерывы: отключение электроэнергии, болезнь, опечатка бумаги.
Улучшение стандартизации: испытательный полигон организован в соответствии с требованиями руководства по испытаниям, чтобы уменьшить влияние посторонних факторов, таких как контроль шума, температуры и других факторов, которые могут повлиять на психологию испытуемых.
интервал испытаний
Если интервал тестирования короткий, могут возникнуть эффекты практики и усталости; если он слишком длинный, поведенческие характеристики группы испытуемых могут значительно измениться, когда речь идет о надежности, стабильности и эквивалентности тестов, чем короче; интервал, тем выше степень надежности.
Контролируйте источники ошибок, стандартизируйте
Методы контроля случайных ошибок и повышения надежности – краткое содержание
Стандартизируйте все вышеперечисленные влияющие факторы. Подробности см. в разделе «Усовершенствования стандартизации» выше.
Соответствующим образом увеличить количество тестовых заданий.
Факторный анализ (однородность) и дискриминантный анализ (различимость) расширить полный интервал
Сложность контрольного задания теста – соответствует
Выберите соответствующие тематические группы – репрезентативные
Коррекция слабых мест — ошибка управления
период действия
определение
буквальное определение
Эффект и степень, в которой тест или шкала (инструмент тестирования) могут фактически измерить психологические черты или поведенческие черты, для измерения которых он предназначен, - достоверность, точность, полезность.
Определение формулы
В наборе результатов тестов отношение истинной вариации Sv², связанной с истинной оценкой, к общей вариации Sx², r²xy или V представляет достоверность, rxy — коэффициент достоверности, r²xy = Sv²/Sx².
эффект
Валидность — это комплексное отражение случайной ошибки E и систематической ошибки I измерения.
Валидность — относительное понятие. Для определенной цели измерения можно достичь только определенной степени точности.
Когда оценка теста имеет линейную связь с оценкой критерия, знание линейной регрессии можно использовать для прогнозирования оценки критерия на основе оценки теста.
Связь между валидностью и надежностью
Высокая надежность измерений является необходимым, но недостаточным условием высокой достоверности.
Объясните с помощью формул X наблюдаемая оценка = T (истинная оценка) E (случайная ошибка) =V (экспериментальная обработка) I (системная ошибка) E Sx²= Sv² Si² Se²
rxx= St²/Sx²= (Sv² SI²)/Sx²
V=r²xy= Sv²/Sx²
rxx> r²xy(V)
rxx= St²/Sx²= (Sx²-Se²)/Sx²=1-Se²/Sx² Надежность обусловлена случайной ошибкой E
Валидность обусловлена случайной ошибкой E и систематической ошибкой I.
Высокая валидность означает высокую надежность; высокая надежность не обязательно означает высокую валидность;
Тип действия
Содержание действия
определение
Относится к степени соответствия содержания, фактически измеряемого с помощью теста, и содержания, подлежащего измерению (например, вступительный экзамен в аспирантуру 347 и программа экзамена).
Функции
Содержание поведения при измерении ясно, а выборка репрезентативна.
Разумный вес
Условия использования
Диапазон должен быть установлен так, чтобы все тестовые элементы попадали в этот диапазон.
Объекты общего страхования представляют собой репрезентативные образцы внешне определенного объема содержания.
Быть применимым
тесты на определенные атрибуты, Такие как тесты достижений, карьерные тесты (отбор и классификация)
Не подходит для тестов способностей и личностных тестов (аннотация)
Метод определения
Метод логического анализа (метод экспертной оценки)
Очистить область действия
Подготовьте двусторонний лист разбивки
например: ОК: Требования к кандидатам Колонка: Содержание экзамена кандидатов
Разработайте шкалу оценок
Общие методы
Метод Баха-Крона (метод альфа-коэффициента)
Найдите корреляцию между двумя параллельными наборами результатов тестов, измеряющими одно и то же содержание (повторяемая надежность).
метод повторного тестирования
Также называемый методом повторного тестирования, он относится к прохождению одного и того же теста до и после изучения определенных знаний. Если пост-тест лучше, чем предварительный тест, он имеет более высокую достоверность содержания.
эмпирический метод
Разные группы испытуемых различались по результатам теста и ответам на каждый вопрос.
например: Обычно считается, что более высокие оценки имеют более высокий уровень владения языком, чем более низкие. Если общий балл увеличивается по мере повышения оценки, это означает, что содержание достоверно.
Связь между валидностью содержания и валидностью лица
Определение лицевой достоверности
На первый взгляд, непрофессиональный тест определенного человека кажется феноменом измерения определенных психологических качеств.
Лицевая валидность повлияет на мотивацию испытуемых и косвенно повлияет на валидность теста. На это следует обратить соответствующее внимание.
Тесты достижений требуют высокой поверхностной валидности, чтобы у испытуемых была сильная мотивация, в противном случае личностные тесты требуют низкой поверхностной валидности, иначе испытуемые будут обманывать.
конструировать валидность конструировать валидность
определение
Это относится к степени, в которой тест фактически измеряет теоретические структуры и характеристики, подлежащие измерению, или к степени, в которой результаты теста могут объяснить определенную структуру или характеристики психологической теории. эксперимент и теория. Основан на теории.
Функции
Размер валидности конструкта зависит от предполагаемой теории психологических качеств.
Когда эмпирические данные не могут подтвердить теорию, это не обязательно означает, что валидность конструкции невысока, но может случиться так, что теоретические предположения неверны.
Структурная валидность определяется путем накопления выбора содержания измерения, то есть для конструкции может существовать несколько гипотез, поэтому невозможно иметь единый количественный показатель валидности конструкции.
Быть применимым
абстрактная викторина по понятиям Такие как тесты интеллекта, личностные тесты, тесты самоэффективности.
Общие шаги
Предложить теоретические гипотезы
Выработка гипотез о результатах тестов на основе теоретической основы.
Используйте логические и эмпирические методы для проверки гипотез.
конкретный метод
Найдите доказательства внутри викторины
Содержание действия
Однородность надежность
Проверить достоверность контента и проанализировать Процесс ответов на вопросы и расчета достоверности однородности
Ищем доказательства между викторинами
совместимый метод достоверности
Найдите корреляцию между вновь составленным тестом и старым тестом, который, как известно, эффективен при измерении совместимых признаков. Если корреляция высока, валидность содержания высока — корреляция между старым и новым тестами.
дискриминантная валидность
Найдите корреляцию между новым составленным тестом и старым тестом, который, как известно, эффективен для измерения различных характеристик. Если корреляция высока, достоверность содержания невысока.
Степень корреляции между несколькими тестами
метод эмпирической валидности
Разделите людей на две категории в соответствии с критериями эффективности и изучите разницу в баллах. Разделите людей на группы с высокими и низкими баллами в соответствии с оценками и изучите различия в критериях эффективности. Если разница значительна, валидность конструкции высока. - изучить поведенческий статус.
Матричный метод с несколькими признаками и несколькими методами
Комплексное применение совместимой и дискриминантной валидности-MTMM
Метод конвергентной однородной разности по достоверности
Результаты разных тестов, измеряющих один и тот же признак Чем выше коэффициент корреляции, тем выше совместимая достоверность.
Например: использование самоотчета и проекций для измерения интроверсии личности.
Дискриминантная валидность – тот же метод, но не однородный
Тесты на сходство измеряют разные черты Если коэффициент корреляции низкий, дискриминантная достоверность высока.
Например: используйте шкалу самооценки для измерения экстраверсии и ответственности субъекта.
Дополнение: Тест на сходство измеряет схожие черты. Чем выше коэффициент корреляции, тем выше надежность.
факторный анализ
Обобщать большие объемы данных наблюдений с небольшим количеством факторов, уменьшающих размерность;
Факторный анализ CFA-подтверждения истории подтверждающий факторный анализ
Знайте несколько измерений, проверяйте их и получайте результаты. Проверьте правильность этих размеров
Исследовательский факторный анализ EFA исследовательский факторный анализ
Не знаете заранее некоторые параметры, давайте их рассмотрим.
Эмпирическая валидность (критериальная валидность) эффект критерийной связи
определение
Тестовая пара находится в конкретной ситуации Эффективность оценки индивидуального поведения
Принятие практических результатов в качестве стандарта тестирования
например: отбор последипломного экзамена, тест - это экзамен, а критерием является способность к научным исследованиям. Если способность к научным исследованиям высока, это означает, что критерий эффективности высок.
Стандарт эффективности
Критерий валидности относится к оцениваемому поведению, которое является стандартом для проверки достоверности и внешним стандартом для измерения валидности теста.
Стандарт эффективности загрязнения
Влияет на знание результатов теста испытуемого оценить его эффективный балл
Критерий выбора
Корреляция
Стандарт эффективности связан с тем, что оценивается в данный момент.
эффективность
Существует высокая степень соответствия между критерием и свойством, которое он представляет.
Нет загрязнения
Критериальная мера не основана на оцениваемом измерении.
объективность
Поскольку стандарт эффективности оценивается на основе субъективного опыта, Так что избегайте субъективной предвзятости
Практичность
В целях обеспечения эффективности, Сделайте это максимально простым, экономящим время и работоспособным
Функции
Самостоятельно существующие, объективно связанные поведенческие характеристики
Часто используемые стандарты
Академическая успеваемость, рейтинги, клинический диагноз, результаты специализированной подготовки, выполнение практической работы, способность различать группы и другие легкодоступные и валидные тесты.
Быть применимым
Прогнозирование результатов, например, подбор персонала
Категории эмпирической достоверности
одновременное действие
Данные критериев и результаты тестов собираются одновременно.
Статус диагноза
прогностическая достоверность
Сначала пройдите тест, а затем определите критерии эффективности на основе результатов теста.
Спекулировать на будущее
Метод определения
Четкие концептуальные стандарты
Определить стандартное измерение эффективности
Изучите взаимосвязь между оценками измерений и критериальными показателями.
конкретный метод
Соответствующий закон
Коэффициент корреляции между результатами тестов и критериальными показателями Связанная с накоплением разница, с оценкой
различие
Возврат Т-тест
Испытуемые сначала прошли тест и им разрешили работать в течение определенного периода времени. Затем их разделили на группы в соответствии с их производительностью, а затем проанализировали и сравнили с результатами предыдущего теста. Если разница значительна, она имеет высокую достоверность. .
метод расчета коммунальных услуг
Измерение затрат и выгод предприятия
Метод таблицы ожиданий
Составьте двумерную диаграмму, используя оценку прогноза и оценку критерия, разделите каждую переменную на несколько уровней в соответствии с уровнем, а затем приведите пример процента людей на каждом уровне и посмотрите уровень достоверности критерия из таблицы.
метод процента попаданий
Интерпретация результатов тестов и стандартов
результат теста
Высокий балл (успех)
Низкая оценка (неудача)
Стандарт эффективности
Высокая энергия (успешный)
идиот (неудача)
результат Мы хотим высоких результатов, но не хотим низких. После выбора более высокого балла проверьте, соответствует ли производительность.
Высокие баллы и высокая энергия = правильное принятие (А)
Высокие баллы и низкие способности = неправильное принятие (B)
Пояснение: Был принят на работу человек с высокими баллами, но его способности к научным исследованиям были низкими, поэтому он дал ложный отчет.
Низкий балл и высокие способности = ложное отклонение (C)
Пояснение: Те, у кого высокие баллы, обладают сильными способностями к научным исследованиям. Но мы отказались, упустили талант, пропустили репортаж
Низкий балл и низкая энергия = правильный отказ (D)
Положительный процент попаданий
То, что вы хотите = высокий балл
А/(А Б)
отрицательный процент попаданий
Не хочешь того, чего не должен = получи низкий балл
Д/(К Д)
общий процент попаданий
Правильно выбрано/общее количество человек
(А Д)/(А Б С Г)
базовая ставка
Высокая энергия/общее количество людей
(А С)/(А Б С Г)
Чувствительность
Доля высоких баллов по высокой энергии
А/(АС)
Подтверждение
Доля низких баллов среди студентов с низким уровнем энергии
Д/(Б Д)
Факторы, влияющие на достоверность
Характеристики измеряемой психологической черты как таковой
Соответствующие исследования недостаточно глубоки.
Концепция четко не определена
Конструкция измерительного инструмента нестабильна.
Процесс создания измерительных инструментов
Определение психологических особенностей
Сбор вопросов для измерения, предварительное тестирование, анализ и проверка вопросов, анализ качества теста, корректировка вопросов, формальный тест
Стандартизация во избежание систематической предвзятости
Надежность самого измерительного инструмента
Надежность является необходимым условием достоверности. Инструменты измерения нестабильны, и если это влияет на надежность, достоверность не может быть гарантирована.
Тематическая группа для проверки достоверности
Один и тот же инструмент измерения может измерять разные структуры психологических черт из-за разных характеристик объекта измерения.
Чем более неоднородна группа испытуемых, тем шире диапазон распределения баллов, тем выше надежность и выше валидность.
Выбор эффективных целей
При проверке прогностической способности средств измерения надежность и достоверность самого критерия имеют решающее значение.
другие факторы
Основной аспект экзамена
Несоблюдение инструкций и ошибки при подсчете баллов уменьшают достоверность.
Предметы
Индивидуальное физическое и психическое состояние группы, необходимая однородность;
Измерительные инструменты
Выборке не хватает репрезентативности прогнозируемого содержания и структуры.
Нечеткие инструкции, неясная семантика вопросов, слишком высокая или слишком низкая сложность снизят валидность, а продолжительность теста будет подходящей.
Процесс тестирования
Неожиданные помехи, окружающая среда, физические факторы
способы улучшения
стандартизация
Основной аспект экзамена
Строго внедряйте процесс тестирования, и оценщики будут выставлять оценки строго по стандартам.
Предметы
Выборка является репрезентативной и однородной, а стандартная ситуация сдачи теста создается таким образом, чтобы испытуемые могли показать результаты на своем обычном уровне.
Измерительные инструменты
Тщательно подготовьте тестовые весы, чтобы избежать больших систематических ошибок.
Процесс тестирования
Правильно организуйте тесты и контролируйте случайные ошибки
другие аспекты
Обеспечить надежность испытаний
Выберите правильный эталон
Установите соответствующие стандартные измерения эффективности.
Правильное использование соответствующих формул
трудность
определение
Под сложностью понимается степень сложности проекта, обычно выражаемая показателем проходимости P.
Анализ сложности в основном используется для лучших поведенческих тестов, который относится к доле людей в популяции, которые могут правильно ответить на определенный вопрос.
Тест на типичное поведение по скорости ответа
Методы расчета и формулы
метод оценки рейтинга
Среднее значение всех предметов по этой теме Оценка представляет собой процент от полной оценки вопроса, формула:
Значение Pi (0, 1) подходит для вопросов с оценкой 0, 1.
Метод экстремальной группировки (0,1) Можно выполнить как оценку, так и отсутствие (0,1).
Испытуемые были разделены на группы с высокими и низкими показателями в соответствии с их общими баллами за тесты. В качестве сложности вопроса используется средний балл двух групп.
Когда имеется большое количество испытуемых, их можно разделить на три группы. 27% с самым высоким показателем и 27% с самым низким показателем используются в качестве группы с высоким и низким уровнем. Наконец, средний балл двух групп рассчитывается как. сложность предмета.
формула
P= (PH PL)/2= (RH/NH RL/NL)/2
PH и PL соответственно представляют собой процент сдачи в группе высокого и низкого уровня. RH и RL представляют количество правильных ответов в группах с высокими и низкими показателями соответственно. NH и NL представляют собой общее количество людей в высоких и низких группах соответственно.
Людей мало - P=R/N, R - количество правильных ответов, N - количество всех предметов.
(0,1) балл
Формулы в недихотомических скоринговых проектах
Чем меньше значение P, тем выше сложность
Разумное распределение сложности и его контроль
Влияние распределения сложности на тесты
Влияние сложности на форму распределения результатов тестов
Тест слишком сложен, и распределение баллов искажено в положительную сторону.
Подходит для отборочных тестов, таких как соревнования по английскому языку.
Тест был слишком простым, а распределение баллов было искажено в отрицательную сторону.
Подходит для стандартных тестов, таких как вступительные экзамены в среднюю школу.
Умеренная сложность, распределение очков нормальное. (Выборка испытуемых репрезентативна)
Сложность в сравнении с дисперсией и надежностью результатов теста
Сложность слишком велика, баллы сконцентрированы на нижнем уровне, общий диапазон невелик, надежность низкая.
Сложность слишком низкая, баллы сосредоточены на верхнем уровне, общий диапазон невелик, надежность низкая.
Сложность лучше всего сконцентрировать на уровне 0,5. Диапазон распределения оценок широк, весь диапазон велик, надежность высокая.
Влияние сложности на избирательность тестов
Средний уровень сложности — 0,5, благодаря чему можно различить людей любого уровня.
Трудность находится на вершине пищевой цепи
P=0, трудный, дискриминация D=0, узкий весь диапазон, Положительное смещение, rxx маленькое, r²xy маленькое
эффект пола
P=1, легко, дискриминация D=0, узкий весь диапазон, Отрицательное смещение, rxx мало, r²xy мало
эффект потолка
P=0,5, средний, дискриминация D=1, полный диапазон, Нормальное распределение, rxx большое, r²xy большое
Определение уровня сложности зависит от Цель теста/формат задания/характер теста Избегайте высоких оценок, поскольку значение высоких оценок неясно.
Для тестов, соответствующих нормам, разумная сложность задания составляет около 0,5, а диапазон распределения следует контролировать в пределах (0,3–0,7 подходит для учащихся с высоким уровнем, а 0,7 — для учащихся с высоким уровнем (теоретически). сложность вопросов в тесте следует контролировать на уровне 0,5/-0,2 (лучше)
Тесты на основе критериев — тесты на сложность не требуются, Потому что он используется для проверки того, освоили ли испытуемые
Для выборочных тестов сложность контролируется по количеству поступающих, например, вступительные экзамены в аспирантуру и государственные вступительные экзамены.
Сложность вопроса с множественным выбором, сложность > вероятность угадывания
Сложность теста на скорость не должна быть слишком высокой, а сложность каждого задания должна быть примерно одинаковой.
Контроль разумного распределения сложности
Контролируем сложность вопросов.
Контролировать способность запоминать баллы знаний при оценивании вопросов уровень для контроля сложности вопросов
Контроль распределения сложности тестовых работ
При условии контроля сложности вопросов контролируйте долю вопросов разной сложности, чтобы достичь требуемого распределения сложности.
Угадайте исправление для вопросов с несколькими вариантами ответов
Целью коррекции догадок является исключение возможности правильного ответа на определенные вопросы за счет угадывания, что повысит проходимость.
Исправление проходимости всех предметов по определенному количеству предметов
КП=КП-1/К-1
Процент проходимости после коррекции CP, количество K вариантов, процент проходимости P
Испытуемый проходит тест, состоящий из нескольких заданий. корректировка результатов теста
S=R-(В/К-1)
S – исправленный балл, R – правильные ответы на вопросы, W — пункт с неправильным ответом
различие
определение
Способность вопроса различать различия в характеристиках предметов, представленных D
Классификация
D>0, положительная разница, высокий балл — высокая энергия, низкий балл — низкая энергия
D<0, отрицательное различие, высокий балл — низкая энергия, низкий балл — высокая энергия
D=0, нет различия, нет различия
Метод расчета
метод коэффициента корреляции
Основная идея
Если вопрос имеет хорошую разборчивость, высокие способности всегда получат высокий балл, а низкие способности всегда получат низкий балл.
Основные предположения (относящиеся ко всем вопросам)
Корреляция между оценкой предмета и оценкой критерия используется как индикатор дискриминации предмета. Чем выше корреляция, тем выше дискриминация.
Два метода расчета
Корреляция точки двух столбцов
(0,1) оценка, подходящая для истинных дихотомических переменных, Вопросы с множественным выбором, истинные или ложные вопросы
Двухколоночная корреляция
(0,1) оценка, применимая к двум столбцам непрерывных переменных, один столбец искусственно разделен на две категории
корреляция разницы между продуктами
Применимо к соответствующим исследованиям по выставлению оценок, в которых общая оценка вопросов недихотомична.
Субъективные вопросы
Метод индекса дискриминации предметов
D=PH-PL
метод отклонения
Чем более разбросаны оценки испытуемых по определенному пункту и чем больше дисперсия, тем выше дискриминационная сила тестового вопроса.
Индикатор Эбель-Ибеля
Д>0,4
отличный
Д=0,3-0,39
Хорошо, после доработки станет лучше
Д=0,2-0,29
ОК, требует модификации
Д<0,19
Бедный, надо ликвидировать
Факторы, влияющие на дискриминацию
Сложность вопроса
Слишком сложный или слишком трудный вопрос приведет к незначительной или даже нулевой разнице в баллах испытуемых по этому вопросу, то есть степень дискриминации невелика.
Однородность предметной группы
Чем более однородны предметы, тем ближе будут их уровни и баллы. Чем меньше разница, тем ниже дискриминация.
Согласованность психологических характеристик, измеряемых каждым вопросом теста.
Если они не соответствуют друг другу, общий балл теста будет использоваться в качестве теста для людей с высокими или низкими способностями. Это предположение неверно, а степень дискриминации низкая.
Качество формулировки и содержания самого вопроса
Различия в описании вопроса, неясный смысл вопроса и неверные ответы снизят различимость вопроса.
Улучшение дискриминации и стандартизация оценки дискриминации
Контролируйте сложность вопросов
Убедитесь, что психологические характеристики, измеряемые с помощью вопросов, соответствуют Согласованность психологических характеристик во всех тестах = однородность.
Язык вопроса точен и стандартизирован, и между основой вопроса и ответом нет никакой двусмысленности.
Измените плохие варианты, используя информацию, полученную в результате анализа вариантов.
Сложность = (0,3-0,7)
Дискриминация = индекс Эбеля