マインドマップギャラリー 心理測定学
中国科学院: 心理カウンセラー - 基本概念、古典的なテスト理論、心理テストの品質指標などを含む心理測定。
2024-01-31 16:23:53 に編集されましたThis article discusses the Easter eggs and homages in Zootopia 2 that you may have discovered. The main content includes: character and archetype Easter eggs, cinematic universe crossover Easter eggs, animal ecology and behavior references, symbol and metaphor Easter eggs, social satire and brand allusions, and emotional storylines and sequel foreshadowing.
[Zootopia Character Relationship Chart] The idealistic rabbit police officer Judy and the cynical fox conman Nick form a charmingly contrasting duo, rising from street hustlers to become Zootopia police officers!
This is a mind map about Deep Analysis of Character Relationships in Zootopia 2, Main content: 1、 Multi-layer network of relationships: interweaving of main lines, branch lines, and hidden interactions, 2、 Motivation for Character Behavior: Active Promoter and Hidden Intendant, 3、 Key points of interaction: logic of conflict, collaboration, and covert support, 4、 Fun Easter eggs: metaphorical details hidden in interactions.
This article discusses the Easter eggs and homages in Zootopia 2 that you may have discovered. The main content includes: character and archetype Easter eggs, cinematic universe crossover Easter eggs, animal ecology and behavior references, symbol and metaphor Easter eggs, social satire and brand allusions, and emotional storylines and sequel foreshadowing.
[Zootopia Character Relationship Chart] The idealistic rabbit police officer Judy and the cynical fox conman Nick form a charmingly contrasting duo, rising from street hustlers to become Zootopia police officers!
This is a mind map about Deep Analysis of Character Relationships in Zootopia 2, Main content: 1、 Multi-layer network of relationships: interweaving of main lines, branch lines, and hidden interactions, 2、 Motivation for Character Behavior: Active Promoter and Hidden Intendant, 3、 Key points of interaction: logic of conflict, collaboration, and covert support, 4、 Fun Easter eggs: metaphorical details hidden in interactions.
心理測定学
基本的な考え方
心理測定とその基本的性質
定義: 特定の心理理論に基づいて、テストを使用して人々の心理的特性を定量的に説明するプロセス。
心理テスト (ツール) は本質的には行動サンプルのテストです 4つの要素を含む客観性と標準化された測定
行動サンプル: 行動ドメイン、つまり抽出できる行動の母集団
標準化:試験内容、試験実施条件(状況に応じた指示、期間など)、採点ルール、試験基準(比較の基準点を提供する)
難易度または応答率
信頼性(信頼性、一貫性) 妥当性(有効性、正確性)
何人かの大切な人たち
ゴルトン - 定量的研究は個人差などの研究の先駆者です。 心理テストの第一人者
キャッテル論文「心理検査と測定」 心理テストという用語を初めて提案した
ソーンダイク - 「心理学的および社会的測定の入門」 テスト理論に関する最初の本
基本的な機能
応用の普遍性(可能性:測定可能、測定可能)
間接性 (質問に答えるなどの外部の行動パフォーマンス)
心理的影響 - 客観性 (標準化された質問、客観的な結果)
誤差は普遍的です (すべての測定は誤差に基づいています)
相対性 (結果、位置は相対的です。例: IQ)
基本要素
基準点
絶対基準点: 絶対零点、例: 体重、身長、反応時間
相対基準点: 人為的に決定されたゼロ点、例: 高度、温度
ユニット
同等値 例:1~2m&2~3m相当値
等距離:数値が同じであり、実際の意味も同じです。
不等間隔:値は同じですが、実際の意味は異なります。 例:講師-准教授-教授
確定した意味、例: 単位 m、kg
スケールの種類
物事を一定の法則に従って数値化すること、つまり物事の属性を一定の単位や基準点の連続体上で表現することを尺度といいます。
命名スケール
定義 - 数値を使用して物事の構成要素を表すこと、または数値を分類すること
同等の単位はありません
ゼロ点なし
計算できません
例:性別の分類、学籍番号の命名
統計的手法: 頻度、最頻値、パーセンテージ、X2 検定
順序尺度(評価尺度)
定義 - 数字はカテゴリーを表すだけでなく、 さまざまなカテゴリのサイズとレベル、並べ替えと並べ替え
同等の単位はありません
ゼロ点なし
計算できません
例:成績の分類と整理、専門職の評価
統計手法: 中央値、パーセンタイル、 順位相関、ケンダル調和係数
等尺性
定義 - 物のカテゴリや等級だけでなく、等距離や測定単位、分類、順序付けも表現できます。
単位が等しい
相対ゼロ
できる - 算数
例: 温度計、高度の測定、分数の測定
統計的手法: 平均値、標準偏差、積差相関係数、 順位相関、t検定、f検定
比率スケール(等比率スケール)
定義 - 名前付きレベルなどを除いて、最も完全なスケール。 距離、および絶対零点の分類、ソート、 - x ÷
単位が等しい
絶対零度
できる - × ÷ 演算
例: 身長測定、体重計、副反応時間
統計的手法:等尺性幾何平均変動係数
クイズの種類
測定された心理的特性に基づく分類
適性検査
最高の行動テスト
知能検査
ビネ・シモン、世界初の知能スケール、1905 年。 董仲舒は片手で四角形を描き、もう一方の手で円を描きます(テストに注意してください) 孔子: 個々の生徒の知能段階の違い。
適性検査には一般的な能力と特殊な能力が含まれます。
今週をキャッチ、歌って、踊って、絵を描く SAT、DAT
学力テスト
例:各種試験
補足:創造力クイズ
清朝のタングラムとナインリンクス(中国式迷路)
補足: 教養テスト
西周時代の奴隷制度-中国研究-最古の教養試験
漢代 - 年次試験制度 - 最初の筆記試験
隋の煬帝 - 科挙制度 - 1,300 年以上続いた
人格テスト
典型的な行動テスト
自己申告による性格検査
多肢選択問題 - MMPI、16PF、EPQ、EPPS、YG 性格テスト
性格投影テスト
ロールシャッハ インクブロット テスト (最初の射影テスト)、主題統覚テスト (TAT)、ハウス ツリーマン テスト、サンドボックス
いくつかの重要な数値と追加
クレペリン - 精神患者を診断するために自由関連検査を使用した最初の人物 性格検査のパイオニア
ウッドワース - ウッドワース プロフィール アンケート 最初の現代の性格アンケート
孔子の性格は3つのカテゴリーに分類され、劉少の性格は12のカテゴリーに分類されます性格テストに属します
被験者が評価する際の参照基準に従って分類
標準参照テスト (人々のグループと比較)
集団を参照背景として使用し、集団内の個人の相対的な位置を使用して個人の発達レベルを評価するテスト。これは、知能検査など、集団内の能力または知識の連続体における個人の相対的な位置を表します。能力試験、大学院入学試験の再試験。
基準を参照したテスト (標準との比較)
テスト内容や特定の行動基準レベルに基づいて個人を評価するテストです。個人のレベルがその分野で一定の基準に達しているかどうかによって個人の成長レベルを評価するテストです。大学院入学試験の予備試験、運転免許証、心理カウンセリング試験など、他人の点数と比較するものではありません。
標準化の度合いによる分類
標準化されたテスト - 4 点の要件
試験準備プロセスの標準化
テスト実装の標準化
テスト採点の標準化
テストスコア解釈の標準化
標準化されていないテスト
実測方法による分類
コンピュータベースのテスト (CBT)
コンピュータ適応型テスト (CAT)
インターネットベースのテスト (IBI)
その他のカテゴリー
測定方法によると
個別のテスト: スタンフォード・ビネ スケール、ウェクスラー知能スケール、その他の知能スケール、ロールシャッハ インクブロット、主題統覚テストなど、特別なグループ向けに個別のテストを選択します。
グループテスト 例: レイブンの推論テスト、陸軍 A および B テスト、高効率と経済性を追求した選択的グループテスト。
表現内容や反応形態に応じて
言語 (紙と鉛筆) テスト-スタンフォード ビネ スケール/16PF
非言語(操作)テスト レイヴンの推論テスト/ロールシャッハ インクブロット テスト
テスト機能による
達成テストと予測テスト
難易度とスピードのテスト
難易度テスト - 難易度 - ダイビング
スピードテスト - 高く安定したスコア; 大量の問題 - 反応時間テスト/100 メートル走
記述的および診断的テスト
質問の種類に応じて
主観試験-短答・作文・作文
客観的な質問テスト - 一択/判断
必要に応じて得点する
ベスト行動テスト - 可能な限り正確に答え、正しい答えを得る 実力テストなど
典型的な行動テスト - 答え方の習慣に基づくもので、正解はありません 性格検査など
古典的なテスト理論
心理測定エラー
意味
測定プロセス中に測定目的と関係のない要因が変化することによって引き起こされる、不正確で一貫性のない測定効果
タイプ
ランダム誤差 - 測定の目的とは関係のない偶発的な要因によって引き起こされる、制御が困難な誤差。テスト/並列テストが繰り返された場合、方向と変化が完全に一致しません。複数回実行すると、平均値のみが 0 になります。測定結果のパフォーマンスに一貫性がなく、不正確になります。
系統誤差 - 測定の目的とは関係のない変数によって引き起こされる一定の規則的な影響。各測定で安定して一貫性があり、複数の測定結果は一貫性があり不正確であるように見えます。
ソース
測定ツール (系統的誤差) - 一連のテスト (アンケート) を中心とした刺激反応システム (スケールと呼ばれることが多い)
不適切な質問のサンプリング
質問形式が不適切です
難易度が高すぎるか低すぎる
説明書の不適切な表現
測定対象(ランダム誤差・個人差)・被験者の真のレベルが正常に発揮されているか
感情、動機、反応傾向など
テストプロセス (制御とテストが最も簡単) - 偶発的要因: 物理的環境、時間、予期せぬ干渉など。
コントロール
標準化
測定対象
被験者側 – 測定中、被験者の心身の状態は安定していた
メインテストに関しては、メインテスターはシステムの標準化された動作に注意を払います。
測定ツール
試験準備の科学的性質を改善する
収集した情報の豊富さと普遍性に注意を払う
プロジェクトのサンプリングの代表性に注意する
プロジェクトの難易度には一定の分布範囲があります
試験用語はシンプルかつ明確です
テストプロセス
同じテスト状況
同じ指示
同じ試験制限時間
採点は客観的でなければならず、テスト結果の解釈は標準化される必要があります
古典的なテスト理論モデル
CTT
数学的モデル X (観察されたスコア) = T (真のスコア) E (ランダム誤差)
仮説推論
人の心理的特性を並行テストで十分な回数繰り返し測定できれば、観察されたスコアの平均は真のスコアに近くなります。つまり、E(X)=T または E(E)=0
E が正規分布に従う確率変数であると仮定します。
真のスコアとエラーのスコア間の相関はゼロです。 つまり: ρ (T, E) = 0
仮説は、E はランダム誤差であり、系統誤差には含まれないというものです。
並行テストのエラー スコア間の相関はゼロです。 つまり: ρ (E1, E2) = 0
仮説は、E はランダム誤差であり、系統誤差には含まれないというものです。
差異関係
Sx²=St² Se²
St²=Sv² Si²
V テストに関連する変動 - 実験的治療 無関係な変動をテストします - 系統的エラー 真の分数には系統誤差が含まれる
Sx²= Sv² Si² Se²
心理テストの品質指標
信頼性
意味
文字通りの定義
信頼性とは、測定結果の一貫性と安定性の程度、つまり、時間、場所、その他の要因によってテストのスコアが変化する場合のテスト結果の信頼性の程度を指します。
メモを整理する: 信頼性とは、同じ測定ツールまたは同等のツールを使用して、同じ対象者による特定の心理的特性を異なる時間および異なる機会に繰り返し使用して得られる結果の一貫性を指します。
3 つの同等の式定義
信頼性係数: 測定されたスコアのセット (被験者グループ) の実際のスコア変動に対する真のスコア変動の比率 (理論的定義)
rxx= St²/Sx²= (Sx²-Se²)/Sx²=1-Se²/Sx²
信頼性は、被験者グループの真のスコアと実際のスコアの間の相関係数の二乗です (理論的定義)
rxx=p² (xt)
信頼性は、テスト x とその並行テスト x の間の相関係数です。 (運用上の定義)
rxx=p(x,x’)
効果
信頼性は、測定プロセスにおけるランダム誤差の大きさを反映します。
rxx= St²/Sx² = (Sx²-Se²)/Sx²= 1-Se²/Sx²
Seが小さいほど信頼性が高く、Seが大きいほど信頼性が低くなります。
信頼性は測定プロセスにおける系統誤差の大きさを反映しません。
信頼性を使用して、個々のテストのスコアの意味を説明できる
2 つのテストのスコアの差は、新しい分布を形成することができます。この分布の標準偏差は、測定における誤差の大きさの客観的な指標となります。標準エラーを通じてグループ内のユーザーに結果について適切な説明を与えます。 つまり、真のスコアの区間推定値
SE=Sx√(1-rxx)
試験では通常、rxx と Sx が最初に与えられ、次に T が与えられます。
X-Z*SE ≤T ≤X Z*SE
信頼性はさまざまなテストのスコアを比較するのに役立ちます
異なるテストの生のスコアを直接比較することはできません。標準スコアに変換してから、「差の標準誤差」を使用して有意性検定を実行する必要があります。 観察されたスコア x の差検定
SEd=S√(2-rxx-ryy)
t=(x1-x2)/SEd
推定方法の分類
テストと再テストの信頼性
再信頼度/安定性係数 同じ被験者グループに同じスケールを 2 回投与したときに得られる結果の一貫性の程度を指します。
1 つのテスト、1 つの被験者グループ、2 つのテスト 例: 性格テスト、スピードテスト
エラーの原因: 時間 例: 成長、成熟、 学習、訓練、幸福などの偶然の要因)
計算方法: ピアソン積差相関
利用条件
測定ツールによって測定される個人の心理的特性は、時間が経っても比較的安定している必要があります。
測定ツールによって測定される個人の心理的特性に対して、明らかな練習効果や忘却効果があってはなりません。
2 回のテスト実施の間に特別なトレーニングやトレーニングを実施する必要はありません。
テストと再テストの信頼性を報告する場合は、間隔の長さを報告する必要があります。
複製の信頼性
2 つの並行テスト (レプリカ テスト) は、同じ被験者グループによって得られた結果の一貫性を測定します。
2 つのレプリカ テストは連続的かつ同時に実行され、これは等価係数と呼ばれます。
2 つのテスト、1 つの被験者グループ、1 つのテスト
エラーの原因: 質問の内容
安定性と等価係数と呼ばれる 2 つの重複テストが一定期間別々に実施されます (信頼性の厳格なテスト)。
2 つのテスト、1 つの被験者グループ、2 つのテスト
エラーの原因: 質問の内容と時間
適用可能: 一般的にはかりの研究開発段階で使用されます。 被験者は試験用紙を1セットしか受験できず、同時に2セット受験できないため、学力・到達度テストは実施できません。
計算方法:ピアソン積差相関
利用条件
2 つ以上の真に並行したテストを構築できるようになります。つまり、質問の内容、量、形式、難易度、差別化、指示、制限時間、すべての例、公式などの点で、テストが同じまたは類似していることを確認します。
同じ被験者群に対して 2 つのテストを並行して受験するには、練習効果、疲労効果、および転移効果の影響を避けるために、合理的な時間調整が必要です。
テストレポートでは、2 つのテスト間の時間間隔、テストの順序、テスト中の被験者のテスト経験 (標準化) を詳細に説明します。
内部一貫性の信頼性
定義 - 質問のサンプル内容の一貫性を反映して、テストのランダムな構成要素が同じ心理的特性を測定するかどうかを評価します。
半分ずつの信頼性
テスト内のすべての質問をランダムに 2 つに分割し、2 つの部分における被験者のスコアの一貫性を推定します (被験者が完全なセットを完了した後、データは半分に分割されます)。
1 つのテスト、1 つの被験者グループ、1 つのテスト 学力テスト
計算方法: 最初にピアソン積差相関計算を使用し、次にスピアマン-ブラウン公式を使用して検証します。 rxx=2*rhh/(1 rhh); 検査では通常、ab 積差 rhh が得られます。たとえば、rhh=0.5、rxx を見つけます。 =2*0.5/(1 0.5)=2/3
利用条件
通常、テストは 1 回のみ実行するか、コピーなしで使用できます。2 つのハーフテストの被験者のスコアの平均と分散は Sa2=Sb2 である必要があり、それ以外の場合はフラナガンの公式またはルーレンの公式を使用します。
テストを半分の時間に分けて使用することはできません。
評価期間が長いほど結果は安定し、テストの信頼性が高くなります。
エラーの原因: コンテンツ。関連する質問は同じ半分に配置する必要があります。相関が高い場合、コンテンツを半分に分割するのは妥当ですか?
均一性の信頼性
内部一貫性係数、テスト内のすべての質問間の一貫性の度合い
1 つのテスト、1 つの被験者グループ、1 つのテスト 学力テスト
クーダー・リチャードソンの信頼性
K-R20
(0, 1) 積 = 採点、多肢選択問題、判断問題にのみ適用されます。
エラーの原因: 質問内容と心理的および行動的特徴の均一性
K-R21
(0, 1) 積 = 得点のみが適用され、計算には平均合格率、単一選択問題、判断問題が使用されるため、すべての問題の難易度が近い必要があります。
エラーの原因: 質問内容と心理的および行動的特徴の均一性
クロンバックのアルファ係数
該当(0、1、主観的問題~短答式問題、論述問題など)
エラーの原因: 質問内容と心理的および行動的特徴の均一性
使用条件 - 被験者のグループに対してテストを 1 回テストする必要があります。これは、テストの内部一貫性の信頼性を推定するためのより一般的な方法です。
内部整合性の信頼性の使用条件
すべての質問は同じ特性を測定します
すべての質問のスコア間には高い正の相関関係があります
スピードテストには適用されません
テストの信頼性をスコアリングするときは、内部一貫性係数のみに依存することはできず、複数の信頼性を組み合わせて使用します。
評価者間信頼性
複数の評価者が同じグループの被験者に回答しました スコアリングの一貫性のレベル
エラーの原因: 評価者自身
計算方法
2 人の評価者 - ピアソン製品差相関/スピアマン順位相関
評価者 3 人 - Kendall Harmony Coefficient
評価者が 7 人以上 - カイ二乗検定 x2=k(N-1)、df=N-1
適用可能: 主観的な質問の採点、例: 作文 完全に客観的に採点できないテスト、 創造性テスト、投影テストなど
試験の信頼性と管理方法(改善方法)に影響を与える
信頼性に影響を与える要因
主体的要因
個々の被験者: 身体的健康、試験を受ける動機、注意力、忍耐力、不安、勝ちたいという欲求、解答態度などが被験者の心理的特性の安定性に影響します。
対象グループ: グループの不均一性と平均レベルは主に相関係数の計算によって推定される信頼性に影響します。グループのレベルの数が大きく異なる (不均一である) 場合、信頼性の値は過大評価され、均一性は信頼性の値を過小評価します。 。
ヘテロジニアス、フルレンジ幅、離散分布、rxx 高さ
均質、狭いスパン、集中分布、低いrxx
標準化の改善: 適切な被験者グループを選択して、均一性の高いグループでのテストの信頼性を向上させます。
主なテスト要素
受験者:年齢、性別、容姿、言動、表情等により被験者に与えられる印象・プレッシャー・ヒント(試験指示に厳密に従わないこと、試験プロセスの管理等を含む)が得点に影響します。さまざまなテストシナリオの下でのテスト被験者の分布。
評価者: スコアは客観的ではなく、スコアの計算時にエラーが発生しました。
標準化の改善:主任試験官は試験管理手順を厳格に実施し、採点者は指示を標準化し、試験時間の管理と試験問題の順序付けを厳格に遵守し、採点者に必要なトレーニングを提供し、試験内容を厳密に管理する必要があります。採点ミスを防止し、評価基準と採点結果の一貫性を確保します。
測定器 - 測定器が安定しているかどうかが測定の成否の鍵となります
テスト問題のサンプリング、問題数が多いほど信頼性が高くなります
テスト問題の難易度は、個人差を測ることができず、適度な難易度が最適であり、テストの信頼性を高めることができます。
テスト質問間の均一性。均一性が高いほど、信頼性が高くなります。
標準化の改善: テストスケールを慎重にコンパイルし、 大きな系統的エラーを回避する
被験者への練習効果や疲労効果を避けるために、テストの長さを適切に増やし、回数を適切に増やし、長すぎる(長すぎる)ことを避けてください。
新問題の難易度は中程度に抑えられており、全問題の難易度が正規分布に近く、得点分布の幅が広い。
科目の得点分布がより広い範囲になるように問題の識別を改善します。
新しい問題は元のテストと同じ内容です
テストプロセス
テスト環境
温度、光、音、空間の広さなどは、回答時の被験者の心理状態に影響を与え、テストのスコアが不安定になり、信頼性に影響します。
予期せぬ中断: 停電、病気、紙の印刷ミス
標準化の改善:試験会場は、騒音、温度、被験者の心理に影響を与える可能性のあるその他の要因の管理など、無関係な要因による干渉を減らすために、試験マニュアルの要件に従って配置されます。
テスト間隔
テスト間隔が短ければ、練習効果や疲労効果が生じる可能性があり、長すぎると、テストと再テストの信頼性、安定性、等価係数に関して被験者グループの行動特性が大きく変化する可能性があります。間隔が広いほど、信頼性の度合いが高くなります。
エラーの原因を制御し、標準化する
ランダムエラーを制御し、信頼性を向上させる方法 - 簡単な概要
上記の影響要因をすべて標準化する 詳細については、上記の「標準化の改善」を参照してください。
テスト項目を適宜増やす
因子分析(均一性)と判別分析(識別性) フルスペースを広げる
コントロールテスト項目の難易度 - 適切
適切な対象グループを選択 - 代表者
弱点の修正 - 制御エラー
有効
意味
文字通りの定義
テストまたは尺度(テストツール)が、測定しようとする心理的特性または行動的特性を実際に測定できる効果と程度 - 妥当性、正確さ、有用性
式の定義
一連のテスト スコアにおいて、真のスコアに関連する真の変化 Sv² と合計変化 Sx²、r²xy または V の比が妥当性を表します。rxy は妥当性係数です。r²xy= Sv²/Sx²
効果
妥当性は、測定のランダム誤差 E と系統的誤差 I を包括的に反映しています。
有効性は相対的な概念であり、測定の特定の目的に対しては、ある程度の精度しか達成できません。
テストスコアが基準スコアと線形関係にある場合、線形回帰の知識を使用して、テストスコアから基準スコアを予測できます。
妥当性と信頼性の関係
測定の信頼性が高いことは、高い妥当性の必要条件ではありますが、十分条件ではありません
数式を使って説明する X 観察スコア = T (真のスコア) E (ランダム誤差) =V (実験処理) I (システムエラー) E Sx²= Sv² Si² Se²
rxx= St²/Sx²= (Sv² SI²)/Sx²
V=r²xy= Sv²/Sx²
rxx>r²xy(V)
rxx= St²/Sx²= (Sx²-Se²)/Sx²=1-Se²/Sx² 信頼性はランダムエラーによって引き起こされる E
妥当性はランダム誤差 E と系統誤差 I によって引き起こされます。
高い妥当性は高い信頼性を意味しますが、必ずしも高い信頼性が高いことを意味するわけではありません。
有効性の種類
コンテンツの有効性
意味
実際にテストで測定された内容と測定対象の内容との一致度を指します(例:大学院入試と試験のシラバス)。
特徴
測定動作の内容が明確であり、サンプリングが代表的なものである
適度な重量
利用条件
すべてのテスト項目がこの範囲内に収まるように範囲を設定する必要があります
一般保険項目は、外部で決定された内容範囲の代表例です。
当てはまること
特定の属性のテスト、 学力検査、キャリア検査(選抜・分類)など
適性検査や性格検査には適していません(抜粋)
決定方法
論理的な分析手法(専門家評価手法)
明確な範囲
双方向の内訳シートを作成する
例: OK: 候補者の要件 コラム:受験者の試験内容
評価尺度を作成する
一般的な方法
Bach-Cron法(アルファ係数法)
同じ内容を測定するテストスコアの 2 つの並列セット間の相関関係を見つけます (信頼性の再現)
テスト-再テスト方法
テスト再テスト法とも呼ばれ、特定の知識を学習する前後に同じテストを受けることを指し、事後テストの方が事前テストよりも優れている場合、内容の妥当性が高くなります。
経験的方法
被験者のグループが異なると、テストのスコアや各質問への回答が異なりました。
例: 学年が上がるにつれて合計スコアが増加する場合、それは内容に妥当性があることを意味します。
コンテンツの正当性と顔の正当性の関係
顔の有効性の定義
表面的には、特定の人物に対する素人のテストは、特定の心理的特性を測定する現象であるように見えます。
顔の妥当性は被験者のモチベーションに影響を与え、間接的にテストの妥当性にも影響を与えるため、適切な注意を払う必要があります。
成績テストでは、被験者が強い動機を持つように高い表面的妥当性が要求されます。そうでないと、被験者は不信感を持ちます。性格テストでは、表面的妥当性が低く、そうでなければ被験者は不正行為をします。
構成の妥当性 構成の妥当性
意味
それは、テストが測定対象の理論的構造や特性をどの程度実際に測定するかを指します。または、テストのスコアが心理学理論の特定の構造や特性を説明できる程度を指します。実験と理論が支持されています。
特徴
構成概念の妥当性の大きさは、事前に想定されている心理的特性の理論に依存します。
経験的データが理論を確認できない場合、それは必ずしも構成の妥当性が高くないことを意味するわけではありませんが、理論的な仮定が妥当ではない可能性があります。
構造的妥当性は、測定内容の選択を積み重ねることによって決定されます。つまり、構成要素には複数の仮説が存在する可能性があるため、単一の定量的指標構成要素の妥当性を持たせることは不可能です。
当てはまること
抽象的な概念のクイズ 知能検査、性格検査、自己効力感検査など
一般的な手順
理論的な仮説を提案する
理論的枠組みに基づいて、テストのスコアに関する仮説を導き出す
論理的かつ経験的な方法を使用して仮説を検証する
具体的な方法
クイズ内の証拠を見つける
コンテンツの有効性
均一性の信頼性
コンテンツの妥当性を検査し、分析します。 質問に答えて均一性信頼性を計算するプロセス
テストの合間に証拠を探す
互換性のある有効性メソッド
新しくコンパイルされたテストと、互換性のある特性の測定に効果的であることが知られている古いテストとの間の相関関係を見つけます。相関関係が高い場合、コンテンツの妥当性は高くなります。つまり、古いテストと新しいテストの間の相関関係です。
判別式の妥当性
新しくコンパイルされたテストと、さまざまな特性の測定に効果的であることが知られている古いテストとの間の相関関係を見つけます。相関関係が高い場合、コンテンツの妥当性は高くありません。
複数のテスト間の相関の程度
経験的妥当性法
有効性基準に従って人々を 2 つのカテゴリーに分け、スコアの違いを調べます。 スコアに従って人々を高いグループと低いグループに分け、有効性基準の違いを調べます。 差が有意であれば、構成の妥当性は高くなります。 - 行動状態を検査します。
複数の特性 - 複数のメソッド マトリックスメソッド
互換性妥当性と判別妥当性の包括的適用 - MTMM
収束妥当性 - 同次差分法
同じ特性を測定したさまざまなテストの結果 相関係数が高いほど、互換性の妥当性が高くなります。
例: 自己報告と投影を使用して内向的な性格を測定する
判別妥当性 - 同じ方法だが均一ではない
類似性テストはさまざまな特性を測定します 相関係数が低い場合、判別式の妥当性は高くなります。
例: 自己申告尺度を使用して、被験者の外向性と責任感を測定します。
補足: 類似性テストは類似した特性を測定します。 相関係数が高いほど信頼性が高くなります。
因子分析
少数の因子を使用して大量の観測データを要約します。
CFA-confirmstory 因子分析 確認的因子分析
いくつかの次元を知り、それらをテストし、結果を得る これらの寸法が正しいかどうかを確認してください
EFA探索的因子分析 探索的因子分析
事前にいくつかの点がわからない場合は、それを調べてみましょう
経験的妥当性 (基準関連の妥当性) 基準連動効果
意味
テストペアは特定の状況にあります 個人の行動を推定することの有効性
実践結果を試験基準とする
例:大学院試験選抜、試験は試験であり、基準は科学的研究能力である 科学的研究能力が高ければ、それは効率の基準が高いことを意味する。
効能基準
妥当性基準とは、推定される動作を指します。これは、テストの妥当性の基準であり、テストが有効かどうかを測定するための外部基準です。
効能基準汚染
科目のテストのスコアを知ることで影響を受ける 実効スコアを評価する
選定基準
相関
有効性基準は現在評価中のものに関するもの
効果
基準とそれが表す特性の間には高度な一貫性があります。
無公害
基準尺度は評価対象の尺度に基づいていません
客観性
効果基準は主観的な経験に基づいて評価されているため、 したがって、主観的な偏見を避けてください
実用性
実効性の確保を前提に、 できるだけシンプルで時間を節約し、操作しやすいものにする
特徴
独立して存在し、客観的に関連する行動特性
一般的に使用される標準
学業成績、評価、臨床診断、専門的なトレーニングの結果、実践的な作業パフォーマンス、グループを区別する能力、およびその他のすぐに利用できる有効なテスト
当てはまること
人選などの結果の予測
経験的妥当性のカテゴリー
同時有効性
基準データとテストスコアを同時に収集
診断ステータス
予測の妥当性
最初にテストを受けてから、テストのスコアに基づいて有効性の基準を決定します
未来を推測する
決定方法
明確なコンセプト基準
有効性標準測定値の決定
測定スコアと基準尺度との関係を調べる
具体的な方法
関連法
テストスコアと基準尺度の間の相関係数 累計差額関係、成績関係
区別
後戻り T 検定
被験者はまずテストを受け、一定期間作業を行った後、作業パフォーマンスに応じてグループに分けられ、前回のテストのスコアと比較して有意な差があれば、妥当性が高くなります。 。
公共料金方式
企業のコストと利益の測定
期待値テーブル法
予測スコアと基準スコアを使用して 2 次元のグラフを作成し、各変数をレベルに応じていくつかのレベルに分割し、各レベルの人の割合の例を示し、テーブルから基準の妥当性のレベルを確認します。
命中率法
テストスコアと基準の解釈
テストの点数
ハイスコア(成功)
スコアが低い(失敗)
効能基準
高エネルギー(成功)
愚か(失敗)
結果 高いスコアは必要ですが、低いスコアは望んでいません。 より高いスコアを選択した後、パフォーマンスが一致するかどうかを確認します。
高得点と高いエネルギー = 正しい合格 (A)
得点が高く能力が低い = 間違った合格 (B)
解説:成績優秀者を採用したが、科学研究能力が低かったため、虚偽の報告をした。
スコアが低くて能力が高い=本人拒否(C)
説明: スコアが高い人は科学研究能力が高いです。 しかし私たちは拒否し、才能を逃し、レポートを逃しました
低いスコアと低いエネルギー = 正しい拒否 (D)
プラスのヒット率
欲しいもの=高得点
A/(A B)
マイナスヒット率
望まないものを望まない = スコアが低い
D/(C D)
総命中率
正しく選択された/総人数
(A D)/(A B C D)
基準率
高いエネルギー/総人数
(A C)/(A B C D)
感度
高エネルギーでの高得点の割合
A/(AC)
確認
やる気のない生徒の低得点の割合
D/(B D)
有効性に影響を与える要因
測定対象となる心理的特性自体の特徴
関連する研究は十分に詳しく行われていない
コンセプトが明確に定義されていない
測定ツールの構造が不安定です
測定ツールの構築プロセス
心理的特性の定義
測定問題集、プレテスト、問題分析とスクリーニング、テスト品質分析、問題調整、正式テスト
体系的な偏りを避けるための標準化
測定ツール自体の信頼性
信頼性は妥当性の必要条件です。測定ツールは不安定であり、信頼性に影響がある場合、妥当性は保証できません。
有効性検証の対象グループ
同じ測定ツールであっても、測定対象の特性の違いにより、異なる心理特性構造を測定する場合があります。
被験者集団の異質性が高いほど、スコアの分布範囲が広くなり、信頼性が高くなり、妥当性が高くなります。
効果的なターゲットの選択
測定ツールの予測能力を検証する場合、基準自体の信頼性と妥当性が非常に重要です。
その他の要因
主な試験面
指示に従わなかったり、採点に誤りがあった場合、有効性が減ります。
科目
集団の個人の身体的および精神的状態の均一性、必要な均一性。
測定ツール
このサンプルには、予測された内容と構造の代表性が欠けています
指示が不明確、質問の意味が不明確、難易度が高すぎたり低すぎたりすると妥当性が低下し、テストの長さは適切です。
テストプロセス
予期せぬ干渉、環境的、物理的要因
改善する方法
標準化
主な試験面
テストプロセスを厳格に実施し、評価者は基準に従って厳密にスコアを付けます。
科目
サンプリングは代表的かつ均質なものであり、被験者が通常のレベルでパフォーマンスを発揮できるように標準的な受験状況が作成されます。
測定ツール
大きな系統的エラーを避けるためにテストスケールを慎重に準備する
テストプロセス
テストを適切に組織し、ランダムなエラーを制御する
他の側面
テストの信頼性を確保する
適切なベンチマークを選択する
適切な有効性標準測定値を設定する
関連する数式を正しく使用する
困難
意味
難易度はプロジェクトの難易度を指し、通常は合格率 P で表されます。
難易度分析は主に上位の行動テストに使用され、特定の項目に正しく回答できる母集団の割合を指します。
応答率 - 典型的な行動テスト
計算方法と計算式
得点率方式
このトピックに関するすべての被験者の平均 スコアは質問の満点に対するパーセンテージであり、計算式は -
Pi (0, 1) の値は、0、1 の採点問題に適しています。
極端なグループ化法 (0,1) スコアリング スコアリングと非(0,1)の両方が可能
被験者はテストの合計スコアに応じて高グループと低グループに分けられました。 問題の難易度は 2 つのグループの平均得点率を使用します。
科目数が多い場合は、上位 27% と下位 27% を 3 つのグループに分け、最終的に 2 つのグループの平均得点率を計算します。アイテムの難易度。
式
P= (PH PL)/2= (RH/NH RL/NL)/2
PH、PLはそれぞれ高グループ、低グループの合格率を表します。 RH と RL はそれぞれ高グループと低グループの正解数を表します。 NH と NL は、それぞれ高グループと低グループの人数の合計を表します。
人が少ない - P=R/N、Rは正解数、Nは全被験者の数
(0,1) スコア
非二分スコアリング プロジェクトの公式
P値が小さいほど難易度が高くなります
適度な難易度の配分とその制御
難易度分布がテストに及ぼす影響
テスト得点の分布形状に対する難易度の影響
テストが難しすぎて、得点分布が大きく偏っている
英語コンテストなどの選考試験に最適
テストが簡単すぎて、スコア分布がマイナスに偏っていました
高校入試などのコンプライアンステストに最適
中程度の難易度、スコア分布は正規分布 (被験者のサンプルは代表的なものです)
難易度とテストスコアのばらつきと信頼性
難易度が高すぎる、スコアが下位に集中している、全体的な範囲が狭い、信頼度が低い
難易度が簡単すぎる、スコアが上位に集中している、全体的な範囲が狭い、信頼度が低い
難易度は 0.5 付近に集中するのが最適です。 スコア分布範囲が広く、全体の範囲が広く、信頼性が高い
難易度がテストの差別に及ぼす影響
平均難易度は 0.5 なので、あらゆるレベルの人が区別できます。
困難は食物連鎖の頂点にある
P=0、困難、識別 D=0、全範囲狭い、 正のバイアス、rxx は小さい、r²xy は小さい
床効果
P=1、簡単、識別 D=0、全範囲狭い、 負のバイアス、rxx は小さい、r²xy は小さい
天井効果
P=0.5、中程度、識別 D=1、フルレンジ、 正規分布、rxx が大きい、r²xy が大きい
難易度の決定は以下によって異なります 試験の目的・出題形式・試験の性質 満点の意味が不明瞭なので満点は避ける
標準参照テストの場合、適切な項目の難易度は約 0.5 であり、分布範囲は (0.3 ~ 0.7) の間で制御する必要があります。0.3 は高レベルの学生に適しており、0.7 は高レベルの学生に適しています (理論的には、テストの問題の難易度は 0.5/-0.2 に制御する必要があります (より良い)
基準に準拠したテスト - 難易度のテストは必要ありません。 被験者が習得したかどうかをテストするために使用されるため、
選抜試験は、大学院入試や公立入試など、入学倍率で難易度をコントロールします。
多肢選択問題の難易度、難易度 > 推測率
スピードテストの難易度は高すぎず、各項目の難易度は基本的に同等である必要があります。
適度な難易度分布の制御
質問の難易度をコントロールする
質問評価における知識ポイントを記憶する能力を制御する 質問の難易度をコントロールするレベル
試験問題の難易度分布の制御
問題の難易度を制御することを前提として、必要な難易度分布を達成するために、異なる難易度の問題の割合を制御します。
多肢選択問題の推測修正
推測修正の目的は、推測によって特定の質問に正しく答える可能性を排除し、合格率を高めることです。
一定項目の全科目合格率を修正
CP=KP-1/K-1
CP補正後の合格率、K選択肢数、P合格率
被験者は複数の項目からなるテストを受ける テストの点数修正
S=R-(W/K-1)
S は修正されたスコア、R は正解した項目、 Wは不正解の項目です
区別
意味
D で表される、被験者の特性の違いを区別する質問の能力
分類
D>0、肯定的な区別、高スコアは高エネルギー、低スコアは低エネルギー
D<0、負の区別、高スコアは低エネルギー、低スコアは高エネルギー
D=0、区別なし、区別なし
計算方法
相関係数法
基本的な考え方
質問の識別力が優れている場合、能力が高いと常に高いスコアが得られ、能力が低いと常に低いスコアが得られます。
基本的な前提 (すべての質問に関連)
項目スコアと基準スコアとの相関は、項目の識別の指標として使用されます。相関が大きいほど、識別が高くなります。
2つの計算方法
点 2 列の相関
(0,1) スコア、真の二分変数に適しています。 多肢選択問題、正誤問題
2 列の相関関係
(0,1) スコアリング、連続変数の 2 つの列に適用され、1 つの列が人為的に 2 つのカテゴリに分割されます
製品差相関
質問の合計スコアが非二分値であるスコアリングに関する関連研究に適用されます。
主観的な質問
項目判別指標方式
D=PH-PL
分散法
特定の項目に対する被験者のスコアが分散し、分散が大きいほど、テスト問題の識別力は高くなります。
エーベル・イベル指標
D>0.4
素晴らしい
D=0.3~0.39
よし、修正したらもっと良くなるだろう
D=0.2~0.29
OK、修正が必要です
D<0.19
可哀想、排除しなければならない
差別に影響を与える要因
質問の難易度
問題が難しすぎる、または難しすぎると、その問題に対する被験者の得点にほとんど、あるいはまったく差が生じません。つまり、識別の程度が小さいことになります。
被験者グループの均一性
被験者の同質性が高いほど、レベルとスコアは近づきます。 差が小さいほど差別度は低い
各テスト質問によって測定された心理的特性の一貫性
それらが矛盾している場合、テストの合計スコアが能力の高い人または低い人の代用として使用されることになり、その仮定は無効となり、識別の程度は低くなります。
質問自体の言葉遣いと内容の質
質問の説明の相違、質問の意味が不明瞭、不正確な回答は、質問の区別性を低下させます。
差別の改善~差別評価の標準化~
質問の難易度をコントロールする
質問によって測定された心理的特徴が以下と一致していることを確認します。 すべてのテストにわたる心理的特徴の一貫性 = 均一性
質問の文言は正確かつ標準化されており、質問文と回答の間に曖昧さはありません。
オプション分析によって提供される情報を使用して、不適切なオプションを修正する
難易度 = (0.3-0.7)
差別=エーベル指数