ログイン
サインイン

マインドマップギャラリー心理測定学

心理測定学

中国科学院: 心理カウンセラー - 基本概念、古典的なテスト理論、心理テストの品質指標などを含む心理測定。

2024-01-31 16:23:53 に編集されました

PlotWizard

最近の作品その他の作品を表示>>

Weekly Coordination Meeting Plan: MEP Pipeline Comprehensive Layout
This template, created with EdrawMind, provides a structured workflow for weekly coordination meetings focused on MEP (Mechanical, Electrical, Plumbing) pipeline layout. It follows a four-stage cycle: starting with Issue Identification (Clash Detection) to detect pipeline conflicts, moving to Meeting Agenda preparation to define discussion topics, then On-site Discussion to review and resolve issues on the construction site, and finally Resolution & Update to document solutions and track progress. This template can be reused to standardize MEP coordination processes, ensuring clear communication, efficient problem-solving, and smooth construction progress.
Green Building Certification Quarterly Material Preparation Checklist
This template, created with EdrawMind, outlines a quarterly checklist for preparing materials for green building certification. It is divided into four sequential quarters: Q1 focuses on Basic Material Preparation, including collecting project approval documents and compiling self-assessment reports; Q2 covers Technical Data Improvement, such as organizing energy consumption calculation books and preparing green construction proof materials; Q3 involves On-site Inspection Preparation, including organizing construction process materials and verifying certification standards; and Q4 is for Formal Application, which includes completing online reporting and cooperating with expert on-site reviews. This template can be reused to systematically prepare for green building certification, ensuring all requirements are met and the process is efficient.
Deep Foundation Pit Daily Monitoring Data Record Template
This template, created with EdrawMind, provides a comprehensive framework for daily monitoring of deep foundation pit construction. It covers six key monitoring areas: Retaining Wall Top Displacement, Settlement of Surrounding Buildings, Groundwater Level, Pit Bottom Heave, Support Axial Force, and Data Summary & Analysis. Each section specifies monitoring points, frequency, and warning values to ensure safety. The template can be reused to standardize monitoring practices, track structural stability, and trigger immediate alarms if warning thresholds are exceeded, thus mitigating risks during foundation pit construction.

心理測定学

PlotWizard

最近の作品その他の作品を表示>>

おすすめ
アウトライン

自己成長心理学内部摩擦と過敏性を取り除く方法
- 21
- 1
MMガイド作品
「0回と10,000回」マインドマップ
- 14
MMガイド作品
カウンセリング心理学
- 18
PlotWizard
出身の家族は人々にどのような影響を与えますか家族関係を解釈する
- 20
PlotWizard
心理カウンセラー-記憶と忘却
- 8
PlotWizard
肉体的な衝動と心理的な衝動はどちらが大きいでしょうか性的本能の探求
- 16
PlotWizard
「誰かに相談したほうがいいかもしれない」メモ
- 7
PlotWizard
1.5 勉強の疲れにどう対処するか必要なのは魔法のヒントだけ
- 4
PlotWizard
心理テストのスキル
- 14
PlotWizard
偏見はあなたのせいではない、すべてあなたの考え方が原因です（課題最適化バージョン）
- 4
PlotWizard

心理測定学

基本的な考え方

心理測定とその基本的性質

定義: 特定の心理理論に基づいて、テストを使用して人々の心理的特性を定量的に説明するプロセス。

心理テスト (ツール) は本質的には行動サンプルのテストです 4つの要素を含む客観性と標準化された測定

行動サンプル: 行動ドメイン、つまり抽出できる行動の母集団

標準化：試験内容、試験実施条件（状況に応じた指示、期間など）、採点ルール、試験基準（比較の基準点を提供する）

難易度または応答率

信頼性（信頼性、一貫性）妥当性（有効性、正確性）

何人かの大切な人たち

ゴルトン - 定量的研究は個人差などの研究の先駆者です。心理テストの第一人者

キャッテル論文「心理検査と測定」心理テストという用語を初めて提案した

ソーンダイク - 「心理学的および社会的測定の入門」テスト理論に関する最初の本

基本的な機能

応用の普遍性（可能性：測定可能、測定可能）

間接性 (質問に答えるなどの外部の行動パフォーマンス)

心理的影響 - 客観性 (標準化された質問、客観的な結果)

誤差は普遍的です (すべての測定は誤差に基づいています)

相対性 (結果、位置は相対的です。例: IQ)

基本要素

基準点

絶対基準点: 絶対零点、例: 体重、身長、反応時間

相対基準点: 人為的に決定されたゼロ点、例: 高度、温度

ユニット

同等値例：1～2m&2～3m相当値

等距離：数値が同じであり、実際の意味も同じです。

不等間隔：値は同じですが、実際の意味は異なります。例：講師-准教授-教授

確定した意味、例: 単位 m、kg

スケールの種類

物事を一定の法則に従って数値化すること、つまり物事の属性を一定の単位や基準点の連続体上で表現することを尺度といいます。

命名スケール

定義 - 数値を使用して物事の構成要素を表すこと、または数値を分類すること

同等の単位はありません

ゼロ点なし

計算できません

例：性別の分類、学籍番号の命名

統計的手法: 頻度、最頻値、パーセンテージ、X2 検定

順序尺度（評価尺度）

定義 - 数字はカテゴリーを表すだけでなく、さまざまなカテゴリのサイズとレベル、並べ替えと並べ替え

同等の単位はありません

ゼロ点なし

計算できません

例：成績の分類と整理、専門職の評価

統計手法: 中央値、パーセンタイル、順位相関、ケンダル調和係数

等尺性

定義 - 物のカテゴリや等級だけでなく、等距離や測定単位、分類、順序付けも表現できます。

単位が等しい

相対ゼロ

できる - 算数

例: 温度計、高度の測定、分数の測定

統計的手法: 平均値、標準偏差、積差相関係数、順位相関、t検定、f検定

比率スケール（等比率スケール）

定義 - 名前付きレベルなどを除いて、最も完全なスケール。距離、および絶対零点の分類、ソート、 - x ÷

単位が等しい

絶対零度

できる - × ÷ 演算

例: 身長測定、体重計、副反応時間

統計的手法:等尺性幾何平均変動係数

クイズの種類

測定された心理的特性に基づく分類

適性検査

最高の行動テスト

知能検査

ビネ・シモン、世界初の知能スケール、1905 年。董仲舒は片手で四角形を描き、もう一方の手で円を描きます（テストに注意してください）孔子: 個々の生徒の知能段階の違い。

適性検査には一般的な能力と特殊な能力が含まれます。

今週をキャッチ、歌って、踊って、絵を描く SAT、DAT

学力テスト

例：各種試験

補足：創造力クイズ

清朝のタングラムとナインリンクス（中国式迷路）

補足: 教養テスト

西周時代の奴隷制度-中国研究-最古の教養試験

漢代 - 年次試験制度 - 最初の筆記試験

隋の煬帝 - 科挙制度 - 1,300 年以上続いた

人格テスト

典型的な行動テスト

自己申告による性格検査

多肢選択問題 - MMPI、16PF、EPQ、EPPS、YG 性格テスト

性格投影テスト

ロールシャッハインクブロットテスト (最初の射影テスト)、主題統覚テスト (TAT)、ハウスツリーマンテスト、サンドボックス

いくつかの重要な数値と追加

クレペリン - 精神患者を診断するために自由関連検査を使用した最初の人物性格検査のパイオニア

ウッドワース - ウッドワースプロフィールアンケート最初の現代の性格アンケート

孔子の性格は3つのカテゴリーに分類され、劉少の性格は12のカテゴリーに分類されます性格テストに属します

被験者が評価する際の参照基準に従って分類

標準参照テスト (人々のグループと比較)

集団を参照背景として使用し、集団内の個人の相対的な位置を使用して個人の発達レベルを評価するテスト。これは、知能検査など、集団内の能力または知識の連続体における個人の相対的な位置を表します。能力試験、大学院入学試験の再試験。

基準を参照したテスト (標準との比較)

テスト内容や特定の行動基準レベルに基づいて個人を評価するテストです。個人のレベルがその分野で一定の基準に達しているかどうかによって個人の成長レベルを評価するテストです。大学院入学試験の予備試験、運転免許証、心理カウンセリング試験など、他人の点数と比較するものではありません。

標準化の度合いによる分類

標準化されたテスト - 4 点の要件

試験準備プロセスの標準化

テスト実装の標準化

テスト採点の標準化

テストスコア解釈の標準化

標準化されていないテスト

実測方法による分類

コンピュータベースのテスト (CBT)

コンピュータ適応型テスト (CAT)

インターネットベースのテスト (IBI)

その他のカテゴリー

測定方法によると

個別のテスト: スタンフォード・ビネスケール、ウェクスラー知能スケール、その他の知能スケール、ロールシャッハインクブロット、主題統覚テストなど、特別なグループ向けに個別のテストを選択します。

グループテスト例: レイブンの推論テスト、陸軍 A および B テスト、高効率と経済性を追求した選択的グループテスト。

表現内容や反応形態に応じて

言語 (紙と鉛筆) テスト-スタンフォードビネスケール/16PF

非言語（操作）テストレイヴンの推論テスト/ロールシャッハインクブロットテスト

テスト機能による

達成テストと予測テスト

難易度とスピードのテスト

難易度テスト - 難易度 - ダイビング

スピードテスト - 高く安定したスコア; 大量の問題 - 反応時間テスト/100 メートル走

記述的および診断的テスト

質問の種類に応じて

主観試験-短答・作文・作文

客観的な質問テスト - 一択/判断

必要に応じて得点する

ベスト行動テスト - 可能な限り正確に答え、正しい答えを得る実力テストなど

典型的な行動テスト - 答え方の習慣に基づくもので、正解はありません性格検査など

古典的なテスト理論

心理測定エラー

意味

測定プロセス中に測定目的と関係のない要因が変化することによって引き起こされる、不正確で一貫性のない測定効果

タイプ

ランダム誤差 - 測定の目的とは関係のない偶発的な要因によって引き起こされる、制御が困難な誤差。テスト/並列テストが繰り返された場合、方向と変化が完全に一致しません。複数回実行すると、平均値のみが 0 になります。測定結果のパフォーマンスに一貫性がなく、不正確になります。

系統誤差 - 測定の目的とは関係のない変数によって引き起こされる一定の規則的な影響。各測定で安定して一貫性があり、複数の測定結果は一貫性があり不正確であるように見えます。

ソース

測定ツール (系統的誤差) - 一連のテスト (アンケート) を中心とした刺激反応システム (スケールと呼ばれることが多い)

不適切な質問のサンプリング

質問形式が不適切です

難易度が高すぎるか低すぎる

説明書の不適切な表現

測定対象（ランダム誤差・個人差）・被験者の真のレベルが正常に発揮されているか

感情、動機、反応傾向など

テストプロセス (制御とテストが最も簡単) - 偶発的要因: 物理的環境、時間、予期せぬ干渉など。

コントロール

標準化

測定対象

被験者側 – 測定中、被験者の心身の状態は安定していた

メインテストに関しては、メインテスターはシステムの標準化された動作に注意を払います。

測定ツール

試験準備の科学的性質を改善する

収集した情報の豊富さと普遍性に注意を払う

プロジェクトのサンプリングの代表性に注意する

プロジェクトの難易度には一定の分布範囲があります

試験用語はシンプルかつ明確です

テストプロセス

同じテスト状況

同じ指示

同じ試験制限時間

採点は客観的でなければならず、テスト結果の解釈は標準化される必要があります

古典的なテスト理論モデル

CTT

数学的モデル X (観察されたスコア) = T (真のスコア) E (ランダム誤差)

仮説推論

人の心理的特性を並行テストで十分な回数繰り返し測定できれば、観察されたスコアの平均は真のスコアに近くなります。つまり、E(X)=T または E(E)=0

E が正規分布に従う確率変数であると仮定します。

真のスコアとエラーのスコア間の相関はゼロです。つまり: ρ (T, E) = 0

仮説は、E はランダム誤差であり、系統誤差には含まれないというものです。

並行テストのエラースコア間の相関はゼロです。つまり: ρ (E1, E2) = 0

仮説は、E はランダム誤差であり、系統誤差には含まれないというものです。

差異関係

Sx²=St² Se²

St²=Sv² Si²

V テストに関連する変動 - 実験的治療無関係な変動をテストします - 系統的エラー真の分数には系統誤差が含まれる

Sx²= Sv² Si² Se²

心理テストの品質指標

信頼性

意味

文字通りの定義

信頼性とは、測定結果の一貫性と安定性の程度、つまり、時間、場所、その他の要因によってテストのスコアが変化する場合のテスト結果の信頼性の程度を指します。

メモを整理する: 信頼性とは、同じ測定ツールまたは同等のツールを使用して、同じ対象者による特定の心理的特性を異なる時間および異なる機会に繰り返し使用して得られる結果の一貫性を指します。

3 つの同等の式定義

信頼性係数: 測定されたスコアのセット (被験者グループ) の実際のスコア変動に対する真のスコア変動の比率 (理論的定義)

rxx= St²/Sx²= (Sx²-Se²)/Sx²=1-Se²/Sx²

信頼性は、被験者グループの真のスコアと実際のスコアの間の相関係数の二乗です (理論的定義)

rxx=p² (xt)

信頼性は、テスト x とその並行テスト x の間の相関係数です。 (運用上の定義)

rxx=p(x,x’)

効果

信頼性は、測定プロセスにおけるランダム誤差の大きさを反映します。

rxx= St²/Sx² = (Sx²-Se²)/Sx²= 1-Se²/Sx²

Seが小さいほど信頼性が高く、Seが大きいほど信頼性が低くなります。

信頼性は測定プロセスにおける系統誤差の大きさを反映しません。

信頼性を使用して、個々のテストのスコアの意味を説明できる

2 つのテストのスコアの差は、新しい分布を形成することができます。この分布の標準偏差は、測定における誤差の大きさの客観的な指標となります。標準エラーを通じてグループ内のユーザーに結果について適切な説明を与えます。つまり、真のスコアの区間推定値

SE=Sx√（1－rxx）

試験では通常、rxx と Sx が最初に与えられ、次に T が与えられます。

X-Z*SE ≤T ≤X Z*SE

信頼性はさまざまなテストのスコアを比較するのに役立ちます

異なるテストの生のスコアを直接比較することはできません。標準スコアに変換してから、「差の標準誤差」を使用して有意性検定を実行する必要があります。観察されたスコア x の差検定

SEd=S√（2－rxx-ryy）

t=(x1-x2)/SEd

推定方法の分類

テストと再テストの信頼性

再信頼度/安定性係数同じ被験者グループに同じスケールを 2 回投与したときに得られる結果の一貫性の程度を指します。

1 つのテスト、1 つの被験者グループ、2 つのテスト例: 性格テスト、スピードテスト

エラーの原因: 時間例: 成長、成熟、学習、訓練、幸福などの偶然の要因）

計算方法：ピアソン積差相関

利用条件

測定ツールによって測定される個人の心理的特性は、時間が経っても比較的安定している必要があります。

測定ツールによって測定される個人の心理的特性に対して、明らかな練習効果や忘却効果があってはなりません。

2 回のテスト実施の間に特別なトレーニングやトレーニングを実施する必要はありません。

テストと再テストの信頼性を報告する場合は、間隔の長さを報告する必要があります。

複製の信頼性

2 つの並行テスト (レプリカテスト) は、同じ被験者グループによって得られた結果の一貫性を測定します。

2 つのレプリカテストは連続的かつ同時に実行され、これは等価係数と呼ばれます。

2 つのテスト、1 つの被験者グループ、1 つのテスト

エラーの原因: 質問の内容

安定性と等価係数と呼ばれる 2 つの重複テストが一定期間別々に実施されます (信頼性の厳格なテスト)。

2 つのテスト、1 つの被験者グループ、2 つのテスト

エラーの原因: 質問の内容と時間

適用可能: 一般的にはかりの研究開発段階で使用されます。被験者は試験用紙を1セットしか受験できず、同時に2セット受験できないため、学力・到達度テストは実施できません。

計算方法：ピアソン積差相関

利用条件

2 つ以上の真に並行したテストを構築できるようになります。つまり、質問の内容、量、形式、難易度、差別化、指示、制限時間、すべての例、公式などの点で、テストが同じまたは類似していることを確認します。

同じ被験者群に対して 2 つのテストを並行して受験するには、練習効果、疲労効果、および転移効果の影響を避けるために、合理的な時間調整が必要です。

テストレポートでは、2 つのテスト間の時間間隔、テストの順序、テスト中の被験者のテスト経験 (標準化) を詳細に説明します。

内部一貫性の信頼性

定義 - 質問のサンプル内容の一貫性を反映して、テストのランダムな構成要素が同じ心理的特性を測定するかどうかを評価します。

半分ずつの信頼性

テスト内のすべての質問をランダムに 2 つに分割し、2 つの部分における被験者のスコアの一貫性を推定します (被験者が完全なセットを完了した後、データは半分に分割されます)。

1 つのテスト、1 つの被験者グループ、1 つのテスト学力テスト

計算方法: 最初にピアソン積差相関計算を使用し、次にスピアマン-ブラウン公式を使用して検証します。 rxx=2*rhh/(1 rhh); 検査では通常、ab 積差 rhh が得られます。たとえば、rhh=0.5、rxx を見つけます。 =2*0.5/(1 0.5)=2/3

利用条件

通常、テストは 1 回のみ実行するか、コピーなしで使用できます。2 つのハーフテストの被験者のスコアの平均と分散は Sa2=Sb2 である必要があり、それ以外の場合はフラナガンの公式またはルーレンの公式を使用します。

テストを半分の時間に分けて使用することはできません。

評価期間が長いほど結果は安定し、テストの信頼性が高くなります。

エラーの原因: コンテンツ。関連する質問は同じ半分に配置する必要があります。相関が高い場合、コンテンツを半分に分割するのは妥当ですか?

均一性の信頼性

内部一貫性係数、テスト内のすべての質問間の一貫性の度合い

1 つのテスト、1 つの被験者グループ、1 つのテスト学力テスト

クーダー・リチャードソンの信頼性

K-R20

(0, 1) 積 = 採点、多肢選択問題、判断問題にのみ適用されます。

エラーの原因: 質問内容と心理的および行動的特徴の均一性

K-R21

(0, 1) 積 = 得点のみが適用され、計算には平均合格率、単一選択問題、判断問題が使用されるため、すべての問題の難易度が近い必要があります。

エラーの原因: 質問内容と心理的および行動的特徴の均一性

クロンバックのアルファ係数

該当（0、1、主観的問題～短答式問題、論述問題など）

エラーの原因: 質問内容と心理的および行動的特徴の均一性

使用条件 - 被験者のグループに対してテストを 1 回テストする必要があります。これは、テストの内部一貫性の信頼性を推定するためのより一般的な方法です。

内部整合性の信頼性の使用条件

すべての質問は同じ特性を測定します

すべての質問のスコア間には高い正の相関関係があります

スピードテストには適用されません

テストの信頼性をスコアリングするときは、内部一貫性係数のみに依存することはできず、複数の信頼性を組み合わせて使用します。

評価者間信頼性

複数の評価者が同じグループの被験者に回答しましたスコアリングの一貫性のレベル

エラーの原因: 評価者自身

計算方法

2 人の評価者 - ピアソン製品差相関/スピアマン順位相関

評価者 3 人 - Kendall Harmony Coefficient

評価者が 7 人以上 - カイ二乗検定 x2=k(N-1)、df=N-1

適用可能: 主観的な質問の採点、例: 作文完全に客観的に採点できないテスト、創造性テスト、投影テストなど

試験の信頼性と管理方法（改善方法）に影響を与える

信頼性に影響を与える要因

主体的要因

個々の被験者: 身体的健康、試験を受ける動機、注意力、忍耐力、不安、勝ちたいという欲求、解答態度などが被験者の心理的特性の安定性に影響します。

対象グループ: グループの不均一性と平均レベルは主に相関係数の計算によって推定される信頼性に影響します。グループのレベルの数が大きく異なる (不均一である) 場合、信頼性の値は過大評価され、均一性は信頼性の値を過小評価します。。

ヘテロジニアス、フルレンジ幅、離散分布、rxx 高さ

均質、狭いスパン、集中分布、低いrxx

標準化の改善: 適切な被験者グループを選択して、均一性の高いグループでのテストの信頼性を向上させます。

主なテスト要素

受験者：年齢、性別、容姿、言動、表情等により被験者に与えられる印象・プレッシャー・ヒント（試験指示に厳密に従わないこと、試験プロセスの管理等を含む）が得点に影響します。さまざまなテストシナリオの下でのテスト被験者の分布。

評価者: スコアは客観的ではなく、スコアの計算時にエラーが発生しました。

標準化の改善：主任試験官は試験管理手順を厳格に実施し、採点者は指示を標準化し、試験時間の管理と試験問題の順序付けを厳格に遵守し、採点者に必要なトレーニングを提供し、試験内容を厳密に管理する必要があります。採点ミスを防止し、評価基準と採点結果の一貫性を確保します。

測定器 - 測定器が安定しているかどうかが測定の成否の鍵となります

テスト問題のサンプリング、問題数が多いほど信頼性が高くなります

テスト問題の難易度は、個人差を測ることができず、適度な難易度が最適であり、テストの信頼性を高めることができます。

テスト質問間の均一性。均一性が高いほど、信頼性が高くなります。

標準化の改善: テストスケールを慎重にコンパイルし、大きな系統的エラーを回避する

被験者への練習効果や疲労効果を避けるために、テストの長さを適切に増やし、回数を適切に増やし、長すぎる（長すぎる）ことを避けてください。

新問題の難易度は中程度に抑えられており、全問題の難易度が正規分布に近く、得点分布の幅が広い。

科目の得点分布がより広い範囲になるように問題の識別を改善します。

新しい問題は元のテストと同じ内容です

テストプロセス

テスト環境

温度、光、音、空間の広さなどは、回答時の被験者の心理状態に影響を与え、テストのスコアが不安定になり、信頼性に影響します。

予期せぬ中断: 停電、病気、紙の印刷ミス

標準化の改善：試験会場は、騒音、温度、被験者の心理に影響を与える可能性のあるその他の要因の管理など、無関係な要因による干渉を減らすために、試験マニュアルの要件に従って配置されます。

テスト間隔

テスト間隔が短ければ、練習効果や疲労効果が生じる可能性があり、長すぎると、テストと再テストの信頼性、安定性、等価係数に関して被験者グループの行動特性が大きく変化する可能性があります。間隔が広いほど、信頼性の度合いが高くなります。

エラーの原因を制御し、標準化する

ランダムエラーを制御し、信頼性を向上させる方法 - 簡単な概要

上記の影響要因をすべて標準化する詳細については、上記の「標準化の改善」を参照してください。

テスト項目を適宜増やす

因子分析（均一性）と判別分析（識別性）フルスペースを広げる

コントロールテスト項目の難易度 - 適切

適切な対象グループを選択 - 代表者

弱点の修正 - 制御エラー

有効

意味

文字通りの定義

テストまたは尺度（テストツール）が、測定しようとする心理的特性または行動的特性を実際に測定できる効果と程度 - 妥当性、正確さ、有用性

式の定義

一連のテストスコアにおいて、真のスコアに関連する真の変化 Sv² と合計変化 Sx²、r²xy または V の比が妥当性を表します。rxy は妥当性係数です。r²xy= Sv²/Sx²

効果

妥当性は、測定のランダム誤差 E と系統的誤差 I を包括的に反映しています。

有効性は相対的な概念であり、測定の特定の目的に対しては、ある程度の精度しか達成できません。

テストスコアが基準スコアと線形関係にある場合、線形回帰の知識を使用して、テストスコアから基準スコアを予測できます。

妥当性と信頼性の関係

測定の信頼性が高いことは、高い妥当性の必要条件ではありますが、十分条件ではありません

数式を使って説明する X 観察スコア = T (真のスコア) E (ランダム誤差) =V (実験処理) I (システムエラー) E Sx²= Sv² Si² Se²

rxx= St²/Sx²= (Sv² SI²)/Sx²

V=r²xy= Sv²/Sx²

rxx>r²xy(V)

rxx= St²/Sx²= (Sx²-Se²)/Sx²=1-Se²/Sx² 信頼性はランダムエラーによって引き起こされる E

妥当性はランダム誤差 E と系統誤差 I によって引き起こされます。

高い妥当性は高い信頼性を意味しますが、必ずしも高い信頼性が高いことを意味するわけではありません。

有効性の種類

コンテンツの有効性

意味

実際にテストで測定された内容と測定対象の内容との一致度を指します（例：大学院入試と試験のシラバス）。

特徴

測定動作の内容が明確であり、サンプリングが代表的なものである

適度な重量

利用条件

すべてのテスト項目がこの範囲内に収まるように範囲を設定する必要があります

一般保険項目は、外部で決定された内容範囲の代表例です。

当てはまること

特定の属性のテスト、学力検査、キャリア検査（選抜・分類）など

適性検査や性格検査には適していません（抜粋）

決定方法

論理的な分析手法（専門家評価手法）

明確な範囲

双方向の内訳シートを作成する

例: OK: 候補者の要件コラム：受験者の試験内容

評価尺度を作成する

一般的な方法

Bach-Cron法（アルファ係数法）

同じ内容を測定するテストスコアの 2 つの並列セット間の相関関係を見つけます (信頼性の再現)

テスト-再テスト方法

テスト再テスト法とも呼ばれ、特定の知識を学習する前後に同じテストを受けることを指し、事後テストの方が事前テストよりも優れている場合、内容の妥当性が高くなります。

経験的方法

被験者のグループが異なると、テストのスコアや各質問への回答が異なりました。

例: 学年が上がるにつれて合計スコアが増加する場合、それは内容に妥当性があることを意味します。

コンテンツの正当性と顔の正当性の関係

顔の有効性の定義

表面的には、特定の人物に対する素人のテストは、特定の心理的特性を測定する現象であるように見えます。

顔の妥当性は被験者のモチベーションに影響を与え、間接的にテストの妥当性にも影響を与えるため、適切な注意を払う必要があります。

成績テストでは、被験者が強い動機を持つように高い表面的妥当性が要求されます。そうでないと、被験者は不信感を持ちます。性格テストでは、表面的妥当性が低く、そうでなければ被験者は不正行為をします。

構成の妥当性構成の妥当性

意味

それは、テストが測定対象の理論的構造や特性をどの程度実際に測定するかを指します。または、テストのスコアが心理学理論の特定の構造や特性を説明できる程度を指します。実験と理論が支持されています。

特徴

構成概念の妥当性の大きさは、事前に想定されている心理的特性の理論に依存します。

経験的データが理論を確認できない場合、それは必ずしも構成の妥当性が高くないことを意味するわけではありませんが、理論的な仮定が妥当ではない可能性があります。

構造的妥当性は、測定内容の選択を積み重ねることによって決定されます。つまり、構成要素には複数の仮説が存在する可能性があるため、単一の定量的指標構成要素の妥当性を持たせることは不可能です。

当てはまること

抽象的な概念のクイズ知能検査、性格検査、自己効力感検査など

一般的な手順

理論的な仮説を提案する

理論的枠組みに基づいて、テストのスコアに関する仮説を導き出す

論理的かつ経験的な方法を使用して仮説を検証する

具体的な方法

クイズ内の証拠を見つける

コンテンツの有効性

均一性の信頼性

コンテンツの妥当性を検査し、分析します。質問に答えて均一性信頼性を計算するプロセス

テストの合間に証拠を探す

互換性のある有効性メソッド

新しくコンパイルされたテストと、互換性のある特性の測定に効果的であることが知られている古いテストとの間の相関関係を見つけます。相関関係が高い場合、コンテンツの妥当性は高くなります。つまり、古いテストと新しいテストの間の相関関係です。

判別式の妥当性

新しくコンパイルされたテストと、さまざまな特性の測定に効果的であることが知られている古いテストとの間の相関関係を見つけます。相関関係が高い場合、コンテンツの妥当性は高くありません。

複数のテスト間の相関の程度

経験的妥当性法

有効性基準に従って人々を 2 つのカテゴリーに分け、スコアの違いを調べます。スコアに従って人々を高いグループと低いグループに分け、有効性基準の違いを調べます。差が有意であれば、構成の妥当性は高くなります。 - 行動状態を検査します。

複数の特性 - 複数のメソッドマトリックスメソッド

互換性妥当性と判別妥当性の包括的適用 - MTMM

収束妥当性 - 同次差分法

同じ特性を測定したさまざまなテストの結果相関係数が高いほど、互換性の妥当性が高くなります。

例: 自己報告と投影を使用して内向的な性格を測定する

判別妥当性 - 同じ方法だが均一ではない

類似性テストはさまざまな特性を測定します相関係数が低い場合、判別式の妥当性は高くなります。

例: 自己申告尺度を使用して、被験者の外向性と責任感を測定します。

補足: 類似性テストは類似した特性を測定します。相関係数が高いほど信頼性が高くなります。

因子分析

少数の因子を使用して大量の観測データを要約します。

CFA-confirmstory 因子分析確認的因子分析

いくつかの次元を知り、それらをテストし、結果を得るこれらの寸法が正しいかどうかを確認してください

EFA探索的因子分析探索的因子分析

事前にいくつかの点がわからない場合は、それを調べてみましょう

経験的妥当性 (基準関連の妥当性) 基準連動効果

意味

テストペアは特定の状況にあります個人の行動を推定することの有効性

実践結果を試験基準とする

例：大学院試験選抜、試験は試験であり、基準は科学的研究能力である科学的研究能力が高ければ、それは効率の基準が高いことを意味する。

効能基準

妥当性基準とは、推定される動作を指します。これは、テストの妥当性の基準であり、テストが有効かどうかを測定するための外部基準です。

効能基準汚染

科目のテストのスコアを知ることで影響を受ける実効スコアを評価する

選定基準

相関

有効性基準は現在評価中のものに関するもの

効果

基準とそれが表す特性の間には高度な一貫性があります。

無公害

基準尺度は評価対象の尺度に基づいていません

客観性

効果基準は主観的な経験に基づいて評価されているため、したがって、主観的な偏見を避けてください

実用性

実効性の確保を前提に、できるだけシンプルで時間を節約し、操作しやすいものにする

特徴

独立して存在し、客観的に関連する行動特性

一般的に使用される標準

学業成績、評価、臨床診断、専門的なトレーニングの結果、実践的な作業パフォーマンス、グループを区別する能力、およびその他のすぐに利用できる有効なテスト

当てはまること

人選などの結果の予測

経験的妥当性のカテゴリー

同時有効性

基準データとテストスコアを同時に収集

診断ステータス

予測の妥当性

最初にテストを受けてから、テストのスコアに基づいて有効性の基準を決定します

未来を推測する

決定方法

明確なコンセプト基準

有効性標準測定値の決定

測定スコアと基準尺度との関係を調べる

具体的な方法