マインドマップギャラリー ビッグ データ分析とマイニング - トライアル レッスン プラン デシジョン ツリーと回帰分析
ビッグデータ分析とマイニング - 体験授業計画: 決定木のマインドマップと回帰分析に関する記事です。主な内容は、4. まとめ (約 1 分)、3. 回帰分析 (約 6 分)、2. です。ディシジョンツリー(約6分)、1.シナリオ導入(約2分)。
挫折教育
事前にガイドされた探索、実践、評価、拡張のための 6 ステップの指導フローチャート
Cambridge IGCS Chemistry Coursebook 2023 第 16 章 知識ポイントの概要
Cambridge IGCS Chemistry Coursebook 2023 第 15 章 知識ポイントの概要
「数学の3つの会議、4つの基礎、6つの力」
特殊教育の歴史マインドマップ
ルソーの「エミール」の思想地図
マリリンペイジの「生徒にあなたの話を聞かせてください」
運転の問題を設計する方法
「なぜ父親になるのか」
ビッグ データ分析とマイニング - トライアル レッスン プラン: デシジョン ツリーと回帰分析
1. シナリオ紹介(約2分)
シナリオの導入: 次のような実践的な質問をします: 銀行は顧客情報に基づいてローン不履行のリスクをどのように予測しますか?電子商取引プラットフォームはユーザーの行動に基づいてどのように商品を推奨するのでしょうか? データマイニングの一般的な方法の重要性を引き出します。
トピックの紹介: 今日は主に、データ マイニングにおける 2 つの一般的な手法、デシジョン ツリーと回帰分析を学習します。
2. ディシジョンツリー(約6分)
決定木の意味 (約 1 分):
定義: デシジョン ツリーは、一連の質問または条件を通じて意思決定プロセスをガイドするツリー状の構造です。
視覚的な説明: これは、何層もの審査を経て最終的に意思決定が行われる、私たちの日常生活における意思決定プロセスにたとえることができます。
デシジョン ツリーは、データの森の中に立つ賢明な「導きの木」のようなもので、私たちが方向を導き、必要な答えを見つけるのに役立ちます。あなたが見慣れない交差点に立っていて、特定の目的地に行きたいと思っていますが、どこに行けばよいのかわかりません。このとき、もし「導きの木」が目の前に現れたら、どうするでしょうか?
デシジョン ツリーのコンポーネント (約 1.5 分):
(1) 決定ノード:次の分岐を決定するノード。
(2) 計画分岐: 意思決定ノードからの分岐は、さまざまな意思決定計画を表します。
(3) ステータスノード: 中間結果または最終結果となる判定結果またはステータスを表すノード。
(4) 確率分岐: 状態ノードを接続し、異なる状態が発生する確率を表します。
デシジョン ツリーの作成手順 (約 1 分):
最初のステップは、樹形図を描き、既知の条件に従って各スキームと各スキームのさまざまな自然状態を配置することです。
2 番目のステップでは、確率分岐上の各状態の確率と損益の値をマークします。
3 番目のステップは、各計画の期待値を計算し、計画に対応する状態ノードにマークを付けることです。
4 番目のステップは枝刈り (枝刈りはデシジョン ツリーの分岐を停止する方法の 1 つです。過剰適合を避けるために、生成されたツリーを枝刈りして不要なノードを削除する必要があります) を実行し、それぞれの期待値を比較します。解決策を選択し、それを計画ブランチにマークすると、期待値が小さい (つまり、劣った計画を取り除く) 最後に残った計画が最良の計画になります。
デシジョン ツリーの長所と短所 (約 0.5 分):
利点: 直感的で理解しやすく、解釈可能性が高く、数値データとカテゴリデータを処理できます。
短所: 過剰適合しやすい、外れ値に敏感、滑らかさに欠け、より多くの固有値を持つ特徴を選択する傾向があります。
実際のアプリケーションでは、デシジョン ツリーを使用するかどうか、および特定のシナリオとニーズに基づいてデシジョン ツリーを最適化する方法を選択する必要があります。
デシジョン ツリーの適用範囲と一般的な方法 (約 2 分):
適用範囲: 特に特徴の選択が明確でデータ サイズが中程度の場合、分類および予測の問題に適しています。
一般的に使用される方法:
1. C&R ツリー (分類および回帰ツリー): 推論プロセスは完全に属性変数の値特性に基づいており、理解しやすく、分類と回帰の両方に使用できます。
2.QUEST デシジョン ツリー: 「クイック セグメンテーション」と呼ばれるテクノロジを使用してデシジョン ツリー構築プロセスを高速化し、大規模なデータ セットの処理に特に適した、高速で偏りのない効果的な統計ツリー。
3. CHAID デシジョン ツリー: カイ 2 乗検定に基づくデシジョン ツリー アルゴリズムは、特にターゲット変数がカテゴリ変数である場合の分類問題に適しており、マーケティング、顧客セグメンテーションなどの分野で広く使用されています。
4.C5.0 デシジョン ツリー: C4.5 の改良版で、実行効率とメモリ使用量が最適化され、効率が向上し、大規模なデータ セットを処理する能力が強化されています。信用評価、疾病診断などの分野で広く使用されています。
拡大する
プロジェクト管理やリスク分析では、デシジョン ツリーと EMV が併用されることがよくあります。
デシジョン ツリーは、意思決定のプロセスと結果をグラフィカルに表示することで、意思決定者が問題をより明確に理解するのに役立ちます。一方、EMV は、定量的分析を使用して、意思決定者がより包括的、客観的、具体的にリスクを評価し、最適な意思決定を行えるようにします。
3.回帰分析(約6分)
回帰分析の意味(約1分):
回帰分析は、データを統計的に分析する方法であり、主に 1 つ以上の独立変数 (予測変数、説明変数、または独立変数とも呼ばれます) が従属変数 (応答変数、被説明変数、または従属変数の変化とも呼ばれます) にどのような影響を与えるかを研究します。 )。
簡単に言えば、回帰分析は、独立変数の値に基づいて従属変数の値を予測できるように、独立変数と従属変数の間の数学的関係またはモデルを見つけようとします。
回帰分析は、経済学、社会学、医学、工学などのさまざまな分野で広く使用されています。例えば:
経済学では、回帰分析を使用して、所得、消費、投資などの経済変数間の関係を研究できます。
医学では、薬剤の投与量、患者の体重、状態、その他の要因が治療効果に及ぼす影響を研究するために使用できます。
エンジニアリングでは、製品の品質に対する材料特性、プロセスパラメータ、その他の要因の影響を研究するために使用できます。
回帰分析の分類(約2分):
(1) 線形回帰: 独立変数と従属変数の間には線形関係があり、最も単純で最もよく使用されるタイプです。
(2) ロジスティック回帰: 主に分類問題に使用され、イベントの確率を予測し、線形回帰の結果を 0 ~ 1 の間にマッピングして確率を表現します。
(3) 多項式回帰: 独立変数と従属変数間のデータの関係は線形ではありませんが、多項式の関係があり、データは多項式によってフィッティングできます。
(4) 段階的回帰: 独立変数を段階的に導入または削除することで、重要な独立変数が自動的に選択され、多重共線性を回避し、最適な回帰モデルが選択されます。
(5) リッジ回帰: 高次元データを処理し、モデルの複雑さを軽減し、過剰適合を防止し、多重共線性の問題を解決するために使用される、改良された線形回帰手法。
一般的に使用される回帰モデル (約 1.5 分):
(1) 線形回帰モデル: y = ax b、ここで、a は傾き、b は切片です。
(2) 非線形回帰モデル: 指数関数や対数関数など、独立変数と従属変数の間には非線形の関係があります。
(3) ロジスティック回帰モデル: ユーザーが広告をクリックするかどうかの予測など、イベントが発生する確率を予測するために使用されます。
(4) リッジ回帰モデル: 過剰適合を避けるために損失関数に正則化項を追加します。
(5) 主成分回帰: 次元削減を通じて独立変数の数を減らし、モデルの効率を向上させます。まず独立変数に対して主成分分析を実行し、次に主成分を使用して回帰を実行します。
回帰分析の基本手順 (約 1.5 分):
(1) 独立変数と従属変数の決定:検討すべき質問と目的を明確にします。
(2) データの収集: 関連する独立変数および従属変数のデータを収集します。
(3) 回帰モデルの選択:データの特性や研究目的に基づいて適切なモデルを選択します。
(4) モデル フィッティング: データを使用してモデル パラメーターを推定します。
(5) モデル評価:モデルのフィッティング効果や予測能力を評価します。
(6) モデルの適用: 予測と分析にモデルを使用します。
4. まとめ(約1分)
デシジョン ツリーと回帰分析の重要な要素を簡単に確認します。データ マイニングにおけるこれら 2 つの方法の重要な役割と適用シナリオを強調します。学生は授業後にさらに勉強し、探求することが奨励されます。