ログイン
サインイン

マインドマップギャラリーインテリジェントな統計技術

インテリジェントな統計技術

numpy、pandas、plt ライブラリの使用法について詳しく説明されており、知識が網羅されているので、皆さんのお役に立てれば幸いです。

2024-02-04 00:48:40 に編集されました

PlotWizard

最近の作品その他の作品を表示>>

Analisi controllo gestione portata progetto
Mappa mentale per l’analisi del controllo della gestione del portata di progetto. Tre sezioni principali: 1. WBS Scope Breakdown – scomposizione gerarchica del lavoro con dettaglio dello Scopo del progetto. 2. Scope Boundary / Exclusions – definizione chiara dei confini del progetto e di ciò che è escluso per evitare scope creep. Strumento ideale per project manager e team di controllo per mantenere allineamento e ridurre rischi.
Miglioramento continuo del sistema di gestione della qualità
Questo template, ideato con EdrawMind, è un modello completo per il miglioramento continuo del sistema di gestione della qualità, con una descrizione di circa 500 parole. È strutturato come un diagramma a lisca di pesce, strumento efficace per analizzare le cause principali dei problemi di qualità e definire le leve di controllo necessarie per risolverli. Il processo è organizzato in quattro fasi chiave: la prima è lo standard e la pianificazione, dove si definiscono gli obiettivi di qualità, i criteri di accettazione, i requisiti di prova e le porte di qualità (Quality Gate). La seconda fase analizza i processi e le porte di controllo, per garantire che ogni passaggio del lavoro segua i standard stabiliti. La terza fase riguarda l’esecuzione QA/QC, con la definizione di metodi di prova e ispezione, nonché regole per la gestione dei difetti e delle non conformità. L’ultima fase è il miglioramento e le azioni correttive e preventive (CAPA), insieme a una catena di audit per monitorare l’efficacia delle misure adottate. In basso, una tabella "Quality Gate" permette di tracciare ogni punto di controllo, con criteri specifici, metodi di prova, proprietario e stato di avanzamento. Grazie alla visualizzazione chiara e intuitiva di EdrawMind, questo strumento aiuta il team a identificare le cause root dei problemi di qualità, implementare azioni efficaci e mantenere un ciclo di miglioramento continuo, garantendo la qualità finale del prodotto o servizio.
Ottimizzazione del piano di gestione della comunicazione per progetti
Questo template, creato con EdrawMind, è un modello di piano di comunicazione ottimizzato, con una descrizione di circa 500 parole. È uno strumento chiave per evitare incomprensioni tra stakeholder, garantire la trasparenza e mantenere il team allineato agli obiettivi del progetto. Il modello è composto da tre elementi fondamentali e interconnessi: la matrice di comunicazione, la cadenza timeline e le regole di comunicazione/SLA. La matrice di comunicazione è una tabella dettagliata dove per ogni pubblico o stakeholder, si definisce il tipo di informazioni da condividere, lo scopo della comunicazione, il canale da utilizzare (email, riunioni, piattaforme di progetto), la frequenza, il proprietario responsabile, il formato e il percorso di escalazione in caso di problemi. La cadenza timeline è una linea temporale che definisce le scadenze delle comunicazioni chiave, garantendo che le informazioni siano condivise in momento opportuno e non si verifichino ritardi o omissioni. Le regole di comunicazione e gli accordi sul livello di servizio (SLA) definiscono le norme formali della comunicazione, come i tempi di risposta, il tono da adottare e le responsabilità di ciascun membro del team. Grazie alla struttura visuale di EdrawMind, questo template permette di pianificare la comunicazione in modo strategico, trasparente e efficiente, riducendo i rischi di cattiva informazione, migliorando la collaborazione e garantendo che tutti gli stakeholder siano informati e coinvolti nel progetto.

インテリジェントな統計技術

PlotWizard

最近の作品その他の作品を表示>>

おすすめ
アウトライン

Python の基本
- 59
MMガイド作品
Python 攻撃
- 17
MMガイド作品
よく使用される Excel 関数の包括的なリスト
- 21
- 1
MMガイド作品
地域住民の家事ニーズを調査したビッグデータ分析
- 14
PlotWizard
Pythonライブラリ一覧
- 27
PlotWizard
Python チュートリアル
- 27
PlotWizard
Pythonでよく使われる関数
- 19
WSUJfrxa
Pythonのデータ型
- 12
WSUJfrxa
Pythonプログラミング言語
- 42
WSUJfrxa
数値変数データの統計スコア
- 20
WSUJfrxa

インテリジェントな統計技術

導入

教科書

統計的思考: プログラマのための確率統計数学

Python データ分析とアプリケーション

データを分析する

明確な目標

前提条件

方向

データ収集

データベース

他の

情報処理

洗浄（前処理）

変換する

抽出する

計算する

データ分析

パンダ

データマイニング

データ表示

チャート

シート

言葉

コンテンツ

確率論

統計

定量分析の実施

というライブラリ

ナムピー

配列と行列の演算

非常に効率的

マットプロットリブ

チャート、ビジュアライゼーション

パンダ

名前の由来

パネルデータとデータ分析

関数

データの分析と探索

高度なデータ構造

シリーズ

1次元データ

データフリーム

2Dデータ

ナムピー

導入

強力な N 次元配列 ndarray

ブロードキャスト関数関数 ufunc

C/C/Fortran コードを統合するためのツール

線形代数、フーリエ変換、乱数生成などの機能

ndarray

効果

単一のデータ型の多次元配列を格納します

作成する

既存のデータから多次元配列を作成する

リスト、タプルオブジェクトから作成 - array()

np.array(object, dtype=None, copy=True, order='K', subok=False, ndmin=0)

オブジェクト — リストまたはタプルオブジェクト、必須パラメータ

dtype — データ型

copy — オブジェクトがコピーされます

order — 配列を特定の順序で配置します。C - 行ごと、F - 列ごと、入力が F の場合は列ごと、それ以外の場合は行ごとに配置します。

subok - 返された配列は基本クラスの配列に強制されます

ndmin — 最小次元

文字列からの読み取り - fromstring()

np.fromstring(文字列、dtype=float、count=-1、sep=”)

特定の形状の多次元配列を作成する

「すべて 1」の配列を作成します - ones()

np.ones(shape, dtype=None, order='C')

「すべてゼロ」の配列を作成します - zeros()

np.zeros(形状、dtype=float、order='C')

空の配列を作成します - empty()

np.empty(形状、dtype=float、order='C')

自律的に配列を埋める - full()

np.full(shape, fill_value, dtype=None, order='C')

単位行列の作成 - eye()

np.full(n)

数値範囲から多次元配列を作成

算術シーケンスの配列を作成します - arange()

np.arange(開始=0、停止、ステップ=1、dtype=なし)

等差数列の配列を作成する - linspace()

np.linspace(start、stop、num=50、endpoint=True、retstep=False、dtype=None)

num は等分割の数です

属性

ンディム

寸法

形

各寸法の長さ

サイズ

要素の総数

dtype

要素の種類

アイテムサイズ

配列内の各要素のサイズ

インデックス作成とスライス

リストと同じ

方法

変形(a,b)

a行b列の行列に変更します。

繰り返し(4, 軸=1)

4回コピーして右側に追加

numpy.ランダム

np.random.rand(2, 3)

数値は[0,1]、2行3列です。

np.random.randint(5, サイズ = (2, 3))

値は 5 未満、2 行 3 列です

NumPy 行列

ndarray のサブクラスです

マトリックスの作成

データを区切るにはセミコロンを使用します

matr1 = np.mat("1 2 3;4 5 6;7 8 9")

リストを使用して行列を作成する

matr2 = np.matrix([[1,2,3],[4,5,6],[7,8,9]])

小さな行列を結合して大きな行列を作成する

matr3 = np.bmat("arr1 arr2; arr1 arr2")

マトリックスのプロパティ

行列演算

ufunc関数

効果

ndarray 配列を処理できる関数は直接使用できます。

共通操作

算術

比較演算

論理演算

np.all(x) 関数は、x に対して論理 AND を使用することを意味します。

np.any(x) 関数は、x に対して論理 OR を使用することを意味します。

ブロードキャストメカニズム

異なる形状の配列間で算術演算を実行する方法を指します。

原則として

すべての入力配列を最も長い形状の配列と揃え、形状の欠落部分は先頭に 1 を追加することで補います。

出力配列の形状は、入力配列形状の各軸の最大値です。

入力配列の軸が出力配列の対応する軸と同じ長さであるか、その長さが 1 の場合、この配列は計算に使用できます。それ以外の場合はエラーが発生します。

入力配列の軸の長さが 1 の場合、この軸に沿って操作する場合は、この軸上の最初の値のセットが使用されます。

ファイルの読み取りと書き込み

バイナリーファイル

numpy.save(ファイル、arr、allow_pickle=True、fix_imports=True)

注: 保存パスにはディレクトリが存在する必要があります。保存機能ではディレクトリは自動的に作成されません。

numpy.load(ファイル、mmap_mode=None、allow_pickle=True、fix_imports=True、encoding='ASCII')

テキストファイル

np.savetxt(fname, X, fmt='%.18e', delimiter=' ', newline=' ', header='', footer='', comments='# ')

numpy.loadtxt(ファイル名, dtype=int, delimiter=' ')

簡易分析

選別

直接仕分け

値を直接並べ替えることを指します

numpy.sort(a, 軸, 種類, 順序)

ある

ソートする配列

軸

配列がソートされる軸、または配列が展開されない場合は最後の軸に沿って

親切

デフォルトは「クイックソート」（クイックソート）です。

注文

配列にフィールドが含まれている場合、並べ替えの基準となるフィールド

間接選別

1 つ以上のキーに基づいてデータセットを並べ替えることを指します。

numpy.argsort(a)

この関数は、指定された軸に沿って入力配列の間接的な並べ替えを実行し、指定された並べ替えタイプを使用してデータのインデックス (添え字) の配列を返します。

numpy.lexsort(a,b)

この関数は、スプレッドシートの列として考えることができる一連のキーを使用して間接ソートを実行し、インデックス (添え字) の配列を返します。

重複を削除する

numpy.unique

統計関数

マットプロットライブラリ

導入

データグラフを簡単に描画できる豊富な数学描画機能を提供します。

その他の視覚的な統計ツール

eチャート

単語の雲

標準的な方法

基本的なプロセス

キャンバスの作成

<部分グラフを作成するかどうか>

選択したサブプロット

X、Y軸の設定

凡例の追加 (詳細)

＜描画が完了したかどうか＞

表示を保存する

ステップ分析

キャンバスの作成

plt.figure(figsize=(x,y))

キャンバスがある場合は、複数のグラフィックを作成できます

plt.subplot(nrows, ncols, インデックス)

nrows パラメータは、データグラフ領域を何行に分割するかを指定します。

ncols パラメータは、データグラフ領域を何列に分割するかを指定します。

インデックスパラメータは取得する領域を指定します

選択したサブプロット

折れ線グラフ

プロット

散布図

散らばる

棒グラフ

レベル

バー

垂直

バール

ヒストグラム

履歴

円グラフ

パイ

...

X、Y軸の設定

軸

プロット

plt.plot(x,y)

x と y は 2 つの配列で、1 つだけを入力した場合、デフォルトの x 軸は配列の添字になります。

色、透明度、スタイル、幅などのパラメータもあります。

plt.plot(x, y, color='green',alpha=0.5,linestyle='-',linewidth=3,marker='*')

凡例の追加 (詳細)

タイトル、間隔の上限と下限、凡例、区切り、レイアウト、軸など。

タイトルを設定する

plt.xlabel('時間')

plt.ylabel("温度")

plt.title('タイトル')

中国語表示

plt.rcParams['font.sans-serif'] = ['SimHei']

カスタム X 軸スケール

plt.xticks(range(0,len(x),4),x[::4],rotation=45)

X軸間隔と上下限値

plt.set_xlim([xmin, xmax]) #X軸の間隔を設定する

plt.axis([xmin, xmax, ymin, ymax]) #X, Y 軸間隔

plt.set_ylim(bottom=-10) #Y軸下限値

plt.set_xlim(right=25) #X軸上限

簡単な方法

matplotlib.pyplotをpltとしてインポート plt.plot(x,y) plt.show()

パンダ

特徴

シンプルで効率的なオブジェクトにデフォルトのラベルが付けられます (ラベルをカスタマイズすることもできます)。

さまざまな形式のファイル (Excel、CSV、SQL ファイルなど) からデータを迅速にロードし、それらを処理可能なオブジェクトに変換する機能。

行ラベルと列ラベルによってデータをグループ化し、グループ化されたオブジェクトに対して集計および変換操作を実行する機能。

データ正規化操作と欠損値処理を簡単に実装できます。

DataFrame のデータ列の追加、変更、削除は簡単です。

マトリックスデータ、異種データテーブル、時系列など、さまざまな形式のデータセットを処理できます。

サブセットの構築、スライス、フィルタリング、グループ化、並べ替えなど、データセットを処理するさまざまな方法を提供します。

組み込みのデータ構造

シリーズ

意味

1 次元。文字、整数、浮動小数点数、Python オブジェクトなどのさまざまなデータ型を格納できます。シリーズは、名前属性とインデックス属性を使用してデータ値を記述します。

作成する

s=pd.Series(データ、インデックス、dtype、コピー)

データ

入力データは、スカラー、リスト、辞書、ndarray 配列などです。

索引

インデックス値は一意である必要があります。インデックスが渡されない場合は、デフォルトの np.arrange(n) が使用されます。

dtype

dtype はデータ型を表します。指定しない場合は自動的に決定されます。

コピー

データのコピーを示します。デフォルトは False です。

基本操作

アクセス

添字インデックス

類似リスト

タグインデックス

辞書に似ている

Numpy の計算と演算が適用可能

スライス可能

共通のプロパティ

dtype

オブジェクトのデータ型を返します。

空の

空の Series オブジェクトを返します。

ンディム

入力データの次元を返します。

サイズ

入力データの要素数を返します。

サイズとカウントの違い: サイズにはカウント時に NaN 値が含まれますが、カウントには NaN 値は含まれません。

価値観

Series オブジェクトを ndarray として返します。

索引

インデックスの値の範囲を記述するために使用される RangeIndex オブジェクトを返します。

一般的な方法

説明する（）

count: 数量統計。この列には有効な値がいくつありますか? unipue: 異なる価値観は何通りありますか? std:標準偏差 min: 最小値 25%: 四分位 50%: 2分の1パーセンタイル 75%: 4分の3 max: 最大値意味：意味

head()&tail()でデータを表示

head(n) は最初の n 行のデータを返し、デフォルトでは最初の 5 行のデータを表示します。

tail(n) はデータの最後の n 行を返します。デフォルトは最後の 5 行です。

isnull()&nonull() は欠損値を検出します

isnull(): 値が存在しないか欠落している場合は True を返します。

notnull(): 値が存在しないか欠落している場合は False を返します。

値の数

統計的頻度

データフレーム

意味

2 次元、行インデックスと列インデックスの両方。行インデックスはindex、列インデックスはcolumnsです。構造を作成するときに、対応するインデックス値を指定できます。

テーブル内の各列のデータ型は、文字列、整数、浮動小数点など、異なる場合があります。

作成する

df =pd.DataFrame(データ、インデックス、列、dtype、コピー)

データ

入力データは、リスト、辞書のネストされたリスト、リストのネストされた辞書、辞書形式のシリーズなどです。

列インデックス操作

列インデックスはデータ列を選択します

print(df ['one'])

print(df[['単語', '漢字', '意味']])

列インデックスによりデータ列が追加されます

df['three']=pd.Series([10,20,30],index=['a','b','c'])

df['4']=df['1'] df['3']

df.insert(1,column='スコア',value=[91,90,75])

値 1 は、列リストに挿入されるインデックス位置を表します。

列インデックスのデータ列の削除

df.pop('2')

抽出された列を分割する

df[df[‘column_name’] == some_value]

行インデックス操作

タグインデックス

df1.loc["b" : "e", "bx" : "ex"]

最初に列に並び、次に列に並びます

添字インデックス

df1.iloc[2 : 6, 2 : 4]

最初に列に並び、次に列に並びます

ハイブリッドインデックス

df1.ix[2 : 6, "bx" : "ex"]

最初に列に並び、次に列に並びます

スライス操作の複数行選択

df[2:4]

データ行を追加

df = df.append(df2)

データ行の削除

df = df.drop(0)

分割フェッチ行

df.loc[df['column_name'] == str]

特定の列が NaN である行を出力します

df[df['word'].isna()]

共通のプロパティ

行と列を入れ替えます。

軸

行軸と列軸のラベルのみをメンバーとして含むリストを返します。

dtype

データの各列のデータ型を返します。

空の

DataFrame 内にデータがない場合、または座標軸の長さが 0 の場合は True が返されます。

ンディム

軸の数は、配列の次元も指します。

形

タプル (a,b) を返します。ここで、a は行数を表し、b は列数を表します。

サイズ

DataFrame 内の要素の数

サイズとカウントの違い: サイズにはカウント時に NaN 値が含まれますが、カウントには NaN 値は含まれません。

価値観

numpy 配列を使用して DataFrame 内の要素値を表す

一般的な方法

説明(include='all')

シリーズと同じ

パラメータを指定しないと、数値列のみがカウントされます。

頭()&尾()

シリーズと同じ

情報（）

情報を見る

シフト（）

指定した歩幅で行または列を移動します

ピボット（）

特定の列が新しい行インデックスになるようにデータフレーム内の列を変換し、このインデックスに対応するセルに別の列の値を入力します。

パラメータ

Index: 新しい行インデックスとなる列名

columns: 新しい列インデックスとなる列名

値: 新しい行インデックスと新しい列インデックスの間のセルを埋める列名

sort_values(by=‘ソート用の列名またはインデックス値’, axis=0, ascending=True, inplace=False, kind=‘quicksort’, na_position=‘last’,ignore_index=False, key=None)

sort_index(axis=0、level=None、ascending=True、inplace=False、kind='quicksort'、na_position='last'、sort_remaining=True、ignore_index=False、key=None)

axis: 軸のデフォルトは 0 (行インデックスに従ってソートすることを意味します)、axis は 1 に設定されます (列インデックスに従ってソートすることを意味します)。 level: デフォルトは None です。それ以外の場合は、指定されたレベルの順序で配置されます。 ascending: ascending のデフォルトは True (昇順) で、False に設定すると降順になります。 inplace: デフォルトでは False です。それ以外の場合は、並べ替えられたデータが元のデータフレームを直接置き換えます。種類: 並べ替え方法、{'クイックソート'、'マージソート'、'ヒープソート'}、デフォルトは 'クイックソート'。ユーザーが選択できる na_position: 欠損値はデフォルトで最後にランク付けされます {"first", "last"}。パラメータ "first" は先頭に NaN を置き、"last" は末尾に NaN を置きます。 ignore_index: ブール値、デフォルトは False、True の場合、軸はラベル 0、1、2 になります。これは新しく追加されます。 key: これは、ソートの前にインデックスの値に対して key 関数を実行する呼び出し可能な関数です。これは、組み込みのsorted()関数のkey関数に似ています。

トラバース

各行を反復処理する

df.iterrows() のインデックス、行の場合:

各列を反復処理します

列の場合、df.iteritems() の値:

データテーブルのクリーニング

空の値を数値 0 で埋める

df.fillna(値=0)

列プリンスの平均を使用して列 NA を埋めます

df['prince'].fillna(df['prince'].mean())

都市フィールドの文字スペースをクリアする

df['city']=df['city'].map(str.strip)

大文字と小文字の変換

df['city']=df['city'].str. lower()

データ型変換

df['価格'].astype(int)

列/行インデックスを変更する

すべて変更

手書き索引

df.columns=['a','b','c']

df.index=['a','b','c']

参照インデックス

df.set_columns("idx",inplace=False)

df.set_index("col",inplace=False)

一部変更

df.rename(columns={'category': 'category-size'},inplace=False)

df.rename(index={'category': 'category-size'},inplace=False)

繰り返す

重複の検索: df.duplicated() は、各行が重複しているかどうかを示すブール配列を返すことができます。

削除後に表示される重複した値

df['city'].drop_duplicates()

最初に表示される重複した値を削除します

df['city'].drop_duplicates(keep='last')

主キーを選択

サブセット=['学生番号']

NaN を削除する

df2=df.dropna(axis=0,how="all",inplace=False)

how="all" は、すべての NaN が存在する場合にのみ、特定の行 (列) が削除されることを意味します。 how="any" は、NaN が存在する限り、それが削除されることを意味します (デフォルト)。

データの置き換え

df['都市'].replace('sh', '上海')

データテーブルのマージ

マージ

pd=pd.merge(df,df1,how='inner') #一致、マージ、交差、デフォルト df_left=pd.merge(df,df1,how='left') df_right=pd.merge(df,df1,how='right') df_outer=pd.merge(df,df1,how='outer') #Union、効果は最初の 2 つの組み合わせと同じです

追加する

廃止されました。concat を使用することをお勧めします

参加する

連結

pd.concat(objs,axis=0,join='outer',join_axes=None,ignore_index=False,keys=None,levels=None,names=None,verify_integrity=False,copy=True)

統計

var()

分散

cov()

共分散

まとめ

サンプル1

df = pd.DataFrame({ 'A': ['a', 'b', 'a', 'c', 'a', 'c', 'b', 'c'], 'B': [2、8、1、4、3、2、5、9]、 'C': [102, 98, 107, 104, 115, 87, 92, 123]})

方法

列 A でグループ化し、他の列の平均を取得します

df.groupby('A').mean()

あるコラムを取り出してみる

print(df.groupby('key1')['data1'].mean())

複数の列によるグループ化 (groupby)

df.groupby(['A','B']).mean()

サンプル2

df = pd.DataFrame({' A': リスト('XYZXYZXYZX'), 'B': [1、2、1、3、1、2、3、3、1、2]、 'C': [12, 14, 11, 12, 13, 14, 16, 12, 10, 19]})

方法

列に対して agg() を使用するときにさまざまな統計演算を実行する

df.groupby('A')['B'].agg({'平均':np.mean, '標準偏差': np.std})

ラムダ演算

マイノリティポイントの補償

df['エクストラスコア'] = df['国籍'].apply (ラムダ x : 5 if x != '汉' else 0)

試験に合格する

df['pass_reading'] = df['読書スコア'].apply (ラムダ x: x >= 60 の場合は「合格」、それ以外の場合は「不合格」)

絵を描く

ax = series1.plot(kind='bar')

fig = ax.get_figure() fig.subplots_adjust(bottom=0.4) fig.savefig('output.png')

pd.plot(kind='scatter',x="a",y="b",alpha=0.1)

アルファは透明度です

pd.hist(bins=50,figsize=(7,7))

データの入出力

入力

CSVを読む

df = pd.read_csv("mtcars.csv", エンコーディング="utf-8")

Excel への書き込み

df = pd.read_excel("mtcars.csv")

出力

Excel への書き込み

pd.to_excel('excel_to_python.xlsx',sheet_name='bluewhale_cc')

CSVへの書き込み

pd.to_csv('excel_to_python.csv')

パンダとNumPyの違い

日付時刻

1).date サブクラスは日付と時系列データを作成でき、2).time サブクラスは時と分の時刻データを作成でき、3).datetime サブクラスは日付と時分データを記述できます。

インポート日時 cur = datetime.datetime(2018,12,30, 15,30,59) print cur,type(cur) d = 日時.日付(2018,12,30) 印刷された t = datetime.datetime(2018,12,30).now() 印刷する

2018-12-30 15:30:59 <タイプ 'datetime.datetime'> 2018-12-30 2018-12-16 15:35:42.757826

4) datetime の timedelta モジュールを使用して、時間間隔 (差) を与えることができます。

インポート日時 cur0 = 日時.日時(2018,12,30, 15,30,59) 印刷cur0 cur1 = cur0 datetime.timedelta(日数 = 1) 印刷cur1 cur2 = cur0 datetime.timedelta(分 = 10) 印刷cur2 cur3 = cur0 datetime.timedelta(分 = 29、秒 = 1) 印刷cur3

2018-12-30 15:30:59 #cur0 2018-12-31 15:30:59 #cur1 2018-12-30 15:40:59 #cur2 2018-12-30 16:00:00 #cur3

日時データを含む時系列データを作成します。これは、日時作成時刻をインデックスとして使用することを意味します。

from datetime import datetime、timedelta numpyをnpとしてインポートパンダをPDとしてインポートする b = 日時(2018,12,16, 17,30,55) vi = np.random.randn(60) ind = [] range(60) の x の場合: bi = b タイムデルタ(分 = x) ind.append(bi) ts = pd.Series(vi, インデックス = ind) ts[:5]を出力します

2018-12-16 17:30:55 -1.469098 2018-12-16 17:31:55 -0.583046 2018-12-16 17:32:55 -0.775167 2018-12-16 17:33:55 -0.740570 2018-12-16 17:34:55 -0.287118 dtype: float64

補充する

親切

履歴クラス

値を整数として表される数量にマッピングします

PMFクラス

浮動小数点数として表現される確率に値をマッピングします。

上記のプロセスは正規化と呼ばれます。つまり、確率の合計が 1 になります。

CDFクラス

PMFのデメリット

PMFの適用範囲：処理対象のデータが比較的小さい場合

データが増加するにつれて、各値の確率は減少し、ランダムノイズの影響が増加します。

解決

データのグループ化: グループ化間隔のサイズを決定するにはスキルが必要です

グループ化間隔がノイズを除去するのに十分な大きさである場合、有用な情報が破棄される可能性があります。

CDF

累積分布関数

これは、確率密度関数の積分である実際の確率変数 X の確率分布を完全に記述することができます。

パーセンタイルランク

テストのスコアを例に挙げます。2 つの形式で表示されます 1. 生のスコア 2. パーセンタイルランク: 受験者の総数のうち、元のスコアがあなたのスコアより高くない人の割合に 100 を掛けます。例: 誰かが 90 パーセンタイルにランクされている場合、その人のスコアは 90% の人々よりも優れているか、少なくとも受験者の 90% よりも劣っていないことを意味します。

CDF を計算した後、パーセンタイルとパーセンタイルランクをより簡単に計算できます。

関数

パーセンタイルランク(x)

指定された値 x について、そのパーセンタイルランクを計算します。

100*CDF(x)

パーセンタイル (p): 指定されたパーセンタイルランクについて、対応する値 x を計算します。

四分位範囲

四分位数

四分位範囲は、離散データの分布を表す統計学の指標です。これは、それぞれデータ内の 25、50、および 75 パーセンタイルの位置を表します。

四分位範囲

上位四分位から下位四分位を引いたものが 4 分の 4 の範囲です。

効果

四分位範囲は、データの分散度を表します。四分位範囲が大きいほど、データの分散度は高くなります。

箱ひげ図

最小値、下位四分位、中央値、上位四分位、および最大値を使用して、箱ひげ図を描くことができます。

外れ値

ちなみに、外れ値を定義する方法を紹介します。値が極端に小さい場合、つまり下位四分位から四分位間範囲の 1.5 倍を引いた値より小さい場合は、それに応じて外れ値としてカウントされます。値が極端に大きい場合は、外れ値としてカウントされます。下四分位から四分位間範囲の 1.5 倍を引いたものよりも小さく、上位四分位に四分位間範囲の 1.5 倍を加えたものはさらに大きく、外れ値としてカウントされることもあります。

CCDF(a) = P(X > a)= 1- CDF(a)

コンセプト

PDF: 確率密度関数。数学では、連続確率変数の確率密度関数 (混乱しない場合は密度関数と呼ぶこともあります) は、ある関数における確率変数を記述する出力値です。値ポイントに近い可能性。

PMF: 確率質量関数。確率理論では、確率質量関数は、離散確率変数が特定の値を取る確率です。

CDF: 累積分布関数 (累積分布関数) は、分布関数とも呼ばれ、確率密度関数の積分であり、実際の確率変数 X の確率分布を完全に記述することができます。

分布モデリング

指数分布

正規分布

確率密度関数

累積分布関数

対数正規分布

値の集合が対数変換後に正規分布に従う場合、それは対数正規分布に従うと言われます。つまり、log(x) を使用して正規分布の x を置き換えます。

パレート分布パレート

変数間の関係

共分散

共分散は、関連する変数の変化傾向が同じかどうかを測定するために使用できます。また、2 つの変数の全体的な誤差を測定するためにも使用できます。

値と単位は解釈が難しいため、一般的にはあまり使用されません。

分散は、2 つの変数が同一である場合の共分散の特殊なケースとみなすことができます。

2 つの変数の変化傾向が一貫している場合、つまり、一方がそれ自体の期待値よりも大きく、もう一方がそれ自体の期待値よりも大きい場合、2 つの変数間の共分散は正になります。

2 つの変数の変化傾向が逆の場合、つまり、一方の変数がその期待値よりも大きく、もう一方の変数がその期待値よりも小さい場合、2 つの変数間の共分散は負になります。

ピアソンランクピアソン

適用範囲

2 つのデータ変数の分布は正規分布であり、両者の間には線形関係があります。

元の値を標準分数に置き換えて、2 つの標準分数の積を計算します。

はピアソン相関係数と呼ばれます。ここで、-1<=p<=1、 p=1: 2 つの変数が完全に正の相関があることを示します。 p=-1: 2 つの変数が完全に負の相関関係にあることを示します。

槍兵ランクスピアマン

適用範囲

外れ値があり、変数の分布は非常に非対称です。

まずシーケンス内の値のランク、つまりシーケンス内の特定の値のソートされた位置を計算し、次にランクのピアソン相関係数を計算します。

サンプル

シーケンス {7、1、2、5} シーケンスを小さいものから大きいものに並べ替えると、結果は {4, 1, 2, 3} になります。つまり、5 のランクは 3 になります。