マインドマップギャラリー インテリジェントな統計技術
numpy、pandas、plt ライブラリの使用法について詳しく説明されており、知識が網羅されているので、皆さんのお役に立てれば幸いです。
2024-02-04 00:48:40 に編集されましたThis infographic, created using EdrawMax, outlines the pivotal moments in African American history from 1619 to the present. It highlights significant events such as emancipation, key civil rights legislation, and notable achievements that have shaped the social and political landscape. The timeline serves as a visual representation of the struggle for equality and justice, emphasizing the resilience and contributions of African Americans throughout history.
This infographic, designed with EdrawMax, presents a detailed timeline of the evolution of voting rights and citizenship in the U.S. from 1870 to the present. It highlights key legislative milestones, court decisions, and societal changes that have expanded or challenged voting access. The timeline underscores the ongoing struggle for equality and the continuous efforts to secure voting rights for all citizens, reflecting the dynamic nature of democracy in America.
This infographic, created using EdrawMax, highlights the rich cultural heritage and outstanding contributions of African Americans. It covers key areas such as STEM innovations, literature and thought, global influence of music and arts, and historical preservation. The document showcases influential figures and institutions that have played pivotal roles in shaping science, medicine, literature, and public memory, underscoring the integral role of African American contributions to society.
This infographic, created using EdrawMax, outlines the pivotal moments in African American history from 1619 to the present. It highlights significant events such as emancipation, key civil rights legislation, and notable achievements that have shaped the social and political landscape. The timeline serves as a visual representation of the struggle for equality and justice, emphasizing the resilience and contributions of African Americans throughout history.
This infographic, designed with EdrawMax, presents a detailed timeline of the evolution of voting rights and citizenship in the U.S. from 1870 to the present. It highlights key legislative milestones, court decisions, and societal changes that have expanded or challenged voting access. The timeline underscores the ongoing struggle for equality and the continuous efforts to secure voting rights for all citizens, reflecting the dynamic nature of democracy in America.
This infographic, created using EdrawMax, highlights the rich cultural heritage and outstanding contributions of African Americans. It covers key areas such as STEM innovations, literature and thought, global influence of music and arts, and historical preservation. The document showcases influential figures and institutions that have played pivotal roles in shaping science, medicine, literature, and public memory, underscoring the integral role of African American contributions to society.
インテリジェントな統計技術
導入
教科書
統計的思考: プログラマのための確率統計 数学
Python データ分析とアプリケーション
データを分析する
明確な目標
前提条件
方向
データ収集
データベース
他の
情報処理
洗浄(前処理)
変換する
抽出する
計算する
データ分析
データ分析
パンダ
データマイニング
データ表示
チャート
シート
言葉
コンテンツ
確率論
統計
定量分析の実施
というライブラリ
ナムピー
配列と行列の演算
非常に効率的
マットプロットリブ
チャート、ビジュアライゼーション
パンダ
名前の由来
パネルデータとデータ分析
関数
データの分析と探索
高度なデータ構造
シリーズ
1次元データ
データフリーム
2Dデータ
ナムピー
導入
強力な N 次元配列 ndarray
ブロードキャスト関数関数 ufunc
C/C/Fortran コードを統合するためのツール
線形代数、フーリエ変換、乱数生成などの機能
ndarray
効果
単一のデータ型の多次元配列を格納します
作成する
既存のデータから多次元配列を作成する
リスト、タプルオブジェクトから作成 - array()
np.array(object, dtype=None, copy=True, order='K', subok=False, ndmin=0)
オブジェクト — リストまたはタプル オブジェクト、必須パラメータ
dtype — データ型
copy — オブジェクトがコピーされます
order — 配列を特定の順序で配置します。C - 行ごと、F - 列ごと、入力が F の場合は列ごと、それ以外の場合は行ごとに配置します。
subok - 返された配列は基本クラスの配列に強制されます
ndmin — 最小次元
文字列からの読み取り - fromstring()
np.fromstring(文字列、dtype=float、count=-1、sep=”)
特定の形状の多次元配列を作成する
「すべて 1」の配列を作成します - ones()
np.ones(shape, dtype=None, order='C')
「すべてゼロ」の配列を作成します - zeros()
np.zeros(形状、dtype=float、order='C')
空の配列を作成します - empty()
np.empty(形状、dtype=float、order='C')
自律的に配列を埋める - full()
np.full(shape, fill_value, dtype=None, order='C')
単位行列の作成 - eye()
np.full(n)
数値範囲から多次元配列を作成
算術シーケンスの配列を作成します - arange()
np.arange(開始=0、停止、ステップ=1、dtype=なし)
等差数列の配列を作成する - linspace()
np.linspace(start、stop、num=50、endpoint=True、retstep=False、dtype=None)
num は等分割の数です
属性
ンディム
寸法
形
各寸法の長さ
サイズ
要素の総数
dtype
要素の種類
アイテムサイズ
配列内の各要素のサイズ
インデックス作成とスライス
リストと同じ
方法
変形(a,b)
a行b列の行列に変更します。
繰り返し(4, 軸=1)
4回コピーして右側に追加
numpy.ランダム
np.random.rand(2, 3)
数値は[0,1]、2行3列です。
np.random.randint(5, サイズ = (2, 3))
値は 5 未満、2 行 3 列です
NumPy 行列
ndarray のサブクラスです
マトリックスの作成
データを区切るにはセミコロンを使用します
matr1 = np.mat("1 2 3;4 5 6;7 8 9")
リストを使用して行列を作成する
matr2 = np.matrix([[1,2,3],[4,5,6],[7,8,9]])
小さな行列を結合して大きな行列を作成する
matr3 = np.bmat("arr1 arr2; arr1 arr2")
マトリックスのプロパティ
行列演算
ufunc関数
効果
ndarray 配列を処理できる関数は直接使用できます。
共通操作
算術
比較演算
論理演算
np.all(x) 関数は、x に対して論理 AND を使用することを意味します。
np.any(x) 関数は、x に対して論理 OR を使用することを意味します。
ブロードキャストメカニズム
異なる形状の配列間で算術演算を実行する方法を指します。
原則として
すべての入力配列を最も長い形状の配列と揃え、形状の欠落部分は先頭に 1 を追加することで補います。
出力配列の形状は、入力配列形状の各軸の最大値です。
入力配列の軸が出力配列の対応する軸と同じ長さであるか、その長さが 1 の場合、この配列は計算に使用できます。それ以外の場合はエラーが発生します。
入力配列の軸の長さが 1 の場合、この軸に沿って操作する場合は、この軸上の最初の値のセットが使用されます。
ファイルの読み取りと書き込み
バイナリーファイル
numpy.save(ファイル、arr、allow_pickle=True、fix_imports=True)
注: 保存パスにはディレクトリが存在する必要があります。保存機能ではディレクトリは自動的に作成されません。
numpy.load(ファイル、mmap_mode=None、allow_pickle=True、fix_imports=True、encoding='ASCII')
テキストファイル
np.savetxt(fname, X, fmt='%.18e', delimiter=' ', newline=' ', header='', footer='', comments='# ')
numpy.loadtxt(ファイル名, dtype=int, delimiter=' ')
簡易分析
選別
直接仕分け
値を直接並べ替えることを指します
numpy.sort(a, 軸, 種類, 順序)
ある
ソートする配列
軸
配列がソートされる軸、または配列が展開されない場合は最後の軸に沿って
親切
デフォルトは「クイックソート」(クイックソート)です。
注文
配列にフィールドが含まれている場合、並べ替えの基準となるフィールド
間接選別
1 つ以上のキーに基づいてデータ セットを並べ替えることを指します。
numpy.argsort(a)
この関数は、指定された軸に沿って入力配列の間接的な並べ替えを実行し、指定された並べ替えタイプを使用してデータのインデックス (添え字) の配列を返します。
numpy.lexsort(a,b)
この関数は、スプレッドシートの列として考えることができる一連のキーを使用して間接ソートを実行し、インデックス (添え字) の配列を返します。
重複を削除する
numpy.unique
統計関数
マットプロットライブラリ
導入
データグラフを簡単に描画できる豊富な数学描画機能を提供します。
その他の視覚的な統計ツール
eチャート
単語の雲
標準的な方法
基本的なプロセス
キャンバスの作成
<部分グラフを作成するかどうか>
選択したサブプロット
X、Y軸の設定
凡例の追加 (詳細)
<描画が完了したかどうか>
表示を保存する
ステップ分析
キャンバスの作成
plt.figure(figsize=(x,y))
キャンバスがある場合は、複数のグラフィックを作成できます
plt.subplot(nrows, ncols, インデックス)
nrows パラメータは、データ グラフ領域を何行に分割するかを指定します。
ncols パラメータは、データ グラフ領域を何列に分割するかを指定します。
インデックスパラメータは取得する領域を指定します
選択したサブプロット
折れ線グラフ
プロット
散布図
散らばる
棒グラフ
レベル
バー
垂直
バール
ヒストグラム
履歴
円グラフ
パイ
...
X、Y軸の設定
軸
プロット
plt.plot(x,y)
x と y は 2 つの配列で、1 つだけを入力した場合、デフォルトの x 軸は配列の添字になります。
色、透明度、スタイル、幅などのパラメータもあります。
plt.plot(x, y, color='green',alpha=0.5,linestyle='-',linewidth=3,marker='*')
凡例の追加 (詳細)
タイトル、間隔の上限と下限、凡例、区切り、レイアウト、軸など。
タイトルを設定する
plt.xlabel('時間')
plt.ylabel("温度")
plt.title('タイトル')
中国語表示
plt.rcParams['font.sans-serif'] = ['SimHei']
カスタム X 軸スケール
plt.xticks(range(0,len(x),4),x[::4],rotation=45)
X軸間隔と上下限値
plt.set_xlim([xmin, xmax]) #X軸の間隔を設定する
plt.axis([xmin, xmax, ymin, ymax]) #X, Y 軸間隔
plt.set_ylim(bottom=-10) #Y軸下限値
plt.set_xlim(right=25) #X軸上限
簡単な方法
matplotlib.pyplotをpltとしてインポート plt.plot(x,y) plt.show()
パンダ
特徴
シンプルで効率的なオブジェクトにデフォルトのラベルが付けられます (ラベルをカスタマイズすることもできます)。
さまざまな形式のファイル (Excel、CSV、SQL ファイルなど) からデータを迅速にロードし、それらを処理可能なオブジェクトに変換する機能。
行ラベルと列ラベルによってデータをグループ化し、グループ化されたオブジェクトに対して集計および変換操作を実行する機能。
データ正規化操作と欠損値処理を簡単に実装できます。
DataFrame のデータ列の追加、変更、削除は簡単です。
マトリックス データ、異種データ テーブル、時系列など、さまざまな形式のデータ セットを処理できます。
サブセットの構築、スライス、フィルタリング、グループ化、並べ替えなど、データ セットを処理するさまざまな方法を提供します。
組み込みのデータ構造
シリーズ
意味
1 次元。文字、整数、浮動小数点数、Python オブジェクトなどのさまざまなデータ型を格納できます。シリーズは、名前属性とインデックス属性を使用してデータ値を記述します。
作成する
s=pd.Series(データ、インデックス、dtype、コピー)
データ
入力データは、スカラー、リスト、辞書、ndarray 配列などです。
索引
インデックス値は一意である必要があります。インデックスが渡されない場合は、デフォルトの np.arrange(n) が使用されます。
dtype
dtype はデータ型を表します。指定しない場合は自動的に決定されます。
コピー
データのコピーを示します。デフォルトは False です。
基本操作
アクセス
添字インデックス
類似リスト
タグインデックス
辞書に似ている
Numpy の計算と演算が適用可能
スライス可能
共通のプロパティ
dtype
オブジェクトのデータ型を返します。
空の
空の Series オブジェクトを返します。
ンディム
入力データの次元を返します。
サイズ
入力データの要素数を返します。
サイズとカウントの違い: サイズにはカウント時に NaN 値が含まれますが、カウントには NaN 値は含まれません。
価値観
Series オブジェクトを ndarray として返します。
索引
インデックスの値の範囲を記述するために使用される RangeIndex オブジェクトを返します。
一般的な方法
説明する()
count: 数量統計。この列には有効な値がいくつありますか? unipue: 異なる価値観は何通りありますか? std:標準偏差 min: 最小値 25%: 四分位 50%: 2分の1パーセンタイル 75%: 4分の3 max: 最大値 意味:意味
head()&tail()でデータを表示
head(n) は最初の n 行のデータを返し、デフォルトでは最初の 5 行のデータを表示します。
tail(n) はデータの最後の n 行を返します。デフォルトは最後の 5 行です。
isnull()&nonull() は欠損値を検出します
isnull(): 値が存在しないか欠落している場合は True を返します。
notnull(): 値が存在しないか欠落している場合は False を返します。
値の数
統計的頻度
データフレーム
意味
2 次元、行インデックスと列インデックスの両方。行インデックスはindex、列インデックスはcolumnsです。構造を作成するときに、対応するインデックス値を指定できます。
テーブル内の各列のデータ型は、文字列、整数、浮動小数点など、異なる場合があります。
作成する
df =pd.DataFrame(データ、インデックス、列、dtype、コピー)
データ
入力データは、リスト、辞書のネストされたリスト、リストのネストされた辞書、辞書形式のシリーズなどです。
列インデックス操作
列インデックスはデータ列を選択します
print(df ['one'])
print(df[['単語', '漢字', '意味']])
列インデックスによりデータ列が追加されます
df['three']=pd.Series([10,20,30],index=['a','b','c'])
df['4']=df['1'] df['3']
df.insert(1,column='スコア',value=[91,90,75])
値 1 は、列リストに挿入されるインデックス位置を表します。
列インデックスのデータ列の削除
df.pop('2')
抽出された列を分割する
df[df[‘column_name’] == some_value]
行インデックス操作
タグインデックス
df1.loc["b" : "e", "bx" : "ex"]
最初に列に並び、次に列に並びます
添字インデックス
df1.iloc[2 : 6, 2 : 4]
最初に列に並び、次に列に並びます
ハイブリッドインデックス
df1.ix[2 : 6, "bx" : "ex"]
最初に列に並び、次に列に並びます
スライス操作の複数行選択
df[2:4]
データ行を追加
df = df.append(df2)
データ行の削除
df = df.drop(0)
分割フェッチ行
df.loc[df['column_name'] == str]
特定の列が NaN である行を出力します
df[df['word'].isna()]
共通のプロパティ
T
行と列を入れ替えます。
軸
行軸と列軸のラベルのみをメンバーとして含むリストを返します。
dtype
データの各列のデータ型を返します。
空の
DataFrame 内にデータがない場合、または座標軸の長さが 0 の場合は True が返されます。
ンディム
軸の数は、配列の次元も指します。
形
タプル (a,b) を返します。ここで、a は行数を表し、b は列数を表します。
サイズ
DataFrame 内の要素の数
サイズとカウントの違い: サイズにはカウント時に NaN 値が含まれますが、カウントには NaN 値は含まれません。
価値観
numpy 配列を使用して DataFrame 内の要素値を表す
一般的な方法
説明(include='all')
シリーズと同じ
パラメータを指定しないと、数値列のみがカウントされます。
頭()&尾()
シリーズと同じ
情報()
情報を見る
シフト()
指定した歩幅で行または列を移動します
ピボット()
特定の列が新しい行インデックスになるようにデータ フレーム内の列を変換し、このインデックスに対応するセルに別の列の値を入力します。
パラメータ
Index: 新しい行インデックスとなる列名
columns: 新しい列インデックスとなる列名
値: 新しい行インデックスと新しい列インデックスの間のセルを埋める列名
sort_values(by=‘ソート用の列名またはインデックス値’, axis=0, ascending=True, inplace=False, kind=‘quicksort’, na_position=‘last’,ignore_index=False, key=None)
sort_index(axis=0、level=None、ascending=True、inplace=False、kind='quicksort'、na_position='last'、sort_remaining=True、ignore_index=False、key=None)
axis: 軸のデフォルトは 0 (行インデックスに従ってソートすることを意味します)、axis は 1 に設定されます (列インデックスに従ってソートすることを意味します)。 level: デフォルトは None です。それ以外の場合は、指定されたレベルの順序で配置されます。 ascending: ascending のデフォルトは True (昇順) で、False に設定すると降順になります。 inplace: デフォルトでは False です。それ以外の場合は、並べ替えられたデータが元のデータ フレームを直接置き換えます。 種類: 並べ替え方法、{'クイックソート'、'マージソート'、'ヒープソート'}、デフォルトは 'クイックソート'。ユーザーが選択できる na_position: 欠損値はデフォルトで最後にランク付けされます {"first", "last"}。パラメータ "first" は先頭に NaN を置き、"last" は末尾に NaN を置きます。 ignore_index: ブール値、デフォルトは False、True の場合、軸はラベル 0、1、2 になります。これは新しく追加されます。 key: これは、ソートの前にインデックスの値に対して key 関数を実行する呼び出し可能な関数です。これは、組み込みのsorted()関数のkey関数に似ています。
トラバース
各行を反復処理する
df.iterrows() のインデックス、行の場合:
各列を反復処理します
列の場合、df.iteritems() の値:
データテーブルのクリーニング
空の値を数値 0 で埋める
df.fillna(値=0)
列プリンスの平均を使用して列 NA を埋めます
df['prince'].fillna(df['prince'].mean())
都市フィールドの文字スペースをクリアする
df['city']=df['city'].map(str.strip)
大文字と小文字の変換
df['city']=df['city'].str. lower()
データ型変換
df['価格'].astype(int)
列/行インデックスを変更する
すべて変更
手書き索引
df.columns=['a','b','c']
df.index=['a','b','c']
参照インデックス
df.set_columns("idx",inplace=False)
df.set_index("col",inplace=False)
一部変更
df.rename(columns={'category': 'category-size'},inplace=False)
df.rename(index={'category': 'category-size'},inplace=False)
繰り返す
重複の検索: df.duplicated() は、各行が重複しているかどうかを示すブール配列を返すことができます。
削除後に表示される重複した値
df['city'].drop_duplicates()
最初に表示される重複した値を削除します
df['city'].drop_duplicates(keep='last')
主キーを選択
サブセット=['学生番号']
NaN を削除する
df2=df.dropna(axis=0,how="all",inplace=False)
how="all" は、すべての NaN が存在する場合にのみ、特定の行 (列) が削除されることを意味します。 how="any" は、NaN が存在する限り、それが削除されることを意味します (デフォルト)。
データの置き換え
df['都市'].replace('sh', '上海')
データテーブルのマージ
マージ
pd=pd.merge(df,df1,how='inner') #一致、マージ、交差、デフォルト df_left=pd.merge(df,df1,how='left') df_right=pd.merge(df,df1,how='right') df_outer=pd.merge(df,df1,how='outer') #Union、効果は最初の 2 つの組み合わせと同じです
追加する
廃止されました。concat を使用することをお勧めします
参加する
連結
pd.concat(objs,axis=0,join='outer',join_axes=None,ignore_index=False,keys=None,levels=None,names=None,verify_integrity=False,copy=True)
統計
var()
分散
cov()
共分散
まとめ
サンプル1
df = pd.DataFrame({ 'A': ['a', 'b', 'a', 'c', 'a', 'c', 'b', 'c'], 'B': [2、8、1、4、3、2、5、9]、 'C': [102, 98, 107, 104, 115, 87, 92, 123]})
方法
列 A でグループ化し、他の列の平均を取得します
df.groupby('A').mean()
あるコラムを取り出してみる
print(df.groupby('key1')['data1'].mean())
複数の列によるグループ化 (groupby)
df.groupby(['A','B']).mean()
サンプル2
df = pd.DataFrame({' A': リスト('XYZXYZXYZX'), 'B': [1、2、1、3、1、2、3、3、1、2]、 'C': [12, 14, 11, 12, 13, 14, 16, 12, 10, 19]})
方法
列に対して agg() を使用するときにさまざまな統計演算を実行する
df.groupby('A')['B'].agg({'平均':np.mean, '標準偏差': np.std})
ラムダ演算
マイノリティポイントの補償
df['エクストラスコア'] = df['国籍'].apply (ラムダ x : 5 if x != '汉' else 0)
試験に合格する
df['pass_reading'] = df['読書スコア'].apply (ラムダ x: x >= 60 の場合は「合格」、それ以外の場合は「不合格」)
絵を描く
ax = series1.plot(kind='bar')
fig = ax.get_figure() fig.subplots_adjust(bottom=0.4) fig.savefig('output.png')
pd.plot(kind='scatter',x="a",y="b",alpha=0.1)
アルファは透明度です
pd.hist(bins=50,figsize=(7,7))
データの入出力
入力
CSVを読む
df = pd.read_csv("mtcars.csv", エンコーディング="utf-8")
Excel への書き込み
df = pd.read_excel("mtcars.csv")
出力
Excel への書き込み
pd.to_excel('excel_to_python.xlsx',sheet_name='bluewhale_cc')
CSVへの書き込み
pd.to_csv('excel_to_python.csv')
パンダとNumPyの違い
日付時刻
1).date サブクラスは日付と時系列データを作成でき、2).time サブクラスは時と分の時刻データを作成でき、3).datetime サブクラスは日付と時分データを記述できます。
インポート日時 cur = datetime.datetime(2018,12,30, 15,30,59) print cur,type(cur) d = 日時.日付(2018,12,30) 印刷された t = datetime.datetime(2018,12,30).now() 印刷する
2018-12-30 15:30:59 <タイプ 'datetime.datetime'> 2018-12-30 2018-12-16 15:35:42.757826
4) datetime の timedelta モジュールを使用して、時間間隔 (差) を与えることができます。
インポート日時 cur0 = 日時.日時(2018,12,30, 15,30,59) 印刷cur0 cur1 = cur0 datetime.timedelta(日数 = 1) 印刷cur1 cur2 = cur0 datetime.timedelta(分 = 10) 印刷cur2 cur3 = cur0 datetime.timedelta(分 = 29、秒 = 1) 印刷cur3
2018-12-30 15:30:59 #cur0 2018-12-31 15:30:59 #cur1 2018-12-30 15:40:59 #cur2 2018-12-30 16:00:00 #cur3
日時データを含む時系列データを作成します。これは、日時作成時刻をインデックスとして使用することを意味します。
from datetime import datetime、timedelta numpyをnpとしてインポート パンダをPDとしてインポートする b = 日時(2018,12,16, 17,30,55) vi = np.random.randn(60) ind = [] range(60) の x の場合: bi = b タイムデルタ(分 = x) ind.append(bi) ts = pd.Series(vi, インデックス = ind) ts[:5]を出力します
2018-12-16 17:30:55 -1.469098 2018-12-16 17:31:55 -0.583046 2018-12-16 17:32:55 -0.775167 2018-12-16 17:33:55 -0.740570 2018-12-16 17:34:55 -0.287118 dtype: float64
補充する
親切
履歴クラス
値を整数として表される数量にマッピングします
PMFクラス
浮動小数点数として表現される確率に値をマッピングします。
上記のプロセスは正規化と呼ばれます。つまり、確率の合計が 1 になります。
CDFクラス
PMFのデメリット
PMFの適用範囲:処理対象のデータが比較的小さい場合
データが増加するにつれて、各値の確率は減少し、ランダム ノイズの影響が増加します。
解決
データのグループ化: グループ化間隔のサイズを決定するにはスキルが必要です
グループ化間隔がノイズを除去するのに十分な大きさである場合、有用な情報が破棄される可能性があります。
CDF
累積分布関数
これは、確率密度関数の積分である実際の確率変数 X の確率分布を完全に記述することができます。
パーセンタイルランク
テストのスコアを例に挙げます。2 つの形式で表示されます 1. 生のスコア 2. パーセンタイル ランク: 受験者の総数のうち、元のスコアがあなたのスコアより高くない人の割合に 100 を掛けます。 例: 誰かが 90 パーセンタイルにランクされている場合、その人のスコアは 90% の人々よりも優れているか、少なくとも受験者の 90% よりも劣っていないことを意味します。
CDF を計算した後、パーセンタイルとパーセンタイル ランクをより簡単に計算できます。
関数
パーセンタイルランク(x)
指定された値 x について、そのパーセンタイル ランクを計算します。
100*CDF(x)
パーセンタイル (p): 指定されたパーセンタイル ランクについて、対応する値 x を計算します。
四分位範囲
四分位数
四分位範囲は、離散データの分布を表す統計学の指標です。これは、それぞれデータ内の 25、50、および 75 パーセンタイルの位置を表します。
四分位範囲
上位四分位から下位四分位を引いたものが 4 分の 4 の範囲です。
効果
四分位範囲は、データの分散度を表します。四分位範囲が大きいほど、データの分散度は高くなります。
箱ひげ図
最小値、下位四分位、中央値、上位四分位、および最大値を使用して、箱ひげ図を描くことができます。
外れ値
ちなみに、外れ値を定義する方法を紹介します。値が極端に小さい場合、つまり下位四分位から四分位間範囲の 1.5 倍を引いた値より小さい場合は、それに応じて外れ値としてカウントされます。値が極端に大きい場合は、外れ値としてカウントされます。下四分位から四分位間範囲の 1.5 倍を引いたものよりも小さく、上位四分位に四分位間範囲の 1.5 倍を加えたものはさらに大きく、外れ値としてカウントされることもあります。
CCDF(a) = P(X > a)= 1- CDF(a)
コンセプト
PDF: 確率密度関数。数学では、連続確率変数の確率密度関数 (混乱しない場合は密度関数と呼ぶこともあります) は、ある関数における確率変数を記述する出力値です。値ポイントに近い可能性。
PMF: 確率質量関数。確率理論では、確率質量関数は、離散確率変数が特定の値を取る確率です。
CDF: 累積分布関数 (累積分布関数) は、分布関数とも呼ばれ、確率密度関数の積分であり、実際の確率変数 X の確率分布を完全に記述することができます。
分布モデリング
指数分布
正規分布
確率密度関数
累積分布関数
対数正規分布
値の集合が対数変換後に正規分布に従う場合、それは対数正規分布に従うと言われます。つまり、log(x) を使用して正規分布の x を置き換えます。
パレート分布 パレート
変数間の関係
共分散
共分散は、関連する変数の変化傾向が同じかどうかを測定するために使用できます。また、2 つの変数の全体的な誤差を測定するためにも使用できます。
値と単位は解釈が難しいため、一般的にはあまり使用されません。
分散は、2 つの変数が同一である場合の共分散の特殊なケースとみなすことができます。
2 つの変数の変化傾向が一貫している場合、つまり、一方がそれ自体の期待値よりも大きく、もう一方がそれ自体の期待値よりも大きい場合、2 つの変数間の共分散は正になります。
2 つの変数の変化傾向が逆の場合、つまり、一方の変数がその期待値よりも大きく、もう一方の変数がその期待値よりも小さい場合、2 つの変数間の共分散は負になります。
ピアソンランク ピアソン
適用範囲
2 つのデータ変数の分布は正規分布であり、両者の間には線形関係があります。
元の値を標準分数に置き換えて、2 つの標準分数の積を計算します。
はピアソン相関係数と呼ばれます。ここで、-1<=p<=1、 p=1: 2 つの変数が完全に正の相関があることを示します。 p=-1: 2 つの変数が完全に負の相関関係にあることを示します。
槍兵ランク スピアマン
適用範囲
外れ値があり、変数の分布は非常に非対称です。
まずシーケンス内の値のランク、つまりシーケンス内の特定の値のソートされた位置を計算し、次にランクのピアソン相関係数を計算します。
サンプル
シーケンス {7、1、2、5} シーケンスを小さいものから大きいものに並べ替えると、結果は {4, 1, 2, 3} になります。 つまり、5 のランクは 3 になります。