マインドマップギャラリー 画像分割アルゴリズム
従来の画像セグメンテーション方法、パフォーマンス分析の比較と要約、セグメンテーション ネットワーク モデルなどを含む、画像セグメンテーション方法のレビュー マインド マップ。興味があればご覧ください。
2023-03-06 12:25:07 に編集されました画像セグメンテーション手法のレビュー
導入
画像のセグメンテーション: 画像を独立した意味のあるサブ領域に分割します。
同じ領域内のピクセル: 相関
さまざまな領域のピクセル: 違い
従来の画像セグメンテーション手法
使用:
画像処理の前処理手順
画像の主要な特徴情報を取得する
画像解析効率の向上
分類
しきい値ベース: グレースケール画像セグメンテーション法
本質: 異なるグレースケールしきい値を設定し、画像のグレースケール ヒストグラムを分類します (同じグレースケール範囲は同じカテゴリに属し、一定の類似性があります)。
プロセス:
f(i,j): (i,j) のグレー値を表します。
T: グレースケールのしきい値
画像ピクセルのグレー値をしきい値と比較することにより、ターゲットと背景の 2 つの部分に分割され、出力画像 g(i,j) は 0 または 1 の値に変化します。
1 (ターゲット): f(i,j)>=T
0 (背景): f(i,j)<T
閾値 T が大きいほど、より多くのピクセルがターゲットに分割されます。
分類:
ポイントベースのグローバルしきい値セグメンテーション法
領域ベースのグローバルしきい値セグメンテーション法
局所閾値セグメンテーション法
……
分析した内容:
該当する状況:
ターゲットグレーレベルは均等に分布しており、ほとんど変化しません
対象物と背景のグレースケールの違いが一目瞭然
アドバンテージ:
シンプルで実装が簡単
効率的
不十分:
ピクセル自体のグレー値のみが考慮され、画像のセマンティクスや空間などの特徴情報は考慮されません。
ノイズの影響を受けやすい
複雑な画像には最適ではありません
実用的なアプリケーション:
前処理方法
他のセグメンテーション方法と組み合わせて使用する
エッジベース
理論的根拠: 境界ピクセルのグレー値は、隣接ピクセルのグレー値と大きく異なります。
処理:隣接するピクセルとのグレー値の差が大きい点(エッジ点)を接続し、境界線を形成します
分類:
連続エッジ検出方法: まずエッジの開始点を検出し、開始点から開始し、類似性基準によって隣接するエッジ点を検索して接続します。
平行エッジ検出方法: 空間微分演算子を使用してテンプレートと画像を畳み込みます
ロバーツ
ソーベル
プレウィット
ログ
キャニー
……
概要: 実際のアプリケーションでは、平行エッジ検出方法はシンプルかつ高速で、比較的優れたパフォーマンスを備えており、最も一般的に使用される方法です。
地域に基づく
アルゴリズム原理: 画像の空間情報に従ってセグメント化し、ピクセルを分類し、ピクセルの類似性特徴を通じて領域を形成します。
分類
リージョングローイング法
原理: 類似した特性を持つピクセルを集めて独立した領域を形成する
プロセス:
1. 成長の開始点としてシード ポイントのグループを選択します (単一ピクセルまたは小さな領域のいずれか)
2. 成長基準に従って、シード ポイントと同様の特性を持つ近隣のピクセルをシード ポイントが配置されている領域にマージします。
3. 新しいピクセルをシード ポイントとして使用し、すべての領域が検出されて成長が停止するまで繰り返します。
本質的なもの
シードポイント
選定方法
人為的選択
アルゴリズムが自動的に選択します
成長基準(画像特徴情報)
色
テクスチャ
空間
……
分析済み
メリット:計算が簡単
不十分:
1. ノイズに敏感
2. 地域の欠員につながりやすい
分割マージ方式
アルゴリズムの本質: 画像の各サブ領域を取得するための連続的な分割と結合
プロセス:
1. 画像を規則的な領域に分割します
2. 類似性基準に従って、異なる特性を持つエリアを分割し、分割や合併が発生しなくなるまで同じ特性を持つ隣接するエリアをマージします。
重要な点/困難な点
初期パーティション
分割/マージの類似性基準
分析済み
利点: 複雑な画像に対するセグメンテーション効果が向上します。
不十分:
1. 複雑な計算
2. 分割中に境界が突破される可能性がある
クラスタリングに基づく
アルゴリズム原理: 同様の特性を持つピクセルを同じ領域に集め、クラスタリングの結果を収束するまで繰り返し、最終的にすべてのピクセルをいくつかの異なるカテゴリに集めて、画像領域の分割 == 画像セグメンテーションを完了します。
代表的なアルゴリズムの解析例
単純な線形反復クラスタリング SLIC (スーパーピクセル セグメンテーション) ==>画像セグメンテーションはピクセルクラスタリング問題に変換されます
アルゴリズムのアイデア: クラスタリングに基づいて、画像内のピクセルがスーパーピクセル ブロックに分割されます。
アルゴリズムのステップ:
1. RGB カラー画像マッピングを Lab 画像に変換します。 (ラボスペースはより広い色領域を保持し、より豊かな色特性を提供します)
L:明るさ
a: マゼンタからグリーンまでの範囲
b: 黄色から青色の範囲
2. 各ピクセルの色の特徴(L、a、b)と座標(x、y)をベクトル(L、a、b、x、y)に結合して距離を測定します
ピクセル i と j の間の色の距離
ピクセル i と j の間の空間距離
最終的な距離が測定される
最大色の距離: 整数 [1,40] を取得します。
クラス内の最大空間距離
スーパーピクセル ブロック サイズ - 隣接するシード ポイント間の距離
画像内の総ピクセル数
事前にセグメント化されたスーパーピクセル ブロックの合計
アドバンテージ
安定したパフォーマンス
優れた堅牢性
適用可能: 画像セグメンテーション、姿勢推定、ターゲット追跡と認識など。
グラフ理論に基づく
アルゴリズムのアイデア: セグメンテーション問題をグラフ分割に変換し、目的関数の解を最適化することでセグメンテーションを完了します。
古典的なアルゴリズムの例
グラフカット
アルゴリズムのアイデア: 最小カット問題を画像分割問題に適用して、画像を前景と背景に分割します。
アルゴリズムの紹介:
1. 画像を S-T ダイアグラムにマッピングする
重み付きの無向グラフ G=(V,E)
V: 頂点セット == 元の画像のピクセル点に対応する頂点
E: エッジセット == エッジの重みはピクセル間の類似度です
各ノードは終端頂点 S および T に接続され、点線のエッジを形成します。
S に接続された頂点の点線のエッジの重みは、その点が前景ターゲットである確率です。
T に接続された頂点の点線エッジの重みは、その点が背景である確率です
1 つの種類のエッジ: ピクセル点を表す通常のノードを相互に接続することによって形成されるエッジ。もう 1 つの種類のエッジ: 終端頂点とそれを接続するノードの間のエッジ。
2. エネルギー損失関数を最小化する問題を解決する
カット: エッジ セット内のすべてのエッジが切断されます - S-T グラフの分離
最小カット: カット内の対応するエッジのすべての値の合計が最小です
3. 最小カットを見つけて継続的に繰り返す
評価、エネルギー損失関数の最小値を求める
利点: 画像のグレースケール情報を使用し、領域境界情報も使用します。最も右側のソリューションを通じて、最良のセグメンテーション効果が得られます。
不十分
計算量が多い
同じクラス内類似性を持つ画像をセグメント化することを好む
グラブカット
ワンカット
……
特定の理論に基づいて
数学的形態学理論
ノイズの影響を克服し、鮮明なエッジ画像を取得
遺伝的アルゴリズム
適者生存をシミュレートして最適なソリューションを取得し、最適なセグメンテーションを実現します。
ウェーブレット変換
アクティブ輪郭モデル
ファジー理論
大まかな集合理論
……
深層学習セグメンテーションネットワークモデルに基づくセグメンテーション手法
フルコンボリューションネットワーク FCN (フルコンボリューションネットワーク) - 画像セマンティックセグメンテーション
アルゴリズムのアイデア:
8 層の畳み込み処理の後、特徴マップはアップサンプリングされてデコンボリューション操作が実装され、SoftMax 層によって分類され、最後にセグメンテーション結果が出力されます。複数の畳み込み操作により、特徴マップのサイズは元の入力画像よりもはるかに小さくなります。と、直接分類された画像情報の多くが失われ、セグメンテーションの精度に影響を与えます。
アップサンプリングプロセスはスキップ戦略を採用しています
アルゴリズムプロセス
深いデータと浅い情報を結合し、元の画像の出力を復元して、より正確なセグメンテーション結果を取得します。
さまざまなプーリング層に応じて、次のように分けられます。
FCN-32s モデルのセグメンテーション結果
さまざまなレベルの機能マップ
コンボリューション:7回
FCN-16 モデルのセグメンテーションの結果
プーリング:4回 - Pool4層
共一次補間法 -- Conv7
融合後のアップサンプリング分類
FCN-8s モデルのセグメンテーション結果
プーリング:3回 - Pool3層
双一次補間法 - Conv7層、Pool4層
融合後のアップサンプリング分類
FCN-8s: より多くのレイヤーの特徴情報を統合し、セグメント化してより鮮明な輪郭情報を取得します。セグメント化効果は比較的良好です。
アルゴリズムの評価
画像をピクセル レベルで分類し、画像のセマンティック セグメンテーションの問題を効果的に解決できます。
任意のサイズの画像を入力可能
初のエンドツーエンドのセグメント化されたネットワーク モデル
不十分
ネットワークが比較的大きいため、画像の詳細情報に対する感度が十分ではありません
ピクセル間の相関が低い - ターゲットの境界がぼやけている
ピラミッド シーン解析ネットワーク PSPNet (ピラミッド シーン解析ネットワーク) - 画像セマンティック セグメンテーション
アルゴリズム的思考
コンテキスト情報を統合し、グローバルな特徴に関する事前知識を最大限に活用し、さまざまなシーンを分析し、シーン ターゲットのセマンティック セグメンテーションを実現します。
アルゴリズムプロセス
1. 与えられた入力画像
2.CNN: 畳み込み層の特徴マップを取得する
3. ピラミッド プーリング モジュール: さまざまなサブ間隔の特徴を収集します
4. アップサンプリング
5. 各サブ領域の特徴を連結して融合する
6. ローカルおよびグローバルのコンテキスト情報を含むフォーム フィーチャ表現
7. 特徴表現の畳み込みと SoftMax 分類
8. 画素ごとの予測結果
アルゴリズムの評価
シーン解析およびセマンティック セグメンテーション タスク用 - 適切なグローバル特徴を抽出可能
ピラミッド プーリング モジュールを使用してローカル情報とグローバル情報を融合する
中程度の監視損失に対する最適化戦略を提案する
短所: ターゲット間のオクルージョンの処理は理想的ではありません。
DeepLab シリーズ モデル - ディープ ニューラル ネットワーク モデル、画像セマンティック セグメンテーション
アルゴリズムの核心: atrous コンボリューション (コンボリューション カーネルをジャックする方法) の使用
特性応答を計算するときに応答の解像度を明示的に制御します
コンボリューションカーネルの受容野を拡大する
パラメータや計算の量を増やすことなく、より多くの特徴情報を統合します
開発パス
初期の DeepLab モデル
アルゴリズムの説明
入力画像
Atrous 畳み込み層を使用したディープ畳み込みニューラル ネットワーク (DCNN) によって処理 - 粗いスコアリング マップ
双一次補間アップサンプリング
全結合条件付きランダム場 (CRF) の導入
出力画像
アルゴリズムの評価
グローバル情報を十分に考慮して、ターゲット エッジ ピクセルをより正確に分類します
ノイズ干渉を排除し、セグメンテーションの精度を向上させます。
DeepLab-v2 モデル
atrous を多孔質空間ピラミッド プーリング (ASPP) モジュールとして拡張する
カスケード、マルチスケール Atrous 畳み込み層と特徴マップの融合
後処理として完全に接続された CRF を維持する
DeepLab-v3 モデル
畳み込みプーリング: 画像サイズが 4 分の 1 に削減
3 ブロック モジュール コンボリューション: 画像を 8 倍に縮小
線形整流機能(ReLU):画像を16倍に縮小
プーリング:画像を16倍に縮小
ブロック4の処理
ASPPモジュール:異なる多孔質畳み込みの融合(ジャック数レート=6、12、18)
1*1 畳み込み層とグローバル プーリング層の統合: 特徴マップは 16 分の 1 に削減
分類予測: セグメンテーション マップ
DeepLad-v3 モデルのエンコードおよびデコード構造
アルゴリズムの説明
コーディング部分:DeepLab-v3モデル
デコード部入力
DCNN の浅い特徴マップ
畳み込み後の ASPP 融合特徴マップ
デコードモジュール
畳み込み: 入力浅い特徴マップ
Fusion: アップサンプリングされた ASPP 機能マップ
出力: 畳み込みおよびアップサンプリングされた元のサイズのセグメンテーション マップ
アルゴリズムの評価
前景のターゲットと背景を明確に区別する
ターゲットエッジが明確に定義されている
このモデルにより、きめの細かいセグメンテーションが可能になります
マスク R-CNN -- 画像インスタンスのセグメンテーション
起源: Faster R-CNN に基づく
アルゴリズムの説明
アルゴリズムフレームワーク
最初の段階:
地域提案ネットワーク (RPN) - ターゲット境界フレームワークの候補を提案します
境界ボックス内のコンテンツ (RoI) は RoIAlign によって処理されます。RoI は m*m 個のサブ領域に分割されます。
第2段:
予測クラスと境界ボックス回帰タスクと並行して、各 RoI のバイナリ マスクを出力するブランチを追加します。 つまり、各 RoI は FCN でセグメント化され、セグメンテーション マスクはピクセルごとに予測されます。
トレーニングフェーズ: マルチタスク損失制約 L を使用する
L=ターゲット分類損失、検出タスク損失、インスタンス分割損失
アルゴリズムの評価
セマンティック セグメンテーションに基づいて、インスタンス セグメンテーションが実現されます。これにより、前景ターゲットの正確な検出と位置決めが行われ、類似したターゲットの異なる個人が区別されます。
セマンティック セグメンテーション: 画像内に存在するコンテンツと場所を識別する
インスタンスのセグメンテーション: セマンティック セグメンテーションに基づいて、同じカテゴリ内の異なる個人を区別します。
より高いセグメンテーション精度
モデルの柔軟性が向上
さまざまなコンピュータ ビジョン タスクに使用可能
対象分類
ターゲットの検出
インスタンスの分割
人間の姿勢認識
……
パフォーマンス分析の比較と概要
パフォーマンス分析
深層学習セグメンテーション データセット:
パスカルVOC
マイクロソフトCOCO
都市景観
定性分析
定量分析
セマンティック セグメンテーション: 平均交差と和集合の比率 mIoU は、2 つのセットの積と和集合の比率を表し、セマンティック セグメンテーションでは、真の値と予測値のセットを指します。
インスタンスのセグメンテーション: ピクセル精度 PA。これは、総ピクセルに対する正しく分類されたピクセルの割合を表します。
要約する
現状:
画像セグメンテーションは、コンピュータ ビジョン タスクでますます使用されています。
精度と速度が大幅に向上しました
問題:
セグメンテーション データ セットの欠如と大量のアノテーション作業
サイズが小さいターゲットのセグメンテーションは十分な精度ではありません
セグメンテーション アルゴリズムは計算が複雑です
リアルタイムのインタラクティブなセグメンテーションを実現できないため、セグメンテーション技術の導入、応用、推進が妨げられている