二分法
例えば、以下のようなものです:
電子メールスパム検出 解約予測 変態予測 一般的に、2値分類タスクには、正常な状態に属するカテゴリと異常な状態に属するカテゴリが含まれます。
例えば、"Non-Spam "が正常状態、"Spam "が異常状態。また、検診業務では「がん未検出」が正常状態、「がん発見」が異常状態。
正常な状態のクラスにはカテゴリーラベル0が、異常な状態のクラスにはカテゴリーラベル1が割り当てられます。
2値分類タスクは通常、まず各サンプルのベルヌーイ確率分布モデルを予測することによってモデル化されます。
ベルヌーイ分布は、イベントの結果が0または1の両方のケースをカバーする離散確率分布です。結果が1と予測された場合、分類の場合、これはモデルがデータがクラス1に属すると予測したことを意味し、これは異常とも表現できます。
バイナリ分類に使用できる一般的なアルゴリズムには、以下のようなものがあります:
- ロジスティック回帰
- k
- 決定木
- サポート・ベクトル・マシン
- 単純ベイズ
複数カテゴリー分類
多カテゴリ分類とは、2つ以上のカテゴリラベルを持つ分類タスクを指します。
例えば、以下のようなものです:
- 顔分類
- 植物種の分類
問題のマルチヌーイ確率分布は、事象が明確な結果を持つ場合をカバーするもので、例えば{1, 2, 3, ... }の離散確率分布ķのようなものです。, ķ }.分類の場合、これはモデルがサンプルが各カテゴリ・ラベルに属する確率を予測できることを意味します。
2値分類に使われるアルゴリズムの多くは、多値分類の問題を解くのにも使えます。ロジスティック回帰
サポートベクターマシン
マルチクラス分類に使用できる一般的なアルゴリズムには、以下のようなものがあります:
さいきんしん
k
決定木
単純ベイズ
勾配ブースティング(Gradient Boosting) これは、各カテゴリの複数のバイナリ分類モデルを他のすべてのカテゴリに当てはめる戦略、または各カテゴリのペアに1つのモデルを当てはめる戦略の使用を含みます。
1対多:各カテゴリのバイナリ分類モデルを他のすべてのカテゴリに適合させます。
1対1:各カテゴリのペアに対してバイナリ分類モデルを適合させます。多重分類にこれらの戦略を使用できるバイナリ分類アルゴリズムには、以下のものがあります:
マルチラベル分類
マルチラベル分類[7]は、2つ以上の分類ラベルを持つ分類タスクで、各サンプルは1つ以上の分類ラベルを予測することができます。
写真分類[8]の例を考えてみましょう。与えられた写真にはシーン内に複数のオブジェクトがあり、モデルは写真内の複数の既知のオブジェクトの存在を予測します。「など。
複数の出力を予測するモデルを使用して、マルチラベル分類タスクをモデル化するのが一般的で、それぞれの出力はベルヌーイ確率分布として予測されます。基本的に、これは各サンプルに対して複数のバイナリ分類予測を行うモデルです。
バイナリまたはマルチクラス分類に使用される分類アルゴリズムは、マルチラベル分類には直接使用できません。マルチラベル・バージョンのアルゴリズムとして知られる、標準的な分類アルゴリズムの特殊バージョンを使用することができます:
マルチラベル決定木
マルチラベルランダムフォレスト
マルチラベル勾配ブースティング
不均衡分類
不均衡分類とは、各カテゴリのサンプル数が一様に分布していない分類タスクです。
一般的に、アンバランス分類タスクは、訓練データセットのサンプルのほとんどが正常クラスに属し、少数のサンプルが異常クラスに属する2値分類タスクです。
- 不正識別
- 不正の識別
- 外れ値検出
これらの問題は二値分類タスクとしてモデル化されますが、特殊な技術が必要になる場合もあります。
専門的なモデリングアルゴリズムは、ほとんどのカテゴリーをアンダーサンプリングまたはオーバーサンプリングすることで、トレーニングデータセットのサンプルの構成を修正するために使用されます。
- 医療診断テスト
- ランダム・アンダーサンプリング[11]
学習データセットにモデルを当てはめる際、コスト重視の機械学習アルゴリズムなど、少数派に特化したモデリングアルゴリズムを使用することができます。
- SMOTE [12]
- コストを考慮した決定木
- コスト重視決定木
最後に、分類精度の報告には誤差が生じる可能性があるため、評価には他のパフォーマンス指標が必要になる場合があります。
- 精密
- 精度
- リコール