blog

ディープラーニングにおける正則化(I)

はじめに\n\nディープラーニングにおける正則化\n一般的に、ディープラーニングが行うことは、既存のトレーニングセットでネットワークモデルをトレーニングし、新しいデータに対して予測を行うことです。1つ...

Jan 14, 2021 · 6 min. read
シェア
  • この記事の初出はパブリックナンバー:です。

はじめに

本連載は『ディープラーニング』読書メモのための記事ですが、原著を参照して一緒に読むとより効果的です。今回はディープラーニングにおける正則化についてです。

ディープラーニングにおける正則化

一般的に、ディープラーニングが行うのは、既存のトレーニングセットでネットワークモデルをトレーニングし、新しいデータに対して予測を行うことです。あるケースでは、モデルはトレーニングセットでは良い結果を出し、テストセットでは悪い結果か平凡な結果を出します。モデルのトレーニングが目的であるため、比較においては後者が好ましいです。

トレーニングセットでのパフォーマンスが良ければ良いほど、テストセットでのパフォーマンスも良くなるはずではありませんか?前回の記事で分析したように、トレーニングセットのオーバーフィッティングは、それほど重要でないベクトルや因子を増幅する傾向があり、オーバーフィッティングは汎化能力の損失につながります。 正則化はテスト誤差を減らすように設計されていますが、トレーニング誤差を増やすという代償を払うこともありますが、その価値はあります。正則化の簡単で厳密でない定義を以下に示します:

正則化:学習誤差よりも汎化誤差を減らすために行われるアルゴリズムの修正

推定値は正則化されることが多く、推定値の正則化はバイアスの増加と分散の減少を交換する形をとります。正則化ストラテジーを分析し、次に個別に説明します。

レギュラー化戦略

パラメトリックパラダイムペナルティ

J~(θ;X,y)=J(θ;X,y)+αΩ(θ),α[0,)=J+αΩ,α∈[,)J=J+αΩ,α∈[0,)

αはペナルティパラメータで、αが0のときはペナルティなし、Ωはパラダイムペナルティ項、Jはターゲット。ニューラルネットワークでは、パラメータには各層のアフィン変換の重みとバイアスが含まれ、ペナルティを受けるのは重みだけです。

L2

分散が大きい入力があると認識すると、出力対象との共分散が小さい特徴量の重みが小さくなります。

目标函数:J~(θ;X,y)=J(θ;X,y)+α2wTw,Ω(θ)=12w梯度:wJ~(θ;X,y)=αw+wJ(θ;X,y)单步梯度下降更新权重:wwϵ(αw+wJ(θ;X,y))=JwTw,Ω=∣w∣∇w=αw+∇wJw←w-Ll_3F5)目的関数:J=J+2αwTw,Ω=21∣w∣22勾配:∇wJ=αw+∇wwJシングルステップ勾配降下による重みの更新:w←w-ϵ
L1
目标函数:J~(θ;X,y)=J(θ;X,y)+αw1梯度:wJ~(θ;X,y)=αsign(w)+wJ(θ;X,y)=J+α∣w∣∣w=αsign+∇wJ目的関数:J=J+α∣w∣∣1勾配:∇wJ=αsign+∇wJ

要約すると

本稿では、最も一般的な正則化戦略の1つであるパラメトリック・パラダイム・ペナルティについて説明し、最も一般的な2つのパラダイム・ペナルティ戦略、L2とL1を紹介します。

  • この記事の初出はパブリックナンバー:です。
Read next

JPEG/Exif/TIFFフォーマットの解釈(1):JEPG画像圧縮と保存原理の解析

JPEGのフルネームは、それは一般的に使用される画像ストレージフォーマットであり、jpg/jpegは、24ビットの画像ファイル形式であり、また、高効率の圧縮形式であり、ファイル形式は、JPEG規格の製品であり、画像圧縮規格は、国際電気通信連合(Inte...

Jan 14, 2021 · 13 min read