ディープラーニングにおける正則化(I)

この記事の初出はパブリックナンバー：です。

はじめに

本連載は『ディープラーニング』読書メモのための記事ですが、原著を参照して一緒に読むとより効果的です。今回はディープラーニングにおける正則化についてです。

ディープラーニングにおける正則化

一般的に、ディープラーニングが行うのは、既存のトレーニングセットでネットワークモデルをトレーニングし、新しいデータに対して予測を行うことです。あるケースでは、モデルはトレーニングセットでは良い結果を出し、テストセットでは悪い結果か平凡な結果を出します。モデルのトレーニングが目的であるため、比較においては後者が好ましいです。

トレーニングセットでのパフォーマンスが良ければ良いほど、テストセットでのパフォーマンスも良くなるはずではありませんか？前回の記事で分析したように、トレーニングセットのオーバーフィッティングは、それほど重要でないベクトルや因子を増幅する傾向があり、オーバーフィッティングは汎化能力の損失につながります。正則化はテスト誤差を減らすように設計されていますが、トレーニング誤差を増やすという代償を払うこともありますが、その価値はあります。正則化の簡単で厳密でない定義を以下に示します：

正則化：学習誤差よりも汎化誤差を減らすために行われるアルゴリズムの修正

推定値は正則化されることが多く、推定値の正則化はバイアスの増加と分散の減少を交換する形をとります。正則化ストラテジーを分析し、次に個別に説明します。

レギュラー化戦略

パラメトリックパラダイムペナルティ

\tilde{J} (θ; X, y) = J (θ; X, y) + α Ω (θ), α \in [0, \infty)

=J+αΩ,α∈[,∞)J=J+αΩ,α∈[0,∞)

αはペナルティパラメータで、αが0のときはペナルティなし、Ωはパラダイムペナルティ項、Jはターゲット。ニューラルネットワークでは、パラメータには各層のアフィン変換の重みとバイアスが含まれ、ペナルティを受けるのは重みだけです。

L2

分散が大きい入力があると認識すると、出力対象との共分散が小さい特徴量の重みが小さくなります。

目标函数： \tilde{J} (θ; X, y) = J (θ; X, y) + \frac{α}{2} w^{T} w, Ω (θ) = \frac{1}{2} ∣ ∣ w ∣ 梯度： \nabla_{w} \tilde{J} (θ; X, y) = α w + \nabla_{w} J (θ; X, y) 单步梯度下降更新权重： w \leftarrow w - ϵ (α w + \nabla_{w} J (θ; X, y))

=J+αwTw,Ω=∣w∣∇w=αw+∇wJw←w-Ll_3F5)目的関数：J=J+2αwTw,Ω=21∣w∣22勾配：∇wJ=αw+∇wwJシングルステップ勾配降下による重みの更新：w←w-ϵ

L1

目标函数： \tilde{J} (θ; X, y) = J (θ; X, y) + α ∣ ∣ w ∣ ∣_{1} 梯度： \nabla_{w} \tilde{J} (θ; X, y) = α s i g n (w) + \nabla_{w} J (θ; X, y)

=J+α∣w∣∣w=αsign+∇wJ目的関数：J=J+α∣w∣∣1勾配：∇wJ=αsign+∇wJ

要約すると

本稿では、最も一般的な正則化戦略の1つであるパラメトリック・パラダイム・ペナルティについて説明し、最も一般的な2つのパラダイム・ペナルティ戦略、L2とL1を紹介します。

この記事の初出はパブリックナンバー：です。

ディープラーニングにおける正則化(I)

はじめに

ディープラーニングにおける正則化

レギュラー化戦略

パラメトリックパラダイムペナルティ

L2

L1

要約すると

Read next

JPEG/Exif/TIFFフォーマットの解釈（1）：JEPG画像圧縮と保存原理の解析

いつもhttpステータスコードを要求するのか？これをブックマークしておけば十分だ！

文字列(08)の開始から終了までのRedis値

プログラマのための数学3 線形代数 (1)の学習ノート

デザイン・パターンファクトリー・パターン

MockitoフレームワークのモックVoidメソッド

ディープラーニングにおける正則化(I)

はじめに

ディープラーニングにおける正則化

レギュラー化戦略

パラメトリックパラダイムペナルティ

L2

L1

要約すると

Read next

JPEG/Exif/TIFFフォーマットの解釈（1）：JEPG画像圧縮と保存原理の解析

いつもhttpステータスコードを要求するのか？これをブックマークしておけば十分だ！

文字列(08)の開始から終了までのRedis値

プログラマのための数学3 線形代数 (1)の学習ノート

デザイン・パターン ファクトリー・パターン

MockitoフレームワークのモックVoidメソッド

デザイン・パターンファクトリー・パターン