作って遊ぶ機械学習。

~基礎的な確率モデルから最新の機械学習技術まで~

変分近似(Variational Approximation)の基本(2)

さて、前回は変分近似の目的(複雑過ぎて解析解が得られないような確率分布の近似)と、近似のための指標(KL divergence)に関して解説しました。

今回は、変分近似の「公式」を導いてみたいと思います。近似分布$q(z)$に関して「分解の仮定」を置くことにより、数値最適化における勾配法のような繰り返しの更新手続きが得られ、近似分布が数値的に計算できることを示します。

 

[必要な知識]

下記をさらっとだけ確認しておくといいです。

  • 前回の記事の内容
  • 勾配法

 

前回は、近似分布と真の事後分布の間のKL divergenceをなるべく小さくすることで、うまく近似分布を得ようという方針にしました。

\[ KL(q(z)||p(z|x)) = - \int q(z) \ln \frac{p(z|x)}{q(z)} dz \]

で、ここが一番のミソなのですが、変分近似では、近似したい分布を次のように複数の分布に分解されるという仮定を置きます。

\[ p(z|x) \approx q(z) = \prod_{i} q(z_i) \]

今回は簡単のために、2つの分布に分解するということにしておきましょう。*1

\[ q(z) = q(z_1)q(z_2) \]

変分近似におけるKL divergenceの最小化方法は、数値最適化における偏微分を使った勾配法と似たような繰り返し更新の戦略を取ります。つまり、$q(z_1)$と$q(z_2)$を一度にえいっと更新するのではなく、一方を固定して一方を更新、というのを繰り返します。

    1. $q(z_2)$をランダムに初期化する。
    2. $q(z_2)$を固定した上で、KL divergenceを最小化する$q(z_1)$を求める。
    3. $q(z_1)$を固定した上で、KL divergenceを最小化する$q(z_2)$を求める。
    4. 以上の2,3を十分な回数まで繰り返す。*2

 では、実際に上記のステップ2のための更新式を導いてみましょう。(ステップ3はステップ2と同じです。)

ここからちょっと数学になります。$q(z_1)$を更新するためには、$q(z_2)$を固定し、KL divergenceを$q(z_1)$のみの関数であると考えます*3。 式を式に代入し、KL divergeneの式から$z_1$に無関係な項を$c$にまとめてしまうと、

\[ KL(q(z)||p(z|x)) = - \int \int q(z_1)q(z_2) \ln \frac{p(z_1, z_2|x)}{q(z_1)q(z_2)} dz_1dz_2 \\ = - \int \int q(z_1)q(z_2) \{ \ln p(z_1, z_2|x) - \ln q(z_1) - \ln q(z_2) \} dz_1dz_2 \\ = - \int q(z_1) \bigl\{ \int q(z_2) \ln p(z_1, z_2|x) dz_2 - \int q(z_2) \ln q(z_1)dz_2 \bigr\}dz_1 \\ + \int q(z_1)q(z_2)\ln q(z_2) dz_1dz_2 \\ = - \int q(z_1) \{\int q(z_2) \ln p(z_1, z_2|x) dz_2 - \ln q(z_1) \}dz_1 + c \;\;\;\;(1) \]

積分計算が入れ子になっているので注意してください。さらに計算を進めると、この式は結局次のような開始地点とはまた別のKL divergenceに落ち着くことが分かります。

\[ (1) = - \int q(z_1) \ln \frac{exp \{\int q(z_2) \ln p(z_1, z_2|x) dz_2 \}}{q(z_1)}dz_1 + c \\ =KL(q(z_1) || exp \{ \int q(z_2) \ln p(z_1, z_2|x) dz_2 \} ) +c \]

KL divergenceは2つの分布が一致するとき、最小値0を取ります。したがって式の最小値は次のようにして得ることができます。

\[ \ln q(z_1) = \int q(z_2) \ln p(z_1, z_2|x) dz_2 + c \]

ここでの定数項$c$は分布を正規化(積分が1になる)するための定数です。上記の期待値計算(積分)はちょっと長ったらしいので、ブラケット$\langle \cdot \rangle$を使って書き直すのが便利です。

\[ \ln q(z_1) = \langle \ln p(z_1, z_2|x) \rangle_{q(z_2)} + c \]

一応この式が変分近似の公式になります。「自分以外の分布で期待値を取る」と覚えておけばOKです。

実際の応用では、具体的な確率モデルを設定し、上の期待値計算を頑張って手計算します。一つ大事なポイントは、この式を評価した結果が簡単に正規化できる(積分できる)確率分布になっていることです。これに関しては実際、モデルや分解の仮定を色々変えて手計算してみるという、地道な試行錯誤が必要な場合もあります。一方で、線形ガウスモデルや混合モデル、パラメータに対する共役事前分布の設定など、うまく計算できることが良く知られているモデルの構築方法があるので、よっぽどのことがない限り、そういった便利な部品を組み合わせるのが良いと思います。*4

 

さて、ひとまず確率モデルに基づく変分近似の適用方法をまとめておきましょう。

  1. 確率モデルを定義する。(混合ガウス分布、HMMなど)
  2. 事後分布に関する分解の仮定をする。
  3. 公式を使って更新式を導出する。
  4. 実装して動かす。*5

 

一応変分近似を使った近似アルゴリズムを動かすのに必要な知識はこれだけなのですが、なんだか抽象的で、なんだかしっくりこないなぁという感じがするんじゃないかと思います。

次回は、この方法を使って簡単な変分近似の使用例と、簡単ではない(けど現実的な)変分近似の使用例を紹介したいと思います。

[続き・関連]

変分近似(Variational Approximation)の基本(3) - 作って遊ぶ機械学習。

*1:実際の応用では、具体的なモデルに合わせて適切な分解を思いつく必要があります。例えば標準的な混合モデルでは、パラメータと隠れ変数の2つに分解すれば効率の良い近似アルゴリズムが得られます(EMアルゴリズム)。もっと複雑なモデルだと、2つ以上の細かい分解が必要になってくる場合や、すべての変数レベルでバラバラにする場合(平均場近似、mean field approximation)もあります。基本的には計算ができる最低限の分解数に収めていくのが最適化の観点では良いのですが、より多くのメモリを使用するという欠点もあります。

*2:繰り返し計算を行う回数は、"変分下限"と呼ばれる実数値を毎ステップごとに評価して決めるのが一般的です。変分下限は変分近似における目的関数で、具体的な計算方法はまた別の機会に解説します。

*3:この場合KL divergenceは関数$q(z_1)$の関数になっているので、汎関数と呼ばれます。汎関数を最適化する問題なので"変分法"という名前がついています。今回の記事ではKL divergenceの一般的な性質を使って更新則を導きますが、数学的な変分を使って同じ更新則を導くことも可能です。

*4:公式の右辺が正規化できるようにモデルを組むのが理想ですが、どうしても正規化できないような複雑なケースにはさらなる近似を考えるしかありません。例えば、さらに細かい分解の仮定を考えてみる、$q(z)$に適当なパラメトリックな分布(ガウス分布など)をおいて勾配法などの数値最適化法を適用してパラメータを求める、サンプリングを用いて必要な$q(z)$の統計量を求める、ラプラス近似を用いる、などです。

*5:ここでも変分下限の計算も実装しておくと、デバッグに便利です。また別の機会に紹介します。

変分近似(Variational Approximation)の基本(1)

初回の記事で変分近似はけっこう重たいのですが、今後ここで頻繁に使っていこうと考えているのでとりあえずご紹介です。

変分近似(variational approximation)とは、確率分布を近似的に求める方法のひとつです*1。一般的には確率分布を求めるには正規化(積分して1になるようにする)しなければならないのですが、複雑な分布(例えば潜在変数モデルの事後分布)になってくると、どうしても解析的に積分ができなくなってしまいます。変分近似ではこのような複雑すぎて正規化できないような確率分布を、もっとシンプルな確率分布たちの積に分解する(=独立性を仮定する)ことにより近似します。分解を仮定することによって変数の依存関係を簡略化し、数値最適化でいうところの偏微分を使った勾配法と似たようなことが確率分布の推論に対しても行えるようになります。

これが使えるようになると、様々なデータサイエンスの課題に合わせて確率モデルを作り*2、自分で自由に分布推定ができるようになります。実際に、画像や音声、金融データ、生命情報、自然言語、各種センサーデータなど、現在まででほぼすべての機械学習の問題に適用されてきています。

 

[必要な知識]

下記をさらっとだけ確認しておくといいです。

  • 確率の加法定理(sum rule)と乗法定理(product rule)、ベイズの定理(Bayes' theorem)
  • KL divergence 

 

今、次のような確率モデルを考えたいと思います。

\[ p(x,z) \]

$x$は観測データで、$z$は推定したい未知の変数(欠損値やパラメータ、未来の予測値など)で、ともに多次元ベクトルってことにしておいてください。今回は連続値を取る変数を仮定しますが、離散値でもまったく同じ議論になります。

機械学習の目的はzの事後分布$p(z|x)$を下記のようにベイズの定理を用いて推定することです。

\[ p(z|x) = \frac{p(x|z)p(z)}{p(x)} = \frac{p(x|z)p(z)}{\int p(x,z) dz} \tag{1} \]

例えば普通に$x$と$z$がともにガウス分布に従うようなモデルでは、式(1)の分母の積分が公式を使えば簡単に行えるので、事後分布は普通に手計算で一発で解けます。これを解析的に解けるとか、closed formで解けるとかって言います。

ただし、今回はこれがどうしてもできないと仮定します。つまり式(1)の積分計算がめちゃくちゃ複雑で、解析解が得られない状態にあるとします。

 

こういうときに登場するのが変分近似のような近似推論法です。事後分布を次のような別の関数形で近似します。

\[ p(z|x) \approx q(z) \]

$q(z)$の具体的な関数(ガウス分布だとか)は仮定していないことに注意してください。

今やりたいことは、$q(z)$が$p(z|x)$と、なるべく「似る」ようにしたいということです。

2つの確率分布がどれだけ「似ていないか」を表す指標の1つとして、KL divergenceがあります。例えば、混乱を避けるために確率変数$w$を一時的に使うと、確率分布$p(w)$と$q(w)$の間の(q(w)から見た*3)KL divergenceは

\[ KL(q(w)||p(w)) = - \int q(w) \ln \frac{p(w)}{q(w)} dw \]

のように定義されます。$q(w)=p(w)$が成り立つときこの式は0になります。

今回は二つの確率分布$p(z|x)$と$q(z)$をなるべく「似せ」たいので、この2つの確率分布の間のKL divergenceを最小化することにより目的を達成したいと思います。つまり、

\[ KL(q(z)||p(z|x)) = - \int q(z) \ln \frac{p(z|x)}{q(z)} dz \]

を最小にするような$q(z)$を求めることが目標になります。

 

しかしここで疑問が残ります。

$p(z|x)$は、積分こそできないものの、確かに何らかの形状が存在するような確率分布です。しかし最初の仮定の通り、この分布は直接手計算をして求めることはできない。直接計算できない分布と、近似分布$q(z)$の間の距離を、いったいどうやって縮めるのか?

 

ちょっと長くなったのでここでいったん切ります。

[続き・関連]

変分近似(Variational Approximation)の基本(2) - 作って遊ぶ機械学習。

今回の記事がよくわからん!という方には,次のような入門書もあります.

books.rakuten.co.jp

*1:他にも、変分推論(variational inference)とかただ単に変分法(variational method)とかって呼んだりもします。ベイズモデルであることを強調する場合には、変分ベイズ(variational Bayes)と呼ぶこともあります。

*2:確率モデルの作り方に関してはグラフィカルモデルの記事をご参考ください。

http://machine-learning.hatenablog.com/entry/2016/02/10/184755

*3:一般に$KL(q||p)$と$KL(p||q)$は一致しません。

開設しました。

機械学習に関するブログを開設しました。

確率モデルに基づく機械学習の基本的なテクニックの紹介から、データサイエンスに関する一般的な話題まで取り上げたいと思っています。

 

・なぜ機械学習のブログ?

このブログを始めるに至った理由は、確率モデルを使ったシンプルで便利な機械学習の技術を、日本のあらゆる分野の技術者や学生にも使ってもらいたいと思ったからです。

ビッグデータやIoTといった言葉に代表されるように、21世紀は蓄積された大規模データをもとに予測や推定などの解析を行う、いわゆる「データサイエンス」の時代になると言われています。ただ残念ながら現時点では、データの量やバリエーションの急速な増加に対して、効率の良いデータ解析環境(知識、人材、ツール)が整っていないという状況にあります。データという広大な未知の新大陸がすぐ近くにあるにも関わらず、それを開拓するためのノウハウを持っている技術者が非常に少ないのが現状です。

このブログでは、こうした未知の課題を前にして呆然と立ちすくんでしまうのではなく、確率モデルという道具を使いこなすことにより極めて「フォーマルに」取り組めることを示したいと思っています。

 

・作って遊ぶ!

このブログでは「作って遊ぶ」をモットーに、解きたい課題に合わせた確率モデルの構築方法とその推論手段(近似アルゴリズムなど)に焦点を当てたいと思っています。確率モデルは非常に便利なツールです。レゴブロックのように部品と部品を自由に組み合わせることによってありとあらゆる課題に対してアプローチができる柔軟性を持っています。作曲家はコードやリズムの知識を利用して、自由に表現したい音楽を紡ぎだすことができます。優れたプログラマーは仕様さえはっきりすれば、絵を描くように軽快にソースコードを書き上げてしまいます。それと同じようなことがデータサイエンスでも可能であり、データの特性を精査し課題(何を予測・推定したいか)を決めれば、あとは確率モデルという道具を使って自由自在に解析アルゴリズムを作ることができます。確率モデルはデータサイエンスの世界で「自由」を手にするための手段です。

また、「作って遊ぶ」を体現するためのもう1つの手段として、ブログではなるべくソースコードと実行結果を載せていこうと思っています。数式に関する導出がいまいちピンと来ない場合でも、ソースコードを見ればアルゴリズムが一体何をやっているのか直感だけでもつかむことができるはずです。

 

・他の話題も

確率モデルの他にも、ディープラーニングなど最近よく話題になる機械学習技術に関しても取り上げるかもしれません。ただ、ディープラーニング人工知能と呼ばれる技術は応用先が非常に限られているという欠点があります。これからのIoTの時代では、人間が経験したことのないデータ(例えばある産業用機器に取り付けられた大量のセンサーデータなど)に対する解析技術が必要になってきます。こういった課題に対してわざわざ「人間の脳」をシミュレートする人工知能のような技術を使うのは少しナンセンスでしょう。とはいうものの、こういった技術は伝統的な画像や音声の識別問題に対しては非常に自然なアプローチであり、実際に良い性能も出しているので、機会があれば触れたいと思います。

また小難しい理論だけでなく、経営者やリーダーの方が組織のデータサイエンスの取り組みに関してちょっと頭の片隅に入れておいた方がいいような注意点なんかもお話しできればなぁと思っています。データを使って嘘をつくのはものすごく簡単です。これからの5年10年、大量の「なんちゃって」データサイエンティストが登場し、あの手この手で判断者を騙そうとしてくると思います(本人が騙していると気づいてない場合も多いので非常にやっかいです!)。そういった状況の中、正しい判断を行うためには多少のデータに対する「感覚」が必要になってくるでしょう。

 

・キーワード

参考として、ブログの話題の中心になりそうなキーワードをまとめておきます。

機械学習パターン認識人工知能、データサイエンス、ビッグデータ、確率分布、ベイズ学習、潜在変数モデル、ベイジアンノンパラメトリクス、確率測度、ガウス過程、ディープラーニング、最適化、変分近似、MCMC、時系列解析、ネットワークモデル、強化学習、etc

 

・参考文献

このブログでは紹介しきれなかった基本事項や,発展的な応用モデルなどは下記の書籍に載っていますので是非ご参考ください.books.rakuten.co.jp

より発展的な内容や,ディープラーニングとの関連性に関しては下記の書籍が詳しいです.

books.rakuten.co.jp

 

 

 

よろしくお願いいたします。

Sammy