作って遊ぶ機械学習。

~基礎的な確率モデルから最新の機械学習技術まで~

開設しました。

機械学習に関するブログを開設しました。

確率モデルに基づく機械学習の基本的なテクニックの紹介から、データサイエンスに関する一般的な話題まで取り上げたいと思っています。

 

・なぜ機械学習のブログ?

このブログを始めるに至った理由は、確率モデルを使ったシンプルで便利な機械学習の技術を、日本のあらゆる分野の技術者や学生にも使ってもらいたいと思ったからです。

ビッグデータやIoTといった言葉に代表されるように、21世紀は蓄積された大規模データをもとに予測や推定などの解析を行う、いわゆる「データサイエンス」の時代になると言われています。ただ残念ながら現時点では、データの量やバリエーションの急速な増加に対して、効率の良いデータ解析環境(知識、人材、ツール)が整っていないという状況にあります。データという広大な未知の新大陸がすぐ近くにあるにも関わらず、それを開拓するためのノウハウを持っている技術者が非常に少ないのが現状です。

このブログでは、こうした未知の課題を前にして呆然と立ちすくんでしまうのではなく、確率モデルという道具を使いこなすことにより極めて「フォーマルに」取り組めることを示したいと思っています。

 

作って遊ぶ!

このブログでは「作って遊ぶ」をモットーに、解きたい課題に合わせた確率モデルの構築方法とその推論手段(近似アルゴリズムなど)に焦点を当てたいと思っています。確率モデルは非常に便利なツールです。レゴブロックのように部品と部品を自由に組み合わせることによってありとあらゆる課題に対してアプローチができる柔軟性を持っています。作曲家はコードやリズムの知識を利用して、自由に表現したい音楽を紡ぎだすことができます。優れたプログラマーは仕様さえはっきりすれば、絵を描くように軽快にソースコードを書き上げてしまいます。それと同じようなことがデータサイエンスでも可能であり、データの特性を精査し課題(何を予測・推定したいか)を決めれば、あとは確率モデルという道具を使って自由自在に解析アルゴリズムを作ることができます。確率モデルはデータサイエンスの世界で「自由」を手にするための手段です。

また、「作って遊ぶ」を体現するためのもう1つの手段として、ブログではなるべくソースコードと実行結果を載せていこうと思っています。数式に関する導出がいまいちピンと来ない場合でも、ソースコードを見ればアルゴリズムが一体何をやっているのか直感だけでもつかむことができるはずです。

 

・他の話題も

確率モデルの他にも、ディープラーニングなど最近よく話題になる機械学習技術に関しても取り上げるかもしれません。ただ、ディープラーニング人工知能と呼ばれる技術は応用先が非常に限られているという欠点があります。これからのIoTの時代では、人間が経験したことのないデータ(例えばある産業用機器に取り付けられた大量のセンサーデータなど)に対する解析技術が必要になってきます。こういった課題に対してわざわざ「人間の脳」をシミュレートする人工知能のような技術を使うのは少しナンセンスでしょう。とはいうものの、こういった技術は伝統的な画像や音声の識別問題に対しては非常に自然なアプローチであり、実際に良い性能も出しているので、機会があれば触れたいと思います。

また小難しい理論だけでなく、経営者やリーダーの方が組織のデータサイエンスの取り組みに関してちょっと頭の片隅に入れておいた方がいいような注意点なんかもお話しできればなぁと思っています。データを使って嘘をつくのはものすごく簡単です。これからの5年10年、大量の「なんちゃって」データサイエンティストが登場し、あの手この手で判断者を騙そうとしてくると思います(本人が騙していると気づいてない場合も多いので非常にやっかいです!)。そういった状況の中、正しい判断を行うためには多少のデータに対する「感覚」が必要になってくるでしょう。

 

・キーワード

最後に参考として、ブログの話題の中心になりそうなキーワードをまとめておきます。

機械学習パターン認識人工知能、データサイエンス、ビッグデータ、確率分布、ベイズ学習、潜在変数モデル、ベイジアンノンパラメトリクス、確率測度、ガウス過程、ディープラーニング、最適化、変分近似、MCMC、時系列解析、ネットワークモデル、強化学習、etc

 

よろしくお願いいたします。

Sammy