機械学習分野への取り組み
2017年前半で、機械学習への取り組みを本格的にはじめています。一つ目の成果として、独自のチュートリアルを元に、「Pythonでの機械学習ことはじめ」を資料としてとりまとめ、先日行われた「OSSユーザーのための勉強会 < OSS X Users Meeting > #19 Python」で講演しました。
機械学習分野へ取り組み
2016年末に機械学習系の依頼が入り、パートナーと共同提案を行う事になりました。
これをキッカケに、当社でも本格的に機械学習分野への取り組みを始めることとしました。いままでは、Web関連や画像やテキスト処理といった分野での業務がほとんどでした。この分野関連でも数案件の実績はありましたが、Python技術を用いたコンサルテーションや機械学習の前段の処理などの案件でした。
社内での活動
社内を中心に活動し、コミュニティからもフィードバックをもらいました。
具体的には以下のような試みを行いました。
- 書籍の購入・じっくり学習
- 社内で学習成果の報告会
- PyData.Tokyoの2014年公開のチュートリアルの復習
- 上記チュートリアルを社内や身近なPythonコミュニティで教える
- pandas(Pythonでデータを扱うツール)の説明資料作成し社内などで教える
- 社外パートナーによる、各種レビュー
講演依頼及び講演内容
先日の6月29日(木)に行われた、「OSSユーザーのための勉強会」での講演の依頼を受けました。
- タイトル: Python 機械学習ことはじめ
- 発表時間: 45分
- 目標: OSS&Pythonで機械学習を行う概要を知る
この依頼に対して、動くものを提供し、復習できるよにしたいと考えました。Pythonで機械学習する上で多く使用されている、Jupyter Notebookを用い、実際に動くものを見せることに挑戦しました。動くものとしては、チュートリアルを準備し、github上で公開しました。しかし、この分野を網羅的に45分で説明するのは難しく、中途半端なものになると思いました。ポイントを押さえたテキストも必要になろうという事がわかり発表資料にサマリーをまとめました。
独自のデータを用いることにこだわりました。普段見かけるチュートリアルは、データが整ったサンプルデータを用いています。今回は、千葉市のオープンデータを用い、気象庁が公開している気象データから、「インフルエンザの流行」を予測してみようという壮大なテーマになっています。このような例を提示することで、より身近なテーマを機械学習に取り入れられるのではないかと考えたからです。
今後
今後については2つの活動を行っていきたいと思っています。
- 今回の発表内容の再演及びチュートリアルの実施
- OSSコミュニティなどでの講演
- 実際に動くものを作るチュートリアル
- 社内での機械学習への取り組み強化
- 定期的な勉強会の実施
- 社内のサーバ環境の整備
今月の中旬には、Python mini hack-a-thonという定期的に行っている勉強会の合宿バージョンがあります。そこで、1時間程度の説明を行った後、各自でチュートリアルを実施するつもりです。
講演依頼など有りましたら、ご連絡をいただければと思います。