データサイエンティスト実践セミナー Python/Sparkで始める分析の実際を聴講しました。
これは Big Data University-Tokyo Meetup が主催、というかバックが IBM さんのイベントです。IBM が Big Data University という教育コースと、Data Scientist Workbench というオンラインデータ解析環境を提供してて、まぁその関連の Meetup と思えば良いはず。
内容は、
- ディープラーニングで名刺を解析する-Python編-
- 「詳解Apache Spark (技術評論社)」の共著者が語るApache Sparkの勘所
の2本立てでした。発表資料などはこちらから取得できる様子。
前者は、IBM Datapalooza Tokyo のときに出題されてた、「人工知能は名刺をどこまで解読できるのか?!」コンテスト のチュートリアルでした。
画像処理は知識がなかったんですが、
- 画像読み込みは Python Imaging Library (PIL) を
- 文字の特徴量抽出は、scikit-image の Histogram of oriented gradients (HOG) という特徴量使って、ロジスチック回帰
- あるいは keras で deep residual network (このへんが参考になりそう) 作って画像認識
という感じで良いらしい。詳しいチュートリアルの内容は、イベントページの URL から各自辿ってください。
後者は、Apache Spark の入門の話と、Spark で日本語文章の感情極性分析をする話でした。
感情極性分析は、チュートリアルということで手法は非常に簡単なものでした。kuromoji で形態素解析して、東北大乾・岡崎研の日本語評価極性辞書 を使ってネガ/ポジの単語数を数える、という単純なアルゴリズム。
Spark は実務で使いたいと思いつつもなかなか使えてないので、今後もこの手のイベントで情報収集に努めたいです。個人的にはもうちょっと SparkR とか MLlib 関係の話が聞きたかった感じです。