勉強会報告「データサイエンティスト実践セミナー　Python/Sparkで始める分析の実際」

データサイエンティスト実践セミナー Python/Sparkで始める分析の実際を聴講しました。
これは Big Data University－Tokyo Meetup が主催、というかバックが IBM さんのイベントです。IBM が Big Data University という教育コースと、Data Scientist Workbench というオンラインデータ解析環境を提供してて、まぁその関連の Meetup と思えば良いはず。

内容は、

ディープラーニングで名刺を解析する-Python編-
「詳解Apache Spark (技術評論社)」の共著者が語るApache Sparkの勘所

の２本立てでした。発表資料などはこちらから取得できる様子。

前者は、IBM Datapalooza Tokyo のときに出題されてた、「人工知能は名刺をどこまで解読できるのか？！」コンテストのチュートリアルでした。
画像処理は知識がなかったんですが、

画像読み込みは Python Imaging Library (PIL) を
文字の特徴量抽出は、scikit-image の Histogram of oriented gradients (HOG) という特徴量使って、ロジスチック回帰
あるいは keras で deep residual network (このへんが参考になりそう) 作って画像認識

という感じで良いらしい。詳しいチュートリアルの内容は、イベントページの URL から各自辿ってください。

後者は、Apache Spark の入門の話と、Spark で日本語文章の感情極性分析をする話でした。
感情極性分析は、チュートリアルということで手法は非常に簡単なものでした。kuromoji で形態素解析して、東北大乾・岡崎研の日本語評価極性辞書を使ってネガ/ポジの単語数を数える、という単純なアルゴリズム。

Spark は実務で使いたいと思いつつもなかなか使えてないので、今後もこの手のイベントで情報収集に努めたいです。個人的にはもうちょっと SparkR とか MLlib 関係の話が聞きたかった感じです。