NaviPlus Engineers' Blog

勉強会報告「データサイエンティスト実践セミナー Python/Sparkで始める分析の実際」

データサイエンティスト実践セミナー Python/Sparkで始める分析の実際を聴講しました。
これは Big Data University-Tokyo Meetup が主催、というかバックが IBM さんのイベントです。IBM が Big Data University という教育コースと、Data Scientist Workbench というオンラインデータ解析環境を提供してて、まぁその関連の Meetup と思えば良いはず。

内容は、

の2本立てでした。発表資料などはこちらから取得できる様子。

前者は、IBM Datapalooza Tokyo のときに出題されてた、「人工知能は名刺をどこまで解読できるのか?!」コンテスト のチュートリアルでした。
画像処理は知識がなかったんですが、

という感じで良いらしい。詳しいチュートリアルの内容は、イベントページの URL から各自辿ってください。

後者は、Apache Spark の入門の話と、Spark で日本語文章の感情極性分析をする話でした。
感情極性分析は、チュートリアルということで手法は非常に簡単なものでした。kuromoji で形態素解析して、東北大乾・岡崎研の日本語評価極性辞書 を使ってネガ/ポジの単語数を数える、という単純なアルゴリズム。

Spark は実務で使いたいと思いつつもなかなか使えてないので、今後もこの手のイベントで情報収集に努めたいです。個人的にはもうちょっと SparkR とか MLlib 関係の話が聞きたかった感じです。