勉強会報告「第三回 Hivemall Meetup」

Hivemallというのは、Treasure Dataの油井さんが開発されているApache Hive/Spark/Pig上で動作する機械学習ライブラリです。Hadoop上で動くということで、通常の機械学習ライブラリよりも大量のデータを処理するのに向いていますし、Hiveのユーザ定義関数として定義されているためSQLを書く感覚で機械学習を使える、という利点があります。

Hivemallの新機能とロードマップの紹介 : Hivemallの紹介のあとで、最近(2016/6)のアップデートの話がありました。Sparkでも使用可能になったこと、形態素解析のkuromojiが入ったこと、BPR-MF(matrix factorization for implicit feedback)が使えるようになった、あたりが個人的には嬉しいです。また、HivemallもApacheのプロジェクトになるようです。そして次のアップデートではSpark 2.0とDataFrame、ChangeFinder(変化点検出と異常検知)、XGBoostなどが目標となっているようです。
TDでHivemallを半年使ってみたノウハウ : Hivemallの便利関数の話はとても良い話だったと思います。この手の便利関数的なことをついついSQLだけで頑張ってしまう風潮がSQLerにはあるような気がするのですが、効率を考えるとこの手のUDFを使う方が良いわけですね。
Hivemall meets XGBoost : XGBoostはC/C++とかなので、自分のローカルのMacで動かすならともかく、AWS EMRとかで動かすのはちょっと面倒そうな気がしますね。
minne meets Hivemall – ハンドメイドマーケットでレコメンデーション : HivemallのMatrix Factorizationを使う為の良い入門記事だと思います。お勧めです。
Matrix Factorization, Factorization Machinesの裏側 : リンク先は発表資料ではなくブログ記事です。Matrix FactorizationやFactorization Machineのわかりやすい入門記事でお勧めです。

非常に有意義なmeetupでした。

関連