NaviPlus Engineers' Blog

セミナー報告:AWS Summit Tokyo 2017 Day3

AWS Summit Tokyo 2017に参加しました。

Day3 は興味ある機械学習系の発表が多く非常に楽しかったです。

[スマートニュース] 大規模広告クリック率予測システムの実践

スマートニュース様による、ユーザ毎コンテキスト毎に最適の広告を出すためのクリック率予測システムを作っている、という事例紹介です。
クリック率予測には xgboostを使っているそうです。推定に使う素性はユーザ属性(男女とか年齢層とか)や広告のブランドやカテゴリ、コンテキスト情報(ページや位置、広告タイプなどなど)について、one-hot encoding + feature hashingで素性を作るとのこと。教師データについては、ネガティブサンプリングは行っている、また新ユーザ新広告に関してはMulti-armed bandit的な探索も行う、そうです。
さらにXGBoostとロジスチック回帰とを組み合わせるFacebookの手法とかFTRL-Proximal辺りも使って、低速なXGBoostバッチでは対応できない分をオンライン予測と組み合わせると、state-of-the-artなクリック率予測システムになるとのこと。確かにそこまで出来るとすごいなぁ、という気はします。
実運用されているレコメンドの話で、さらに最新のアルゴリズムの話など聞けて、大変勉強になりました。

AWS Greengrass

弊社は現状、IoT関係の仕事してないのですが、IoTデバイスをローカルに束ねるサーバを立てる必要があるなら、Greengrassを使うのが確かに良さそうです。

Blockchain on AWS -Ethereum Deep Dive with INFURA-

Blockchainは流行り始めたころにちょっと調べたのですが、Ethereumはよくわかってませんでした。ただまぁ、当面業務とは関係しなさそうではありますね。

Deep Learning with Apache MXNet on AWS

GCPで深層学習するならTensorFlowなのでしょうけど、AWSであればMXNetを使うのが性能的に良さそうですね。
AWSでの使い方はこの辺辺り、MXNetのチュートリアルはこの辺から辿れば良さそうな気がします。

【AWS Tech 再演】Machine Learning on AWS

AWSの上で機械学習をする場合に、何が用意されているか、というサマリー的な講演でした。現状のAWSで提供されているものを把握するのに良かったです。
* まず、ハードウェアとしては、GPUの載ったP2インスタンスがあり、将来的にはエッジに存在するGreengrassでもある程度の機械学習が出来るようになるらしい。
* エンジンとしては、前述のMXNetを含む各種深層学習エンジン。
* プラットフォームとしては、Amazon ML (現状は分類器と回帰?)や、EMR上のSparkMLやMahout, Hivemallなど。
* サービスとしては、Polly(テキストを音声に変換)、Rekognition(画像認識)、Lex(chatbot的なものを作るサービス)。
* その他、異常検知(Kinesis Analytics)、”more like this”(Elasticsearch)、Data Pipeline、なども組み合わせて。
とのことでした。
これらの元で、こんなユースケース(ECサイトレコメンド、画像SNSの知り合い検出、センサデータの異常検知)ならば、こんな感じのサービスを組み合わせて、みたいな説明がありました。分かり易かったと思います。