AWS Summit Tokyo 2017に参加しました。
Day4 もデータサイエンス系の発表を中心に回りました。
総論として、色々勉強になった3日間でした。さすがに海外でのre:Inventには行かせてもらえないので、東京で無料参加なのは非常に助かります。ありがたいことです。
Amazon AI 入門
前日のMachine Learning on AWSの復習的な、AWS上での機械学習のための4つのレイヤー(インフラ、フレームワーク、プラットフォーム、サービス)の話が少し。メインはサービスとして提供されるPolly, Rekognition, Lexの話でした。
Rekognitionは、一般的な物体シーン検出の他に、画像の節度(ヌードなどのアダルトコンテンツ)の判定、顔認識、顔の比較、顔画像インデックス(顔の特徴ベクトルのデータベースを作れる)、といった機能があります。価格もUS$1/1000画像処理、という感じらしい。
Pollyは、テキスト(plain textあるいはSSMLでmarkupされた文書)の音声化です。略語や同型異義語(綴りが同じでも発音が違う)を賢く勝手に処理してくれるのは良いです。
Lexは、音声あるいはテキスト入力に対するchatbotを作成するためのフレームワークという感じ。例えば会議室予約botであれば、どの会議室か、日時はいつからいつまでか、誰が借りるのか、みたいな必要項目を予め定義しておき、全項目入力されたら予約APIを叩く、みたいなことが出来ます。
AWS のデータ分析入門
データ分析のために、AWSのどのようなサービスを組み合わせると良いのか、という講演でした。
- データ収集の段階では、Amazon KinesisやDMS(Database Migration Service)などが。
- データ蓄積は、S3をデータレイクとして使用して、なんでもデータを保存して、データを捨てるリスクを回避すべき。
- データの加工では、ETLサーバをEC2で、EMRで、AWS Glue(近日公開)などで、とのことです。AWS Glueは良さそうですね。
- DWHとしてはRedshiftを使うべきだが、これは同時実行SQLが少ない状況に向いており、そうで無い場合はAuroraみたいなRDSに結果を格納したほうが良いだろう、との話でした。
- クエリに関しては、AthenaやRedshift Spectrum(直接S3に対してのクエリ)を。
- 可視化についてはQuickSightを。
ということのようです。強調されていたのは、S3のデータを捨ててなければ、将来いくらでも新しいサービスに乗り換えられる、ということでした。
アジャイルデータサイエンス on AWS
前半はデータサイエンスプロジェクトの一般論的な話でした。
* 「データエンジニア」「データアナリスト」「データサイエンティスト」の専門性の異なる3者が必要で、それぞれに必要な権限が無いとダメで、それぞれに試行錯誤の必要があり、それぞれの行う作業について、前のステップのアウトプットが後のステップの上限をとなってしまう、という話。
後半は先の話と大体同じような話で、AWSのどのサービスを組み合わせるか、という話でした。
[クラスメソッド] 1000 件超の構築・運用から得た、急成長ビジネスを支えるデータ分析基盤と AWS インフラ環境の事例(仮)
あまりデータ分析とは関係なく、クラスメソッド様での使用事例的な話でした。
自分でサーバを買う必要が無いのだから、サービス初日はむしろ大きめのインスタンスとか規模でローンチして、徐々にインスタンスとかを小さくしていけば良い、というのは良い指摘だと思いました。
[Sansan] AWS が支える Eight のリコメンデーションエンジンの裏側
レコメンデーションというよりは、サーバーレスアーキテクチャの話でした。Data PipelineとかStep Functionとか、確かにちょっと勉強し無いとまずそうだと認識しました。