勉強会報告「データサイエンスLT祭り 1夜目」

イベントですが、よく言えば仲間内の気安さ、悪く言えば内輪受け的な雰囲気が漂っていた感じです。まぁLTのイベントなのでそういうものかなとも思います。
発表資料などは、twitterのタグ#dslt祭りから辿るのが良さそうです。わかるものだけ資料へのリンクを貼りました。

Jupyter Notebookでお手軽スライド作成 : Jupyterでプレゼン資料が作れるという話。機械学習系の勉強会資料作成とかで便利そうです。自分のマシンにも導入しようと思います。
Low Bias High VarianceとFilter Bubbleな私 : KPI優先とか、施策にも生存バイアスがあるとかで、過学習になりがち、という話。ビジネス施策が過学習する話はTJOさんのこの記事でも述べられてましたね…
実務家のためのデータサイエンス速習法 : 高校数学レベルから機械学習の論文読めるようになるためにはどんな勉強すれば良いか、という話。具体的に書名を挙げて勉強の道筋を紹介していました。論文読みたいのだと、確かにPRMLくらいは読めないと辛そうですよね。
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜 : TPOT というscikit-learnベースのツールがあって、素性選択や素性の前処理、モデル選択やパラメータ調整の部分を自動でやってくれる、というツールのようです。初心者分析者がする程度のことは勝手にやってくれそうで、なんかすごいですね。次にPythonで機械学習する系の勉強会を開くときには、第１回目にこのツールの話をして参加者の心を折るというのもありかもしれん。
ご注文はスパムですか : スプログ（スパム的なブログ記事）をどう検知するか、というのを実務でやってますという話でした。自分が担当者だったらどういう感じに作るかなぁ…
データ分析者でもリアルタイム分析がしたい : R の shiny を使ってリアクティブなデータ可視化を、という話。shiny は便利そうですね。
チャップがやまかすを一撃する方法 : fitbit というフィットネス用デバイス関係の話、ということでいいのかな。
階層ベイズモデルで割安mobile PCを探す : 軽量ノートPCの価格に効く要因を階層ベイズで解析しました、という話。書籍「StanとRでベイズ統計モデリング」は楽しみです。
サラリーマンのための計算社会科学 : 計算社会科学の入門という感じの内容でした。実験経済学とか社会物理学とか、この手の計算機シミュレーション系の話は色々ありますよね。
AUCが0.01改善したってどういうことですか？ : えー、恥ずかしながら私も、ROCカーブの面積のあれだよね、ぐらいしか答えられませんでした。
特徴量抽出するつもりが、夜な夜なクリーチャーを生み出してしまっている話 : ファッション関係の話で、衣服の画像からCNNで特徴抽出をして、さらにautoencoderで次元圧縮をして、という話。人の顔を含む画像の次元圧縮して元画像へと復元すると、顔の部分がクリーチャーになってしまうよ、という話でした。fauxtograph というライブラリが参考になるそうです。
初心者向けに機械学習のハンズオンセミナーをしてみてわかったこと : 初心者向け講座の話で、たまに勉強会講師をすることになる身としては非常に参考になりました。「どうせ１回のハンズオンしか出来ないなら数式は出しても無駄」「学習とモデルの話のところはライブラリが簡単にやってしまうので、むしろわかりにくい」「モデルから予測するところが、参加者は楽しいらしい」「Titanicのデータセットが教材として良い（そして参加者の大半は自分であれば死ぬ運命となる）」みたいな話が面白かったです。
Reproducability 100倍 Dockerマン : 非常に参考になりました。勉強会とかでもハンズオンの環境をどう揃えるか、結構悩むのですよね。Dockerを使って環境を揃えるのはかなりよさそう。

関連