勉強会報告『言語処理研究会「自然言語処理の中長期研究構想を論じる会」』

このシンポジウムは、6名の「中長期の自然言語処理関連プロジェクトを推進している研究者」の方々に「研究構想や成果の大きな絵を語っていただき」、「言語処理が今後進むべき方向性について一段高い視点からの議論を狙」うというシンポジウムでした。大きなプロジェクトのリーダーをされているような先生方が、どんなプロジェクトを今運営しているのか解説してくれるということで、研究者ではない素人の我々にとっては、最近注目を浴びている話題について概観できる良い機会だったと思います。

「データを言語で記述する」は東工大の高村先生の講演でした。「サッカーの試合の解説の自動生成」を目標に、時系列データに対して文章を生成する、という話でした。天気予報の文章の生成などは、ちょっと変なところもある、ぐらいの感じになっているようにも思います。

「クロスモーダル表現学習と自然言語処理」は東大の中山先生の講演でした。ビデオキャプショニングなどに代表される、何か入力（画像とか文章とか）を一度エンコードして multimodal space に持って行って、また文章や画像などにデコードする、という話。更に、エンコード、デコードは別々のデータで学習出来るという pivot-based learning の話でした。

「ただ機械学習するのはやめませんか」はGoogleの賀沢先生の講演でした。普通のソフトウェア開発では「部品の仕様を定義 -> 仕様を実装 -> 実装の検査」の3工程を経るが、機械学習ではそれは「入出力の事例 -> 学習 -> 評価」に相当する。しかし、事例で仕様を定義することは難しく、検査もとても難しい、という話でした。で、今のgoogle翻訳とかは、誤訳があっても笑って済ませられる程度の真剣さでしか使われていないが、人の命が関わるような製品に機械学習を使うなら、それは許され無い、という話。幸い、弊社の製品とかも、多少機械学習が間違えても人が死ぬわけではないですが、分野によっては大変でしょうね。

「知識に基づく構造的言語処理の確立と知識インフラの構築」は京大の黒橋先生の講演でした。JUMAN++は良くなっているとか、格解析、省略解析とかの重要さの話とか、なんか自然言語処理の王道っぽい話が聞けた気がします。
個人的にはここで話題になっていた、依存型意味論とかに興味があります。黒橋先生と共同で研究されているお茶大の戸次先生たちは例えば “All women ordered coffee or tea.” という文章に対して、”forall x. (woman(x) -> exists y. ((tea(y) \/ coffee(y)) /\ order(x, y)))” と、文章の意味を述語論理式で表現するツールとかを作っていらっしゃるようです。この辺の技術が進むと、通常は自然言語で書かれている仕様が、形式仕様に変換されるようになったりしないかな、とか思ったりします。

「対話システム研究の今後の展望–異分野連携による進展を目指して」はHonda Research Instituteの中野先生でした。対話システムは、「ドメインの広さ」「開発コスト」「対話の良さ」のバランスを取りつつ実際に製品を出荷するという、妥協しつつ良いものを作る作業だ、という感じのようです。チャットボットバブルが終わる前に対話システムを根付かせたい、と言っておられました。

「科学技術論文からの知識獲得」はNAISTの松本先生の講演でした。論文のような専門的な文書に対して類似性とか知識獲得とか要約などの、高レベル機能がテーマのはずなのに気がつくとアノテーションツールなどの低レベルのところに潜ってしまうみたいな話を聞くと、「あー、やはりツールを自分で整備するのを厭っては駄目なんだなぁ」と反省するところ頻りです。あと、ICOTの「ICOTが残すのは人である」みたいな話を聞くと、当時の人たちは楽しそうだなぁ、とか思ったりも。