众议院の新会议録作成システムにおける京都大学の音声认识技术の导入

众议院の新会议録作成システムにおける京都大学の音声认识技术の导入

2011年5月12日


河原教授

 衆議院の新しい会議録作成システムにおいて、河原達也 学術情報メディアセンター教授らの研究開発による自動音声認識技術が導入されました。約1年間の試行を経て、このたび本格的に運用されることになりました。

研究の背景とシステムの位置づけ

 明治23(1890)年に我が国に议会が设立されて以来百年以上にわたり、会议録の作成は手书き速记によって行われてきました。今世纪になって众参両院において速记者の新规採用?养成が停止され、新たな会议録作成方法が模索されました。様々な検讨をふまえて、众议院において音声认识技术を用いたシステムが採用されました。世界的にみても、国会の审议音声を直接认识するシステムは初めての事例です。

 このシステムでは、原则すべての本会议?委员会の审议において、発言者のマイクから収録される音声を自动音声认识により书き起こし、会议録の草稿を生成します(図1参照)。なお、音声认识には一定の误りが不可避な上、话し言叶の発言を忠実に书き起こしても、会议録になりません(図2参照)ので、速记者?校閲者の役割がなくなるわけではありません。

 音声认识技术はこの十年余りの间に进歩を遂げて、最近では携帯电话を用いた情报検索や自动翻訳などのサービスなどに导入されています。ただし、国会の委员会审议のような自発性の高い、人间どうしの自然な话し言叶音声を高い精度で认识できるものはありませんでした。

研究の技术的ポイント

 河原教授らは、まず众议院の审议音声と忠実な书き起こし(実际の発言内容)からなるデータベース(=コーパス)を构筑し、会议録の文章との违いを统计的に分析し、モデル化を行いました。その结果、「えー」や「ですね」などの冗长语の削除を中心に、约13%の単语で违いが见られました(図2参照)。次に、この统计モデルに基づいて、大量の会议録テキスト(过去10年以上の分;约2亿単语)から、実际の発言内容を予测するモデル(=言语モデル)を构筑しました。さらに、これと音声を照合することで、大量の审议音声(约500时间分)から音声パターンのモデル(=音响モデル)を构筑しました(図3参照)。これらは半自动的に追加学习?更新が可能ですので、今后総选挙や内阁改造があっても话者集合の変化を反映し、持続的に性能を改善していくことができます。

システムの评価と今后の展望

 この音声认识技术は、一般竞争入札を経て新会议録作成システムの开発を担当した狈罢罢(狈罢罢东日本、狈罢罢研究所など)のシステムに组み込まれる形で导入されました(本学产官学连携本部を通じてライセンス供与)。

 昨年度の试行において性能评価を行ったところ、会议録と照合した音声认识结果の文字正解率は89%に达していました。これを、速记者が専用エディタで修正?编集することにより会议録原稿を作成するシステムの有用性が検証され、本格的な运用となりました。

 会议録作成以外の今后の展开としては、讲演や讲义などを対象とした字幕付与への取り组みを行っていく予定です。

   

  1. 図1 システムの概要

    

  1. 図2 书き起こし(発言体)と会议録(文书体)の相违の例

   

  1. 図3 本システムにおける音声认识技术の概要

 この研究开発は、科学技术振兴机构(闯厂罢)の戦略的创造研究推进事业(颁搁贰厂罢)や、総务省の戦略的情报通信研究开発推进制度(厂颁翱笔贰)などの国の竞争的研究资金制度の支援を受けて行われました。

 

  • 朝日新聞(5月13日 33面)、京都新聞(5月13日 23面)、産経新聞(5月13日 22面)、日刊工業新聞(5月13日 23面)、日本経済新聞(5月13日 38面)、毎日新聞(5月15日 23面)および読売新聞(5月30日 30面)に掲載されました。