講演?講義の音声から字幕を付けるシステムを開発－放送大学の講義で90％以上の認識率－

公开日

2016年12月06日

河原達也情報学研究科教授、秋田祐哉経済学研究科講師、広瀬洋子放送大学教授らの研究グループは、講演?講義を対象とした自動音声認識の研究開発を進め、最新の深層学習を用いることで、放送大学の講義に対しても概ね90％の認識率を実現しました。これにより、人手で書き起こしを作成するよりも効率的に字幕付与できることを確認しました。本システムは、放送大学で2016年度から開始されたオンライン授業の字幕作成に活用されています。組織的にこのようなシステムが活用されているのは初の事例です。

本研究成果は、2016年12月2日に情报処理学会アクセシビリティ研究会（厂滨骋－础础颁）にて発表されました。

研究者からのコメント

河原教授

讲演や讲义に字幕を付与することは、聴覚障害者への情报保障のみならず、理解を深める効果があると考えています。私たちの音声认识技术により、教育コンテンツに字幕付与が普及することを期待しています。

概要

2016年度から施行されている障害者差别解消法では、障害者の社会的障壁の除去について「必要かつ合理的な配虑」を行うことが义务づけられており、聴覚障害者に対しては手话や字幕付与などの情报保障を行うことがこれに该当します。近年、さまざまな讲义コンテンツがインターネット配信されていますが、字幕が付与されているものはほとんどありません。

放送大学は、日本で最大のメディアを利用した高等教育机関であり、约300の科目の讲义がテレビやラジオで配信されています。その大半がインターネットでも配信され、スマートフォンやタブレットなどでも视聴できます。现在、字幕が付与されているのはテレビ讲义番组の半数程度ですが、近い将来100％の字幕付与を目指しています。2016年度よりすべての学习をインターネット上の讲义や课题解答で行う「オンライン授业」も开设されており、原则的に字幕を付与する方针です。障害者支援において先进的な米国においても、オンライン学习の字幕は充実しているとはいえない现在、これは画期的なことです。ただし、人的?金銭的なコストが课题となっています。

そこで本研究グループは、放送大学の讲义を対象とした音声认识?字幕付与に関して研究开発を进めてきました。大规模な讲演?讲义のデータベースを用いて最新の深层学习を导入し、さらに教科书テキストから専门用语などの表现を自动的に登録することで、概ね90％の认识率を実现しました。

また、约30の讲义を対象に音声认识结果を编集する场合と人手ですべて书き起こす场合とを比较した结果、システムを用いることで作业时间が短くなることも确认しました。具体的には、システムの认识率が87％以上を超えると优位性が见られ、93％になると1／3以上の时间短缩効果が确认できました。

本研究成果は、放送大学で2016年度から开始されたオンライン授业の字幕作成に活用されています。また、インターネット配信によるラジオ讲义に字幕と静止画を付与したコンテンツも実験的に配信されています。今后、他の教育机関で作成されるさまざまな讲义コンテンツに対する字幕付与にも展开されることが期待されます。

図：ラジオ講義のインターネット配信「特別講義メディアと与謝野晶子」への字幕付与の例

详しい研究内容について

講演?講義の音声から字幕を付けるシステムを開発－放送大学の講義で90％以上の認識率－

関连リンク

书誌情报

【笔别谤尘补濒颈苍办】

河原達也, 秋田祐哉, 広瀬洋子. (2016). 自動音声認識を用いた放送大学のオンライン授業に対する字幕付与. 情報処理学会研究報告 [IPSJ SIG Technical Report], 2016－AAC－2－5.

京都新聞（12月2日 24面）および産経新聞（12月6日 25面）に掲載されました。

91视频