YouTubeに[拍手]のラウンドを提供-サウンドが自動字幕表示されるようになりました

YouTube TVライブストリーミングサービスの開始28691186 mlYouTubeは拍手に値します。これは、ビデオプラットフォームが[APPLAUSE]やその他の効果音をビデオのクローズドキャプションに自動的に含めることができるようになったためです。3月23日木曜日に発表されたキャプションの拡張は、人工知能の一種であるディープニューラルネットワークによって可能になりました。

現時点では、YouTubeは拍手、音楽、笑いに自動的にラベルを付けることができますが、これら3つの効果音は、コンテンツクリエイターが他のクローズドキャプションノイズの上に手動で追加した説明です。最新の機能は、テキスト用に2009年にリリースされた自動キャプション機能に基づいていますが、システムに最初のサウンド効果を追加します。

YouTubeによると、このプログラムは画像内のオブジェクトの検出と同様に機能しますが、オブジェクトの認識に関していくつかの困難に直面しました。プログラムがこれら3つの音だけを認識するようにするには、YouTubeエンジニアがプログラムにこれらの音を検出し、一時的に分離してから、認識された音をキャプションに挿入する必要がありました。

システムはまた、笑い声や話し声など、他の音と同時に発生する効果音に苦労する傾向がありました。もう1つの課題は、手動でデータを入力してもまだ適切にラベル付けされていないシステムをトレーニングするのに十分な大きさのデータセットを見つけることでした。

ディープラーニングネットワークは、短いセグメントを順番に分析し、約100フレーム/秒の速度でこれらの音響効果の可能性を予測できます。ただし、YouTubeのエンジニアは、後でシステムに追加の音響効果を追加できるようにシステムを構築しました。

では、なぜ拍手、音楽、そして笑いなのでしょうか?クローズドキャプションシステムで最も頻繁に手動で調整されるラベルであるだけでなく、これらの各サウンドには1つの意味しかありません。YouTubeが説明する「リング」とは、例を挙げれば、ドアベルからのリング、電話、またはアラームである可能性があり、ソフトウェアにまったく新しい課題を提示しています。

YouTubeによると、自動字幕付きの1,500万本を超える動画が毎日表示されています。自動キャプションの最新アップデートのテストでは、3分の2が効果音ラベルにより全体的なエクスペリエンスが向上したと述べています。