巷で話題の「音声 x AI」の技術をいろいろ紹介

こちらは Voicy Advent Calendar 2021 8日目の記事です。

こんにちは、Voicyのバックエンドエンジニアのせんちゃんです。学生時代に音声の研究をしていたこともあり、先日Voicyにジョインしました。この度入社1週間ほどでアドベントカレンダーの執筆に携わらせていただいております。がんばります。

はじめに

とても正直に申しますと、入社1週間なのでVoicyのシステムについてはまだ全然分かっておりません！

というわけで本記事では、自分が行なっていた音声に関する研究を踏まえ、最近の「音声 x AI」の技術をカジュアルに紹介していきます。

AIってなんのこと

本題に入る前に、AIというざっくりしすぎた単語について軽く触れておきます。

「音声 x AI」と聞くと、多くの人の第一想起は音声アシスタントではないかと思います。GoogleアシスタントやSiri, Alexa等が有名ですね。もちろんこれらも今回紹介する内容に該当しますが、他にもいろいろな技術があります。

キャッチーなタイトルにしたくてAIと書いてしまいましたが、ここでは主に機械学習、特にディープラーニングをイメージしています。機械学習という技術を音声の世界に持ち込んだときにどんなことができるのか、読者の方のイメージが膨らみましたら幸いです。

機械学習に詳しくない方へ

私は「機械学習ってなんですか？」と聞かれたら「ざっくり言うと単なる入出力装置です」と答えています (この装置をモデルと呼びます) 。画像認識で有名ないわゆる「Googleの猫」はなんらかの画像をモデルに入力すると、1 or 0 (猫が写っている or 写っていない) が出力されます。

では何がすごいのかと言うと、入力データと、正解となる出力データのペアをたくさん用意しておけば、それらの関係性を自動的に学習してくれます。

上記の例では、

入力: なんらかの画像

正解データ: その画像に猫が写っているか否かの情報

のペアをたくさん用意することで、それをもとに学習したモデルは猫が写っているかどうかを判断できるようになります。

それでは本題に進みましょう。

音声認識: Speech Recognition

まずは、音声認識です。これはコンピュータに音声を認識させる技術です。より具体的には音声を文字に起こす技術を指すことが多いです。先ほどの入出力に当てはめるのであれば、音声を入力としてそれに対応するテキストを出力する、と考えることができます。音声とその発話内容を書いたテキストのペアのデータを使用して学習したモデルによって実現されます。

・音声 => テキスト

音声認識の精度は飛躍的に向上してきており、ほとんどのパソコンやスマートフォンに音声入力機能が搭載されています。また、時間に追われるビジネスマンなどを中心に音声入力を使用する方も増えてきている印象があります。例えば、勝間和代さんはVoicy上でもたびたび音声入力がいかに効率的かという話をしてくださっています。 voicy.jp

Voicyでの音声認識技術の活用方法としては、各放送を文字に起こすことでより高精度なレコメンドを実現するなどが考えられます。

話者認識 (わしゃにんしき)

音声認識の分野のひとつに話者認識があります。これは音声を入力としてその話し手を認識する技術です。話者照合と話者識別の2種類に大別されます。

話者照合は、その音声が本人のものか否かを判断する技術です。人の声質や話し方はひとりひとり異なっているため、指紋と同じように声紋という概念があり、声による認証に応用されます。

一方、話者識別は、聞こえてきた声があらかじめ登録しておいた誰のものであるかを識別する技術です。会議の議事録を自動でとってくれるソフトなどで使用されます。これにより、話された内容だけでなく誰の発言であったかまで記録しておくことができます。

音声合成 Speech Synthesis

コンピュータで音声を作り出す技術を音声合成と呼びます。特に、テキストを入力として音声を出力する、テキスト音声合成 (Text-to-Speech; TTS) を指すことが多いです。音声合成には、波形接続型の手法と機械学習に基づく手法の2種類があります。

・テキスト => 音声

波形接続型では、あらかじめ音の素片を作って保持しておき、合成時にそれを並べて言葉にします。事前に用意する音の素片というのは a, i, u, e, o, ... といった母音や k, s, t, n, h, m, y, ... といった子音です。これは実際に録音された音声から作られる場合が多いですが、なんと手作業で波形を作っている場合もあります。

そして、例えば「おんせい」という言葉を作りたければ、この中から必要なものを選んで

o - n - s - e - i

と並べるイメージです。

この方式のソフトウェアとしてはVOICEROIDや、「ゆっくりボイス」として親しまれているAquesTalkなどが有名です。 nlab.itmedia.co.jp

一方、機械学習に基づく手法では、テキストと音声の関係を学習したモデルを使用します。ちょうど、音声認識と入出力のデータが反対になっているため、学習に使用するデータ自体は同様に音声とテキストのペアです。あるテキストが入力されたときに、それに対応する音声が出力されるように学習させます。

従来の機械学習に基づく手法はなんと言っているかは理解できるものの、あまり人間らしくない機械的な音声しか合成することができませんでした。

しかしながら、2016年にGoogle傘下のDeepMindがWaveNetというモデルを発表し、合成音声の自然性が飛躍的に向上しました。 deepsquare.jp

最近では公共交通機関のアナウンスなどは、人間が話した声なのか合成音声なのかを判別することすらなかなか難しくなってきています。

私はアナウンスが聞こえてくると無意識のうちに「これは合成」「これは録音」と判断してしまう病気にかかっています。

歌声合成

音声合成の応用として、歌声合成という技術があります。

歌声合成と言えば、初音ミクを代表とするVOCALOIDが有名ですね。VOCALOIDはYAMAHAが開発する歌声合成ソフトウェアです。波形接続型の手法を採用しており、声の素片を並べて加工していくことでひとつの楽曲を作り上げます。

一方で、歌声合成にも機械学習に基づくアプローチが存在します。音符や歌詞といった楽譜情報を入力とし、機械学習を用いて自動的に歌声を合成する方法です。国内では、テクノスピーチ社等が中心となって開発を進めてきたCeVIO Creative Studioが牽引役となっています。 cevio.jp

VOCALOIDも機械学習ベースの手法を使用したソフトウェアを開発し、2019年にVOCALID:AIとしてリリースしました。以下はその技術により、美空ひばりさんの歌声を再現した際のニュースリリースです。NHKで放送され業界ではなかなか大きなニュースでした。 www.yamaha.com

以上のような音声合成/歌声合成の技術は、音声や歌声のデータが多く残っていれば、すでに亡くなっている方の声を再現することもできてしまいます。故人の声で新曲を歌わせることができるなど、大きな可能性がある一方で、使用者の倫理観も考えさせられます。

音声対話

冒頭に述べたGoogleアシスタント等がイメージしやすいですね。音声アシスタントが搭載されていないスマートフォンを探す方が難しい時代になってきていますし、自宅にスマートスピーカーを置いている方も徐々に増えてきたのではないでしょうか。

音声認識と音声合成の技術を使うと対話ができるように、、とは、残念ながらなりません。ざっくり言うと、音声対話には以下の機能が必要です。

音声認識 => 発話理解 => 応答文生成 => 音声合成

かけられた言葉の意味を理解しなければなりませんし、その上で適切な返答文を作らなければなりません。しかも上記の流れは、一問一答形式のシンプルな対話システムを想定しています。話の流れによって動的に応答が変わる対話を実現するためには、対話状態を保持しておく必要があるなど、考慮すべきことが膨大になります。みなさんご存知のとおり、現時点で人間レベルの音声対話ができるシステムは実現されていません。

音声対話の実証実験の例として、名古屋工業大学の正門には「メイちゃん」というデジタルサイネージ (大型ディスプレイの中の3Dキャラクター) がいます。来訪者に対して校内の道案内や、イベントの告知などをしてくれます。

www.nitech.ac.jp

音声変換 Voice Conversion

こちらは、名探偵コナンの蝶ネクタイをイメージしていただけると分かりやすいかと思います。いわゆるボイスチェンジャーとは少し異なっています。ボイスチェンジャーは声の高さや声質などのパラメータを調整して元の声を加工するだけであるのに対し、機械学習を使った音声変換は特定の誰かになりきったような声に変換をすることができます。

・音声 => 音声

音声変換の分野で博士号を取得されているドワンゴのヒホさんは、自分の声をVOICEROIDの結月ゆかりに変換した動画をニコニコ動画にアップロードし、一部界隈で人気を博しています。おもしろい上に音声変換の理解も深まるのでぜひ一度観てみてください。 www.nicovideo.jp

また、2021年にDeNAがリリースした「VOICE AVATAR 七声ニーナ」(ななこえにーな) を使えば、ブラウザから誰でも簡単に音声変換を試すことができます。 nanakoe-nina.dena.ai

その他、標準語の音声を関西弁に変換するなどの発話スタイルの変換も広い意味では音声変換の一種と言えるでしょう。

余談ですが、スタートアップ界隈ではベンチャーキャピタル (Venture Capital) の意味でVCという言葉がよく使われます。私の身の回りでは音声変換 (Voice Conversion) を略してVCと言っていたので慣れるまで時間がかかりました。

むずび

いかがだったでしょうか。音声からの感情認識など、まだまだいろいろな技術がありますが、全て紹介し切ることはできないのでこのあたりで終わります。音声に関する技術に興味を持ってくださる方が増えれば嬉しい限りです。

Voicyでは多くのパーソナリティの方々が日々、声で発信をしてくださっています。これらの財産からさらなる価値を生み出していくためにも、常に最先端の音声技術にアンテナを張っていきます！

Voicyのエンジニアリングチームでは、音声でも発信を行なっています。気が向いた方は聞きにきてください！ voicy.jp