音 – AI-Tech.Institute

AI-Tech.Instituteでは、AI黎明期から研究を重ね、得に音のAIに関する知見を深めてきました。
AIの音に関する技術は様々ありますが、代表的なものとして音声合成の技術があります。
ここでは弊社が提供する音声合成についてご紹介します。

音声合成は、テキストを入力すると、コンピューターがそのテキストを読み上げる音声を生成する技術です。つまり、文字を話す声に変える魔法のようなものです。これは、音声アシスタントや読み上げソフトウェアなどで使われています。

音声合成の歴史は古く、1800年以前から始まりました。最初の音声合成の試みでは、人間の声を模倣しようと、声道や口の形を模した機械が使われました。しかし、それらの機械は限られた音しか生成できませんでした。

後に、計算機の性能が向上すると、新しいアプローチが使われるようになりました。統計的手法と呼ばれるものが登場し、音声合成に大きな変化をもたらしました。

1990年代には、隠れマルコフモデル（HMM）という技術を使った音声合成が登場し、合成音声が実用化されました。これにより、コンピューターがより自然な声でテキストを読み上げられるようになりました。

最近では、深層学習と呼ばれる新しい技術が音声合成の分野で使われています。これにより、コンピューターがさらに自然な音声を生成できるようになり、音声合成技術はますます進歩しています。

つまり、音声合成は文字を声に変える技術で、その歴史は長く、技術が進化し続けています。今では、私たちの日常生活で多くのアプリケーションで使用され、将来に向けてもさらなる進化が期待されています。

音声合成を行うAIの背後には、人間の脳構造を模したニューラルネットワーク（Neural Network, NN）という重要な要素が存在します。これは、AIの発展において中心的な技術です。具体的には、畳み込みニューラルネットワーク（Convolutional Neural Network, CNN）や再帰型ニューラルネットワーク（Recurrent Neural Network, RNN）などの派生ネットワークが音声合成技術に活用されています。

ニューラルネットワーク(NN)

ニューラルネットワークは、脳の神経細胞の動作を模倣した計算モデルです。人間の脳は、情報を伝える神経細胞がネットワークを形成し、複雑な情報処理を行います。同様に、ニューラルネットワークも情報処理タスクを実行するために複数の層から構成されたモデルです。

畳み込みニューラルネットワーク(CNN)

畳み込みニューラルネットワーク(CNN)は、画像認識などのタスクで優れた性能を発揮するニューラルネットワークです。しかし、初期の音声処理には適していませんでした。それは、静止した画像データを処理するのに強みがあり、音声の時間的な変化を捉えるのが難しかったからです。

再起型ニューラルネットワーク(RNN)

再起型ニューラルネットワークは、音声データのような時間軸を持つ情報を処理するためにRNNが登場しました。RNNは、過去の情報を次の情報に連続的に伝える仕組みを持っており、音声データの連続的な変化を扱うのに適しています。

LSTM (Long Short-Term Memory)

深層学習（ディープラーニング）の一種で、主に時系列データや自然言語処理などのシーケンスデータをモデル化するために使用されるリカレントニューラルネットワーク（RNN）の一種です。LSTMは、過去の情報を長期的に記憶し、過去からの情報を未来に伝える能力を持っており、これにより長期の依存関係をモデル化するのに役立ちます。

これらのニューラルネットワーク技術は、音声合成において音声の自然さや品質向上に大きな影響を与えています。AIが音声合成の分野で進化するにつれ、我々の日常生活においてもよりリアルな音声体験が提供され、コミュニケーションやエンターテインメントに革命をもたらしています。

AIの活用がますます重要になっている病院業界において、特にAIの適用が効果的な領域があります。医療従事者の不足と人手不足の問題は、病院経営と医療サービスの品質に大きな影響を与えており、AI技術はこれらの問題に対処する可能性があります。

ルーティンワークと効率化:AIはルーティンワークや単純なタスクを効率的に処理するのに適しています。特に医療事務の領域などで、AIがデータ入力、予約管理、書類作成などの作業を自動化できます。これにより、医療スタッフは重要な臨床タスクに集中でき、病院の業務効率が向上します。

医療ミスのリスク低減: 人手不足による忙しさは医療ミスのリスクを高める要因の一つです。AIがルーティンワークを引き受け、医療スタッフの負担を軽減することで、医療ミスのリスクが低減します。これは患者の安全性と医療品質の向上につながります。

音声合成技術: AIによる音声合成技術は、医療現場においても革命的な変化をもたらす可能性があります。医師や看護師の声と仕草は患者とのコミュニケーションに重要な役割を果たします。AIによる音声合成技術は、自然な声を生成し、患者とのコミュニケーションをサポートします。また、AIはルーティンワークを担当し、医療スタッフの負担を軽減します。

脳波と連携: 将来的には、音声合成技術と脳波データの統合が可能となり、患者とのコミュニケーションを進化させる可能性があります。患者の声を直接脳波で理解し、適切な回答を生成するAIシステムは、コミュニケーションの自由度を高めることが期待されます。

AI技術の病院業界への導入は、病院経営の効率化と医療サービスの品質向上に寄与し、将来的には医療の質とアクセス性を向上させる可能性があります。 AIと医療の統合は、患者の健康と医療提供者の労力を支える鍵となるでしょう。

音声変換とは

声質変換は、特定の人の声を学習して、その声で入力音声やテキストを変換できる技術です。これを分かりやすく表現すると、一種の”ボイスチェンジャー”のようなものです。従来、声質変換を行うには、入力音声と出力音声を関連付けるために多くの情報が必要でした。しかし、AIを活用することで、必要な情報の量が大幅に減少し、少ない音声情報でもモデルを作成できるようになりました。

この技術を用いて、普通の人の音声情報だけを使って、亡くなった人の声を再現するなどの可能性が広がっています。また、結婚式や特別な瞬間の思い出を再現することも考えられます。これにより、失われた声や特別な瞬間の感動をよみがえらせることが期待されており、研究が進行中です。この技術は、声質変換の分野において革命的な進歩をもたらし、感動的なアプリケーションの可能性を開いています。

では、音声合成の例として弊社で開発したAIを用いてハスキーな女性の声をプレーンな声に変換した、「声質変換」についてご紹介させていただきます。以下の音声はハスキーな女性の声をプレーンな声に変換している例です。

ハスキーな女性の声

プレーンな女性の声に変換したもの

ノイズ抑制

「ノイズ抑制」は、音声合成技術の応用の一つで、低品質な音声からノイズを取り除いて高音質な音声を生成することを可能にします。具体的には、ノイズが混入した音声データからノイズを除去し、クリアで理解しやすい音声を生成します。これにはいくつかの方法とテクノロジーが使用されます。

ノイズの問題: 低品質な音声は、悪いマイクロフォン、外部ノイズ、録音環境の問題などによって引き起こされることがあります。このような音声データを通常の手法で処理すると、ノイズが音声の品質を劣化させ、聞き取りにくくなります。

ノイズ抑制の手法:

フィルタリング: ノイズ抑制の一般的な手法は、フィルタリングを使用することです。フィルタリングは、特定の周波数帯域に存在するノイズを除去し、音声信号を浄化します。これにより、高音質な音声が得られます。

周波数領域の処理: ノイズ抑制アルゴリズムは、音声データを周波数領域で処理することがあります。周波数スペクトルを分析し、ノイズ成分を特定して取り除くことで、音声品質を向上させます。
深層学習: 近年、深層学習技術がノイズ抑制にも適用されています。ディープニューラルネットワーク（DNN）やリカレントニューラルネットワーク（RNN）などのモデルを使用し、ノイズと音声を識別し、ノイズを抑制することができます。

具体的な例:

通話品質向上: ノイズ抑制技術は、通話アプリケーションでユーザーエクスペリエンスの向上に使用されます。外部ノイズや通信の品質に左右されないクリアな通話を提供します。
録音の改善: 録音された音声データからノイズを取り除くことは、音声メモや録音アプリケーションの品質向上に役立ちます。特に、野外や騒音の多い場所での録音において、ノイズ抑制は重要です。
音楽制作: 音楽プロデューサーは、録音時のノイズや外部音を取り除いて音楽の品質を向上させるためにノイズ抑制技術を使用します。

ノイズ抑制技術は、多くの分野で音声品質の向上に貢献し、ユーザーにより高品質な音声体験を提供します。この技術の発展により、ノイズの存在に左右されずに音声を楽しむことが可能になっています。

ノイズ抑制前の雑音の混じった音声

ノイズ抑制の高品質

弊社での取り組み

弊社は音声合成技術をさらに高い水準に引き上げ、アクセント推定や音韻区切れ検出などを研究・応用し、業界内で優れた音声合成の成果を上げています。従来の音声合成モデルでは、テキストや音声の種類に依存して日本語音声のアクセントが不自然になるという課題がありました。

これに対処するために、弊社の音声合成モデルTTS（text to speech）は、テキストだけでなくアクセント情報も学習する方法を採用しました。このアプローチにより、生成される日本語音声のアクセントが改善され、より自然で聞きやすい音声が実現されました。この技術は、クリスタルメソッド社の対話型AI「DeepAI」でも活用されています。

DeepAIを活用することで、より自然な音声合成と高品質なコミュニケーションが可能となり、患者と医療従事者との対話においても大きな利点を提供します。詳細については以下のリンクからご確認いただけます：DeepAI

このような音声合成技術の進化により、医療分野でのコミュニケーションが向上し、患者の安全性と快適さが向上するでしょう。

「母の誕生日に、手紙と鞄をあげました。」

＊「誕生日」のアクセントがおかしい

【テキストとアクセントを学習させた音声合成モデルで合成した音声】

「ご飯を食べようとしたとき、塩を入れ忘れたことに気づいた。」

＊「ご飯」のアクセントがおかしい

【テキストとアクセントを学習させた音声合成モデルで合成した音声】

安全性を重視したビジネスを

我国ではテクノロジーの遅れが顕著に見られ、AI領域でも国外からの製品が普及しています。
音に関するAIでは、ご紹介したように音声合成の仕組みの他、音声認識、異常検知、また自然言語処理まで間接的につながる仕組みであり、国や企業の機密情報を守ることを重要視しなくてはなりません。

ブロックチェーンなどを用いて不正漏洩などを防ぐことも可能かもしれませんが、まずは自国で開発された自国のシステムを使うことでそういった危機を未然に防ぐこともできます。

弊社ではAIリーガルテクノロジー機構という組織を立ち上げて、AIが不正に利用されることがないよう取り組みを行っていますが、特に海外のシステムを解析するのは難しい部分もあります。

また日本の中小企業復活のためにも日本のシステムを使うことは非常に重要です。
安全面から、そして日本経済の回復のためにも開発の強化、皆様のご理解を得られるよう進めております。