敵対的生成ネットワークを用いた機械音の生成

1. 研究の動機

製造業では作業員の方々が手さばきのすばらしさで、熟練の技を磨いて、活躍をされている。
世の中の機械化・自動化の波に飲み込まれ、また少子高齢化などの要因によりそういった熟練工の技だけに頼って生産を進める事が難しくなった。
生産する対象も高度になればなるほど、構造も複雑になり、熟練の技だけに頼るわけにもいかない状況になりつつある。
生産設備においての機械音は様々なバリエーションがある。
モータ作動音、自動的に物資を運ぶ車のタイヤ音、金属同士をすり合わせる音、プラスチックと金属が当たる音、人の声、サイレン音などなど。
本研究は深層学習・機械学習時のデータ量が大量に必要になるという特性により、学習が困難になってしまう事をカバーして、より精度の高い学習を行えるデータ作りのために行われた。
様々な雑音が発生する中から特定の機械音を抽出し、製造業の1工程が終わったことの検査をするための仕組みを構築した
学習データを大量生成して、より堅牢な抽出器を構築する目的とする
音データの再生

2. 着想・アイディア

本研究のアイディアは以前に行っていた、為替の予測についての研究からスタートした。
第19回のSIG-FIN金融情報学研究会での研究発表で、為替チャートを学習し未来の価格を予測するために、チャート画像を入力にして将来の画像を作成する研究を行った。（メインテーマではない）

3. 学習データ

機械音は実物をスタジオで録音することにより、10パターンほど準備した（5種類、大小）
機械を接続する音を録音し学習に使用する。ただし、録音信号をスペクトログラムに変換する処理を行い、画像データを入力データとして使用することで、音データの生成に応用する。
10種類の機械接続音を512×32pixelのパワースペクトログラムに変換した。（図2左）これらの録音信号から変換された10の画像データを学習用素材として用いる。
機械音発生箇所のみを切り取った512×8pixelのパワースペクトログラム画像から、ランダムに8×8pixelの領域を選択し、選択箇所を切り取った。8×8 pixelの領域を抽出した画像を入力データ（図5左）、抽出前の画像（図5右）を正解データとして与えることで、抜き取られた領域を補完したパワースペクトログラムを生成するように学習させた。（図 5）録音信号1つにつき1000 個の入力データを生成した。録音信号数が10であったので、合計10000の学習用機械音を生成した。

4. 検証内容

pix2pix[4] とは、Isolaらによって提案された生成モデルであり、入力データと正解データの組から、両者の関係性を学習する。任意の入力を与えることで、学習した関係性を反映した出力を行うことが出来る。 pix2pixのGeneratoには、画像セグメンテーションのためのU-Net[6]が使われている。U-Netは、データから抽出された局所的な特徴のみでなく、位置に関する情報も保持できるという特徴を持つ。浅い層で獲得される特徴も取得されるため、質の高い画像を得ることができる。
図6、7はそれぞれ、pix2pixのGenerator、Discriminatorの構造を表す。

5. 機械音生成実験

今回は2種類の検証を行った。
1.生成を行うタスクでの比較として、DCGANでの出力とpix2pixでの出力
2.結果が良かったpix2pixの応用実験

1.DCGANでの出力とpix2pixでの出力
DCGANおよびpix2pixにより生成された機械音のパワースペクトログラムの例を（図8）に示す。
録音信号の波形（図9）と比較した場合、DCGANでは元の信号と大きく異なった波形（図 10）が生成された。一方で、pix2pixで生成した信号（図11）では類似した波形が得られた。
DCGANでは、振幅の変動が開始・終了する時刻、振幅がピークを取る時刻はどのデータでもおおよそ一致したが、最大振幅および各時刻での振幅値についてはデータごとのばらつきが大きくなる結果が得られた。
pix2pixでは、一部分を切り抜き、512×8 のうちの一部分のみを生成することで、生成結果の評価のため、10の録音信号と10000の生成信号について、dynamic time warping（DTW） [7] によって信号同士の信号間距離を計算した。pix2pixの生成信号では、すべての項目について、録音信号同士の比較と遜色ない値が得られた。以上より、pix2pixでは十分に望ましい機械接続音の生成ができたと言える。

6. 応用実験

pix2pixにてパワースペクトログラムから8×8pixcelの領域をそれぞれ2箇所、4箇所、8箇所、16箇所、32箇所切り取ったものを入力データとして学習用機械接続音を生成した。10000の学習用機械接続音を生成した。生成結果の評価のため、録音信号とpix2pixによる生成信号の全ての組み合わせについてdynamic time warping（DTW）[7]によって信号同士の信号間距離の平均値を計算した。信号間距離の平均値と信号生成の際に切り取った8×8領域数の関係を（図 12）に示す。切り抜きの箇所を増やすほど、元のデータと類似度が低い機械音が生成されることが確認できる。

7. まとめ

機械装置の製造工程における、機械音を作業者が聴き取ることで不良品を検知する工程を、音による不良品検知技術を利用して自動化する方法を検討した。音源中に存在する様々な雑音の除去を行うために、データ・ドリブンな深層学習を使用する場合、音源の人手による網羅的な収集には莫大なコストがかかる。そこで本論文では、敵対的生成ネットワーク（GAN）の一種であるDCGANとpix2pixの2つの手法を用いた音源生成実験とその考察を行なった。生成の結果、DCGANでは学習データの不足から、音源生成はできなかったが、pix2pixによる生成ではオリジナルの機械接続音と質的に近い音源を得ることができた。本稿では機械接続音について取り扱ったが、今後は、その他の局所発生的な音声全般についても応用を試みたい。

ここまでご愛読いただきありがとうございました!

よろしければ弊社SNSもご覧ください！
Twitter https://twitter.com/CrystalMethodAI
Facebook https://www.facebook.com/クリスタルメソッド株式会社-100971778872865/