今回ご紹介するのは中国で爆発的に人気のあるオープンソース音声クローニングAI「MockingBird」です。2023年3月23日時点でMockingBirdに関する日本語の情報は皆無。なぜなら生成できる音声は中国語のみとなっているからです。そのため中国語ができるAI通でない限りWebから探し当てることは困難でしょう。
MockingBirdとは
キャッチコピーは「5秒内克隆您的声音并生成任意语音内容」
必要な学習データは数秒の音声データだけ。あとはテキストを音声に変換するAI技術「Text-To-Speech(TTS)」によって、与えた音声に似た音声を出力してくれるオープンソースの音声クローニングAIプラットフォームです。「aidatatang_200zh」や「data_aishell」などの様々な中国語の音声データセットであらかじめ学習された、中国語専門の音声合成AIです。開発者は元Facebookのエンジニア。
MockingBirdの利用方法
MockingBirdは下記GitHub上に公開されています。
環境構築方法はGitHubを参考にしてください。
環境構築が面倒な方のために環境一式を公開してくれている方がいるので、こちらの環境を使用すると以下の手順で簡単に「MockingBird」を利用することができます。
- 環境を解凍し、「运行web程序.cmd」を実行(ダブルクリック)
- コマンドプロンプトに出力された「Network URL」をブラウザで開く
以下の画面が開けば起動成功です。
- 「本文内容」に中国語を入力し、synthesize(合成)ボタンをクリック
すると画面右側にTTSで生成されたクローン音声が出力されます。
画面右上の[︙]からwav音声をダウンロードすることも可能です。
入力音声の指定方法
デフォルトの音声を利用する場合
「输入语音」のリストにデフォルトで用意されたwav音声があるので、好きな音声を指定することができます。
独自の音声を利用する場合
「或上传语音」の枠にwavファイルをドラッグ&ドロップするか、「Browse files」ボタンからwavファイルを指定することができます。
GitHubで紹介のデモ動画はこちら
コメント