本記事では、Barkと呼ばれる機械学習手法を用いてテキストプロンプトからオーディオを生成する方法をご紹介します。
Bark
概要
Bark は、Sunoによって作成されたトランスフォーマーベースのテキストからオーディオへのモデルです。
Bark は、非常にリアルな多言語音声だけでなく、音楽、背景ノイズ、単純な効果音などの他の音声も生成できます。
また、笑う、ため息、泣くなどの非言語コミュニケーションを生成することも可能でありながら、商用利用が可能な事前トレーニング済みモデルを提供しています。
詳細はこちらのGithubをご参照ください。
本記事では上記手法を用いて、テキストからスピーチや音楽を生成していきます。
デモ(Colaboratory)
それでは、実際に動かしながらText to Audioを試していきます。
ソースコードは本記事にも記載していますが、下記のGitHubでも取得可能です。
GitHub - Colaboratory demo
また、下記から直接Google Colaboratoryで開くこともできます。
なお、このデモはPythonで実装しています。
Pythonの実装に不安がある方、Pythonを使った機械学習について詳しく勉強したい方は、以下の書籍やオンライン講座などがおすすめです。
おすすめの書籍
[初心者向け] Pythonで機械学習を始めるまでに読んだおすすめ書籍一覧
本記事では、現役機械学習エンジニアとして働く筆者が実際に読んだ書籍の中でおすすめの書籍をレベル別に紹介しています。
おすすめのオンライン講座
[初心者向け] 機械学習がゼロから分かるおすすめオンライン講座
本記事では、機械学習エンジニアとして働く筆者が、AI・機械学習をまったく知らない方でも取り組みやすいおすすめのオンライン講座をご紹介しています。
環境セットアップ
それではセットアップしていきます。 Colaboratoryを開いたら下記を設定しGPUを使用するようにしてください。
初めにGithubからソースコードを取得します。
次にライブラリをインストールします。
最後にライブラリをインポートします。
以上で環境セットアップは完了です。
学習済みモデルのセットアップ
続いて、学習済みモデルをダウンロードします。
関数が用意されているので、コールするのみです。
Text to Audio(日本語)
それでは、まず日本語の音声を生成してみます。
出力結果は以下の通りです。
#Bark を用いて #TextToAudio を試してみました。
— 12kaz (@12_technology) May 12, 2023
多言語対応しており日本語の生成は以下の通りです。
ブラウザでお試しいただけますhttps://t.co/joo4RYXLsH#Python #生成AI pic.twitter.com/XE7Ur5xNx9
Text to Audio(非言語)
続いて、言語だけではなく、笑い声を追加したオーディオを生成します。
出力結果は以下の通りです。
#Bark を用いてテキストから音声を生成してみました。
— 12kaz (@12_technology) May 12, 2023
言語だけではなく、笑い声など非言語音声の生成も可能です。
ブラウザでお試しいただけますhttps://t.co/joo4RYXLsH#Python #生成AI pic.twitter.com/thGT78Tvqy
Text to Audio(Sing)
最後に、テキストを歌詞として歌ったオーディオを生成します。
出力結果は以下の通りです。
#Bark を用いて、テキストから歌を生成してみました。
— 12kaz (@12_technology) May 12, 2023
スピーチ音声だけではなく、以下のような歌を生成することが可能です。
ブラウザでお試しいただけますhttps://t.co/joo4RYXLsH#Python #生成AI pic.twitter.com/aBSxL1ZB2D
まとめ
本記事では、Barkを用いてText to Audioを動かす方法をご紹介しました。
Text to Speechと異なり、非言語コミュニケーションの生成が可能である点が特徴です。
また本記事では、機械学習を動かすことにフォーカスしてご紹介しました。
もう少し学術的に体系立てて学びたいという方には以下の書籍などがお勧めです。ぜひご一読下さい。
また動かせるだけから理解して応用できるエンジニアの足掛かりに下記のUdemyなどもお勧めです。
0 件のコメント :
コメントを投稿