Irisia ProjectのBert-VITS2の学習結果

女性声優によるキャラクター演技音声のデータセットを提供しているIrisia Project様 (twitter, X: @IrisiaProject) のコーパスを利用して、テキスト合成音声TTSのライブラリBert-VITS2 (ver 2.1) を使って学習した結果の、合成された出力音声の結果まとめです。
7種類の原稿と、それぞれ17個のステップ数での出力が聞けます(合計7 * 17 = 119音声)。
手動人力xyplotともいいます。どれがいいかはあなたの耳で判断してください。(自分もがんばります。)
学習のやり方等については記事参照

選択された原稿の内容

原稿を選択してその内容を表示します。

サンプル1のオプション

学習等詳細

  • Bert-VITS2 ver 2.1使用
  • 設定: config.json、変更はバッチサイズ(4)とログのインターバル(50)とエポック数(100)のみ。
  • 1kステップあたり約2.886エポック、100エポック終了扱い。
  • 学習時間:100エポックが4070で5.45時間(実際はもっと短いエポックの学習で十分な質です)
  • 学習データ:irisia_corpus_ver1.0のhigh_tension, low_tension, natural(ver1.0で2個抜けあり、ver1.1で修正済みだけどそっちは使ってません)から、それぞれからITAコーパスを取り除いた1422ファイル(合計121分37秒)、書き起こしはそのまま使用。
  • 推論設定:改行ごとに分けて生成、パラメータはデフォ
  • ロスのログ

    ライセンス情報

    この音声たちはTTSの研究評価用に生成されたものであり、本音声は研究用にのみ利用できます。詳しくは Irisia Projectの生成音声利用規約を御覧ください。