# 2-9 AI オーディオ

> Text-to-Speech（TTS）技術は、書かれたテキストを生き生きとした話し言葉に変換します。クリック一つで、ドキュメント、書籍、または任意の書かれた素材を、誰かが直接話しているかのように聞くことができます。マルチタスク、移動中の学習、または情報をよりアクセスしやすくするために理想的で、TTSは可能性の世界を開き、読書の未来を聞く機会を提供します。いつでも、どこでもコンテンツを吸収する自由と柔軟性を体験してください。

**ページ入口**

## テキストから音声への変換の使い方

1. AI Audioをクリックして、音声コミュニティに入ります。
2. 好きな声を選択し、「創作」クリックし、テキストを入力します（現在、日本語、英語、中国語に対応しています）。その後、再び「創作」をクリックします。

<figure><img src="https://1032308035-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FBZCjgc8P9tA3CJw4NnIH%2Fuploads%2FqabE56tRi4XruYlNktnw%2F%E4%BC%81%E4%B8%9A%E5%BE%AE%E4%BF%A1%E6%88%AA%E5%9B%BE_20240903173511.png?alt=media&#x26;token=80447664-21dd-47d9-a356-6e471d67b2f8" alt="" width="563"><figcaption></figcaption></figure>

*\*右側の履歴レコードで、以前に生成された音声を確認できます。*

利用可能な音色が気に入らない場合、独自の音色をカスタマイズすることができます。

<figure><img src="https://1032308035-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FBZCjgc8P9tA3CJw4NnIH%2Fuploads%2FljXIj2f7dJXhUqZkCbLL%2F%E4%BC%81%E4%B8%9A%E5%BE%AE%E4%BF%A1%E6%88%AA%E5%9B%BE_20240903173526.png?alt=media&#x26;token=4ea2dee8-b684-438d-8ecb-d81b43ca0cbd" alt="" width="563"><figcaption></figcaption></figure>

## 音声トレーニングの三段階：

### Ⅰ. 全体の流れ

1）音声情報を入力2）音声ファイルをアップロード3）「今すぐトレーニング」をクリックして結果を確認

### Ⅱ. 手順詳細

#### Step 1：音声情報を入力

<figure><img src="https://1032308035-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FBZCjgc8P9tA3CJw4NnIH%2Fuploads%2FMBkrpt3CD0ATtirCKoQ5%2Fimage.png?alt=media&#x26;token=b3316794-f9f0-402c-bc50-d86b0d5d26ed" alt=""><figcaption></figcaption></figure>

| サムネイルアップロード（画像を選択） | 1:1 正方形画像、2 MB 以内                    |
| ------------------ | ------------------------------------ |
| 音声名称               | 1～20 文字、検索しやすい名前を推奨                  |
| モデル                | 使用する学習モデル（デフォルト：SeaArt-speech-01-hd） |
| 性別 / 年齢 / 口調       | アップロードする声に合わせて選択                     |
| 言語                 | 音声と同じ言語を選択（日本語／英語／中国語／韓国語対応）         |
| テキストから音声へのサンプル     | モデルが参照する台詞（50 文字以内）                  |
| タグ                 | 0～5 個まで設定可                           |
| 公開するかどうか（公開 / 非公開） | 公開：コミュニティに掲載／非公開：自分のみ閲覧              |

#### Step 2：音声をアップロード

<figure><img src="https://1032308035-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FBZCjgc8P9tA3CJw4NnIH%2Fuploads%2Fyev5rRnbpswp5eA7Jzuj%2Fimage.png?alt=media&#x26;token=edf8505c-2122-435d-8119-c03ca2456dc5" alt=""><figcaption></figcaption></figure>

* **アップロード方法：**&#x53F3;側「ファイルをドラッグまたはアップロード」に音声をドラッグ＆ドロップ、またはクリックして選択
* **対応形式：**&#x6D;p3 / wav / aac
* **長さ制限：**&#x33;0 秒以内（10 秒程度のクリア音声で高速学習が可能）
* ファイルサイズ：20 MB 以内
* **品質のポイント**
* BGM・残響・ノイズのない純粋な音声を使用
* 声の特徴がはっきりし、感情が安定したクリップを選択
* 楽曲やBGM付き音声は推奨されません

#### Step 3：「今すぐトレーニング」をクリック

* 消耗：28（画面にリアルタイム表示）
* **進行状況と結果確認**

1. 右上「トレーニング履歴」で全ジョブを確認
2. 完了後、リストで再生・名前変更・削除が可能
3. 公開設定が「公開」の場合、プロフィール → Audio Works に自動掲載

<figure><img src="https://1032308035-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FBZCjgc8P9tA3CJw4NnIH%2Fuploads%2FFQXxPOH2qpuvx3JpkSy2%2F%E4%BC%81%E4%B8%9A%E5%BE%AE%E4%BF%A1%E6%88%AA%E5%9B%BE_20240903174804.png?alt=media&#x26;token=f7013d98-16f5-47b8-ba16-23cef2a3b802" alt=""><figcaption></figcaption></figure>

### Ⅲ. よくある質問 & ヒント

1. なぜ 10～20 秒が推奨？

* 短時間なら数分で学習が終わり、声の特徴も十分に抽出できます。

1. 複数クリップをまとめてアップロードできる？

* 現在は未対応。事前に 1 本へ編集してからアップロードしてください。

1. 録音品質が低い場合は？

* Audition や Audacity などのノイズ除去ツールで処理した後にアップロードすると効果的です。

1. トレーニングが失敗・停止する場合は？

* ネットワーク接続を確認し、音声形式・長さが要件を満たしているか再チェックしてください。
