ミニレビュー

入力したテキストを音声に変換するAWS「Amazon Polly」を無料で試す

Amazon Polly

「AIナントか」ってよく見かけますよね。何となく知性を感じるアプリやプログラムには、とりあえず「AI(エーアイ)」と付けておけという風潮もあります。ホントにAI? と疑問に感じることも多々ありますが、AI(Artificial Intelligence)の解釈は、専門家によっても千差万別で、厳密な定義はないようなので、ある側面においては、AIで間違いないようです。

とはいえ、AI技術がどれくらい進化しているか体感したいですよね。しかも手軽に。それで見つけたのが、今回紹介するテキスト読み上げAIの「Amazon Polly」です。

音声を認識して文字起こしするアプリは多々ありますが、AWSの提供する「Amazon Polly」は、その逆、入力したテキストを音声に変換するサービスです。例えばこんな感じです。

音声例/AmazonPolly01.mp3(0.10MB)

編集部ではファイル再生の保証はいたしかねます

かなり自然なイントネーションですよね。これは、テキストをコピー&ペーストしただけなのですが、任意で入力したテキストでも、その場で流暢に喋ってくれます。

Amazon Pollyの初回利用から12カ月間は、500万字/月まで無料。500万字なら、音声の長さで100時間超は使える計算となるので、試しに使ってみるには十分です。

利用にはAWSアカウントの取得が必要

Amazon Pollyを利用するために、まずはこちらからAWSアカウントを取得しましょう。いつも買い物で使っているAmazonアカウントとは別物です。

Web開発に携わる方はご存じだと思いますが、AWS(Amazon Web Service)は、Amazonの提供するWebサービス群の総称で、サーバー、データベースのほか、IoTシステムの構築、機械学習、画像認識など、Amazonの最新技術を利用できるのです。

料金体系がややこしいのですが、基本は従量課金制です。サービスの利用量に応じて課金されます。前述のようにAmazon Pollyは、初回利用から12カ月間は、500万字/月まで無料。それ以降は、100万字あたり、4.00USD/月になります。

メールアドレス、パスワード、アカウント名(任意)を指定して、[続行]ボタンをクリックする
ここでは[パーソナル]を選択する。氏名や電話番号などを入力して、アカウントを作成する

この後、クレジットカードの登録や2段階認証の設定などが続きますが、いわゆるアカウントの作成と同じです。

アカウントが作成できたら、さっそくAmazon PollyのWebページにアクセスしてみましょう。

3,000文字以内なら音声ファイルを即ダウンロード可能

Amazon PollyのWebページを開くと、サンプルのテキストが表示されるので、[音声を聴く]ボタンをクリックしてみてください。その下の[ダウンロードMP3]ボタンで音声データをダウンロード可能です。

[音声を聴く]ボタンをクリックして、サンプルのテキストを再生する
[英語(米国)]は8名から選択可能
[標準中国語]は1名のみ

以下はサンプルテキストの再生データをMP3形式でダウンロードしたものです。

日本語/AmazonPolly02.mp3(0.03MB)

英語(米国)/AmazonPolly03.mp3(0.03MB)

標準中国語/AmazonPolly04.mp3(0.03MB)

編集部ではファイル再生の保証はいたしかねます

これだけでもワクワクしませんか。なお、1回のテキスト入力で3,000字までは、すぐにダウンロードでき、3,000字を超えて100,000字までは、AWSのS3サーバーに保存後にダウンロードできます。実質、無制限に音声データへ変換できるようなものですよ。

公式ページでは、このように書かれています。

Amazon Pollyは、文章をリアルな音声に変換するサービスです。テキスト読み上げができるアプリケーションを作成できるため、まったく新しいタイプの音声対応製品を構築できます。Pollyは、高度なディープラーニング技術を使用したテキスト読み上げ(TTS)サービスで、自然に聞こえるように人間の音声を合成します。何十種類ものリアルな音声を多数の言語でサポートしているため、さまざまな国に対応した音声アプリケーションを構築できます。

AWSに蓄積された膨大なデータを元に、ディープラーニングによって「Amazon Polly」に活かされているのですね。今のところ日本語は、Mizuki(女性)かTakumi(男性)の2択ですが、将来的には音声の追加も期待できそうです。

音声データはチューニングも可能

サンプルのテキストでは物足りないので、任意のテキストを入力して再生してみます。なお、同じ漢字でも異なる読み方があるため、読み間違えもあります。その場合は、ひらがなで入力し直してみてください。

任意のテキストを入力して、[音声を聴く]ボタンをクリックする。ここでは、Takumiを選択した

任意に入力したテキストを音声データに変換/AmazonPolly05.mp3(0.03MB)

編集部ではファイル再生の保証はいたしかねます

もっと野太い声を期待していたのですが、Takumiは爽やかすぎました。声質そのものの変更はできないのですが、音声合成マークアップ言語(SSML)で、一時停止や、読み上げ速度の変更、ささやきなどの細やかなチューニングが可能です。

[SSML]タブに切り替えると、<speak>~</speak>で囲まれたサンプルテキストに切り替わるので、SSMLタグを挿入していきます。

[SSML]タブに切り替え。サンプルテキストが<speak>~</speak>で囲まれている
<break time="1s"/>で1秒停止。「300ms」などの指定も可能

1秒停止でひと呼吸入れる/AmazonPolly06.mp3(0.03MB)

編集部ではファイル再生の保証はいたしかねます

x-slow、slow、medium、fast、x-fastで話す速度を指定できるほか、「200%」などの指定も可能。<prosody rate="x-fast">で早口言葉を試す

早口言葉/AmazonPolly07.mp3(0.02MB)

編集部ではファイル再生の保証はいたしかねます

利用可能なSSMLタグは、サポートページに詳しく掲載されています。

Amazon Pollyの使い道

任意のテキストから音声データを作成・ダウンロードできるのが、「Amazon Polly」のメリットでしょう。音声データの所有権は、作成者にあるとサポートページに明記してあります

お客様は常に自分のコンテンツの所有権を保持します。AWSでは、お客様のコンテンツをお客様の同意なく使用することはありません。

セミナー等の場内アナウンスや動画配信用のナレーションなど、使いどころは多そうです。Google翻訳などと組み合わせて、手軽に英語や中国語などに変換できるのは、いろいろと捗る予感。「Amazon Polly」をぜひ体感してみてください。

伊井タカシマ