Theres

テレス・プレイスラー

マーケティング

音声ガイド用AIボイスの真実 - その実力は?

Nubart's blog - the truch about AI voices in audio guides

人間の声に代わるAI音声は、音声ガイド制作に新たな選択の幅を与えてくれます。AIの助けを借りて、さまざまな言語で原稿をナレーションする音声を簡単かつ迅速に作成すれば、費用と時間を大幅に節約できます。しかし、機械は人間ほど簡単には適応できないため、これらの音声にはいくつかの制限があります(まだね)。この記事では、実際に音声ガイドにAI音声を導入する際に直面する可能性のある問題をいくつか指摘します。


どのように機能するのか?

AIは私たちの生活の多くの側面をより簡単に、より楽しくしてくれます。AIが生成する音声の出現により、音声ガイド業界も影響を受けています。音声合成(TTS)や自然言語処理(NLP)などの技術を使えば、どのようなテキストでも人工音声に変換し、来訪者を案内することができます。音声ガイドにAI音声を選ぶと、次のようなメリットがあります。

音声ガイド用AIボイスの主な利点


1 - 手頃な価格

予算が限られているにもかかわらず、ミュージアムの音声ガイドを制作したい場合、AI音声が良い解決策になるかもしれません。人間の音声制作に比べ、AI音声は主に機械が作業を行うため、かなり安価です。


2 - 制作時間短縮...ある程度まで

音声ガイドにAI音声を使用すれば、さまざまな言語やアクセントを素早く生成できるため、迅速な制作が保証されます。しかし、ボタンを押せば魔法のような人間の声が出るほど単純ではありません。

オーディオガイドの品質を真剣に考えるのであれば、各トラックを注意深く聴き、ほとんどの場合、手作業で編集する必要があります。AIはまだ完璧ではないため、この編集作業には長い時間がかかります。

まず、レンダリングに時間をかけなければならない。スクリプトをアップロードし、最も気に入った音声を選択したら、選択したプラットフォームが魔法をかけてトラックを生成するのを待つ必要があります。65ワード(=4行)の短いテキストなら、レンダリングに約7秒かかります。7秒という時間は長くないと思われるかもしれませんが...編集するたびに何度も何度も7秒待たされると、誰でもイライラしてきます。

音声に変換するテキストが大量にあり、結果の品質にあまりこだわらない場合に限り、AI音声は手頃な価格であるだけでなく、スピードも速いです。 .


3 - 台本に忠実なレコーディング

人間のナレーターと仕事をしたことがある人なら、原稿の小さな間違い、例えば、漢字の変換間違い、単語の入れ替えや脱字がほとんど避けられないことを知っているでしょう。従って、音声ガイドの制作では、それらの間違いを見つけるために、すべての音声トラックを聴きながら、台本と読み比べるという、面倒ではあるが避けられない作業が必要になります。

少なくとも台本通りに読むという意味では、AIの声は完璧です。しかし、喜ぶのはまだ早いです。別の理由(後述)があって、いずれにせよ全トラックを聴かなければいけません。

ここまでが長所です。次に短所を見てみましょう。


オーディオガイド用AI音声の主な欠点


1 - 感情の欠如

AIの音声は人間らしく聞こえるように、かなり良くなってきています。しかし、やはり機械は機械であり、少なくとも近い将来、感情を表現する完全な人間の能力を持つことはないでしょう。声優は聞き手にとって非常にリアルに感じられるように役を演じる訓練を受けています。もし、ナレーションの声が個性にあふれ、魅力的で、感情的で、印象に残るものであることが重要であれば、人間の声の方が良い選択かもしれません。特に、どのような声にしたいかという具体的なイメージがある場合は、AI音声では期待に応えられないかもしれません。

現在のほとんどのAI音声プラットフォームでは、「インスパイアする」、「宣伝口調」、「悲しい」、「穏やか」、「会話調」といった声のトーンを設定することができます。これは素晴らしいアプローチですが、さまざまなオプションを試し、提案されたAI音声のそれぞれにこれらのトーンがどのように聞こえるかを確認するには時間がかかります。

例えば、「残念ながら、この建物の残りの部分は戦争中に完全に破壊されてしまいました。」という微妙な悲しさを表現するAI音声を見つけるには多分難しいでしょう。なぜなら「悲しい」というトーンの設定ではドラマのようになるからです。

AIの声には微妙なニュアンスは(まだ)無理のようです!


2 - 潜在的にネガティブな認識

クラウドアーミー(英語)が実施した、AI音声を使用した広告に対する参加者の暗示的な反応を調べた研究によると、人間は通常、人間とAIの声の違いを意識的に見分けることはできないが、人工音声に対する暗示的な反応は、人間の音声を使用した広告に対する反応よりも人工音声に対する暗示的な反応は肯定的ではなく、信頼できるものではありませんでした。

音声ガイドが広告とは異なる文脈を提供するとしても、こうした洞察は考慮に入れるべきです。AI音声をうまく利用するためには、訪問者がAI音声をどのように認識するかを理解することが重要です。

AIの声はシンセサイザーで作られたピアノソナタのようなもので、人間が演奏するよりも完璧に聞こえるが、無意識のうちに私たちの心に響くことはできないのかもしれません。人間の不完全さが持つ美しさに欠けているのかもしれません。


3 - 修正が難しいミス

AI技術はまだ発展途上です。間違いも珍しくありません。例えば、機械がある言語の句読点の打ち方を認識しておらず、正しいイントネーションが作れないことがあったり、数字が正しく発音されない場合もあります。このようなミスは人間が修正しなければいけませんが、非常に時間がかかり、常に可能とは限りません。

さらに、間違いを修正できるようにするために、使用言語はチームメンバーが話さなければいけません。そうでなければ、あなたにはフランス語らしく聞こえても、フランス語を母国語とする人には全くそう聞こえない音声トラックができてしまいます!

しかも、AI音声生成アプリに指示を伝えるのは難しいです。人間の話し手には、「一文ごとに間をとってください」と言えばすぐに理解してもらえます。しかし、人工音声の場合は、台本の全体を通してすべての間を手作業で指摘し、それぞれの長さを決めなければいけません。

略語は大きな課題です。たいていのAIボイスは、「NATO」や「NASA」のようなよく知られた略語は正しく発音できます。しかし、例えばスクリプトに「RIP(rest in peace、「安らかに眠る」の略で一文字ずつ発音)」とあれば、人工音声はおそらく「ripe (ライプ、熟したという意味)」と、まるで果物であるかのように発音するでしょう。スクリプトの中のすべての略語を検索し、あなたが聞きたい言葉に一つ一つ置き換えていかなければいけません。


4 - 外国語が含まれている場合の課題

AI音声のもう一つの大きな課題は、外国語の発音です。これは異文化コミュニケーションに特に敏感なミュージアムの世界では大事なことです。

例えば、Ermenegildo Zegna(エルメネジルド・ゼニア)のドレスが展示されているファッション・ミュージアムをクライアントに持つとしましょう。何度か試みましたが、どのAI音声も、このブランド名を一息で、音節「gil」にアクセントをつけて正しく発音させることができませんでした。私たちが試した英語やフランス語のAIボイスは、各音節の間に間があり、イタリア人の耳には耐え難いものでした。特に、あなたのクライアントがイタリアに拠点を置いている場合、これは重大な問題です!

ほとんどのAI音声生成アプリは、特定の単語に対して国際音声記号(IPA)を適用することができます。しかし、これまでのところ、あまり満足のいく結果は得られていません。さらに、IPA表記をオンラインで見つけられるとは限らないので、このアプローチには多くの忍耐と高度な専門知識が必要です。


音声ガイドにおけるAI音声の適用方法

AIボイスを使用する場合は、Murf AI、ElevenLabs、PlayHT、LOVO AI、Narakeet、Resemble AI、TypecastなどのAI音声生成プラットフォームに登録する必要があります。さまざまな年齢、性別、言語、ムードを表すさまざまな声から選ぶことができます。声を選び、スクリプトをアップロードしたら、音声ガイドをレンダリングすることができます。この時点から、AI音声ガイドの制作を進めるには2つの方法が考えられます。

  1. 音声トラックをAI音声音声生成プラットフォームで作成し、それ以上の編集を加えない:間が抜けていたり、発音がおかしかったりなど、多くの誤りがあるかもしれないことをご了承ください。
  2. チームのメンバーがAI音声トラックを手動で編集し、間合いの追加や削除、ピッチ、スピード、トーンの調整、可能な限り誤った発音を修正することです。これは、NubartがCopper(銅)と呼ばれる最も低いサービスレベルでAI音声を扱う方法です。最初のオプションよりもはるかに時間がかかりますが、当社の高い基準を満たし、ここに記載したIA制約の範囲内で、お客様にご満足いただける最終結果を達成するために必要な時間をかけます。

どんな声が欲しい?

AIと人間の声を比較すると、AIの声は(まだ)完璧ではないことがすぐにわかります。人間の声はまだ、この「戦い」に勝っています。人間の声は感情を伝え、印象に残り、本当に伝えたいストーリーを伝えることができます。しかし、予算的に人間の声を使うことができない場合、現実的な期待を持ち続けられるのなら、AI音声は良い選択肢になります. These voices may not be able to live up to high standards, but they can still get the job done and provide valuable information to your visitors.