Voices.com enthüllt seine neue AI Beta: Wir haben ein Ohr darauf geworfen!

Voices.com hat sein Beta-Programm für eine neue AI gestartet, und wir hatten die Gelegenheit, die Plattform zu testen. Voices.com hat bereits in den eigenen FAQ wichtige Fragen rund um das AI Studio und den Umgang mit Talenten und Kunden beantwortet. Wir möchten nicht nur diese Informationen genauer beleuchten, sondern auch einen praxisnahen kritischen Eindruck davon vermitteln, wie die Plattform im Alltagseinsatz abschneidet. 

Was ist das AI Studio?

Das AI Studio von Voices.com positioniert sich als Plattform, die es Kunden ermöglicht, die „geklonten“ Stimmen professioneller Sprecher per Text-to-Speech (TTS) vorzuhören, zu kaufen und herunterzuladen. Für die Talente, also die SprecherInnen selbst, soll dieses Angebot eine neue Einkommensquelle darstellen, indem sie ihre Stimmen für den Klonprozess zur Verfügung stellen. Doch wie steht es um die Qualität der generierten Audiodateien? Kann das AI Studio wirklich das Niveau von professionell eingesprochenen Texten erreichen? Diese Fragen wollen wir im weiteren Verlauf unseres Tests detailliert beleuchten.

Unsere Erfahrung mit dem AI Studio-Beta

Sobald man sich in die Beta-Plattform eingeloggt hat, beginnt der Prozess mit einer einfachen Frage: Welche Art von Projekt möchte man erstellen? Anschließend wird eine begrenzte Auswahl an Stimmen präsentiert, aktuell  ca. 10 verschiedene Optionen. Jede dieser Stimmen wird mit eigenen Demos vorgestellt, sodass man sich durch die Beispiele klicken und ein Gefühl für die jeweilige „Persönlichkeit“ der Stimme bekommen kann. Hat man sich für eine Stimme entschieden, gelangt man zum nächsten Schritt, in der der Sprechertext eingegeben werden kann. Zudem bietet das Interface die Möglichkeit, Pausen hinzuzufügen und Betonungen individuell anzupassen.

Quelle: https://www.voices.com/studio?utm_source=voicesai&utm_medium=email&utm_campaign=voicesai_early_access

Anschließend besteht die Möglichkeit, sich eine Preview des eingegebenen Textes anzuhören. Zum Zeitpunkt der Entstehung dieses Blog-Artikels war es jedoch noch nicht möglich, die generierte Audiodatei herunterzuladen. Daher bleibt unklar, inwiefern sich die Qualität der „Vorschau“ von der des finalen, kaufbaren Audios unterscheidet. Was allerdings deutlich wird, ist, dass der Output der AI von Voices.com vergleichbare Ergebnisse liefert wie andere AI-Tools die aktuell auf dem Markt sind. Es scheint also, zumindest in der Beta-Phase, keinen signifikanten Qualitätsvorteil zu bieten. Wenn man davon absieht, dass man bei Voices.com die Artists die hinter den Ai Voices stehen als individuellen Künstler (Menschen) identifizieren kann. 

Die Qualität des Voices.com Beta-AI Outputs

Da es aktuell noch nicht möglich ist, die generierten Stimmen bei Voices.com zu bezahlen und herunterzuladen, können wir aus rechtlichen Gründen an dieser Stelle (noch) keine Audiobeispiele präsentieren. Stattdessen möchten wir unsere Erfahrungen mit den dort generierten Previews teilen.

  • Die grundlegende Betonung und Natürlichkeit des AI-Outputs ist vergleichbar mit anderen Text-to-Speech-Stimmgeneratoren.
  • Wie zu erwarten fehlt den KI-generierten Stimmen die Fähigkeit zur Kontextberücksichtigung, die ein professioneller Sprecher mitbringen würde. Infolgedessen sind die Betonungen oft nicht so gesetzt, wie sie in einem professionellen Kontext idealerweise sein sollten.
  • Es kommt teilweise zu kleinen Artefakten, insbesondere an Wortanfängen oder Wortenden. 
  • Das Editieren der Pausen erweist sich zwar als mühsam, funktioniert jedoch im Großen und Ganzen recht gut.
  • Die Audioqualität variiert von Stimme zu Stimme, was eventuell auf unterschiedliches Trainingsmaterial oder Equipment der jeweiligen Sprecher zurückzuführen sein könnte.
  • Für kurze Sätze und einfache Anwendungen scheint die KI durchaus brauchbar zu sein. Allerdings ist sie weit davon entfernt, Subtext hörbar zu machen oder gezielt Emotionen zu wecken.
  • Für das Branding von Marken erscheint diese KI derzeit nicht geeignet und es bleibt fraglich, ob AI jemals das Zeug dazu haben wird, die Anforderungen dafür zu erfüllen.
  • Der Download des Outputs erscheint im Vergleich zu anderen AI-Tools als vergleichsweise teuer. Als Beispiel: $0,50 pro Wort für eine Stimme namens Rachael West führten in unserem Fall zu Kosten von $72,80 für ein 140-Wort-Skript.

Insgesamt lässt sich feststellen, dass die KI von Voices.com in ihrer aktuellen Beta-Version zwar Potential zeigt, aber noch einige Schwächen hat, die weiterer Verbesserung bedürfen. Darüber hinaus betont Voices.com in ihrem eigenen Blogartikel:

Für längere Hörerlebnisse gibt es immer noch keinen geeigneten Ersatz für die echte menschliche Stimme. Bei Dingen wie Unternehmensschulungen,  Bildungsinhalten oder öffentlichen Bekanntmachungen, bei denen es darum geht, zu informieren, oder bei allem, was inspirieren oder unterhalten soll, sollte eine echte, dynamische Stimme den Inhalt vortragen.“ 

 https://www.voices.com/blog/your-ai-voice-questions-answered/

Die Ethik hinter dem Voices.com Ansatz

Voices.com legt betont großen Wert darauf, ethisch korrekt zu agieren. So sind  – Einverständnis, Anerkennung und Entlohnung – zentrale Prinzipien in der Zusammenarbeit mit den Talenten. 

Die Transparenz, mit der Voices.com seine ethischen Grundsätze kommuniziert, ist lobenswert und die Idee eine einfache Einkommensquelle für Talente zu schaffen klingt auch gut. Voiceover Artists können sogar Einschränkungsfilter nutzen, um zu steuern, welche Wörter ihre geklonte Stimme sagen darf und welche nicht. Nach Abschluss eines Projekts bekommen die Talente sogar Einblick in das verwendete Skript.

Fazit: KI-Stimmen vs. Menschliche Stimmen

Voices.com zeigt mit der Einführung von KI-generierten Stimmen zumindest den Willen, Sprechern eine neue Einnahmequelle zu bieten. Das ist in der heutigen Zeit, in der KI zunehmend in verschiedenen Bereichen eingesetzt wird, lobenswert. Es ist auch positiv, dass Voices.com ethische Richtlinien für die Zusammenarbeit mit Talenten aufgestellt hat, einschließlich der Absicht, sie für die Nutzung ihrer Stimmen zu entlohnen.

Dennoch muss klar gesagt werden: In ihrer aktuellen Beta-Phase ist die KI-Technologie von Voices.com für professionelle Anwendungen einfach nicht ausgereift genug. Von inkonsistenter Audioqualität bis hin zu unerwünschten Artefakten und einer mangelnden Fähigkeit, Emotionen oder Subtext effektiv zu vermitteln, sind die im Preview generierten Stimmen weit davon entfernt, einen echten menschlichen Sprecher zu ersetzen. Zudem erscheinen die Kosten für den Download der final generierten Audiodateien im Vergleich zu anderen Anbietern unverhältnismäßig hoch.

Kurz gesagt, während die Idee und die ethischen Überlegungen hinter dem Projekt lobenswert sind, hat die Ausführung noch einen langen Weg vor sich, um für professionelle Anwendungen wirklich attraktiv zu sein.

Nach all dem KI-Gezwitscher sehnt ihr euch nach dem Klang echter menschlicher Stimmen? Ein paar richtig gute echte menschliche Stimmen könnt ihr auf der Artists-Übersichtsseite von Audiobird.com hören.

Vom Sprecher bis zum Sounddesigner​

  • Audiobird liefert Sound mit Zufriedenheitsgarantie. Top Sprecher, Produzenten & Tonstudios für Audiokommunikation - online on demand

Vorteile Audiobird

Benötigen Sie Hilfe?

Kreatives und überzeugendes Audiobranding für Marken, Produkte und Events. Wir beantworten Ihre individuelle Produktions-Anfrage auch über die klassischen Kanäle