ifun.de — Apple News seit 2001. 38 353 Artikel

Text-to-Speech-API für markierte Texte

AudioBuddy: Mac-App für die Sprachsynthese von OpenAI

Artikel auf Mastodon teilen.
5 Kommentare 5

OpenAI, das US-Unternehmen hinter dem künstlich-intelligenten Textgenerator ChatGPT, hat mehrere KI-Angebote im Programm, zu denen unter anderem das sogenannte TTS-Modell des Anbieters zählt.

Audio Buddy

TTS steht für Text-to-Speech, also für die synthetische Spracherzeugung auf Basis von Texten, mit denen sich beliebige Artikel, Dokumente und Schriftstücke in Hörinhalte umwandeln lassen. Dabei bietet OpenAI zwei unterschiedliche Modelle an: tts-1 ist auf die Echtzeitumwandlung von Textinhalten ausgerichtet, tts-1-hd benötigt etwas mehr Zeit und konzentriert sich auf das qualitativ hochwertigste Ergebnis.

Die aktuelle Ausgabe der TTS-KI-Modelle versteht sich auf zahlreiche Eingangssprachen und bietet mehrere unterschiedliche Stimmen an, zu denen etwa Alloy, Echo, Fable, Onyx, Nova und Shimmer zählen.

Audio Buddy Large

Über die Programmierschnittstelle von OpenAI lässt sich das Modell mit Texten füttern, anschließend liefert dieses je nach Wunsch eine MP3- oder auch eine Opus-, AAC-, FLAC-, WAV-, oder PCM-Datei aus.

Nutzer der Schnittstelle erhalten alle Rechte an den so erstellten Audiodateien, jedoch auch die Auflage, Anwender darüber zu informieren, dass sie eine KI-generierte Stimme hören und nicht eine echte Person.

AudioBuddy liefert TTS für markierte Texte

Zur Nutzung der TTS-Schnittstelle bietet sich jetzt die Mac-Applikation AudioBuddy an, die direkt mit der API des Anbieters kommunizieren kann. Nutzer müssen hier lediglich ihren vorhandenen API-Schlüssel eintragen und können sich zuvor kopierte Textinhalte mit wenigen Mausklicks direkt in der hervorragenden Audioqualität des OpenAI-Angebotes vorlesen lassen.

Der Download steht sowohl auf dem Open-Source-Portal GitHub als auch über den Gumroad-Shop des Entwicklers bereit. Hier wird AudioBuddy zum „Zahle, was du willst“-Preis angeboten und kann sowohl als Freeware aus dem Netz geladen werden, lässt sich aber auch mit einer 10-Euro-Spende an den Entwickler verknüpfen.

Die API-Preise liegen bei $30 für eine Million vertonte Zeichen. Eine voll geschriebene DIN-A-4 Seite kommt auf grob 2.000 Zeichen.

Auch mit Bordmitteln möglich

08. Apr 2024 um 08:36 Uhr von Nicolas Fehler gefunden?


    Zum Absenden des Formulars muss Google reCAPTCHA geladen werden.
    Google reCAPTCHA Datenschutzerklärung

    Google reCAPTCHA laden

    5 Kommentare bisher. Dieser Unterhaltung fehlt Deine Stimme.
  • Danke für den Tipp. Mal anschauen. Ich lasse mir gerne lange Artikel nebenher vorlesen.
    Aber im Vergleich zu den sonstigen AI und API Preise erscheinen mir 30$ für 1.000.000 Zeichen ziemlich viel

  • 2.000 Wörter / DIN A4
    Also: 500 Seiten / 30$

    Klingt jetzt nicht teuer, aber ich kenne keinen anderen Preise…

  • Kann AudioBuddy auch mehrere Sprachen, oder ist es ausschließlich auf Englisch?

  • Ich finde die Bordmittel EIGENTLICH total super. Aber obwohl mich das Thema echt interessiert, bin ich noch nicht in dem Wirrwarr der Einstellungen durchgestiegen. Es wird nämlich nicht immer zuverlässig die von mir ausgewählte Stimme verwendet. Auch der Wechsel zwischen Deutsch und Englisch ist schwierig.
    Die Möglichkeit, den Text hervorheben zu lassen, damit man immer sofort weiß an welcher Stelle man jetzt ist, funktioniert auch nur ab und zu wie erwartet.
    Es geht mir sowohl mit MacOS wie auch mit iOS so.

  • Redet mit. Seid nett zueinander!

    Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

    ifun.de ist das dienstälteste europäische Onlineportal rund um Apples Lifestyle-Produkte.
    Wir informieren täglich über Aktuelles und Interessantes aus der Welt rund um iPad, iPod, Mac und sonstige Dinge, die uns gefallen.
    Insgesamt haben wir 38353 Artikel in den vergangenen 8276 Tagen veröffentlicht. Und es werden täglich mehr.
    ifun.de — Love it or leave it   ·   Copyright © 2024 aketo GmbH   ·   Impressum   ·   Cookie Einstellungen   ·   Datenschutz   ·   Safari-Push aketo GmbH Powered by SysEleven