Eine Stunde Audio wird in 30 Sekunden zu Text
Transcription Pro: Mac-App nutzt Apples neuen SpeechAnalyzer
Mit Vorstellung der neuen SpeechAnalyzer-Schnittstelle im Rahmen der WWDC-Entwicklerkonferenz hat Apple Entwicklern ein Werkzeug an die Hand gegeben, das Transkriptionen direkt auf den Geräten ermöglicht.
Darauf aufbauend hat der Aachener Entwickler Martin Lexow (regelmäßigen ifun.de-Lesern durchaus ein Begriff) eine neue macOS-Anwendung veröffentlicht, die Audiodateien schnell in Text umwandelt. Die App verarbeitet eine Stunde Sprachmaterial in rund einer halben Minute und arbeitet vollständig offline.
Transcription Pro bietet damit eine native Alternative zur hervorragenden MacWhisper-App, die nicht auf externe KI-Modelle setzt, sondern nutzt, was Apple seinem neuen Betriebssystem bereits mit auf den Weg gegeben hat.
Lokale Verarbeitung und flexible Exportformate
Ein zentraler Vorteil der Anwendung ist, dass sie keine Aufwärmphase benötigt. Das zugrunde liegende Modell wird gemeinsam mit dem Betriebssystem geladen und ist sofort einsatzbereit. So kann die Transkription ohne Verzögerung starten und die App bleibt vergleichsweise klein.
Nutzer können die Ergebnisse in verschiedene Formate exportieren, darunter Textdateien, Tabellenformate oder Untertiteldateien wie SRT und VTT. Unterstützt werden zahlreiche Sprachen, darunter Deutsch, Englisch, Spanisch, Französisch und Chinesisch. Auch die Aufteilung der Transkripte nach Wörtern, Sätzen oder Zeitintervallen ist möglich.
Verfügbarkeit und Preisgestaltung
Die macOS-Version von Transcription Pro ist ab sofort erhältlich, eine iOS-Variante ist bereits in Arbeit und soll in Kürze folgen. Zum Start ist die Nutzung kostenlos, gegen Jahresende ist ein Bezahlmodell vorgesehen. Geplant sind Abonnements mit monatlicher oder jährlicher Abrechnung sowie eine Einmalzahlung. Der App Store zeigt hier bereits Platzhalter-Preise an.
Zielgruppe sind Anwender, die Mitschnitte von Vorträgen, Meetings oder Interviews in Textform benötigen und Wert auf lokale Verarbeitung legen. Die Anwendung verzichtet vollständig auf Analyse- oder Tracking-Dienste und konzentriert sich auf eine einfache Nutzung.


„ Zum Start ist die Nutzung kostenlos, gegen Jahresende ist ein Bezahlmodell vorgesehen.“
Also ich kann von kostenlos nichts entdecken, bekomme gleich saftige In-App-Käufe angezeigt.
Alle Funktionen der App können derzeit uneingeschränkt genutzt werden. Es wird innerhalb der App auch nie zu einem Kauf o.ä. aufgefordert. Auf der App Store Seite der App werden aber In-App-Preise gelistet (es sind die, die ich zum Ende des Jahres aufrufen möchte), das stimmt.
Die App nutzt also iOS eigene Bordmittel und verlangt dann monatlich Geld für die Nutzung? Da wird MacWhisper sicherlich zeitnah nachziehen.
Jordi ist ein toller Entwickler, seine App MacWhisper ist super umfangreich und wirklich gut gemacht. Aber auch MacWhisper hat das Transkribieren selbst natürlich nicht erfunden, sondern greift wie alle (mir bekannten) Apps in diesem Genre auf Sprachmodelle von Tech-Konzernen wie OpenAI (Whisper), NVIDIA (Parakeet), u.a. zurück. Das Verwenden von Apple ins Betriebssystem integrierte Sprachmodell ist insofern nichts anderes. Es birgt jedoch erhebliche Ressourcen- und Geschwindigkeitsvorteile.
Falls Du dich dafür interessierst, wie ich meine Preise gestalte, habe ich hier einen Beitrag dazu verfasst: https://appahead.studio/pricing
Cold.
Das schreib ich am Wochenende nach und spare mir die InApp Käufe.
Smart!
Ich benutze Digger Solo, das sortiert alles, man kann alles finden und auch Videos analysieren und transcripieren
https://solo.digger.lol
Wie es scheint basiert alles auf vorhanden Dateien.
Ich suche aber eher einen „Live“ Transcript bzw. Übersetzer.
Möchte zum Sprachen lernen einen Fensehsender per Stream nebenbei laufen lassen und hätte davon gerne die Untertitel und Übersetzung gehabt. Also dass ich in der App eine MacOS App festlege (evtl auch noch einen speziellen Tab) und von dort die Tonausgabe live verarbeitet wird?