Neues NVIDIA-Modell integriert
Parakeet v3 beschleunigt Transkriptionen in MacWhisper
Die Mac-Anwendung MacWhisper war bisher schon dafür bekannt, dass sie Audioinhalte extrem schnell in geschriebenen Text umwandeln kann. Mit dem jetzt verfügbaren Update auf Version 12.18 lässt sich das Arbeitstempo der App noch einmal weiter steigern.
In der aktuellen Programmversion unterstützt MacWhisper bereits das erst vor wenigen Tagen von NVIDIA vorgestellte Sprachmodell Parakeet v3. NVIDIA hat Parakeet insbesondere darauf optimiert, auch längere Audiopassagen mit hoher Geschwindigkeit zu verarbeiten. In der neuen Version 3 ist das Sprachmodell in der Lage, Blöcke mit bis zu 24 Minuten langen Audiosegmenten direkt zu verarbeiten. Das Modell erkennt die Eingabesprache dabei automatisch und transkribiert ohne zusätzliche Eingabeschritte.
NVIDIA-Demo seiner neuen Sprachmodelle
NVIDIA hat das Modell insbesondere für Aufgaben wie das Erstellen von Untertiteln in Echtzeit oder die Transkription von Vorträgen und Podcasts ohne Zeitversatz optimiert. Genau wie das ebenfalls von NVIDIA angebotene, flexibler einsetzbare Canary-Modell ist Parakeet dazu in der Lage, Satzzeichen sowie Groß- und Kleinschreibung zu erkennen und auf die einzelnen Wörter bezogene Zeitstempel zu setzen.
Verschiedene Sprachmodelle zur Auswahl
In der neuen Version von MacWhisper ist Parakeet v3 nicht automatisch integriert. Wenn man das Modell verwenden will, muss man es über die Einstellungen der App herunterladen und kann es daraufhin über die Benutzeroberfläche aktivieren.
MacWhisper bietet die Möglichkeit, vorhandene Sprachdateien zu verarbeiten oder Audio für die direkte Transkription aufzunehmen. Eine experimentelle Funktion erlaubt es, Podcasts direkt über die App in Text umzuwandeln. In Verbindung mit dem neuen Parakeet-Paket unterstützt die Anwendung 25 Sprachen, darunter Deutsch.
Das Programm lässt sich kostenlos über Gumroad oder im Mac App Store laden. Für den vollen Leistungsumfang ist allerdings der Kauf einer Pro-Lizenz erforderlich, diese wird über beide Vertriebswege zum Preis von 59 Euro angeboten.
Super netter Entwickler. Würde eher zum Kauf über Gumroad raten, da da mehr bei ihm hängen bleibt. Die App an sich kann man eh uneingeschränkt empfehlen.
Ich habe das auch gleich gekauft. Super App. Mit dem Apple CPU rasend schnell.
Macht einen soliden, guten Eindruck und ist absolut stabil. Evtl. müsste die Oberfläche etwas übersichtlicher gestaltet werden, aber trotzdem absolut empfehlenswert.
Kann ich da auch WhatsApp sprachnachrichten mit füttern?
Top App!
Ebenso seine super Whisper-App für iOS
Neues Modell ausprobiert, die ersten Ergebnisse sind phänomenal gut, besser als alle Modelle die es bisher gab.
Findet eine Sprechererkennung statt?
Ja, eine Sprecher Erkennung findet statt.
Top dann probiere ich das mal aus.
Kann das Model auch unterschiedliche Sprachen? Hab manchmal den Fall einen italienischen Vortrag mit englischer Übersetzung transkribieren zu müssen.
Apples transkriptionsfunktion kann man wie die meisten total vergessen in diesem Fall. Die whisper-Modelle sind ganz brauchbar, aber es könnte besser sein.
Ja steht doch im Text
Habe gerade ein 3-stündiges Seminar transkribieren lassen, war auch kein Problem. Es ist nicht auf 24 min begrenzt. In 1 min war es fertig