Genauigkeit bleibt zentrale Schwachstelle
Apples neue Spracherkennung: Schnell, aber weniger präzise
Mit den Testversionen von macOS Tahoe, iOS 26 und iPadOS 26 hat Apple neue Programmierschnittstellen zur Sprachtranskription eingeführt, die im Vergleich zu bestehenden Lösungen wie dem Whisper-Modell von OpenAI deutlich schneller arbeiten sollen.
Das Terminal-Tool „yap“ kann Apples neue Spracherkennung bereits nutzen
Whisper liefert zuverlässigere Ergebnisse
Die neuen Funktionen basieren auf einer überarbeiteten Infrastruktur, in der nun Klassen wie „SpeechAnalyzer“ und Module wie „SpeechTranscriber“ zentrale Aufgaben übernehmen. Entwicklern stehen damit zukünftig Werkzeuge zur Verfügung, die auf den gleichen nativen Sprachframeworks basieren, die Apple auch für eigene Anwendungen wie Notizen, Sprachnachrichten oder die geplante Anruftranskription verwendet.
In ersten Tests zeigte sich die Effizienz der neuen Systeme besonders bei größeren Dateien. Ein 34-minütiges Video mit einer Größe von 7 Gigabyte konnte mit Apples neuen Werkzeugen in nur 45 Sekunden verschriftlichen werden. Der Vergleich mit der Whisper-Integration in der Mac-Anwendung MacWhisper zeigt eine deutliche Differenz. Dort dauerte derselbe Vorgang 1 Minute und 41 Sekunden. Apple verarbeitet solche Aufgaben damit rund 55 Prozent schneller.
Genauigkeit bleibt zentrale Schwachstelle
Trotz der hohen Geschwindigkeit liegt Apple bei der Texterkennung weiterhin hinter anderen Lösungen zurück. Prakash Joshi Pax, Entwickler der Mac-Applikation VoiceInk, testete die neuen Apple-Werkzeuge in Kombination mit zwei Alternativen: dem Whisper-Modell „Large V3 Turbo“ von OpenAI und „Scribe v1“ von ElevenLabs. Die Grundlage des Vergleichs bildeten 15 englischsprachige Audiobeispiele mit einer Dauer zwischen 15 Sekunden und zwei Minuten.
Die Ergebnisse der Wortfehlerrate (WER) sprechen eine klare Sprache. Während ElevenLabs mit einer WER von 3,42 Prozent den präzisesten Text erzeugte, lag Whisper bei 3,95 Prozent. Apple kam auf einen Wert von 7,63 Prozent und verfehlte damit deutlich die Genauigkeit der beiden Mitbewerber.
Zwar war die Transkription nahezu in Echtzeit möglich, doch bei der inhaltlichen Treffsicherheit zeigen sich noch Schwächen.
Apple setzt in iPadOS 26, iOS 26 und macOS Tahoe derzeit also vor allem auf eine maximal effiziente Verarbeitung. Für Anwendungen, bei denen Geschwindigkeit entscheidend ist, kann dies von Vorteil sein. In Szenarien mit hohen Ansprüchen an die Textqualität dürfte Whisper jedoch weiterhin die bevorzugte Lösung bleiben.
Gut, dass das eine Beta ist und Software gut angepasst werden kann.
Das Apple sich hier gegen zwei explizit darauf spezialisierte Entwicklungen behaupten muss, lassen wir mal außen vor – die 7,xx% sind demnach aber gar nicht allzu schlecht und sollten für die breite Massen ausreichend sein!
Würde auch sagen das es für ein Erstaufschlag schon richtig gut ist.
Es ist wirklich erstaunlich, wie schlecht die Transkriptfunktion funktioniert. Habt ihr mal gelesen, was das iPhone bei Sprachnachrichten transkribiert? Unterirdisch.
Sprachnachrichten auf WhatsApp?
Das macht Meta.
Da ist iMessages deutlich besser wie ich finde!
Die Transkription von Anrufen auf der Voicemail ist echt unterirdisch. Genauso Sprachnachrichten via Messages. Ist ja wohl auch die gleiche Funktion.
Seh ich anders
Ich wünsche mir eigentlich eine präzisere als schnellere Eingabe, da ich das in letzter Zeit nun doch öfter für LLM Prompt benutze. Im Vergleich zu Windows ist die Spracheingabe auf macOS echt weit hinterher.