Neue Trainingsmethode verbessert Textqualität
KI-Forschung: Apple Intelligence verfasst lange Texte besonders schnell
In einer aktuellen Veröffentlichung haben Forscher von Apple ein neues Sprachmodell vorgestellt, das längere Texte deutlich schneller generieren soll als bisherige Verfahren.
Während gängige KI-Sprachmodelle wie ChatGPT sogenannte autoregressive Modelle verwenden, die Token für Token in einer festen Reihenfolge erzeugen, verfolgt das neue Modell einen anderen Ansatz. Es basiert auf der sogenannten Diffusionstechnik, bei der mehrere Textbausteine parallel erstellt und anschließend über mehrere Rechenschritte hinweg verfeinert werden.
Diffusionsmodelle gelten als vielversprechend, sind bislang jedoch rechenintensiv. Teilweise werden mehrere hundert bis tausend Rechenschritte benötigt, um ein qualitativ hochwertiges Ergebnis zu erzielen. Das neue Modell mit dem Namen FS-DFM („Few-Step Discrete Flow-Matching“) reduziert diesen Aufwand deutlich. Statt über tausend Durchläufe reichen dem System laut Studie acht Schritte aus, um eine mit ChatGPT vergleichbare Textqualität zu erreichen.
Neue Trainingsmethode verbessert Textqualität
Die zentrale Neuerung bei FS-DFM liegt in der Art und Weise, wie das Modell trainiert wurde. Es wurde darauf ausgelegt, auch bei wenigen Bearbeitungsschritten stabile und präzise Ergebnisse zu liefern. Dazu lernt es, die Wahrscheinlichkeit für passende Wörter effizient zu verschieben, ohne dabei zu stark vom Zieltext abzuweichen. Unterstützt wird es durch ein sogenanntes „Teacher Model“, das als Referenz für die Textentwicklung dient. Auf diese Weise sollen sich auch größere Sprünge im Textverständnis mit weniger Rechenaufwand zuverlässig umsetzen lassen.
Bei Tests auf gängigen Sprachmodell-Benchmarks schnitt FS-DFM bei zwei Kennzahlen besonders gut ab: Perplexity und Entropie. Ein niedriger Perplexity-Wert weist auf eine bessere Vorhersagegenauigkeit des Modells hin. Eine kontrollierte Entropie sorgt dafür, dass der generierte Text weder zu monoton noch zu zufällig erscheint. Trotz deutlich geringerer Modellgrößen konnte FS-DFM hier mit größeren Vergleichsmodellen mithalten oder diese sogar übertreffen.
Die Forscher planen, den Code und die Modellvarianten zu veröffentlichen, um weiterführende Analysen und Reproduktionen zu ermöglichen. Das Paper „FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models“ lässt sich hier einsehen.
Awesome – das Warten lohnt sich
Da scheint Apple auf dem richtigen Weg zu sein. Haben die schon mit der Bildanalyse bewiesen.
Welche Bildanalyse?
In der Fotoapp kann man nach Begriffen und Texten suchen ;-) Das funktioniert wirklich super und verwende ich sehr oft. Ist Quasi mein DMS in der Hosentasche.