{"id":269701,"date":"2025-11-24T17:06:15","date_gmt":"2025-11-24T16:06:15","guid":{"rendered":"https:\/\/www.ifun.de\/?p=269701"},"modified":"2025-12-03T06:33:05","modified_gmt":"2025-12-03T05:33:05","slug":"ki-forschung-apple-untersucht-aktivitaetserkennung-per-sprachmodell","status":"publish","type":"post","link":"https:\/\/www.ifun.de\/ki-forschung-apple-untersucht-aktivitaetserkennung-per-sprachmodell-269701\/","title":{"rendered":"KI-Forschung: Apple untersucht Aktivit\u00e4tserkennung per Sprachmodell"},"content":{"rendered":"<p>Apple widmet sich <a href=\"https:\/\/machinelearning.apple.com\/research\/multimodal-sensor-fusion\">in einer aktuellen Forschungsarbeit<\/a> der Frage, wie gro\u00dfe Sprachmodelle einfache Sensorinformationen auswerten k\u00f6nnen. Das Unternehmen pr\u00fcft dabei, ob sich Bewegungs- und Umgebungsdaten zuverl\u00e4ssiger analysieren lassen, wenn zus\u00e4tzliche Modelle die Daten zun\u00e4chst in kurze Textbeschreibungen umwandeln.<\/p>\n<p><a href=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/11\/machine-learning.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-269703\" src=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/11\/machine-learning-500x263.png\" alt=\"Machine Learning\" width=\"500\" height=\"263\" srcset=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/11\/machine-learning-500x263.png 500w, https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/11\/machine-learning-700x368.png 700w, https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/11\/machine-learning-768x403.png 768w, https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/11\/machine-learning.png 1200w\" sizes=\"auto, (max-width: 500px) 100vw, 500px\" \/><\/a><\/p>\n<p>Die Studie (&#8222;Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition&#8220;) zeigt, dass diese Kombination selbst bei knappen Messwerten zu \u00fcberraschend klaren Ergebnissen f\u00fchren kann. Grundlage hierf\u00fcr ist ein Ansatz, bei dem verschiedene KI-Modelle nacheinander arbeiten und ihre Einsch\u00e4tzungen an ein KI-Sprachmodell weitergeben. Dieses soll Muster erkennen und aus vielen kleinen Hinweisen auf eine \u00fcbergeordnete T\u00e4tigkeit schlie\u00dfen.<\/p>\n<ul>\n<li><strong>PDF-Download:<\/strong> <a href=\"https:\/\/www.arxiv.org\/pdf\/2509.10729\">Using LLMs for Activity Recognition<\/a><\/li>\n<\/ul>\n<h2>KI-Modelle werten die Daten aus<\/h2>\n<p>F\u00fcr die Untersuchung nutzte Apple einen <a href=\"https:\/\/ego4d-data.org\/\">\u00f6ffentlich verf\u00fcgbaren Datensatz<\/a>, der Alltagssituationen aus der Ich-Perspektive zeigt. Aus diesem Material w\u00e4hlte das Team zw\u00f6lf typische T\u00e4tigkeiten aus. Dazu geh\u00f6rten Kochen, verschiedene Sportarten, Haushaltsaufgaben sowie die Nutzung eines Computers. Zu jedem dieser kurzen Videosegmente standen passende Tonaufnahmen und Bewegungsdaten bereit.<\/p>\n<p>Im ersten Schritt werteten spezialisierte Modelle diese Rohdaten getrennt voneinander aus. Ein Audiomodell erzeugte kurze Textbeschreibungen und ordnete die Ger\u00e4usche bestimmten Kategorien zu. Ein weiteres Modell analysierte die Messwerte von Beschleunigungssensor und Gyroskop und leitete daraus einfache Bewegungsmuster ab.<\/p>\n<p><a href=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/11\/ermittlung-werte.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-large wp-image-269702\" src=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/11\/ermittlung-werte-700x162.jpg\" alt=\"Ermittlung Werte\" width=\"700\" height=\"162\" srcset=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/11\/ermittlung-werte-700x162.jpg 700w, https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/11\/ermittlung-werte-500x116.jpg 500w, https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/11\/ermittlung-werte-768x178.jpg 768w, https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/11\/ermittlung-werte-1536x356.jpg 1536w, https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/11\/ermittlung-werte-2048x475.jpg 2048w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/a><\/p>\n<p>Erst danach wurden die erzeugten Texte an ein KI-Sprachmodell \u00fcbergeben. Dieses sollte allein auf Basis der zusammengestellten Beschreibungen eine T\u00e4tigkeit erkennen, ohne daf\u00fcr speziell trainiert worden zu sein.<\/p>\n<h2>Gute Ergebnisse auch bei knappen Daten<\/h2>\n<p>Apple konnte sowohl mit gro\u00dfen Sprachmodellen als auch mit kleinen Kompakt-Modellen solide Ergebnisse erzielen. Besonders hilfreich waren die Audiobeschreibungen, da sie oft Hinweise auf charakteristische Ger\u00e4usche lieferten. Bewegungsdaten erg\u00e4nzten diese Einsch\u00e4tzungen, wenn deutlich erkennbare Muster vorlagen.<\/p>\n<p>Die Forscher testeten zudem, wie die Modelle reagieren, wenn sie keine vorgegebenen Auswahlm\u00f6glichkeiten erhalten. Auch in diesem offenen Szenario gelang eine Einordnung, die nahe an den tats\u00e4chlichen Aktivit\u00e4ten lag. Apple sieht darin einen m\u00f6glichen Ansatz f\u00fcr k\u00fcnftige Anwendungen, bei denen Ger\u00e4te aus groben Signalen sinnvolle R\u00fcckschl\u00fcsse ziehen m\u00fcssen.<\/p>\n<p>Apples Ansatz zeigt daher vor allem, wie sich unterschiedliche Modelle schrittweise kombinieren lassen, um Alltagsabl\u00e4ufe besser zu erfassen, auch wenn die verf\u00fcgbaren Sensordaten knapp sind<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/vg05.met.vgwort.de\/na\/789d63d36d284a73bac7dec78d3ca417\" width=\"1\" height=\"1\"  no-lazy class=\"tracking\"><\/p>\n","protected":false},"excerpt":{"rendered":"<a href=\"https:\/\/www.ifun.de\/ki-forschung-apple-untersucht-aktivitaetserkennung-per-sprachmodell-269701\/\"><img width=\"150\" height=\"150\" src=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/11\/machine-learning-150x150.png\" class=\"alignright tfe wp-post-image\" alt=\"Machine Learning\" decoding=\"async\" loading=\"lazy\" \/><\/a><p>Apple widmet sich in einer aktuellen Forschungsarbeit der Frage, wie gro\u00dfe Sprachmodelle einfache Sensorinformationen auswerten k\u00f6nnen. Das Unternehmen pr\u00fcft dabei, ob sich Bewegungs- und Umgebungsdaten zuverl\u00e4ssiger analysieren lassen, wenn zus\u00e4tzliche Modelle die Daten zun\u00e4chst in kurze Textbeschreibungen umwandeln. Die Studie (&#8222;Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition&#8220;) zeigt, dass diese Kombination selbst [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":269703,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[1],"tags":[4736,436,3536,2034],"class_list":["post-269701","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-news","tag-apple","tag-forschung","tag-ki","tag-wissenschaft"],"acf":[],"aioseo_notices":[],"featured_image":["https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/10\/ki-forschung-apple.jpg"],"subheadline":["Gute Ergebnisse auch bei knappen Daten"],"rest_api_enabler":{"featured_image":"https:\/\/images.ifun.de\/wp-content\/uploads\/2025\/10\/ki-forschung-apple.jpg","subheadline":"Gute Ergebnisse auch bei knappen Daten"},"_links":{"self":[{"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/posts\/269701","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/comments?post=269701"}],"version-history":[{"count":4,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/posts\/269701\/revisions"}],"predecessor-version":[{"id":269771,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/posts\/269701\/revisions\/269771"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/media\/269703"}],"wp:attachment":[{"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/media?parent=269701"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/categories?post=269701"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/tags?post=269701"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}