{"id":241481,"date":"2024-10-15T12:34:09","date_gmt":"2024-10-15T10:34:09","guid":{"rendered":"https:\/\/www.ifun.de\/?p=241481"},"modified":"2024-10-22T08:33:08","modified_gmt":"2024-10-22T06:33:08","slug":"kein-logisches-denken-apple-zweifelt-an-ki-faehigkeiten","status":"publish","type":"post","link":"https:\/\/www.ifun.de\/kein-logisches-denken-apple-zweifelt-an-ki-faehigkeiten-241481\/","title":{"rendered":"Kein logisches Denken: Apple zweifelt an KI-F\u00e4higkeiten"},"content":{"rendered":"<p>Ein Team aus sechs bei Apple angestellten KI-Forschern hat <a href=\"https:\/\/machinelearning.apple.com\/research\/gsm-symbolic\">in einem neuen Bericht<\/a> die F\u00e4higkeiten gro\u00dfer KI-Sprachmodelle, sogenannter LLMs, zur mathematischen Probleml\u00f6sung unter die Lupe genommen.<\/p>\n<p><a href=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/10\/GS_Mcompare_a242881839.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-241483\" src=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/10\/GS_Mcompare_a242881839-500x358.png\" alt=\"GS Mcompare A242881839\" width=\"500\" height=\"358\" srcset=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/10\/GS_Mcompare_a242881839-500x358.png 500w, https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/10\/GS_Mcompare_a242881839-700x501.png 700w, https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/10\/GS_Mcompare_a242881839-768x550.png 768w, https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/10\/GS_Mcompare_a242881839-1536x1100.png 1536w, https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/10\/GS_Mcompare_a242881839-2048x1466.png 2048w\" sizes=\"auto, (max-width: 500px) 100vw, 500px\" \/><\/a><\/p>\n<p>Im Fokus der Untersuchung stand dabei die Resultate g\u00e4ngiger Testverfahren <a href=\"https:\/\/openai.com\/index\/solving-math-word-problems\/\">wie dem GSM8K-Benchmark<\/a>, dessen Aussagekraft die Forscher infrage stellen. Der GSM8K-Benchmark wird h\u00e4ufig genutzt, um die mathematischen F\u00e4higkeiten moderner KI-Modelle anhand eines Fragenkataloges auf Grundschulniveau zu bewerten.<\/p>\n<p>Obwohl sich die Leistung der untersuchten Modelle in den letzten Jahren kontinuierlich verbessert hat, bleibt unklar, ob dies auf echte Fortschritte in der mathematischen Logik zur\u00fcckzuf\u00fchren ist.<\/p>\n<h2>&#8222;Mathematische Logik&#8220; problematisch<\/h2>\n<p>Zudem stellten Apples Forscher fest, dass die Leistung der Modelle mit zunehmender Komplexit\u00e4t der Aufgaben deutlich abnimmt. Besonders auff\u00e4llig sei, dass schon das Hinzuf\u00fcgen einer zus\u00e4tzlichen Klausel, die f\u00fcr die L\u00f6sung irrelevant ist, zu einem Leistungseinbruch von bis zu 65 Prozent f\u00fchren kann.<\/p>\n<p>Dies deute darauf hin, dass die Modelle keiner echten logischen Argumentation folgen, sondern vielmehr Muster und L\u00f6sungswege nachahmen, die sie w\u00e4hrend ihres Trainings gelernt haben.<\/p>\n<p><a href=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/10\/logik-apple.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-large wp-image-241482\" src=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/10\/logik-apple-700x100.png\" alt=\"Logik Apple\" width=\"700\" height=\"100\" srcset=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/10\/logik-apple-700x100.png 700w, https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/10\/logik-apple-500x72.png 500w, https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/10\/logik-apple-768x110.png 768w, https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/10\/logik-apple.png 976w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/a><\/p>\n<p>Das Paper mit dem Titel &#8222;GSM-Symbolic: Understanding the Limitations of<br \/>\nMathematical Reasoning in Large Language Models&#8220; k\u00f6nnt ihr bei Interesse hier aus dem Netz laden:<\/p>\n<ul>\n<li><strong>PDF-Download:<\/strong> <a href=\"https:\/\/arxiv.org\/pdf\/2410.05229\">Apple Paper zur GSM Symbolic<\/a><\/li>\n<\/ul>\n<h2>Neuer Benchmark zur besseren Bewertung<\/h2>\n<p>Die Apple-Forscher haben einen neuen Benchmark namens \u201eGSM-Symbolic\u201c entwickelt. Dieser soll eine gr\u00f6\u00dfere Vielfalt an Fragen und pr\u00e4zisere Bewertungsergebnisse erm\u00f6glichen.<\/p>\n<p>Die Untersuchung zeigt, dass die getesteten Modelle sehr unterschiedlich auf leichte Ver\u00e4nderungen in den Aufgabenstellungen reagieren. Alle Modelle zeigten schlechtere Ergebnisse, sobald inhaltlich gleiche Fragen nur in ihren Zahlenwerten ver\u00e4ndert wurden. Dies legt nahe, dass die mathematische Logik der Modelle bei minimalen Anpassungen br\u00fcchig wird.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/vg09.met.vgwort.de\/na\/fc2d28aaa7694b95b828b8411b6e662b\" width=\"1\" height=\"1\" no-lazy class=\"tracking\"><\/p>\n","protected":false},"excerpt":{"rendered":"<a href=\"https:\/\/www.ifun.de\/kein-logisches-denken-apple-zweifelt-an-ki-faehigkeiten-241481\/\"><img width=\"150\" height=\"150\" src=\"https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/10\/machine-learning-feature-150x150.jpg\" class=\"alignright tfe wp-post-image\" alt=\"Machine Learning Feature\" decoding=\"async\" loading=\"lazy\" \/><\/a><p>Ein Team aus sechs bei Apple angestellten KI-Forschern hat in einem neuen Bericht die F\u00e4higkeiten gro\u00dfer KI-Sprachmodelle, sogenannter LLMs, zur mathematischen Probleml\u00f6sung unter die Lupe genommen. Im Fokus der Untersuchung stand dabei die Resultate g\u00e4ngiger Testverfahren wie dem GSM8K-Benchmark, dessen Aussagekraft die Forscher infrage stellen. Der GSM8K-Benchmark wird h\u00e4ufig genutzt, um die mathematischen F\u00e4higkeiten moderner [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":241484,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[3,1783],"tags":[3536,6065],"class_list":["post-241481","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-apple","category-feature","tag-ki","tag-kuenstliche-intelligenz"],"acf":[],"aioseo_notices":[],"featured_image":["https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/10\/machine-learning-feature.jpg"],"subheadline":["\"Mathematische Logik\" problematisch"],"rest_api_enabler":{"featured_image":"https:\/\/images.ifun.de\/wp-content\/uploads\/2024\/10\/machine-learning-feature.jpg","subheadline":"\"Mathematische Logik\" problematisch"},"_links":{"self":[{"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/posts\/241481","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/comments?post=241481"}],"version-history":[{"count":1,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/posts\/241481\/revisions"}],"predecessor-version":[{"id":241486,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/posts\/241481\/revisions\/241486"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/media\/241484"}],"wp:attachment":[{"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/media?parent=241481"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/categories?post=241481"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.ifun.de\/apiv2\/wp\/v2\/tags?post=241481"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}