Ein Post auf X lenkt den Blick auf ein frisches arXiv-Paper: Am 6. Oktober 2025 hat Alexia Jolicoeur-Martineau von Samsung SAIL Montréal „Less is More: Recursive Reasoning with Tiny Networks“ veröffentlicht. Das darin vorgestellte Tiny Recursive Model (TRM) nutzt eine einzige, sehr kleine Architektur und erreicht laut Autorin 45 Prozent Testgenauigkeit auf ARC-AGI-1 sowie 8 Prozent auf ARC-AGI-2 – Werte, die im Paper ausdrücklich gegen gängige, deutlich größere LLMs gestellt werden.
TRM positioniert sich als vereinfachte Antwort auf das „Hierarchical Reasoning Model“ (HRM). Während HRM mit zwei Netzen arbeitet, die mit verschiedenen Frequenzen rekursiv über latente Repräsentationen iterieren, reduziert TRM das Prinzip auf ein einziges kleines Netz mit nur zwei Schichten. Dieses Netz verbessert in mehreren Schritten abwechselnd eine latente Variable und die aktuelle Antwort und nähert sich so iterativ der Lösung an.
Neben den ARC-AGI-Werten nennt das Paper weitere Messpunkte: Auf Sudoku-Extreme steigt die Testgenauigkeit von zuvor berichteten 55 Prozent auf 87 Prozent, auf Maze-Hard von 75 Prozent auf 85 Prozent. Solche Aufgaben gelten als Härtetests für strukturiertes, schrittweises Schließen. Wichtig ist dabei die Einordnung: Die Ergebnisse beziehen sich auf genau definierte Settings und Datensplits der jeweiligen Benchmarks.
Für Nachvollziehbarkeit hilft, dass der Code offenliegt. Im begleitenden GitHub-Repository sind Datenskripte, Trainingsbefehle und grobe Laufzeitangaben dokumentiert. Für ARC-Experimente werden dort etwa vier H100-GPUs und rund drei Tage Trainingszeit kalkuliert; für Sudoku reicht laut README eine einzelne L40S-GPU bei unter 36 Stunden Laufzeit. Zudem wird skizziert, wie die Datensätze aus jeweils rund 1.000 Beispielen per Augmentation vorbereitet werden. Das stützt den Kernpunkt des Papers: nicht mehr Daten und Parameter, sondern eine Trainings- und Modellstrategie, die wiederholtes Verbessern der Antwort ermöglicht.
Gleichzeitig laufen bereits Einordnungen aus der Community: Diskutiert wird, inwieweit die TRM-Ergebnisse mit dem üblichen „LLM-Vergleichsmodus“ kompatibel sind und wie stark Spezialisierung auf die Benchmark-Formate eine Rolle spielt. Solche Hinweise sind nicht neu – auch beim HRM wurde betont, dass Methodik und Evaluationssetup genau zu lesen sind. Kurz: Die Resultate sind interessant, aber nicht 1:1 auf generelle Sprach- oder Agentenfähigkeit zu übertragen.
Genau hier berührt TRM eine grundlegende Strategiefrage in der KI-Entwicklung: Fortschritt durch schiere Rechenleistung vs. Fortschritt durch bessere Algorithmen. Die „Skalierungs-Schule“ setzt auf mehr Parameter, Daten und GPU-Stunden – mit entsprechenden Kosten, Energiebedarf und Latenzen. Die „Algorithmus-Schule“ sucht nach Verfahren, die vorhandene Kapazität effizienter nutzen. TRM ist ein Plädoyer für Letzteres: Statt das Modell größer zu machen, lässt man es mehrmals über dieselbe Aufgabe nachdenken, die Zwischenergebnisse behalten und gezielt verbessern. Der Effekt ist ein Rechenprofil, das eher in die Tiefe der Inferenz geht als in die Breite der Modellgröße.
Für Unternehmen ist die Frage nicht akademisch. Wer heute reasoning-lastige Prozesse automatisieren will, steht zwischen hohen Cloud-Kosten großer Modelle und der Gefahr, dass kleinere Modelle qualitativ nicht mithalten. Ein Ansatz wie TRM signalisiert: Es könnte Anwendungsfälle geben, bei denen eine kleine, spezialisierte Architektur genügt – etwa für interne Rätsel-/Planungs-ähnliche Optimierungen, regelbasierte Transformationsaufgaben oder lokale Tools, die deterministischere, überschaubare Rechenwege bevorzugen. Dass die offene Referenzumsetzung konkrete Hardwareprofile und Laufzeiten nennt, erleichtert Machbarkeitsanalysen in IT-Teams.
Was bedeutet das Ergebnis?
Erstens: eine Blaupause für „Reasoning-Module“, die sich als Baustein in größere Systeme einbetten lassen – beispielsweise als Prüfschritt, der Lösungskandidaten eines generativen Modells iterativ deutlich verbessert.
Zweitens: Optionen für On-Prem- oder Edge-Szenarien, in denen man aus Datenschutz- oder Latenzgründen nicht auf große, ausgelagerte Modelle setzen will.
Drittens: ein Impuls für Trainingsprotokolle, die Deep-Supervision-ähnliche Schritte und adaptive Rechenzeit sauber trennen und effizienter realisieren; im Paper wird etwa erläutert, wie TRM eine zusätzliche Vorwärtsdurchläufe vermeidet, die bei HRM für die Halteentscheidung genutzt wurden.
Bevor eine zu große Euphorie entsteht
Zur Nüchternheit gehört: ARC-AGI ist ein wichtiges, aber spezielles Benchmark-Set. Es misst generalisierendes Schließen über kleine, visuell-symbolische Aufgaben. Ob und wie sich die beobachteten Zugewinne auf freies Problemlösen in natürlichen Sprachen, domänenspezifische Wissensarbeit oder Multi-Step-Agenten übertragen, bleibt offen. Ebenso ist Reproduzierbarkeit auf anderen Datensätzen, Robustheit gegen Prompt-/Format-Varianten und die Interaktion mit Sprachmodellen zu untersuchen. Genau diese Anschlussfragen machen das Paper für Forschung wie für praxisnahe Teams interessant.
Unterm Strich markiert TRM keinen „Sieg“ einer Fraktion, sondern liefert Datenpunkte zugunsten algorithmischer Verbesserungen. Es zeigt, dass rekursives Denken in kleinen Netzen – sauber implementiert und trainiert – auf bestimmten Problemsammlungen mit sehr wenig Parametern konkurrenzfähig sein kann. Für Entscheider heißt das: In Roadmaps nicht nur GPU-Budgets und Modellgrößen skalieren, sondern Raum für Verfahren lassen, die aus vorhandener Kapazität mehr herausholen – idealerweise durch Nutzung von Open Source Methoden, wie sie hier vorliegen.
Externe Links zum Thema:

Schreibe einen Kommentar