Dungeons & Dragons: KI im Langzeittest

🔍 Suche im Fantasykosmos

Spüre verborgene Pfade auf, entdecke neue Werke oder durchstöbere das Archiv uralter Artikel. Ein Wort genügt – und der Kosmos öffnet sich.

Startseite » Aktuelles » News » KIs am Spieltisch: D&D als Härtetest

KI im Dungeon: Cleverer Test oder PR-Zaubertrick?

📰 Was ist los?
Forscher der UC San Diego lassen große Sprachmodelle Dungeons & Dragons spielen, um deren Langzeitentscheidungen, Regelverständnis und Teamverhalten zu messen. Getestet werden mehrere aktuelle Modelle in 27 Kampfszenarien gegen mehr als 2.000 erfahrene Spieler.

🐛 Was denken wir?
D&D als Benchmark ist genial: genug Chaos, genug Regeln, genug Möglichkeiten, sich zu blamieren. Das Ergebnis ist ernüchternd und beruhigend zugleich. Die Modelle können viel, aber sie verlieren schneller den Überblick, als ein Goblin „Heh, shiny man’s gonna bleed!“ sagen kann.

🧙‍♂️ KIs am Spieltisch: D&D als Härtetest

An der UC San Diego lässt man große Sprachmodelle Dungeons & Dragons spielen, nicht als Nerd-Gag, sondern als Stresstest dafür, wie lange diese Systeme in einer komplexen Welt den Überblick behalten, sinnvoll planen und halbwegs glaubwürdig „im Charakter“ bleiben.

🎲 Vom Chatfenster an den Spieltisch

Die Idee ist simpel und ziemlich clever: Dungeons & Dragons bietet alles, was klassische Benchmarks nicht haben: lange Kampagnen, kleinteilige Regeln, gemeinsam agierende Figuren, Gefechte, Ressourcenverwaltung und permanenten Dialog. Genau dieses Setting nutzt ein Team um Raj Ammanabrolu an der UC San Diego, um große Sprachmodelle als eigenständige Spielagenten zu testen.

Die Forscher koppeln die Modelle an eine D&D-Engine, die Karten, Monsterwerte und Regeln vorgibt. So sollen Halluzinationen begrenzt werden, während die KI trotzdem Entscheidungen trifft: als Spielerfigur, als Monster oder als Teil einer gemischten Gruppe mit Menschen am virtuellen Tisch.

Getestet wurden drei Modelle: Claude 3.5 Haiku, GPT-4 und DeepSeek-V3. In 27 bekannten Kampf-Szenarien wie „Goblin Ambush“ und „Klarg’s Cave“ traten sie gegeneinander und gegen mehr als 2.000 erfahrene D&D-Spieler an.

🧠 Wenn das Langzeitgedächtnis den Saving Throw verpatzt

Im Kurzsprint schlagen sich die Modelle ordentlich: Sie finden sinnvolle Aktionen, würfeln sich durch Gefechte, beachten viele Detailregeln und können ihre Rolle grundsätzlich darstellen. Aber je länger die Partie dauert, desto deutlicher wird der Bruch zwischen schönem Einzelsatz und stabilem Langzeitdenken.

Typische Ausfallerscheinungen laut Studie und Begleitberichten:

Ressourcen wie Trefferpunkte oder Zauberplätze werden vergessen oder falsch fortgeschrieben.
Regeln werden selektiv erinnert, vor allem dann, wenn sie der KI in den Kram passen.
Entscheidungen über viele Züge hinweg wirken sprunghaft statt strategisch.
Einige Modelle verfallen in überlange, pathetische Monologe, während der Rest der Gruppe einfach nur wissen will, wer jetzt wen schlägt.

Besonders interessant: Größere, proprietäre Modelle liefern deutlich stabilere Simulationen als kleinere Open-Source-Vertreter, die im Langstreckenbetrieb schneller ins Chaos kippen. Die Forscher führen das auf unterschiedliche Vortrainings und Fähigkeiten beim Umgang mit langen Kontexten zurück.

⚔️ Menschen, Modelle und dramatische Goblins

Damit das Ganze nicht im luftleeren Raum stattfindet, wurden die KI-Gefechte systematisch mit Partien erfahrener Spieler verglichen. Bewertet wurden unter anderem:

Wie gut der Agent die Lage auf dem Schlachtfeld erfasst.
Ob er sinnvolle, regelkonforme Aktionen wählt.
Ob er seine Figur konsistent verkörpert.

Die Modelle entwickelten dabei teilweise ein Eigenleben: Goblins begannen mitten im Kampf, ihre Gegner in schrägen Sprüchen anzupöbeln, Paladine hielten heroische Reden im Kugelhagel, Warlocks wurden dramatisch, wenn eigentlich nur eine simple Aktion gefragt war. Für das Forschungsteam sind diese Ausschläge weniger „Bug“ als Hinweis darauf, dass die Modelle versuchen, zusätzliche Farbe in die Situation zu bringen, allerdings oft auf Kosten der Übersicht.

In der Auswertung schnitt Claude 3.5 Haiku insgesamt am stabilsten ab, GPT-4 lag dicht dahinter, DeepSeek-V3 bildete das Schlusslicht. Für die Forscher ist D&D damit ein realistischer Probelauf für künftige KI-Agenten, die in anderen Umgebungen ähnlich lange, verzweigte Aufgaben bearbeiten sollen.

📊 Was der Test wirklich sagt – und was nicht

Wichtig: Hier wird keine KI zum perfekten Dungeon Master gekrönt. Das Projekt „Setting the DC: Tool-Grounded D&D Simulations to Test LLM Agents“ versteht sich als Baustein in einer größeren Bewegung, die weg will von Mini-Benchmarks und hin zu Belastungsproben über viele Stunden.

Andere Arbeiten wie der Oolong-Benchmark zeigen bereits, wie schwierig es ist, lange Kontexte sinnvoll zu verknüpfen und Informationen über Dutzende Seiten sauber zu aggregieren. D&D ergänzt das um eine praktischere Perspektive: Viele Figuren, widersprüchliche Ziele, begrenzte Ressourcen, jede Menge Regeln, genau jene Gemengelage, in der auch reale KI-Agenten irgendwann landen sollen.

Die bittere Pointe: Gerade in den Szenarien, für die KI-Firmen gern große Versprechen abgeben – autonome Assistenten, die „einfach alles übernehmen“ –, zeigen diese Tests, wo die Bruchstellen liegen. Langfristige Konsequenzen, subtile Teamdynamiken, allmählich wachsende Komplexität: Aus Sicht der Modelle offenbar immer noch ein Bosskampf.

🏁 Fantasykosmos-Fazit: Spannender Stresstest, kein Zaubertrank für alles

Unterm Strich zeigt die Studie zwei Dinge:

Dungeons & Dragons ist ein hervorragender Prüfstand für KI-Agenten, die mehr können sollen als Smalltalk.
Selbst starke Modelle geraten bei langen, verzweigten Aufgaben ins Straucheln und verheddern sich in Regeln, Ressourcen und Rollenspiel.

Für die Praxis heißt das: Wer „Dungeons & Dragons KI“ ruft, sollte nicht automatisch an vollautonome Assistenten denken, die nebenbei noch Firmenstrategien auswürfeln. Im Moment sind diese Systeme eher ambitionierte Mitspieler mit Hang zum Overacting, nützlich, spannend, aber weit entfernt davon, den Tisch alleine zu bespielen.

KIs am Spieltisch: D&D als Härtetest