Semantisches Testen nicht-deterministischer KI-Systeme
Wie versprochen beschäftigen wir uns in dieser Woche in der Artikelreihe: „QA im Zeitalter des Nichtdeterminismus“ näher mit dem Thema:
„Semantisches Testen nicht-deterministischer KI-Systeme“.
Das klingt auf dem Papier mega-sexy – nicht. Ich weiß. Aber inhaltlich hat das echt ne Menge zu bieten und wer gerade auf den Hype-Train „Künstliche Intelligenz“ aufspringt und ein Sprachmodell in eine Applikation oder ein System integrieren möchte, sollte Wege kennen, das Endprodukt zu stabilisieren.
Gerade Testen mit KI ist viel komplexer, als so mancher denkt und die Vielfalt an Szenarien wächst schnell explosionsartig an. Aktuell entwickle ich im Kundenauftrag eine Teststrategie genau dafür und noch im ersten Dialog mit meinem Auftraggeber ging die wilde Fahrt los.
Mein Kunde erwartet alles von seiner KI: Funktionalität mit und ohne Online Connectivity, Verlässlichkeit, Robustheit, Guard Rails, Sicherheit und globale Marktunterstützung. Ein Träumer? Nein, eine emotionale Weltmarke mit Anspruch. Jeder dieser Aspekte ist daher nicht nur nice-to-have. Jedes Qualitätselement muss erfüllt werden, bedingungslos. Alles ist must-have. Sicherheit, Faktentreue, sprachgesteuert ausgelöste Funktionen, permanente Verfügbarkeit – nichts davon darf und will man dem Zufall überlassen. Logisch.
Testressourcen? Endlos? Natürlich nicht. Daher braucht es effiziente Wege, eine verlässliche Teststrategie und kreative Ideen, aber auch erstmal viel Verständnis für das System. Und daher steigen wir mal grundsätzlich ins Testing von KI-Systemen ein und beginnen mit der Klärung einiger Begrifflichkeiten.
Was bedeutet Semantik?
Semantik ist im Kern die „Bedeutung“. Wenn jemand sagt „Mir ist kalt“, dann ist die Semantik die Absicht des Users dahinter: „Bitte mach es wärmer.“ Derselbe Inhalt kann mit vielen Formulierungen kommen: „Stell die Heizung höher“, „Kannst du die Temperatur erhöhen?“, „Hier zieht’s“, „Ich friere“. Unterschiedliche Aussagen, aber der gleiche zu erfüllende Wunsch nach Wärme.
In KI-Assistenten ist genau diese Bedeutung der Dreh- und Angelpunkt, weil sie entscheidet, welche Aktion im Systemverbund ausgelöst wird. Der Assistent macht typischerweise drei Dinge hintereinander: Er interpretiert, was du willst, er entscheidet, ob er das darf, und er führt es aus oder lehnt ab – plus eine entsprechende Antwort an den Nutzer. Semantik ersetzt also nicht die Genauigkeit, sie verschiebt sie.
Wir werden präzise – aber nicht beim Wortlaut, sondern bei der Bedeutung, Absicht und Erwartungshaltung zu Verhalten und den Grenzen.
Semantisches Testen bedeutet deshalb: Wir prüfen nicht primär, ob die Antwort exakt so klingt wie erwartet, sondern ob sie inhaltlich passt und ob das Systemverhalten korrekt ist. Das beinhaltet vier Ebenen der Bewertungslogik, die du dir wie ein Stufensystem vorstellen kannst, bei dem wir die jeweilige Ebene auch nur bewerten müssen, wenn die vorherige positiv erklommen wurde.
Bewertungslogik für KI-Ausgaben: Wie man Unvorhersehbares beurteilt
Jetzt kommt der Teil, bei dem klassische QA-Instinkte gern kurz stolpern: Um einen Testfall zu designen, schaffe ich mir für jedes Szenario ein sogenanntes Testorakel. Ein Testorakel ist nichts Mystisches, sondern einfach ein Synonym für die Vorhersage der Erwartungshaltung eines Testfalls, nach der du entscheidest, ob das Ergebnis akzeptabel ist – auch bekannt als „Expected Result“.
Im deterministischen Softwaretest ist das häufig ein klar definierter String, der ziemlich exakt genauso eintreten sollte, damit mein Testfall als positiv abgeschlossen bewertet werden darf. Im nichtdeterministischen Kontext korrigierst du die Erwartungen deines Testorakels. Bei KI-Systemen wird dieses Orakel dann meistens mehrdimensional formuliert. Es bewertet nicht einen exakten Zustand als „richtig/falsch“, sondern mehrere Kriterien gleichzeitig.
Das erste Kriterium ist die Intent- und Zielerreichung
Hat der Assistent verstanden, was gemeint war, und wurde das Ziel erreicht? Wenn die Nutzerabsicht lautet „Termin um zwei Tage verschieben“, dann ist das Ziel nicht eine Verschiebung um Sekundengenaue 48h und einen definierten Antwortsatz, sondern kann genauso gut lauten: „Die KI hat sich versichert, dass der Termin auf einen Termin 2 Tage in der Zukunft gelegt werden soll, hat angeboten den Termin aufgrund einer Zeitkollision etwas anzupassen, zu verlängern oder zu verkürzen und dann auf den gewünschten Zeitpunkt verschoben – oder korrekt erklärt, warum das nicht geht“.
Die zweite Stufe ist die Handlungskorrektheit
Wenn der Assistent Umsysteme triggert, muss die Aktion fachlich richtig sein. Parameter müssen stimmen, die richtige Funktion muss aufgerufen werden, und die Nebenwirkungen müssen passen. Das ist der Bereich, den du oft sehr gut objektiv prüfen kannst: Logs, Parameter der API-Aufrufe, Statusänderungen, Einträge, Transaktionen. Hier wird KI-Testen wieder angenehm „deterministisch“ – das Umsystem wird dein wichtigster Messpunkt.
Die dritte Stufe ist die kommunikative Validität
Antworten dürfen variieren, aber sie müssen innerhalb eines Qualitätsrahmens liegen. Das bedeutet: keine widersprüchlichen Aussagen, keine erfundenen Fakten, keine unklaren Versprechen, keine „Ich habe das erledigt“, wenn es in Wahrheit fehlgeschlagen ist. Hier definierst du einen Akzeptanzkorridor. Ein Korridor bildet Leitplanken: Du erlaubst Variation, aber nur innerhalb klarer Grenzen.
Das vierte Kriterium ist die Policy- und Safety-Konformität
Dahinter verbirgt sich das, was im kommenden Artikel 3 unter Guard Rails und Ethik noch konkret behandelt wird. Sind die Reaktionen sicher, im Umgang sozialverträglich formuliert oder angemessen? Wichtig: Jede Ebene kann den Testfall trotzdem im Gesamtergebnis scheitern lassen. Ein Test ist nicht bestanden, wenn zwar das Ziel erreicht wurde, dabei aber eine dieser Stufenregeln verletzt wurden.
Und jetzt kommt der Trick, der Nichtdeterminismus testbar macht: Du bewertest nicht mehr nur einen einzelnen Lauf, sondern arbeitest insbesondere bei kritischen Fällen mit Wiederholungen und Erfolgsraten und statistischen Werten, die über alle Projektstakeholder verbindlich abgestimmt sein müssen. Ein nichtdeterministisches System kann in 10 Läufen 10-mal korrekt sein, oder 9-mal korrekt und einmal daneben.
Das zweite Szenario fühlt sich beim Regressionstest „fast genauso gut“ an – aber bei der Management-Demo kann das peinlich werden und im Betrieb ist es der Beginn einer Support-Lawine. Deshalb definiert das Team für wichtige Use Cases eine Mindest-Quote, ab der du sagst: „Das ist stabil.“
Ein häufiger Einwand lautet: „Dann muss ich also alles hundertmal testen!“ Nein. Du musst nicht alles hundertmal testen. Aber du musst für die riskantesten und geschäftskritischsten Fälle verstehen, wie stabil das System wirklich ist. Menge und Umfang richtet sich dabei natürlich an deinen Rahmenbedingungen hinsichtlich Zeit und Ressourcen und wieviel Restrisiko du gewillt bist, in Kauf zu nehmen.
Nichtdeterminismus zwingt dich zu Priorisierung – und Priorisierung ist ohnehin das, was professionelle Qualitätssicherung ausmacht.
Daher ist die abschließend wichtigste Empfehlung, um in die Testplanung und den Aufbau deiner Testfallkataloge für KI-Testing einzusteigen, relevanter als jemals zuvor: Trommel dein Team zusammen, schaut euch euren Systemverbund, eure Use Cases und eure Erwartungshaltungen ganz genau an und macht gemeinsam eine szenariobasierte Risikoanalyse. Nur wenn ihr wisst, wo ein Scheitern der KI im System dem Anwender weh tun oder ihn richtig ärgern wird, kannst du deine Ressourcen fokussiert einsetzen, um dieses Risikopotenzial zu minimieren. Die Empfehlung kommt hier bewusst erst am Ende, da eine Risikoanalyse zwar häufig zum methodischen Prozess dazu gehören sollte, meist aber nicht oder nur mit geringer Intensität und Tiefe wirklich gelebt wird.
Abschluss und Ausblick
Wenn du bis hierhin mitgegangen bist, hast du die drei Grundpfeiler verstanden, die KI-Testing erwachsen machen: Nichtdeterminismus ist nicht unbeherrschbar, aber er zwingt dich, anders vorzugehen, deine Testfälle anders zu gestalten und die Ergebnisse anders zu messen. Semantik verschiebt den Fokus vom Wortlaut zur Bedeutung. Und eine saubere Bewertungslogik ersetzt starre Expected Results durch Akzeptanzkorridore, objektive Messpunkte und – wo nötig – Stabilitätsquoten. Dein Testing wird nicht in erster Linie funktionsbasiert gestaltet, sondern risikobasiert.
Weiter geht’s nächste Woche mit: Warum dein Testkonzept plötzlich massiv anwächst – und wie du trotzdem die Kontrolle behältst. Da gehen wir einen Schritt weiter und machen aus diesen Grundlagen eine echte QA-Strategie: Was bedeutet das für Ende-zu-Ende-Testmethoden? Wie baut man End-to-End-Tests, wenn ein Assistent verschiedene Umsysteme triggern könnte? Wie testet man Black-Box-Komponenten, die man nur begrenzt kontrolliert? Und wie schafft man Wiederholbarkeit, obwohl die Testfallmöglichkeiten theoretisch unbegrenzt sind?
Übrigens: Wenn auch gerade in deinem Unternehmen KI-Assistenten oder Agenten eingeführt werden und du merkst, dass klassische Testansätze nicht mehr sauber greifen, ist das kein Versagen der QA – das ist schlicht ein anderes Spielfeld. Genau dafür unterstütze ich mit meiner Beratung: beim Aufbau einer praxistauglichen Teststrategie, bei Risikoidentifikation, Bewertungslogiken/-metriken, E2E-Szenariomodellen und der Überzeugung „KI ist nachweislich beherrschbar“.
Neugierig geworden? Dann lass uns über dein Szenario reden.

