QA im Zeitalter des Nichtdeterminismus
„Bis zur Unendlichkeit und noch viel weiter!“ Systeme mit künstlicher Intelligenz wecken große Erwartungen. Aber das muss auch getestet werden…
Und auch wenn viele schon aufschreien, dass demnächst KI alles allein erledigen kann – da bleiben wir erstmal entspannt. Soweit sind wir noch nicht. Auch oder vor allem das Testen (durch echte Menschen) dieser Systeme bleibt ein wichtiges Element des Entwicklungszyklus. Die Art, wie diese Systeme arbeiten, sorgen aber dafür, dass wir anders testen müssen. Und dafür sollten QA-Profis zuallererst den Begriff „Expected Result“ neu definieren.
Wenn du klassische Software testest, entspricht der Ablauf eher einer mathematischen Gleichung: Du gibst einem Programm eine bestimmte Menge identischer Eingabewerte, und – wenn alles richtig funktioniert – kommt exakt das Ergebnis raus, was du erwartest. Jedes Mal! Testfall bestanden, Status grün, Produkt fertig, der Releasetermin kann kommen.
KI arbeitet aber anders.
Die Herausforderung heisst: Nichtdeterminismus.
Was bedeutet das?
Nichtdeterminismus heißt: Das System liefert nicht das exakt reproduzierbare Ergebnis, selbst wenn du denselben Input unter scheinbar gleichen Bedingungen wiederholst. Trotzdem kann jedes Ergebnis im Sinne der gewünschten Absicht, dem sogenannten Intent, semantisch richtig sein.
Bei modernen KI-Systemen – insbesondere bei Assistenten und Agentenlösungen, die mit großen Sprachmodellen arbeiten ist das eher wie… Backen. Du kannst einen Streuselkuchen mehrmals backen, egal ob nach den gleichen oder auch verschiedenen Rezepten. Der eine schmeckt saftiger und die Streusel sind größer als auf den anderen. In allen Fällen ist „ein Streuselkuchen“ als erwartetes Ergebnis „richtig“, aber 100% identisch sind sie nicht. Aber muss das überhaupt sein? Teste ich Elemente des Kuchens auf eine bestimmte Streuselform und -größe sagt dein Testegebnis wahrscheinlich: failed. Entspricht nicht deiner Erwartungshaltung. Teste ich nach „Sieht aus wie ein Streuselkuchen“, „Hat flächendeckend Streusel“ und „Schmeckt wie ein Streuselkuchen“ bekomme ich ziemlich sicher ein „passed“-Result und bin zufrieden.
Was das mit KI zu tun hat? Sag deiner KI 5 mal sie soll dir ein Bild von einem Streuselkuchen erstellen und du bekommst eins, das voraussichtlich 5 mal ähnlich, aber niemals gleich aussieht – aber ziemlich sicher immer einen Streuselkuchen zeigt. Ist das Ergebnis für dich richtig? Das hängt von deiner Definition des Expected Results und damit im erweiterten Sinne von deiner definierten Teststrategie ab.
Und genau darum dreht sich meine neue Artikelserie:
Wie testet man Systeme, deren Ergebnisse nicht zuverlässig identisch sind und doch eine korrekte Erwartungshaltung erfüllen?
Wie macht man aus scheinbarer Unberechenbarkeit eine beherrschbare, nachweisbare Qualität?
Keine KI Teststrategie?
Wir sorgen für das richtige Testsetup - Risikoanalyse - Testziele - Szenarien - Guard Rails - uvm.
Termin für dein KI Erstgespräch vereinbarenAuf die kommt es nämlich an!
Typisches Beispiel: Stell dir einen KI-Assistent vor, der Sprache versteht, Absichten ableitet und anschließend Funktionen in angebundenen Systemen triggert – etwa über APIs, Workflows, Datenbanken, Ticket-Systeme, Geräte, Services oder andere Business-Logiken. So ein Agentic-AI Setup füllt heutzutage täglich mehrfach den LinkedIn-Feed bei vielen von uns: angepriesene Lösungen versprechen KI-Helfer für Kundenservice, Banking, Healthcare, Industrie, interne IT, HR, Einkauf. Überall dieselbe Botschaft: Der Assistent soll die Masterlösung für deinen Businesscase sein und dir weitestgehend autonom alles abnehmen. Das Problem: Er redet nicht nur, er handelt – aber das tut er, ob nun zum Leidwesen oder als Heilsbringer, nichtdeterministisch. Und hier beginnt für QAler eine der großen, neuen Herausforderungen der Gegenwart und hebt diese Disziplin aufs ‚next Level‘!
Seid gespannt, Artikel 1 geht am Montag 19.01.2026 um 12 Uhr auf die Reise und dann geht’s im Wochentakt weiter.
In Artikel 1 klären wir die Grundlagen, die du brauchst, bevor du überhaupt eine Teststrategie zu einem KI-Produkt sinnvoll diskutieren kannst: Was ist Nichtdeterminismus? Was meint „Semantik“ im Testing-Kontext? Und wie schafft man sich für „Expected Result“ eine Bewertungslogik, wenn „exakter Wortlaut“ als Prüfkriterium ausfällt?
Der 2. Artikel wird sich mit der theoretischen Unendlichkeit von Szenarien im Ende-zu-Ende Test solcher KI-Assistenten und der Beherrschbarkeit der Black-Box Anteile eines LLM beschäftigen.
Ab Artikel 3 wird’s restriktiv und vielleicht etwas philosophisch. Guard-Rails und Ethik werden zentraler Punkt dieses Abschnitts sein.
Wer noch nicht genug hat und global denkt, wird auch neugierig auf die 4. Ausgabe blicken, wenn wir für eine bereits nahezu unendliche Szenariovielfalt noch das Problem des Lokalisierungsmultiplikators im Testing durch Sprachen und Märkte betrachten.
Im Abschluss in Ausgabe 5 erläutere ich Strategien und Lösungsansätze um die Unendlichkeit beherrschbar zu machen. Buzz Lightyear kann einpacken. Bis zur Unendlichkeit müssen wir nicht vordringen und noch weiter schonmal gar nicht. Ist nämlich nicht effizient.
Nach Veröffentlichung werden die entsprechenden Artikel hier natürlich direkt verlinkt. Viel Spaß beim Lesen.
Euer Chrizz

