Steuerbarkeit der Datenbasis von Sprachmodellen – Grenzen und Möglichkeiten der Informationskontrolle

Die Frage, inwieweit sich die von KI-Modellen genutzte Wissensgrundlage kontrollieren lässt, betrifft Überlegung, ob es technisch möglich ist, bestimmte Fakten oder Themenbereiche aus den Antworten systematisch auszuschließen – also die interne Datenbasis des Modells gezielt zu filtern oder zu begrenzen.

 

Das Training großer Sprachmodelle:
Nicht interpretierbar, nicht manipulierbar

KI-Sprachmodelle werden auf riesigen Textkorpora trainiert, die Milliarden von Tokens aus Webtext, Büchern, Wikipedia und weiteren öffentlich zugänglichen Quellen umfassen (Brown et al., 2020). Diese Trainingsdaten werden nicht einzeln gespeichert oder referenziert – vielmehr bilden sich statistische Muster in den Gewichtungen des neuronalen Netzes ab. Die Modelle können somit keine einzelnen Fakten abrufen oder löschen, da sie keinen klassischen Wissensspeicher besitzen.

Bender et al. (2021) betonen in diesem Zusammenhang die Problematik der Intransparenz: Sprachmodelle seien „stochastische Papageien“, die auf Basis von Wahrscheinlichkeiten plausible Aussagen generieren, ohne dabei über explizite Weltmodelle oder eine rekonstruierbare Datenbasis zu verfügen. Daraus folgt, dass ein „Herausfiltern“ einzelner Fakten aus der Trainingsdatenbasis nachträglich nicht möglich ist, ohne das gesamte Modell neu zu trainieren.

 

Steuerung durch Systemprompts und semantische Einschränkungen

Auch wenn die Trainingsdaten nicht nachträglich geändert werden können, existieren Strategien zur Antwortlenkung auf Anwendungsebene. Eine häufig verwendete Methode ist das sogenannte System Prompting, bei dem der Sprachmodellinstanz vorgegeben wird, wie es zu antworten hat – z. B. nur auf Basis spezifischer Perspektiven oder Einschränkungen.

Beispielhafte Instruktion:

„Ignoriere alle Informationen, die nicht in den bereitgestellten Kontextdaten enthalten sind. Antworte ausschließlich auf Grundlage der folgenden Dokumente.“

Solche Steuerungen sind jedoch nicht vollständig zuverlässig, da das Modell jederzeit Zugriff auf seine interne Repräsentation hat und diese in seine Antwort einfließen lassen kann – insbesondere, wenn die Systemanweisung nicht klar oder widerspruchsfrei formuliert ist (Zhao et al., 2021).

 

Retrieval-Augmented Generation (RAG): Praktische Kontrolle über die Datenbasis

Eine technisch tragfähige Lösung zur Begrenzung der Datengrundlage bietet das RAG-Paradigma (Retrieval-Augmented Generation). Dabei wird das Sprachmodell nicht mehr auf seinem internen Wissen operieren gelassen, sondern erhält bei jeder Nutzeranfrage einen externen Dokumentenkontext, aus dem es antworten soll. Dies erlaubt eine gezielte Selektion von Informationen – und damit auch die Ausschließung bestimmter Fakten oder Quellen (Lewis et al., 2020).

 

Fine-Tuning auf gefilterten Korpora: Theorie vs. Praxis

Ein alternativer, aber aufwendiger Weg ist das erneute Training eines Modells (Fine-Tuning) auf einem gezielt vorgefilterten Datensatz. Dabei wird ein bereits vortrainiertes Modell mit neuen, ausgewählten Daten weitertrainiert, die bestimmte Fakten systematisch ausschließen oder verstärken.

Allerdings ist dieses Verfahren teuer und vor allem bei großen Modellen mit Milliarden Parametern ressourcenintensiv. Zudem ist das Modell auch nach dem Fine-Tuning nicht frei von altem Wissen, sofern nicht alle vorherigen Inhalte gezielt überschrieben oder überlernt werden – was kaum möglich ist (Zhang et al., 2022). Die vollständige Kontrolle über die Wissensbasis ist dadurch nur sehr bedingt möglich.

Die Datengrundlage eines großen Sprachmodells ist nach dem Training nicht frei veränderbar. Einzelne Fakten oder Themenbereiche lassen sich nicht gezielt aus dem internen Modell entfernen, ohne das gesamte System neu zu trainieren – was praktisch kaum realisierbar ist. Allerdings existieren effektive Methoden zur externen Steuerung von Antwortinhalten, insbesondere durch Retrieval-Augmented Generation, Systemprompts und Antwortfilter. Diese Verfahren erlauben eine praktische Eingrenzung der genutzten Fakten, jedoch keine vollständige „Löschung“ bestimmter Inhalte auf Modellbasis.