
Manipulierbarkeit von KI-Modellen
im Hinblick auf ideologische Tendenzen
Die Frage der Manipulierbarkeit von KI-Modellen betrifft einerseits technische und andererseits ethische Aspekte. Dabei stellt sich insbesondere die Frage, inwieweit gezielte Änderungen am Programmcode oder an der Datenbasis zu tendenziösem Verhalten führen können – und welche technischen wie normativen Grenzen dem entgegenstehen.
Grundlagen neuronaler Sprachmodelle
und Trainingseinflüsse
Sprachmodelle basieren auf Transformer-Architekturen (Vaswani et al., 2017), die über Milliarden von Parametern verfügen. Sie werden auf umfangreichen Textkorpora trainiert, die typischerweise eine Vielzahl gesellschaftlicher, politischer und kultureller Perspektiven beinhalten. Diese Modelle speichern keine Fakten im klassischen Sinne, sondern statistische Wahrscheinlichkeiten für Wortfolgen, die in bestimmten Kontexten auftreten.
Da sie nicht mit explizitem Weltwissen arbeiten, sondern Muster in Textdaten replizieren, sind sie anfällig für Bias, der bereits im Trainingsmaterial enthalten ist (Bender et al., 2021). Dieser kann durch die Auswahl der Quellen, deren Häufigkeit und Gewichtung unbewusst oder bewusst in eine bestimmte Richtung verschoben werden.
Möglichkeiten gezielter ideologischer Steuerung
Prompt Engineering
Bereits durch sog. System Prompts lässt sich das Antwortverhalten von Sprachmodellen deutlich beeinflussen. So kann beispielsweise ein Modell instruiert werden, als konservativer oder progressiver Kommentator aufzutreten. Studien belegen, dass derartige Steuerung zu messbar einseitigem Antwortverhalten führen kann (Scherrer et al., 2023).
Fine-Tuning auf gefärbten Datensätzen
Feinabstimmung (Fine-Tuning) erlaubt es, ein vortrainiertes Modell auf einem gezielten Subkorpus weiterzutrainieren – etwa einem ideologisch gefilterten Textbestand. Forschung zeigt, dass dabei die Gewichtung bestimmter Narrative oder Argumentationsstile verstärkt wird (Zhao et al., 2021). Dieses Verfahren ist vor allem bei Open-Source-Modellen (z. B. GPT-J, LLaMA, Mistral) umsetzbar. Bei Closed-Source-Modellen wie GPT-4 ist Fine-Tuning bislang nur eingeschränkt möglich und wird von Anbietern wie OpenAI streng reguliert.
c) Retrieval-Augmented Generation (RAG)
Beim RAG-Ansatz wird das Modell durch externe Datenquellen ergänzt, die bei jeder Nutzeranfrage als faktischer Kontext dienen (Lewis et al., 2020). Wenn diese Daten gezielt ausgewählt und beispielsweise nur aus einem bestimmten ideologischen Lager stammen, lässt sich das Antwortverhalten des Modells stark beeinflussen – ohne dessen interne Parameter zu verändern. Diese Technik gilt als eine der effizientesten Methoden zur kontrollierten Wissenslenkung bei Sprachmodellen.
Grenzen der direkten Manipulation über Programmcode
Ein direkter Eingriff in den Quellcode eines Modells wie GPT-4, um ideologische Tendenzen zu verankern, ist praktisch nicht umsetzbar:
- Die Modelle bestehen aus nicht interpretierbaren Gewichten; eine gezielte „politische Umprogrammierung“ ist technisch kaum möglich.
- Bei proprietären Modellen ist der Zugriff auf Trainingsdaten und Architektur beschränkt.
- Selbst bei offenen Modellen wäre eine gezielte ideologische Modifikation nur über massive Re-Trainings auf angepassten Datensätzen realistisch – was hohe Rechenressourcen voraussetzt (Brown et al., 2020).
Ethische und gesellschaftliche Implikationen
Die gezielte Steuerung oder Manipulation von Sprachmodellen zur Verstärkung ideologischer Positionen wirft erhebliche ethische Fragen auf. So warnen Expertinnen wie Timnit Gebru (2021) vor dem Risiko algorithmisch gestützter Desinformation oder der Verstärkung bestehender sozialer Ungleichheiten durch tendenziöse KI-Systeme. Daher setzen führende Anbieter wie OpenAI Sicherheitsmechanismen (Content Filtering, RLHF) ein, um systematisch extreme oder manipulative Inhalte zu vermeiden.