Wie Russland Wikipedia vergiftet – und warum das KI gefährlich macht – News

Staatlich gesteuerte Akteure manipulieren Wikipedia-Inhalte im Sinne des Kremls – mit direkten Folgen für KI-Sprachmodelle, die darauf trainiert werden.

Wikipedia gilt seit zwei Jahrzehnten als das demokratischste Wissensprojekt der Menschheit: offen, kollaborativ, von Freiwilligen aus aller Welt gepflegt. Doch genau diese Offenheit wird zunehmend als Angriffsfläche genutzt. Recherchen zeigen, dass pro-russische Akteure systematisch Wikipedia-Artikel manipulieren, um Narrative im Sinne des Kremls zu verbreiten – und damit nicht nur das Online-Lexikon selbst, sondern auch die KI-Systeme zu infizieren, die auf dessen Inhalten trainiert werden.

Wie die Manipulation funktioniert

Das Vorgehen ist subtil und daher besonders gefährlich. Statt offensichtliche Falschinformationen einzuschleusen, werden Artikel schrittweise umgeschrieben: Quellen werden ausgetauscht, Formulierungen abgemildert, kritische Passagen entfernt oder in den Fußnoten begraben. Das Ergebnis ist kein plumper Propagandatext, sondern eine scheinbar neutrale Darstellung, die jedoch systematisch eine bestimmte Sichtweise begünstigt. Belege für dieses Muster finden sich etwa bei Artikeln zu historischen Ereignissen der Sowjetzeit oder zur aktuellen russischen Außenpolitik, wo kritische Perspektiven zunehmend verschwinden.

Das eigentliche Problem: KI-Trainingsdaten

Die weitreichenderen Konsequenzen betreffen die Künstliche Intelligenz. Große Sprachmodelle wie GPT, Gemini oder LLaMA werden auf enormen Textmengen trainiert – und Wikipedia gehört zu den wichtigsten Quellen dabei. Wenn ein erheblicher Teil dieser Daten manipuliert ist, übernehmen die Modelle diese verzerrten Weltbilder als vermeintliche Fakten. Nutzer, die KI-Chatbots nach historischen Ereignissen oder politischen Zusammenhängen fragen, erhalten dann möglicherweise Antworten, die auf vergifteten Trainingsdaten basieren – ohne jeden Hinweis darauf.

Dieses Phänomen wird in der Forschung als „Data Poisoning" bezeichnet: das gezielte Einschleusen manipulierter Inhalte in Trainingsdatensätze, um das Verhalten von KI-Systemen zu beeinflussen. Im Kontext staatlich gesteuerter Desinformation erreicht diese Methode eine neue Qualität, weil sie schwer nachzuweisen und noch schwerer rückgängig zu machen ist.

Strukturelles Problem einer offenen Plattform

Wikipedia ist sich der Bedrohung bewusst. Die Wikimedia Foundation hat in der Vergangenheit mehrfach koordinierte Manipulationskampagnen aufgedeckt und Accounts gesperrt. Doch die schiere Menge an Artikeln – allein die englische Wikipedia umfasst über sieben Millionen Einträge – macht eine lückenlose Kontrolle praktisch unmöglich. Koordinierte Akteure mit ausreichend Zeit und Ressourcen können Änderungen so langsam und unauffällig einschleusen, dass sie unter dem Radar der freiwilligen Moderatoren bleiben.

Hinzu kommt ein strukturelles Dilemma: Die Stärke von Wikipedia – die offene Mitarbeit – ist gleichzeitig ihre größte Schwachstelle. Jeder Versuch, die Plattform stärker zu kontrollieren und Änderungen zu erschweren, würde das Grundprinzip des Projekts untergraben.

Was das für Nutzer und die Tech-Industrie bedeutet

Für tech-affine Nutzer ergibt sich daraus eine klare Konsequenz: Wikipedia-Artikel zu politisch sensiblen Themen sollten kritisch gelesen und mit weiteren Quellen abgeglichen werden. Noch wichtiger ist die Forderung an KI-Entwickler, ihre Trainingsdaten systematisch auf Manipulationen zu prüfen und die Herkunft von Inhalten transparent zu machen. Solange große Sprachmodelle unkritisch auf möglicherweise vergifteten Webdaten trainiert werden, bleibt die Qualität ihrer Ausgaben ein ernstes Problem – nicht nur für individuelle Nutzer, sondern für die gesamte digitale Informationsinfrastruktur.

Quellen: Hacker News

Wie Russland Wikipedia vergiftet – und warum das KI gefährlich macht

Wie die Manipulation funktioniert

Das eigentliche Problem: KI-Trainingsdaten

Strukturelles Problem einer offenen Plattform

Was das für Nutzer und die Tech-Industrie bedeutet

Das könnte dich auch interessieren

RustDesk: Anmeldepflicht gegen Missbrauch, PC-Markt wächst verhalten

Snapseed 4.0: Google erneuert beliebte Foto-App mit frischem Design

Brave Browser testet E-Mail-Aliase: Privatsphäre direkt im Browser