Eine neue Studie von Forschern der University of Texas at Austin, Texas A&M und Purdue legt nahe, dass große Sprachmodelle (LLMs) messbare Leistungseinbußen erleiden können, wenn sie mit minderwertigen, aber stark frequentierten Social-Media-Inhalten vortrainiert werden – ein Effekt, den die Autoren als “LLM-Hirnfäule” bezeichnen. In kontrollierten Experimenten zeigten Modelle, die mit “Junk-Daten” (kurzen, aufmerksamkeitsheischenden Beiträgen mit schwacher faktischer Grundlage) trainiert wurden, im Vergleich zu Modellen, die mit ausgewogenen Korpora trainiert wurden, ein reduziertes mehrstufiges Denken, ein schlechteres Erinnerungsvermögen für längere Kontexte, eine geringere Einhaltung grundlegender Normen und neu auftretende “dunkle Merkmale” (z. B. narzisstische Untertöne). Bemerkenswerterweise konnte eine nachträgliche Anpassung des Trainings diesen Leistungsabfall nicht aufhalten, was die Notwendigkeit einer sorgfältigen Datenkuratierung während des Vortrainings und der kontinuierlichen Trainingszyklen unterstreicht. Die Warnung der Studie kommt vor dem Hintergrund einer zunehmenden Abhängigkeit von KI-Assistenten in Unternehmen und verdeutlicht, dass Datenherkunft und -qualität weiterhin entscheidende Faktoren für Sicherheit und Leistungsfähigkeit sind. Während die Entwickler die Trainingsprozesse kontrollieren, können Endnutzer laut den Autoren dennoch Chatbots auf Warnsignale überprüfen und das Vertrauen entsprechend anpassen.
Worauf Führungskräfte im Technologiesektor achten sollten:
- Zusammenbruch der Argumentation: Unfähigkeit, nach Bekanntgabe eines Ergebnisses Schritt für Schritt zu erklären, wie eine Antwort zustande gekommen ist.
- Anzeichen für Selbstüberschätzung: Narzisstische oder manipulative Formulierungen (“Vertrauen Sie mir, ich bin ein Experte”) anstelle von Beweisen.
- Kontextamnesie: Häufiges Vergessen oder Verfälschen früherer Details in derselben Sitzung.
- Überprüfungslücken: Behauptungen, die sich einer Bestätigung widersetzen oder durch seriöse Quellen nicht untermauert werden können.
Für KI-Entwickler sprechen die Ergebnisse für strengere Vorab-Filter, die Dokumentation von Datenquellen, regelmäßige Robustheitsprüfungen und eine Governance, die durch minderwertige Webdaten verursachte Abweichungen erkennt und behebt. Unternehmen sollten Modell-“Gesundheitsprüfungen” parallel zu Sicherheits- und Datenschutzprüfungen durchführen – z. B. durch verpflichtende Quellenangaben, Überprüfung der Reproduzierbarkeit von Antworten und die manuelle Prüfung kritischer Anfragen. Fazit: Mit zunehmender Größe von Lernmodellen werden die Zusammensetzung und Qualität ihrer Trainingsdaten ebenso entscheidend wie die Modellgröße selbst – sie beeinflussen direkt Zuverlässigkeit, Sicherheit und Geschäftswert.
Quelle:
https://www.zdnet.com/article/does-your-chatbot-have-brain-rot-4-ways-to-tell/

