Wie zuverlässig sind KI-Modelle wie GPT & Gemini wirklich, wenn es drauf ankommt? 🤔
Das untersuche ich gerade im Rahmen meiner frisch gestarteten Promotion in Kooperation. Denn für den Einsatz in Unternehmen ist Vertrauen in die Systeme essenziell. Eine Erkenntnis aus unserer Forschung:
KI-Modelle halten extrem stark am bereitgestellten Kontext fest – selbst wenn dieser offensichtlich falsch ist! 🤯
Unser Experiment zeigt: ➡️ In bis zu 89% der Fälle übernahmen GPT-4o-mini & Gemini 2.0 Flash fehlerhafte Informationen direkt aus widersprüchlichem Kontext, anstatt auf potenziell korrekteres, eigenes (antrainiertes) Wissen zurückzugreifen.
Um dieses Verhalten systematisch zu analysieren, haben wir ein RDF-basiertes Bewertungsmodell entwickelt. Damit testen wir, wie die Modelle reagieren, wenn sie 28 Fragen (jeweils auf Deutsch & Englisch) mit unterschiedlichen Materialversionen beantworten:
✅ Vollständig & korrekt
❓ Unvollständig
❌ Widersprüchlich/Falsch
🤷♂️ Ganz ohne Kontext
Konkret nutzten wir dafür Material zur Brandschutzschulung. 🔥🚒
Die Modelle zeigten sprachspezifische Stärken. Auf Englisch können sie besser mit unvollständigem Kontext umgehen. Auf Deutsch zeigten sie ein stärkeres Basiswissen, wenn gar kein Kontext vorhanden war (im Schnitt 93% korrekte Antworten ohne Kontext vs. 66% auf Englisch).
Diese Unterschiede sind wichtig, wenn man überlegt, wie man Material für KI-gestützte Systeme (z.B. Trainings) in verschiedenen Sprachen aufbereitet und wo die Modelle eventuell Unterstützung durch den Kontext brauchen oder eben stärker auf ihr Basiswissen zurückgreifen.
Unser Ziel ist es, das Verhalten von KI transparenter zu machen, um einen sicheren und gezielten Einsatz zu ermöglichen.
Gemeinsam mit Prof. Dr. Andreas Both haben wir unsere Ergebnisse und das RDF-Modell in einem Paper bei der Extended Semantic Web Conference (ESWC) 2025 eingereicht. Jetzt heißt es: Daumen drücken! 🤞
Ein wichtiger Schritt für den verantwortungsvollen Einsatz von AI!