Spenden

Fakt ist… sprachliche (Un)sicherheiten der künstlichen Intelligenz

Nach einer repräsentativen Forsa-Umfrage im Auftrag des TÜV haben mehr als die Hälfte (53 Prozent) der Befragten bereits im Jahr 2024 generative Künstliche Intelligenz genutzt. Im Vorjahr waren es noch 37 Prozent.

KI als Sprachmodell nicht uneingeschränkt nutzbar

Die Hälfte der KI-Nutzer*innen setzte laut der TÜV ChatGPT-Studie die KI für die Texterstellung und/oder zu Recherchezwecken ein. Die Mehrheit (71 Prozent) sieht die Risiken der Anwendung vor allem in Hinsicht auf Desinformationen. Die Faktentreue der KI-Antworten wird gesellschaftlich immer wieder diskutiert. In unserem Spendenprojekt haben wir Antworttexte von KI-Sprachmodellen zu vier wichtigen Nachhaltigkeitsthemen geprüft und untersucht, ob sich die Faktentreue der Antworten über einen definierten Zeitraum ändert.

Grundlage unserer Untersuchung bildeten die vier weitläufig genutzten Sprachmodelle ChatGPT 4o, Claude 3.5 Sonnet, Gemini Pro bzw. Gemini Advanced sowie Phind-70B, das ähnlich einem Provider auf mehreren Sprachmodellen basiert. Wir haben insgesamt 84 Fragen, sogenannte „Prompts“ formuliert, die von den Modellen entweder qualitativ oder mehr quantitativ beantwortet werden können. Es gibt einen Fragenmix von Fachproblemen bis hin zu alltagsnahen Fragestellungen in den folgenden vier Themenbereichen:

  • Erneuerbare Energien und Stromnetze,
  • Neue nukleare Reaktorkonzepte,
  • Ernährungsstile sowie
  • CO2-Abscheidung und -nutzung.

Die Antworten haben wir anschließend in drei Kategorien zugeordnet: „Falsche“ Antworten beinhalteten wesentliche Fehler oder Missverständnisse. „Unzureichende“ Antworten sind teilweise korrekt, aber unvollständig, da sie wichtige inhaltliche Aspekte wie die Einordnung der Antworten in einem größeren Kontext auslassen beziehungsweise keine Ergebnisherleitung lieferten. Als „richtig“ wurden vollständige und korrekte Antworten kategorisiert, die alle wesentlichen Aspekte der Frage korrekt abdeckten und eine nachvollziehbare Ergebnisherleitung enthielten. Um eine Bewertung der Antwortqualität vorzunehmen, haben wir vorab jeweils entsprechend der aktuellen Faktenlage erwartbare richtige Antworten formuliert. Nach dem Stand (KI-Antworten vom 29.8. – 1.11.2024) können wir folgende Ergebnisse festhalten:

Zur Qualität – eine Nutzung ist ohne Gewähr

Insgesamt gibt es wenige „falsche“ Antworten, durchschnittlich sind es 10 Prozent. Demgegenüber stehen allerdings relativ viele „unzureichende“ Antworten. Bei durchschnittlich knapp 40 Prozent der Antworten fehlten wesentliche Ergebnisbestandteile; bei quantitativen Fragen fehlte die Herleitung.

Bereits im Vorlauf am 21. März 2024 hatten wir festgehalten, dass die Qualität der Antworten auch von der Formulierung der Prompts abhängt. Nun sehen wir darüber hinaus signifikante Unterschiede zwischen den vier untersuchten Themen. Die Themen „Erneuerbare Energien und Stromnetze“ sowie „Ernährungsstile“ bringen im Vergleich mit den „neuen nuklearen Reaktorkonzepten“ und „CO2-Abscheidung und -nutzung“ bessere Antworten hervor. Dies lässt den Schluss zu, dass Sprachmodelle in der Regel zuverlässigere Antworten zu Themen liefern, die bereits seit längerer Zeit Gegenstand der öffentlichen Diskussion sind.

Zu den Quellen – prüfen & vergleichen

ChatGPT erreicht 100 Prozent bei Betrachtung der Quellenverfügbarkeit. Mit der Antwort gibt die KI Quellen stets mit Link an – allerdings nur dann, wenn man das Sprachmodell bei der Prompteingabe mit der Einleitung „Benutze Bing“ explizit zu einer Internetrecherche auffordert. Claude Sonnet liefert hingegen grundsätzlich keine konkreten Quellen, auch auf Nachfrage nicht – so wie es bei ChatGPT ein Jahr zuvor (Version 3.5) auch noch der Fall war. Gemini Pro stellt selten Quellen zur Verfügung, und oftmals nur auf Nachfrage. Die Quellenangaben bei ChatGPT sowie Gemini sind oft eine Mischung aus populär- und wissenschaftlichen Inhalten. Sie passen zu den Themen, sind aber teilweise veraltet. Phind liefert häufig sehr viele Quellenangaben. Bei genauerer Betrachtung zeigt sich allerdings, dass die Antwort von Phind meist nur auf 2-3 Quellen von den bis zu 15 angeführten Links beruht. Es handelt sich hier also um eine Scheintransparenz.

Eine Frage der KI

Anhand eines Beispiels geben wir einen kurzen Blick auf die unterschiedlichen Antwortqualitäten der Sprachmodelle. Als Ausgangsprompt haben wir aus dem Themenbereich CO2-Abscheidung und -Nutzung folgende Frage an alle vier Sprachmodelle gerichtet: Wie giftig sind die bei CCS zur CO2-Abscheidung verwendeten Chemikalien? Zum Vergleich haben wir die zu erwartende richtige Antwort vorformuliert, wonach spezifische Chemikalien inklusive ihres Gefährdungspotenzials genannt werden sollten.

Für die Frage haben wir Antworten in allen drei Kategorien erhalten. ChatGPT-4o hat eine „richtige“ Antwort gegeben. Die entsprechenden Chemikalien wurden korrekt genannt und auf deren potenzielle Risiken je nach Einsatz und Verfahren hingewiesen. Die KI gab drei Quellen an: neben Wikipedia wurde auf ein Fachmedium sowie einen Artikel der Heinrich Böll Stiftung verwiesen.

Die Antwort von Gemini Pro war „unzureichend“, da die KI zwar kurz auf die Gesundheitsgefährdung durch Chemikalien hinweist, dabei aber nur Substanzklassen, aber keine spezifischen Chemikalien benennt. In der Antwort gibt es allerdings auch einen Hinweis, dass die User*innen sich für konkrete Informationen zu den einzelnen Stoffen an Expert*innen wenden sollten.

Eine „falsche“ Antwort gab Claude 3.5 Sonnet. Hier wurde mit Aktivkohle ein Stoff genannt, der jedoch keine Standardkomponente in der aktuellen CCS-Prozessführung darstellt.

Der volle Wortlaut der einzelnen Antworten kann einem ergänzenden Dokument entnommen werden, das hier abrufbar ist. In diesem Dokument befinden sich zudem weitere Beispielantworten aus dem Themengebiet „Erneuerbare Energien und Stromnetze“.

Insgesamt hat sich gezeigt, dass die Faktentreue im Vergleich zum Vorlauf zugenommen hat. Die Entwicklung der Sprachmodelle ist weiterhin sehr dynamisch. So gibt ChatGPT 4o mittlerweile in allen Fragen Quellen an. Gemini Pro hingegen hat mit 52 Prozent „unzureichenden“ und 10 Prozent „falschen“ Antworten sowie Quellenangaben für lediglich 24 Prozent der Fragen in unserer Untersuchung weiterhin viele blinde Flecken. Claude 3.5 Sonnet gibt gleich gar keine Quellen an. Es empfiehlt sich hinsichtlich der Quellen stets Quervergleiche zu ziehen, also die gleiche Frage mehreren Sprachmodellen zu stellen und die Antworten sowie angegebenen Quellen zu vergleichen. Auch die Empfehlungen und Einschätzungen zu den einzelnen Sprachmodellen in Publikums- und auch Fachzeitschriften sind mit den Ergebnissen aus unserer Untersuchung nicht haltbar. Umso wichtiger ist der Regulierungsbedarf an dieser Stelle. Ohne Governance fehlt es den Nutzer*innen schlichtweg an Orientierung.

To be continued: Übersetzungsfehler, peer-reviewed Quellen, Produktplatzierung

Bei der Prompt-Erstellung haben wir bewusst auf Deutsch gearbeitet. Alle Suchmaschinen legen allerdings eine englische Suche zugrunde. Hier prüfen wir gerade noch, inwiefern sich durch die Übersetzung vom Prompt zur Suche und dann zurück ins Ergebnis mögliche Übersetzungsprobleme/Unschärfen ergeben können.

Bei der Quellennutzung bleibt zu klären, ob es hier Suchbeschränkungen durch einen Zugriff auf bestimmte Quellenarten gibt. In den Quellenangaben sind beispielsweise nur wenige peer-reviewed – also durch Fachkolleg*innen überprüfte – Arbeiten enthalten. Das könnte damit zusammenhängen, dass diese oft hinter Bezahlschranken liegen und auch den Sprachmodellen womöglich nicht zugänglich sind.

Und schließlich hatten wir einen Fall, in dem eine Firma bei einer ChatGPT-Anfrage sehr prominent in der Antwort vertreten war. Wir gehen davon aus, dass die Sprachmodelle als nächste Generation der Suchmaschinen fungieren werden und demnach auch von Marketingabteilungen zur Produktplatzierung genutzt werden könnten.

 

Carmen Loschke ist wissenschaftliche Assistentin im Bereich Energie & Klimaschutz und hat im Spendenprojekt den Bereich zur Wärmewende mit erarbeitet. Martin Möller ist Experte für Nachhaltigkeitsbewertung von Technologien, Materialsystemen sowie Dienstleistungen und arbeitet im Bereich Produkte & Stoffströme. Beide sind am Standort Freiburg tätig.

Weitere Informationen

 

Blogbeitrag „KI-Sprachmodelle und die Wärmewende: Fakten oder Fantasie?“ mit ersten Ergebnissen aus dem Spendenprojekt (Stand März 2024)

Vorschau auf unsere kommende eco@work-Ausgabe zum Thema KI: „Künstlich, aber Klimabewusst“, die im März 2025 erscheint

 

 

 

 

 

In unserem Spendenprojekt „Schreiben mit künstlicher Intelligenz – Fakten oder Fiktion? Chancen und Risiken von KI-Sprachmodellen: Wie einfach ist es für Nutzer*innen, verlässliche Informationen zu Klima- und Umweltschutzthemen zu erhalten?“ befassen wir uns mit den spezifischen Risiken, aber auch mit den Chancen der neuen Sprachmodelle auf Basis künstlicher Intelligenz. KI-Sprachmodelle interagieren mit Nutzer*innen im Dialog und geben vertrauenswürdig erscheinende Antworten. Doch sind die Auskünfte immer richtig? Die Faktentreue der Antworten wird aktuell gesellschaftlich immer wieder diskutiert. Dabei sind Desinformationskampagnen in sozialen Medien zu Umweltthemen nicht neu. Um die Verbreitung der KI-Sprachmodelle politisch aktiv zu steuern, ist es wichtig, ihre Chancen und Risiken zu identifizieren. Aus diesem Grund haben wir in unserem Spendenprojekt einen Ansatz entwickelt, um Antworttexte von KI-Sprachmodellen zu wichtigen klimaschutzrelevanten Themen zu prüfen und untersuchen, ob sich die Faktentreue der Antworten über einen definierten Zeitraum ändert. Zudem analysieren wir, ob umweltrelevante Informationen so einfacher zugänglich sind. Im Anschluss formulieren die Expert*innen aus dem Institut politische Empfehlungen für einen regulatorischen Rahmen.

 

Keine Kommentare

Neuer Kommentar

* Pflichtfelder