Presse-Informationen
c't

  1. heise group
  2. Presse-Informationen
  3. c't

c't Magazin: KI-Sprachmodelle im Härtetest
ChatGPT und seine Herausforderer

Hannover, 21. Oktober 2024 – Seit ChatGPT sind große Sprachmodelle in aller Munde. Doch wie gut schlagen sich Herausforderer von Google, Meta, Anthropic und Mistral? Europas führendes IT- und Technikmagazin c’t hat in Ausgabe 23/2024 große Sprachmodelle unter die Lupe genommen: Der Platzhirsch ChatGPT muss nicht immer die erste Wahl sein. Trotz beeindruckender Fortschritte zeigen sich bei allen Modellen noch Schwächen: bei der Transparenz, bei der Zuverlässigkeit und beim immensen Energiebedarf.

„Auch die neuesten und größten Sprachmodelle machen noch immer Fehler, sodass man ihre Antworten stets hinterfragen muss“, stellt c’t-Redakteur Hartmut Gieselmann fest. Die Tester verglichen die US-Modelle von OpenAI, Anthropic, Google und Meta mit der französischen Entwicklung von Mistral und einem deutschen Anbieter. Dabei mussten die KI-Assistenten unter anderem Texte zusammenfassen, Programmcode schreiben und knifflige Wissensfragen beantworten.

Überraschend stark schnitt der europäische Anbieter Mistral ab. „Das Modell lieferte in unseren Tests oft die besten Antworten auf unsere Fragen und Aufgaben“, lobt Gieselmann. „Es konnte Artikel fehlerfrei zusammenfassen, informative Antworten formulieren und eine ausgewogene Textkritik verfassen, ohne etwas hinzuzudichten.“ Auch beim Energieverbrauch konnte Mistral punkten und benötigte nur ein Drittel der Ressourcen der Konkurrenz.

Enttäuschend fiel dagegen das Urteil für Googles Gemini aus. „Das Modell produzierte die meisten Fehler und leidet unter zu strengen Filterregeln“, kritisiert der c’t-Redakteur. ChatGPT lieferte tendenziell etwas oberflächliche Angaben, während die Antworten von Claude besonders knapp ausfielen. Metas Llama-Modelle konnten zwar mit guten Ergebnissen aufwarten, benötigten dafür aber deutlich mehr Rechenleistung und Zeit als etwa Mistral. Auch der Anbieter aus Deutschland konnte nicht vollends überzeugen.

Als großes Manko aller getesteten Dienste bemängelt Gieselmann die fehlende Transparenz: „Keiner der Hersteller lieferte ausreichend Informationen über Trainingsmaterial und -prozesse.“ Gieselmann hofft, dass die europäischen Aufsichtsbehörden die in der KI-Verordnung nur vage formulierten Transparenzanforderungen konkretisieren und ab August 2025 mit Nachdruck einfordern.

Für die Redaktionen: Auf Wunsch schicken wir Ihnen gerne die komplette Artikelstrecke zur Rezension.