LLM-gestützte Web-Recherche im Praxistest: Was aktuelle Benchmarks über KI-Tools verraten

Die Recherche im Internet hat sich in den vergangenen Monaten grundlegend verändert. Immer mehr Unternehmen und IT-Professionals setzen auf Large Language Models (LLMs) wie ChatGPT, Claude oder Google Gemini, um komplexe Fragestellungen effizient zu beantworten. Doch wie zuverlässig sind diese Werkzeuge tatsächlich, wenn es um anspruchsvolle Web-Recherche geht? Ein aktueller Beitrag auf LessWrong liefert erstmals systematische Antworten und gibt Einblicke, welche Modelle im Praxistest überzeugen – und wo die Grenzen liegen.

Benchmarking mit Tiefgang: Der Deep Research Bench

Im Mittelpunkt der Untersuchung steht der sogenannte Deep Research Bench (DRB), eine eigens entwickelte Benchmark-Suite. Anders als klassische Tests, bei denen LLMs lediglich auf offene Fragen antworten, simuliert DRB echte Rechercheaufgaben. Dazu wurden umfangreiche Web-Inhalte offline archiviert und Aufgaben so gestaltet, dass sie fundiertes Suchen, Auswerten und Schlussfolgern erfordern. Insgesamt wurden zwölf LLMs und elf kommerzielle Web-Research-Tools getestet, darunter ChatGPT (o3), OpenAI Deep Research, Perplexity, DeepSeek und Claude Research.

Ergebnisse: Chat-Modus schlägt oft spezialisierte Recherche-Tools

Die Auswertung zeigt, dass ChatGPT mit o3-Modell und aktiviertem Webzugriff die besten Resultate liefert. Überraschend: Das reguläre Chat-Modell übertrifft sogar spezialisierte Deep-Research-Varianten wie OpenAI Deep Research, obwohl letztere auf längere und detailliertere Ausgaben ausgelegt sind. Auch Gemini Deep Research und Claude Research schneiden solide ab, kämpfen aber mit Einschränkungen wie begrenztem PDF-Support oder langsameren Antwortzeiten. Tools wie Perplexity Deep Research und DeepSeek liegen in puncto Genauigkeit und Geschwindigkeit deutlich zurück.

Ein zentrales Ergebnis ist, dass viele spezialisierte Recherche-Tools zwar umfangreiche Berichte generieren, diese aber oft schwer zu überblicken sind und nicht zwingend bessere Ergebnisse liefern als die Basis-Chat-Modelle. Für die Praxis bedeutet das: Wer iterative, flexible Recherche benötigt, ist mit dem Chat-Modus meist besser beraten.

Offene vs. geschlossene Modelle: Selbsthosting bleibt Nischenlösung

Offene Modelle wie DeepSeek R1 bieten Vorteile bei Kosten und Self-Hosting, bleiben aber in der Gesamtleistung hinter den großen geschlossenen Modellen zurück. Mistral und Gemma etwa erwiesen sich als schwer einrichtbar und weniger robust. Für Unternehmen, die viele schnelle Anfragen verarbeiten müssen, kann ein selbstgehostetes DeepSeek dennoch attraktiv sein, sofern Abstriche bei der Genauigkeit akzeptabel sind.

Grenzen und typische Fehlerquellen

Trotz aller Fortschritte bleiben bekannte Schwächen bestehen. So kommt es weiterhin zu „Halluzinationen“, also plausibel klingenden, aber falschen Antworten. Besonders kritisch: In bis zu 80% der Fälle, in denen ein Modell scheitert, liegt dies an fehlerhaften Behauptungen statt an einer korrekten Verweigerung der Antwort. Auch das strukturierte Extrahieren von Zahlen und Fakten ist nach wie vor eine Herausforderung, etwa wenn Informationen nur in PDFs vorliegen.

Fazit für Unternehmen und IT-Teams

Für den Alltag empfiehlt der Benchmark den Einsatz etablierter Chat-Modelle mit Webzugriff, allen voran ChatGPT o3. Spezialisierte Deep-Research-Tools bieten nur in Ausnahmefällen einen Mehrwert, sind aber oft langsamer und weniger flexibel. Wer auf offene Modelle setzt, sollte sich der Kompromisse bei Genauigkeit und Zuverlässigkeit bewusst sein. Insgesamt zeigt sich: LLMs sind heute ein wertvolles Werkzeug für die Web-Recherche – die menschliche Kontrolle und Nachprüfung bleiben aber weiterhin unverzichtbar.

Externer Link zum Thema:

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert