Der neue LLM-Benchmark von Insiders Technologies zeigt eine deutliche Leistungssteigerung des unternehmenseigenen OvAItion Private LLM – trotz erheblich komplexerer Testbedingungen. Die Ergebnisse verorten das Modell erstmals im Leistungsbereich führender Systeme und unterstreichen einen strukturellen Trend: Fortschritte in Intelligent Document Processing entstehen zunehmend durch Spezialisierung statt durch immer größere Foundation-Modelle.
Insiders Technologies veröffentlicht aktuellen Benchmarking-Report. (Quelle: Insiders Technologies)
Die vierte Ausgabe des LLM-Benchmarks von Insiders Technologies, veröffentlicht am 11. Dezember 2025, verzeichnet für das OvAItion Private LLM einen klaren Qualitätssprung. Trotz nahezu verdoppeltem Datenumfang und anspruchsvollerer Dokumenttypen verbessert sich das Modell gegenüber dem dritten Quartal um mehr als zwei Prozentpunkte. Damit erreicht es erstmals den Leistungsbereich von Top-Modellen wie Claude 4.5 Haiku. Der Benchmark fokussiert auf einsatzrelevante Parameter im Intelligent-Document-Processing-Umfeld (IDP) und soll Unternehmen eine verlässliche Orientierung bei der Auswahl geeigneter Modelle bieten.
Das Benchmarking im vierten Quartal wurde deutlich ausgeweitet: Der Testdatensatz umfasst nun die doppelte Menge an Dokumenten und weist eine höhere Komplexität auf. Diese Anpassung führte zwar zu einem leichten Rückgang des Gesamtniveaus der erzielten Scores, erhöhte aber nach Angaben von Insiders Technologies die Aussagekraft für produktive Workflows.
Insgesamt wurden 24 Large Language Models getestet, darunter Claude 4.5 Sonnet, GPT-5.1 und Gemini 3 Pro. Modelle ohne aktuellen Relevanzbezug oder mit bereits überholten Nachfolgern blieben unberücksichtigt. Das Resultat: Ein zunehmend enges Spitzenfeld mit Scores im Bereich von 80 bis 88 Punkten. Während breit trainierte Foundation-Modelle weiterhin solide Leistungen zeigen, verlangsamt sich ihr Fortschritt im IDP-Kontext. Reine Reasoning-Modelle erreichen zwar hohe Scores, erweisen sich jedoch im laufenden Betrieb häufig als zu langsam oder zu kostenintensiv.
Neben der Performance verweist der Benchmark auf regulatorische Herausforderungen global gehosteter Modelle. Zwar steigt der Anteil im Benchmark vertretenen EU-betriebener Modelle bewusst, ihr Gesamtanteil im Markt bleibt jedoch gering. Damit bleibt Datenschutz ein strukturelles Thema – insbesondere für Unternehmen, die strenge Compliance-Anforderungen erfüllen müssen.
Das OvAItion Private LLM positioniert sich in diesem Umfeld mit Datenhoheit, C5-zertifizierter Sicherheit und stabilen Verarbeitungszeiten. Es wird künftig das bisherige Private LLM ablösen und weiter auf spezifische IDP-Anforderungen zugeschnitten. Laufendes Finetuning, optimierte Trainingsmethoden und zusätzliche Daten aus langjähriger Projekterfahrung sollen die kontinuierliche Weiterentwicklung sicherstellen.
Aus den Benchmark-Ergebnissen leitet Insiders Technologies zentrale Erkenntnisse ab:
Die Entwicklung großer Foundation-Modelle stagniert im IDP-Kontext.
Reasoning-Modelle sind leistungsfähig, aber betrieblich oft schwer planbar.
Fortschritte entstehen vor allem durch Spezialisierung und gezielte Trainingsmethoden.
Performance und regulatorische Sicherheit sind weiterhin selten im Gleichgewicht.
Das OvAItion Private LLM erzielt den größten Fortschritt im Feld.
Für Anwenderunternehmen verfolgt Insiders einen Best-of-Breed-Ansatz: Über die OvAItion Engine lassen sich Modelle nach Kriterien wie Performance, Latenz, Kosten oder Dunkelverarbeitung flexibel kombinieren. Funktionen wie Green Voting sollen die automatische Validierung unterstützen und den Nachbearbeitungsaufwand senken. Laut Dr. Alexander Lück, verantwortlich für das LLM-Benchmarking im Team OvAItion/Data Management, bestätigt der Vergleich, „dass der größte Qualitätssprung nicht von generischen Foundation-Modellen, sondern von modellseitiger Spezialisierung kommt“.
Die vollständige Benchmark-Ausgabe Q4-2025 steht kostenlos zur Verfügung und bietet einen Überblick über die Leistungsfähigkeit der getesteten Modelle. Für individuelle Bewertungen auf Basis unternehmenseigener Use Cases stellt Insiders Technologies Expertinnen und Experten bereit.