Large Language Models prägen bisher das KI-Jahrzehnt – doch in produktionsnahen Szenarien treten ihre Grenzen klar zutage. Small Language Models (SLMs) versprechen dagegen Effizienz, Anpassbarkeit und lokale Einsetzbarkeit. Ein aktueller Überblick, was kompakte Modelle in der Fertigung leisten können und wo ihre Grenzen liegen.
Foto: NTT DATA DACH
Oliver Köth, Chief Technology Officer bei NTT DATA DACH
Produktionsbetriebe stehen vor der Frage, wie KI-Lösungen sinnvoll in bestehende IT- und OT-Landschaften integriert werden können. Dabei zeigt sich, dass große Standardmodelle oft zu generisch, zu ressourcenintensiv oder zu langsam sind, um operativen Anforderungen gerecht zu werden. Small Language Models setzen genau hier an. Sie benötigen deutlich weniger Rechenleistung, lassen sich schneller anpassen und können häufig sogar in lokalen Produktionsumgebungen betrieben werden. Oliver Köth, CTO bei NTT DATA DACH, bringt es auf den Punkt: „Small Language Models eröffnen der Industrie neue Wege, KI gezielt, sicher und ressourcenschonend einzusetzen. Gerade in der Fertigung sind es in der Regel nicht die größten Modelle, sondern die am besten trainierten, die den Unterschied machen.“
Small Language Models umfassen typischerweise zwischen 100 Millionen und zehn Milliarden Parametern. Das ist ein Bruchteil der Größenordnung gängiger LLMs, die mehrere hundert Milliarden Parameter umfassen können. Dadurch ergeben sich klare Vorteile: geringerer Energiebedarf, niedrigere Hardwareanforderungen und eine deutlich höhere Inferenzgeschwindigkeit.
Der Effizienzgewinn ist jedoch nicht gleichbedeutend mit schlechteren Ergebnissen. Modelle wie Microsofts Phi-2 mit 2,7 Milliarden Parametern oder Phi-4-Mini-Reasoning mit 3,8 Milliarden Parametern erreichen in einzelnen Benchmarks Leistungen, die mit wesentlich größeren Modellen vergleichbar oder sogar überlegen sind.
In der industriellen Praxis punkten SLMs vor allem durch kurze Anpassungsprozesse. Während Feintuning großer Modelle Wochen dauern kann, lassen sich kompakte Modelle innerhalb weniger GPU-Stunden trainieren – etwa auf Fachsprache aus dem Shopfloor, auf Wartungstexte oder auf spezifische Muster in Maschinendaten. Parametereffiziente Techniken wie Low-Rank Adaptation verstärken diesen Effekt weiter, da neue Aufgaben modular ergänzt werden können, ohne das gesamte Modell neu aufzusetzen.
Köth betont den operativen Nutzen: „Wir sehen bereits heute, wie Unternehmen ihre Produktionsdaten mit speziell trainierten Modellen lokal auswerten, wie Wartungsteams sich über sprachgesteuerte Assistenzsysteme unterstützen lassen oder wie technische Dokumente automatisch klassifiziert werden – direkt am Ort des Geschehens.“
Der geringe Ressourcenbedarf eröffnet neue Optionen: Viele SLMs lassen sich auf handelsüblichen Servern oder Industrie-PCs betreiben, oft sogar vollständig ohne Cloud-Anbindung. Auch abgeschottete OT-Umgebungen werden damit für KI nutzbar. Frameworks wie NVIDIA Dynamo ermöglichen zusätzlich, mehrere kompakte Modelle parallel und effizient auf derselben Hardware auszuführen.
Gleichzeitig besitzen SLMs strukturelle Grenzen. Sie sind in der Regel weniger generalistisch und verfügen über eine geringere semantische Tiefe. Mehrdeutige Fragestellungen, kreative Aufgaben oder komplexe Schlussketten überschreiten häufig ihre Kapazitäten. Aus diesem Grund setzen viele Unternehmen auf hybride Architekturen. Ein „SLM-first“-Ansatz übergibt zunächst klar strukturierte Aufgaben an kompakte Modelle; nur wenn diese an ihre Grenzen stoßen, wird ein großes Modell als Fallback aktiviert. Auf diese Weise lassen sich Ressourcen sparen und Antwortprozesse kontrollierbarer gestalten.
Die Entwicklung solcher Modelle basiert meist auf der Reduktion größerer Netze, etwa durch Wissensdistillation. Sie lernen dabei nicht direkt aus Rohdaten, sondern durch das Nachahmen der Vorhersagen ihres größeren Ausgangsmodells. Feinabstimmungen – beispielsweise durch Domain Adaptive Pretraining oder Supervised Fine-Tuning – ergänzen das domänenspezifische Wissen.
In mehrschichtigen KI-Architekturen übernehmen SLMs zunehmend operative Rollen. Sie bearbeiten strukturierte Aufgaben, extrahieren technische Informationen oder unterstützen bei wiederkehrenden Anfragen. LLMs fungieren hingegen als übergeordnete Ebene mit strategischen Funktionen.
Der Aufbau erinnert an Microservices: Statt eines monolithischen Modells besteht die Architektur aus spezialisierten Komponenten, die unabhängig weiterentwickelt werden können. Für Agentensysteme ist das besonders wertvoll, da sie kontinuierlich aufgabenspezifische Nutzungsdaten erzeugen. Diese Daten können zur Verbesserung der SLMs eingesetzt werden und führen langfristig zu hochspezialisierten, betriebsspezifischen Expertenmodellen.
Köth sieht darin einen entscheidenden Fortschritt für die Industrie: „Mit SLMs lässt sich KI in den industriellen Alltag integrieren, ohne komplexe Cloud-Setups, ohne Datenrisiken, aber mit hoher Effizienz.“