Lokaler KI-Chatbot: Schnelle Antworten auf Fragen zu unternehmensinternem Wissen

Home | Praxisbeispiele | Lokaler KI-Chatbot: Schnelle Antworten auf Fragen zu unternehmensinternem Wissen

Mit einem lokal betriebenen KI-Chatbot können Unternehmen schnelle Antworten auf Fragen zu unternehmensspezifischem Wissen erhalten. In diesem Projekt zeigen wir Ihnen, wie Sie einen sicheren Zugriff auf internes Wissen ermöglichen können – die konkrete Vorgehensweise finden Sie im Leitfaden.

Wissensmanagement:
KI-basierter Chatbot liefert unternehmensinterne Informationen

Im Rahmen eines Digitalisierungsprojekts des Mittelstand-Digital Zentrums Hannover wurde gemeinsam mit der ES Edgar Schröder Unternehmensberatungsgesellschaft für Zeitarbeit mbH ein leistungsfähiger, lokal betriebener RAG-Chatbot (Retrieval-Augmented Generation) entwickelt und erfolgreich umgesetzt. Ziel war eine prototypische Lösung, die auf Basis lokaler Dokumente (PDF-Dateien mit Text- und Bildinhalten wie PowerPoint-Folien) qualitative, kontextbezogene Antworten auf individuelle Fragen liefert. Der Prototyp demonstriert, wie Unternehmen internes Wissen sicher, schnell und ohne Cloud-Abhängigkeit nutzbar machen und so Rechercheaufwände deutlich reduzieren können.

Die zunehmende Verfügbarkeit leistungsfähiger KI-Sprachmodelle eröffnet Unternehmen neue Wege im Wissensmanagement. Besonders dort, wo Informationen in heterogenen Dokumentenformaten vorliegen und sich Mitarbeitende häufig durch umfangreiche Unterlagen arbeiten müssen, bietet ein RAG-basierter Ansatz erhebliche Effizienzpotenziale. Vor diesem Hintergrund wurde gemeinsam ein prototypischer Chatbot entwickelt, der Dokumente lokal verarbeitet und Antworten transparent mit Quellenbezug bereitstellt.

Herausforderung & Zielsetzung

Ein zentraler Bestandteil der Arbeit ist der Umgang mit komplexen, rechtlich geprägten Dokumenten (z. B. Gesetzestexte, Tarifverträge, Verträge, Richtlinien). Für Mitarbeitende entsteht dabei regelmäßig hoher Rechercheaufwand – insbesondere, wenn es um die schnelle Beantwortung spezifischer Fachfragen geht.

Der Ausgangspunkt dieses Projektes war daher der Bedarf, den Zugang zu vorhandenem Wissen deutlich zu beschleunigen: Relevante Passagen aus verschiedenen Dokumenten sollten ohne langwierige Recherche auffindbar sein, und auf Basis dieser Textpassagen sollte eine gestellte Frage beantwortet werden. Gleichzeitig musste der gesamte Prozess datensouverän ablaufen, also ohne Auslagerung sensibler Inhalte in externe Cloud-Dienste.

Im Projekt galt es zudem, die technische Machbarkeit eines ressourcenschonenden, lokal betriebenen Systems zu prüfen – einschließlich der Auswahl kompakter Open-Source-Sprach- und Embedding-Modelle sowie einer effizienten Hardware-Nutzung. Ein weiteres Ziel war es, die Antworten des Chatbots transparent und nachvollziehbar zu gestalten: Die für die generierte Antwort herangezogenen Textstellen (Chunks) sollten für die Nutzenden sichtbar sein und damit Vertrauen in die Resultate schaffen.

Lösungsweg

Die Umsetzung des Projekts erfolgte in zwei sequentiellen Phasen:

Phase 1 – Experimentelle Entwicklung und Modelloptimierung

In der ersten Phase lag der Fokus auf der Evaluation und Optimierung geeigneter Modell- und Systemparameter. Zum Einsatz kamen mittelgroße Sprachmodelle, die von Ollama bereitgestellt wurden – darunter Llama3.2 (3B), Mistral (7B) und Gemma 3 (4B). Um eine möglichst geeignete Chunks zu erhalten, wurden unterschiedliche Embedding-Modelle getestet, darunter jina-embeddings-v2-base-de, nomic-embed-text, bge-m3 und mxbai-embed-large.

Parallel wurden verschiedene Chunk-Größen zwischen 200 und 800 Tokens[1] sowie unterschiedliche Überlappungsstrategien erprobt. Auch das Prompt-Engineering wurde gezielt variiert – unter anderem hinsichtlich der Rollenbeschreibung, der Formatierung und von kontextuellen Hinweisen.

Alle Experimente wurden mit Hilfe von LangSmith dokumentiert und systematisch ausgewertet. Als optimale Konfiguration für den vorliegenden Anwendungsfall erwies sich die Kombination aus dem Sprachmodell Llama3.2 (3B), dem Embedding-Modell jina-embeddings-v2-base-de sowie einer Chunk-Größe von 400 Tokens ohne Überlappung. Diese Kombination überzeugte sowohl hinsichtlich Antwortqualität als auch der Verarbeitungsgeschwindigkeit.

[1] Tokens sind kleine Bausteine von Text, vergleichbar mit einzelnen Wörtern oder Satzzeichen, die von KI-Modellen genutzt werden, um Sprache zu verstehen und zu verarbeiten.

Phase 2 – Integration in eine produktionsreife Umgebung

Auf Grundlage der Erkenntnisse aus Phase 1 wurde die finale Systemkonfiguration als Docker-Container bereitgestellt, sodass die Edgar Schröder GmbH die vorwettbewerbliche Lösung nach kleineren Anpassungen und dem Import der gewünschten Dokumente unmittelbar einsetzen konnte. Die Infrastruktur wurde mittels Docker Compose eingerichtet, um die initiale Bereitstellung möglichst einfach zu gestalten und das Gesamtsystem jederzeit mit nur einer Befehlszeile hoch- bzw. herunterfahren zu können.

Für die Extraktion und Verarbeitung von Texten aus Dokumenten kam das Tool Docling zum Einsatz, welches insbesondere durch seine einfache Implementierung und hohe Parsingqualität[1] überzeugte. Vereinzelt traten jedoch Probleme bei der Texterkennung in eingebetteten Bildinhalten auf, was in einigen Fällen zu unvollständiger Extraktion führte.

Die Benutzeroberfläche wurde mit Streamlit realisiert und zeichnete sich durch eine nutzerfreundliche Drag-and-Drop-Funktion zum lokalen Hochladen von Dokumenten aus. Diese Dokumente wurden automatisiert in Chunks zerlegt und anschließend in der Vektordatenbank ChromaDB gespeichert. Nutzerinnen und Nutzer konnten dann direkt über die Oberfläche Fragen eingeben und erhielten sofort qualitativ hochwertige und kontextbezogene Antworten. Zusätzlich wurden die genutzten Textchunks transparent angezeigt, sodass jederzeit nachvollziehbar blieb, welche Abschnitte der Ursprungsdokumente zur Antwortbildung herangezogen wurden. Der Prompt selbst hingegen war im Backend statisch definiert und konnte nicht direkt über die Oberfläche angepasst werden.

Abbildung 1 zeigt einen Screenshot der Benutzeroberfläche, der mit Streamlit entwickelt wurde. Die Oberfläche zeigt auf der linken Seite einen Navigationsbereich mit zwei Optionen: „Chatbot“ und „Dateiverwaltung“. Der Hauptbereich beinhaltet verschiedene Einstellungsmöglichkeiten für die Retrieval-Funktion, darunter Schieberegler für die Anzahl der abgerufenen Ergebnisse sowie den Schwellenwert für die Ähnlichkeitsbewertung (nicht in Abbildung 1 zu sehen). Unterhalb der Einstellungen befindet sich ein Bereich, der die gestellte Frage, die generierte Antwort und ermittelten Textchunks zur transparenten Nachvollziehbarkeit anzeigt. Die visuelle Darstellung verdeutlicht, wie Nutzende intuitiv die Dokumentenverarbeitung steuern und unmittelbar Ergebnisse abrufen können.

[1] Parsingqualität beschreibt, wie gut ein Computerprogramm beim Zerlegen und Verstehen von Text dessen Bedeutung richtig erkennt – ähnlich wie ein Mensch einen Satz korrekt liest und versteht.

Abbildung-1: Nutzeroberfläche des Q&A-Tools mit Chat-Verlauf und Ausgabe relevanter Chunks

Technische Umgebung

Das System wurde auf einem lokalen Rechner mit folgender Hardware betrieben:
– Prozessor:                AMD Ryzen 7 5700G mit Radeon Graphics (8 Kerne)
– Grafikkarte:               NVIDIA GeForce RTX 3060 Ti (8 GB vRAM)
– Arbeitsspeicher:       16 GB RAM
– Speicher: 1 TB          1 TB NVMe SSD

Dank der Wahl kompakter, aber leistungsfähiger Modelle, ließ sich das gesamte System performant und ohne Cloud-Abhängigkeit lokal betreiben.

Erkenntnisse

& Lessons Learned

Die Entwicklung des lokal betriebenen RAG-Chatbots machte deutlich, dass die Wahl der richtigen Chunk-Größe ein zentraler Hebel für die Antwortqualität ist: Zu kleine Textsegmente liefern zu wenig Kontext, zu große überlasten das Modell – ein Umfang von rund 400 Tokens ohne Überlappung erwies sich als tragfähiger Kompromiss. Ebenso zeigte sich, wie sensibel die Ausgabequalität auf Formulierungen im Prompt reagiert. Bereits geringfügige Anpassungen beeinflussten Relevanz und Präzision der Antworten spürbar, weshalb iteratives Prompt-Engineering unerlässlich ist.

Grenzen offenbarte das Dokumenten-Parsing bei bildlastigen PDFs: Während Docling insgesamt zuverlässig arbeitete, blieb eingebetteter Text in Bildern teilweise unerkannt. Darüber hinaus wurde klar, dass die verfügbare Hardware maßgeblich über die Praxistauglichkeit entscheidet: Ohne GPU stiegen Antwortzeiten und RAM-Bedarf (auf 100 %) deutlich an. Kleinere Modelle reduzierten zwar Ressourcenverbrauch, führten jedoch zu spürbaren Qualitätseinbußen bei den Antworten. Schließlich stärkte die transparente Anzeige der genutzten Textpassagen das Vertrauen in die Ergebnisse, da die Nachvollziehbarkeit der Antworten jederzeit gegeben war.

Fazit

& Ausblick

Lokal betriebene RAG-Chatbots ermöglichen Unternehmen, internes Wissen effizient und datensouverän zu nutzen. Das Projekt hat gezeigt, dass sich mit einer sorgfältigen Auswahl von Modellen, einer passenden Infrastruktur sowie einer durchdachten Chunking-Strategie und kontinuierlichem Prompt-Engineering präzise und nachvollziehbare Antworten generieren lassen. Die Qualität der Ergebnisse hängt dabei maßgeblich von der Güte der zugrunde liegenden Dokumente ab. Mit Blick nach vorn erscheint vor allem die Integration von Wissensgraphen und Metadaten vielversprechend. Durch eine semantische Anreicherung der Dokumentbasis kann der Chatbot Beziehungen zwischen Inhalten besser verstehen und relevantere Kontexte bereitstellen.

Für Unternehmen empfiehlt sich ein schrittweises Vorgehen: Zunächst sollte ein klar umrissener Anwendungsfall – etwa im Onboarding oder im Kundenservice – definiert werden. Darauf aufbauend gilt es, geeignete Hardware bereitzustellen und insbesondere auf Struktur, Konsistenz und Aktualität der Dokumente zu achten. Mit diesem Fundament können Unternehmen die Potenziale der RAG-Technologie kontrolliert ausbauen und langfristig ein leistungsfähiges, internes Wissensmanagement etablieren.

Wussten Sie's?

Lange bevor KI unsere Welt eroberte, wurde 1966 der erste Chatbot entwickelt: ELIZA. Sie simulierte ein Gespräch mit einem Psychotherapeuten, indem sie Texteingaben analysierte und mit vordefinierten Mustern antwortete. Oft stellte sie Rückfragen oder wiederholte Teile der Eingabe – ein einfacher Trick, der dennoch viele Nutzer*innen glauben ließ, sie sprächen mit einer echten Person. Obwohl ELIZA keinerlei Verständnis für die Gespräche hatte, war sie ein Meilenstein in der Entwicklung von KI-gestützten Dialogsystemen.

Die ES Edgar Schröder Unternehmensberatungsgesellschaft für Zeitarbeit mbH mit Sitz in Varrel (Niedersachsen) berät seit ihrer Gründung im Jahr 1993 Unternehmen der Personaldienstleistungsbranche.

Das Team besteht aktuell aus 16 Fachberatern, die mehr als 300 Zeitarbeitsunternehmen betreuen. Das Leistungsspektrum umfasst unter anderem strategische Beratung, Aktenprüfung und Revision, Controlling sowie Unternehmensentwicklung. Darüber hinaus betreibt die Unternehmensberatung die Akademie der Zeitarbeit, die seit über 30 Jahren praxisnahe Online- und Präsenzseminare zu Themen wie dem Arbeitnehmerüberlassungsgesetz (AÜG), Tarif- und Arbeitsrecht sowie Vertragsmanagement anbietet.

Das könnte Sie auch interessieren

Schritt für Schritt zum lokalen KI-Chatbot

Chatbots im Kundenservice

Noch Fragen offen?

Unsere Projekte umfassen einen großen zeitlichen, organisatorischen und thematischen
Umfang. Erfragen Sie die Details einfach beim Projektverantwortlichen. Wir leiten Sie gerne weiter!

Verschlagwortet Stufe 2: Daten für KI aufbereiten, Stufe 3: KI erfolgreich einsetzen