GenAI: Die Bedeutung eines guten Datenmanagements

Erfahrungen, die gesammelt wurden, um optimale Ergebnisse bei der Verwendung von LLM zu gewährleisten

23.08.2024

Teilen

Unternehmen nutzen mehr Daten als je zuvor – aktuellen Schätzungen zufolge werden täglich 328,8 Millionen Terabyte an Daten erstellt. Unternehmen setzen zunehmend Verhaltensanalysen und prädiktive Analysen ein, um ihren Umsatz zu steigern, und einige haben ganze Geschäftsmodelle auf die effektive Nutzung von Verbraucherdaten ausgerichtet. Ein effektives Datenmanagement ist wichtiger denn je, da diese Daten über verschiedene Plattformen (wie SharePoint, OneDrive und lokale persönliche Ordner) verstreut sind und immer mehr Menschen remote arbeiten und auf Dateien zugreifen.

Generative KI (GenAI) bietet personalisierte Modelle, die durch einfache Gesprächsaufforderungen einen sofortigen Zugriff auf große Mengen interner Daten ermöglichen. Die Möglichkeiten sind nahezu unbegrenzt. Der erfolgreiche Einsatz von GenAI-Lösungen hängt jedoch in hohem Maße von einer robusten Datenmanagementstrategie ab, die die Genauigkeit, Sicherheit und Effizienz der verwendeten Daten gewährleistet. Wir werfen einen Blick auf einige der wichtigsten Erkenntnisse, die wir im Hinblick auf ein robustes und effektives Datenmanagement gewonnen haben.

DATENVERWALTUNG

Die zunehmende verstreute Datenspeicherung stellt KI-Modelle vor erhebliche Herausforderungen, und die Konsolidierung dieser Daten ist für einen effizienten Datenzugriff und eine effiziente Datenverwaltung von entscheidender Bedeutung. Die Konzentration auf eine zentralisierte Datenspeicherung verbessert nicht nur die Zugänglichkeit und reduziert den Zeitaufwand für die Suche nach Informationen, sondern kann auch zur Konsolidierung von Daten für eine erfolgreiche KI-Nutzung beitragen. Für große Unternehmen mit Altsystemen kann dies zwar schwierig sein, aber es ist ein wichtiger Prozess, der die Auswahl des richtigen Data Warehouse, die Integration mehrerer Datenquellen und die Gewährleistung der Datensicherheit und -konformität umfasst.

DATENKLASSIFIZIERUNG

Natürlich sollten nicht alle Daten jederzeit für jeden zugänglich sein. Die Implementierung einer strengen Datenklassifizierung hilft bei der Festlegung von Zugriffsebenen und gewährleistet den Schutz sensibler Informationen. Die Integration von Datenklassifizierungsprotokollen in KI-Systeme trägt zur Aufrechterhaltung der Sicherheit und zur Einhaltung von Datenschutzbestimmungen bei und hilft Datenanbietern zu wissen, welche Daten verwendet werden.

ÄNDERUNGSMANAGEMENT

KI-Systeme haben oft mit veralteten Daten zu kämpfen. Ohne einen Prozess, der KI-Modelle informiert oder neu trainiert, wenn neue Datenversionen veröffentlicht werden, ist die Wahrscheinlichkeit viel größer, dass Benutzer veraltete Informationen erhalten und der Prozess zusammenbricht. Die Einrichtung eines robusten Änderungsmanagementprozesses, um KI-Modelle mit den neuesten Daten auf dem aktuellen Stand zu halten, gewährleistet Genauigkeit und Relevanz.

DATENQUALITÄT

Bei der Implementierung der KI durch SPS sind wir häufig auf widersprüchliche Aussagen in den Dokumenten gestoßen, die zum Trainieren der KI verwendet wurden. Diese Inkonsistenz kann sich auf die Ergebnisse auswirken, da die KI möglicherweise widersprüchliche Informationen liefert. Durch die Priorisierung der Datenbereinigung, um beschädigte, ungenaue oder irrelevante Daten zu entfernen oder zu korrigieren, werden konsistente und genaue Daten für zuverlässige Ergebnisse sichergestellt. KI kann in diesem Prozess tatsächlich effektiv eingesetzt werden, um Muster und Inkonsistenzen zu erkennen.

QUALITÄTSGEPRÜFTE DATENSÄTZE

Damit die KI ihre besten Leistungen erbringen kann, müssen die bereitgestellten Trainingsdaten von hoher Qualität und vielfältig sein. Die Verwendung genau gekennzeichneter Datensätze, die reale Szenarien widerspiegeln, reduziert Verzerrungen und Halluzinationen in den KI-Ergebnissen. Wir haben festgestellt, dass strenge Qualitätskontrollen aller Trainingsdaten und die regelmäßige Feinabstimmung der Referenzdatensätze dazu beitragen, die Leistung der KI zu verbessern.

KONTINUIERLICHE ÜBERWACHUNG UND FEEDBACK

Die kontinuierliche Überwachung der KI-Ergebnisse anhand von Benchmark-Daten ist für robuste Ergebnisse unerlässlich. Dieser Prozess umfasst regelmäßige Überprüfungen zur Erkennung von Anomalien oder Abweichungen und trägt dazu bei, dass die KI über einen längeren Zeitraum hinweg genau und zuverlässig bleibt. Das Feedback von Benutzern und Systemen ist für diese Feinabstimmung von KI-Modellen von unschätzbarem Wert. Dies kann regelmäßige Aktualisierungen des Trainingssatzes mit neuen Beispielen umfassen, um die Genauigkeit zu verbessern. Die Integration von Feedback-Schleifen hilft dabei, Fehlinterpretationen zu beheben.

MEHRSCHICHTIGE VALIDIERUNGSSYSTEME

Von KI generierte Ergebnisse sollten stets mehreren Validierungsprüfungen unterzogen werden. Beispielsweise können sekundäre KI-Modelle oder menschliche Prüfer eine zufällige Auswahl von Datensätzen gegenprüfen und bei Unstimmigkeiten manuelle Überprüfungen veranlassen. Eine unserer wichtigsten Erkenntnisse ist der Einsatz eines mehrstufigen Validierungssystems, um die Genauigkeit der Datenerfassung und der Ergebnisse sicherzustellen. SPS verwendet ein System, bei dem KI-generierte Ergebnisse zusätzlichen Prüfungen durch sekundäre Modelle oder menschliche Prüfer unterzogen werden, um Fehler zu korrigieren und zu beseitigen. Wenn beispielsweise unsere Gen-KI-Lösung Kontextdaten aus Dokumenten extrahiert und validiert, überprüft ein sekundäres KI-Modell eine zufällige Auswahl von Datensätzen.

WEITERE ERKENNTNISSE

Man kann auch zu viele Daten haben. Bei einer kürzlich durchgeführten Vertragsanalyse war unsere KI zunächst mit der Menge der bereitgestellten Daten überfordert. Indem wir das Problem in überschaubare Teile aufteilten und jedes Segment einzeln validierten, konnten wir die Genauigkeit der KI-Ergebnisse deutlich verbessern. Die Erkenntnis daraus ist, dass man komplexe Aufgaben aufteilen und iterativ validieren muss, um bessere Ergebnisse zu erzielen.

Man kann den Antworten auch zu sehr vertrauen. In einem anderen Beispiel lieferte die KI bei der Abfrage einiger Richtliniendokumente die Quelle zusammen mit einer Interpretation. Indem die Nutzer die KI-Antworten wie Vorschläge eines unerfahrenen Mitarbeiters behandelten, konnten sie die Informationen anhand der Originalquelle validieren. Die Lehre daraus ist, dass man die Interpretationen der KI immer gründlich mit den Originaldokumenten abgleichen sollte, um Genauigkeit und Zuverlässigkeit sicherzustellen. Man sollte immer davon ausgehen, dass die KI nur über die Fähigkeiten eines Anfängers verfügt.

FAZIT

Eine effektive und sorgfältige Datenverwaltung ist für den erfolgreichen Einsatz von KI unerlässlich. Es gibt Lehren, die man in Bezug auf die Zentralisierung der Datenspeicherung, die Implementierung robuster Änderungsmanagement- und Klassifizierungsprozesse, die Sicherstellung der Datenqualität und die kontinuierliche Überwachung und Validierung der KI-Ergebnisse ziehen kann. Durch die Umsetzung dieser Datenverwaltungsmaßnahmen können Unternehmen das Potenzial der KI voll ausschöpfen.