Künstliche Intelligenz (KI) hält zunehmend in die unterschiedlichen Bereiche unseres Lebens Einzug. Sie malt auf Basis einer textuellen Beschreibung Bilder und Gemälde, schreibt Gedichte und Geschichten und unterstützt sogar Ärzte bei der Erstellung einer medizinischen Anamnese. Moderne Machine-Learning-Technologien, die hinter künstlichen Intelligenzen stehen, haben sich in den letzten Jahren enorm weiterentwickelt und sind mit der Veröffentlichung von ChatGPT, Dall-E 2 und weiteren grossen KI-Technologien ins Interesse der breiten Öffentlichkeit gerückt.
Moderne, robuste Machine-Learning-Technologien bieten auch Versicherern in allen Bereichen enorme Chancen. Unstrukturierter Input, beispielsweise in Form von Briefpost, E-Mail und Mailanhängen, wird Versicherungen noch lange begleiten. Die Transformation unstrukturierter in strukturierte Daten ist ein wichtiger Baustein für eine ganzheitliche Digitalisierung. Der Einsatz künstlicher Intelligenz im Inputmanagement ist ein grosser Hebel in der Digitalisierungsstrategie von Versicherungen. Im Inputmanagement wird künstliche Intelligenz zur Klassifizierung von Dokumenten, zur Extrahierung der relevanten Fachdaten aus den Dokumenten und zur strukturierten Aufbereitung der extrahierten Fachdaten eingesetzt. Ergebnis bzw. Output ist ein strukturierter Datensatz, der dann beispielsweise über Workflow-Engines komplett automatisiert (dunkel) über die gesamte Anwendungslandschaft eines Versicherers hinweg fallabschliessend verarbeitet werden kann. Diesbezüglich ist unter anderem eine hohe Integration des Input- und Prozessmanagements erforderlich.
Vertrauen und Flexibilität sind die Grundlage für ein intelligentes Inputmanagement
Um eine durchgängige Digitalisierung und Automatisierung zu erreichen, sind neben den entsprechenden Integrationen insbesondere auch die beiden Faktoren „Vertrauen“ und „Flexibilität“ entscheidend für einen erfolgreichen Einsatz künstlicher Intelligenz im Inputmanagement. Denn bei der Transformation von unstrukturierten in strukturierte Daten sind höchste Genauigkeiten bei der Klassifikation und Fachdatenextrahierung entscheidend. Ungenaue Erkennungen führen nicht nur zwangsläufig zu manuellen Nachbearbeitungen, die eine durchgängige Automatisierung unterbrechen, sondern auch zu einem Vertrauensverlust in die neuen Technologien.
Die Erkennung von neuen Kundenanliegen sowie die Einführung neuer Dokumentenklassen und Anwendungsfälle kommen bei Versicherern regelmässig vor und sind bei regelbasierten Inputmanagement-Anwendungen häufig mit viel Aufwand verbunden. Es sind eine Vielzahl bestehender Regeln manuell anzupassen, neue Regeln sind zu implementieren und umfangreiche manuelle Tests mit vielen Dokumenten der neuen Dokumentenklasse sind erforderlich. Durch den Einsatz moderner Machine-Learning-Technologien können neue Anforderungen schnell und flexibel umgesetzt werden. Um ein neues Kundenanliegen in das Modell mitzuintegrieren, reichen oftmals wenige Dokumente einer Klasse. Ein initiales Training ist teilweise schon ab 100 Dokumenten möglich.
Für einen Einsatz im Inputmanagement eignen sich insbesondere die aktuell prosperierenden Sprachmodelle. Im Kontext der Bildverarbeitung ist es seit geraumer Zeit möglich, vortrainierte Neuronale Netze zu verwenden. Es existieren frei verfügbare Modelle, die es dem Nutzer ermöglichen, automatisiert eine Brücke von einem Baum zu unterscheiden, ohne ein Modell selbst anlernen zu müssen. Eine solche Möglichkeit bestand im Rahmen der Textverarbeitung bis dato nicht. Dem sind nun die sogenannten Sprachmodelle entgegengetreten. Sie beherbergen vielzählige Anwendungen, angefangen von Übersetzungen über Klassifizierung bis hin zu Dialogsystemen und Textvervollständigung. Dadurch lassen sich auch im Inputmanagement potenziell höhere Genauigkeiten erreichen als mit regelbasierten Anwendungen.
Was sind Sprachmodelle?
Aber nochmal auf Anfang – die ersten Sprachmodelle gibt es schon seit den 50er Jahren. Das von Claude Shannon veröffentlichte Paper A Mathematical Theory of Communication aus dem Jahre 1948 beschreibt das erste stochastische Sprachmodell auf Grundlage einer Markov Chain. Die Entwicklung von Neuronalen Netzen in den folgenden Jahrzehnten bildet die Grundlage der heute eingesetzten Sprachmodelle. Dank einer stetig wachsenden Rechenleistung und der andauernden Weiterentwicklung der Modelle konnte die Perfomance in der Computerlinguistik permanent gesteigert werden. Einen Durchbruch schaffte die US-amerikanischen Softwarefirma OpenAI, die am 30. November 2022 ChatGPT der Öffentlichkeit kostenfrei zur Verfügung stellte. Seitdem ist der Hype um die Technologie riesig.
Sprachmodelle sind Modelle, die mit sehr grossen Datenmengen aus dem Internet („Weltwissen“) trainiert werden. Gelernt wird eine Wahrscheinlichkeitsverteilung für Wortfolgen. Bestimmte Wörter kommen in einem gewissen Kontext häufiger vor als andere. So wird ein Satz der mit „Mein Hund kann …“ beginnt, häufiger mit „… bellen.“ als mit „… telefonieren.“ beendet. Sprachmodelle sind in der Lage, die Semantik des Satzes zu erfassen und damit den Satz sinnvoll zu vervollständigen. Dafür bedarf es einer geeigneten Worteinbettung, bei der Wörter, die in ähnlichen Zusammenhängen auftreten, (z. B. Feuer und heiss) ähnlichen Vektoren zugeordnet sind.
Funktionsweise von Sprachmodellen
Aber wie schafft man es, einem Modell kontextbasiertes Wissen beizubringen, sodass es Zusammenhänge „versteht“? Der Schlüssel sind Algorithmen, die sich an der Funktionsweise des menschlichen Gehirns orientieren.
Das menschliche Gehirn hat die Fähigkeit, Bewusstseinsressourcen auf bestimmte Tätigkeiten, Personen oder Dinge zu lenken – die Aufmerksamkeit. Mit dieser Fähigkeit können Informationen aufgenommen, selektiert oder ignoriert werden. Die Aufmerksamkeit kann gezielt auf Dinge oder Ereignisse gerichtet werden, die zum aktuellen Zeitpunkt relevant sind. Unwichtige Dinge werden herausgefiltert und somit wenig bis gar nicht wahrgenommen. Während des Autofahrens konzentriert man sich beispielsweise auf die anderen Verkehrsteilnehmer, Ampeln und Verkehrsschilder. Ein leises Geräusch oder das herabfallende Blatt eines Baumes hingegen werden wenig bis gar nicht wahrgenommen. Das Gehirn ist permanent damit beschäftigt, relevante von irrelevanten Informationen zu trennen.
Sogenannte Transformer-Modelle orientieren sich genau an diesem Mechanismus. Sie wurden erstmals in der Veröffentlichung Attention is all you need aus dem Jahre 2017 vorgestellt. Der Kern der Architektur basiert auf dem Encoder-Decoder-Prinzip. Der Encoder besteht aus mehreren identischen Encoder-Schichten, die einen Self-Attention-Mechanismus beinhalten. Dieser Mechanismus sorgt dafür, dass einzelne Wörter innerhalb eines Textes zueinander in Beziehung gesetzt werden. Eine Input-Sequenz (bspw. ein Satz oder Text) wird aufgenommen und in einen Vektor codiert (Encoding). In diesem Vektor sind jegliche semantischen und syntaktischen Bezüge der einzelnen Komponenten vorhanden. Will man diesen Vektor dann z. B. für die Übersetzung einer Ausgangssprache in eine Zielsprache nutzen, kommt der Decoder ins Spiel. Im Decoder wird der im Encoder erstellte Vektor „entschlüsselt“ und die relevanten Informationen daraus extrahiert. Im Modell besteht der Decoder ebenfalls aus mehreren identischen Schichten, die mit einer Self-Attention versehen sind.
Herausragend bei den Transformer-Modellen ist zudem, dass die Informationsverarbeitung parallel verläuft. Das macht die Verarbeitung effizient und grosse Textmengen können zusammenhängend erfasst werden. Dem gegenüber stehen die bislang eingesetzten LSTM-Architekturen (Long short-term memory), bei denen die Verarbeitung sequenziell erfolgt.
Nutzung der Sprachmodelle über das Prompting
Die Kommunikation mit den Sprachmodellen erfolgt mittels Prompts, die über natürliche Sprache formuliert werden. Inhalt sind Anweisungen oder Abfragen. So könnte ein beispielhafter Prompt lauten: „Extrahiere aus der vorliegenden Rechnung die Adresse des Behandlers.“ Der Vorteil ist, dass damit jeder in der Lage ist, mit einfacher Sprache künstliche Intelligenz zu nutzen. Man muss kein Machine-Learning-Experte oder Softwareentwickler mehr sein, um sich der Technologie bedienen zu können.
Die bisherigen Expert*innen stellt dies vor neue Herausforderungen. Häufig muss eine Vielzahl unterschiedlicher Eingaben getestet werden, um das gewünschte Resultat aus dem Modell zu erhalten. „Von aussen“ ist nicht ersichtlich, welche Anweisung das optimale Ergebnis erzielt. Inzwischen gibt es zwar automatisierte Ansätze, Prompts zu erschaffen und auszuwählen, es gibt allerdings keinen analytischen Ansatz, den „optimalen“ Prompt zu ermitteln. Um Sprachmodelle maximal nutzbringend einzusetzen, braucht es modellspezifisches Fachwissen und weitgehende Erfahrung. Eine simple Abfrage durch die Eingabe in eine Chatkonsole wie bei ChatGPT spiegelt daher nicht die Realität wider, mit denen die Expert*innen aktuell konfrontiert sind. Ein weiterer Aspekt ist die Evaluierung der Promptqualität. Es müssen geeignete KPIs definiert werden, die sowohl die Genauigkeit des Ergebnisses als auch wirtschaftliche Aspekte berücksichtigen.
Evolution von KI im Inputmanagement
Durch die Bereitstellung von „Weltwissen“ sowie die Nutzungsmöglichkeit mittels natürlicher Sprache können Sprachmodelle in zahlreichen Bereichen und diversen Anwendungen eingesetzt werden. Ein bereits angesprochenes Thema ist die Einbindung in Inputmanagementsysteme bei Versicherern. Insbesondere bei privaten Krankenversicherern gehen täglich unzählige Belege wie Rechnungen von Ärzten, Heilpraktikern oder Krankenhäusern ein. Dies geschieht in Form von PDFs, Fotos, E-Mails oder Briefpost. Dadurch entsteht den Sachbearbeiter*innen, die diese Daten strukturiert aufbereiten sollen, ein grosser Aufwand. Ein System, das ohne langwierigen Trainingsaufwand mit grossen Datenmengen auskommt und mit einer präzisen Extraktionsleistung punktet, bietet den Mehrwert, die Flut an unstrukturierten Daten effizient und automatisiert weiterverarbeiten zu können. Zur Umsetzung empfiehlt sich im ersten Schritt eine Machbarkeitsanalyse durchzuführen, bei der ein kleiner Betrachtungshorizont definiert wird. Dazu sind folgende Schritte notwendig.
- Definition der Dokumentenklassen (z. B. Rechnung Zahnarzt, Rechnung Heilmittel)
- Bestimmung der Extraktionsattribute (z. B. Stammdaten, Diagnose, Rechnungspositionen)
- Bereitstellung und Aufbereitung der Rohdaten
- Auswahl eines geeigneten Sprachmodells sowie ein optionales Fine-Tuning
- Auswahl eines oder mehrerer geeigneter Prompts zur Kommunikation mit dem Modell
- Evaluierung der Performance des Modells mit Hilfe eines ungesehenen Datensets.
Die Bewertung erfolgt mittels abgestimmter KPIs. Das Hauptkriterium ist hierbei häufig die Genauigkeit der Extraktion und Klassifikation. Häufig werden aber auch weitere Kriterien wie z. B. die Bearbeitungsdauer zugrunde gelegt. Die Ergebnisse der Machbarkeitsanalyse bieten eine fundierte Entscheidungsgrundlage. Darauf aufbauend kann evaluiert werden, wie und ob ein weiterer Einsatz eines Sprachmodells im intelligenten Inputmanagement über zusätzliche Dokumentenklassen oder Anwendungsfälle skaliert werden kann.
Fazit
Insgesamt bietet die Einbettung von Sprachmodellen in Inputmanagementsysteme den Versicherern weitreichende Vorteile. Das ist zum einen eine erhöhte Erkennungsgenauigkeit durch das inhärente, tiefe Sprachverständnis. Die Dunkelverarbeitungsquote kann erhöht und der manuelle Nachbearbeitungsaufwand durch Sachbearbeiter*innen deutlich reduziert werden. Das führt aufgrund von schnelleren Durchlaufzeiten zu deutlichen Kosteneinsparpotenzialen. Zum anderen ist eine Umsetzung und Einführung günstig und schnell realisierbar, da ein aufwändiges Training des Modells entfällt. Das bietet Flexibilität, die Anwendung kontinuierlich auf individuell benötigte Dokumentenklassen und Extraktionsattribute anzupassen.
Sie möchten mehr über Automatisierung und den Einsatz von KI bei Versicherern erfahren? Wenden Sie sich gerne an unseren Experten Florian Petermann, Senior Business Developer.