Machine Learning in der Labordiagnostik

Machine Learning und Deep Learning hat sich in den letzen Jahren zu einer treibenden Disziplin in der IT-Branche entwickelt, die zwischen Data Analytics, Künstlicher Intelligenz und Big-Data angesiedelt ist. Mit Deep Learning ist es möglich, Computer in die Lage zu versetzen, komplexe Aufgaben zu lösen. Prominent und bekannt ist beispielsweise die Spracheingabe bei Mobiltelefonen oder das selbstständige Fahren von Autos. Auch wenn uns Machine Learning im Alltag bereits als fester Begleiter zur Seite steht, so bleiben die Potentiale im Laboralltag jedoch zumeist noch ungenutzt. Im folgenden Beitrag soll auf den Einsatz von Machine Learning in der Labordiagnostik eingegangen werden, als besonders geeignetes Beispiel wird die vorbeugende Instandhaltung mittels Ölanalysen herangezogen.

Ziel der Entwicklung auf dem Gebiet der Künstlichen Intelligenz ist es, Systeme zu entwickeln, die in einigen Bereichen mindestens die gleiche Performanz wie ein menschlicher Experte erreichen. Diese Systeme bearbeiten Aufgaben, für deren Lösung der Mensch seinen Verstand und sein Wissen benötigt, damit die so erreichte Leistung als intelligent empfunden werden kann. Im Gegensatz zur klassischen Vorgehensweise in der Programmierung, bei der die Verarbeitung komplett durch den Menschen programmiert werden muss, beruht Machine Learning darauf, dass das Wissen der Menschen computergerecht aufbereitet in den Computer übertragen wird und der Computer eigene Schlussfolgerungen aus dem Wissen ziehen kann. Dieses Prinzip nennt man wissensbasierte Verarbeitung. Während bei der klassischen Systementwicklung die Programmierer zumeist eine aufwendige Adaption an neue Gegebenheiten durchführen müssen, zeichnen sich wissensbasierte Systeme durch eine gute Erklärungsfähigkeit aus.

Die Grundlage des Machine Learning ist es aus Beispielen z.B. Regelmäßigkeiten, Muster oder Modelle zu lernen, mit deren Hilfe man neue Daten klassifizieren oder künftige Werte vorschlagen kann. Dabei wird die künstliche Intelligenz (KI) empirisch mithilfe von Beispielen und Daten trainiert. Nach Beendigung dieser Lernphase entstehen Modelle, welche durch Erkennung von Regelmäßigkeiten, Muster und Beziehungen diese gelernt haben zu verallgemeinern. Im Anschluss an diese Lernphase werden die Modelle dann verwendet, um unbekannte Daten zu untersuchen und wiederum die erlernten Regelmäßigkeiten, Muster und Beziehungen zu identifizieren. Beim Machine Learning gibt es unterschiedliche Formen des Lernens, eine davon ist das sogenannte überwachte Lernen, bei dem einem System vorgegeben wird, was es lernen soll, z.B. einen bestimmten Sachverhalt in Daten zu erkennen. So kann etwa ein System lernen, wie in Ölanalysen Merkmale für Verschleiß, Verschmutzung oder Alterung identifiziert werden.

An dieser Stelle werden die Potentiale des Machine Learnings bereits erkennbar, denn das Training eines Mitarbeiters in der Diagnostik von Ölanalysen ist eine sehr ähnliche Vorgehensweise. Anhand von chemischen und physikalischen Kenndaten wird den Mitarbeitern beigebracht, Muster und Regelmäßigkeiten zu erkennen, welche charakteristisch für bestimmte Schadbilder sind. Die Mitarbeiter erlangen durch die wiederholte Sichtung von Messdaten, eines zuvor definierten Umfangs, ein Gespür für die Art und Schwere und formulieren diese als Text in einer Kundenmitteilung, der Diagnose. Zum näheren Verständnis wird im Folgenden auf das Prinzip der Öldiagnostik, im Hinblick auch Machine Learning genauer eingegangen.

Wie bereits erwähnt müssen Daten für die Verwendung zum Trainieren von Machine Learning Modellen aufbereitet werden. Das Prinzip ist denkbar einfach, für einen Prüfplan, also ein zuvor fest definierter Prüfumfang einzelner chemischer und physikalischer Parameter, werden Messaufträge in eine Tabelle überführt und durch den Trainer erkannte Muster kategorisiert. Es entsteht dann eine Tabelle wie unten anbei dargestellt.

In der ersten Spalte befindet sich der zuvor definierte Prüfplan, welcher die Viskosität bei 40°C und 100°C, die Oxidation und verschiedene Elementgehalte umfasst. In den folgenden Spalten sind Messwerte untersuchter Proben aufgeführt. In unserem Fall insgesamt elf Stück, welche mit I1 bis I11 in der ersten Zeile gekennzeichnet sind. In der Zeile darunter befindet sich die Kategorisierung, welche mit der Zahl null oder eins gekennzeichnet ist. Hierbei steht eine eins dafür, dass ein bestimmtes Muster erkannt wurde, wohingegen die null darauf hinweist, dass keine Auffälligkeit entdeckt wurde. In unserem Beispiel steht die eins dafür, dass eine Verschmutzung diagnostiziert wurde. Das trainierte Muster zielt darauf zu erkennen, dass die gleichzeitige Erhöhung des Natrium (Sodium) und Siliziumgehalts (Silicon) Indikator für einen Schmutzeintrag sind. Selbstverständlich sind auch mehrere gleichzeitige Kategorisierungen möglich, in diesem sehr einfachen Beispiel soll jedoch nur das Erkennen von Verschmutzung erlernt werden. Nach der Aufbereitung der Daten wie dargestellt, kann dann die Lernphase des Systems beginnen.

Wie bei einem Mitarbeiter in der Diagnostik beginnt das System die Muster zu erkennen und lernt die Schwere selbstständig zu interpretieren. Dabei wird die zuvor definierte Kategorie bei der Untersuchung einer unbekannten Probe ausgewertet und mit einer Zahl zwischen null und eins als Schwere interpretiert. Die Zahl kann wie eine prozentuale Wahrscheinlichkeitsaussage interpretiert werden. Eine Zahl von 0.89 repräsentiert folglich eine sehr hohe Wahrscheinlichkeit eines Schmutzeintrags, wohingegen eine 0.16 sehr unwahrscheinlich für eine Verschmutzung ist. Eine Analyse von Testdaten sieht dann wie folgt aus.

Auch hier befindet sich der Testplan in der ersten Spalte, rechts davon sind die zu untersuchenden Proben spaltenweise dargestellt. In der ersten Zeile sind die Proben mit der Bezeichnung S1 bis S7 aufgeführt. Darunter befindet sich die ausgewertete Kategorie mittels des neuronalen Netzwerks. Sofort ist zu erkennen, dass Proben mit erhöhten Natrium- und Silizumgehalten eine höhere Wahrscheinlichkeit einer Verschmutzung aufweisen als solche ohne. Das künstliche neuronale Netzwerk hat also gelernt die Zusammenhänge für das Muster Verschmutzung zu erkennen.

Mittlerweile sind leistungsstarke Open Source Systeme auf dem Markt verfügbar, mit denen auch sehr komplexe Modelle zur Charakterisierung von Ölanalysen möglich sind. KOLUMA ist hierbei starker Partner und bietet professionelle Server an, mit denen prinzipiell tausende von Öldiagnosen in Sekunden erstellt werden können.

Um die Potentiale von Machine Learning weiter zu erkunden bieten wir eine sehr einfach zu bedienende Lösung auf Basis von Microsoft Excel an, die hier heruntergeladen werden kann.