Fachartikel

Mit maschinellem Lernen zu einer besseren Datenverwertung

KI und maschinelles Lernen sind faszinierende Technologien und bieten großes Potenzial. Die Chancen, die sich vor allem bei Routinearbeiten und Automatisierung ergeben, sind vielfältig. Doch wie gelingen KI und ML am besten? Was sind die Vorteile und was die Herausforderungen auf dem Weg zu mehr KI? Und wo sollte maschinelles Lernen innerhalb eines Systems eingebettet sein, damit Daten verlässliche Analyseergebnisse erbringen? Der Fachartikel zeigt, warum in diesem Zusammenhang Datenplattformen, sogenannte Data Hubs, eine entscheidende Rolle spielen.
Beim Machine Learning geht es vor allem um Mustererkennung – gerade bei der Datenanlyse von großem Vorteil.
Deutsche Unternehmen haben lange gezögert, aber jetzt kommt Schwung in die Entwicklung: Laut der jüngsten IDG Studie zum maschinellen Lernen (ML) nutzen bereits 57 Prozent der deutschen Unternehmen mindestens eine Applikation aus diesem Bereich. Gute Einsatzmöglichkeiten finden sich im Bereich Kundenservice, um das Beziehungsmanagement zu optimieren, sowie in der Fertigungsindustrie, wo Sensorgeräte zur Qualitätssicherung und zur Zustandsüberwachung von Anlagen eingesetzt werden.

Integration in andere Systeme
Wenn maschinelles Lernen in andere Geräte oder Systeme integriert wird, ist die Rede von Embedded Machine Learning. Werden die KI-Module direkt im Kern einer Datenbank des Unternehmens implementiert, lässt sich der Nutzen dieser Datenbank deutlich steigern. Eine hohe Datenqualität vorausgesetzt, liefern Abfragen bessere Resultate, überraschende Zusammenhänge und erhöhen so die Zufriedenheit und Effektivität des Nutzers. Das System denkt mit: Es erkennt Zusammenhänge und stellt diese dar, es lernt dabei über die Zeit hinzu, um noch besser zu werden.

Aber nicht nur für den Endanwender ergeben sich Vorteile. Bei der Integration von Daten als Basis für moderne Anwendungen ist ein Data Steward oft mit einer Vielzahl von verschiedenen Schemata und Konventionen konfrontiert. Hier helfen modere KI Algorithmen: Der Automatisierungsgrad lässt sich bei der Datenpflege erhöhen. Laufen diese Prozesse embedded ab, entfallen umständliche Export- und Import-Prozesse. Für den Datenanalysten ergibt sich eine starke Vereinfachung: Modelle aus maschinellen Lern- und KI-Tools lassen sich exportieren und in die Datenbank importieren – unter Beibehaltung der gewohnten Entwicklungsumgebung. Gleichzeitig vereinfacht sich das Ausführen von Modellen direkt in der Datenbank. Voraussetzung dafür ist allerdings, dass die Datenbank offene Standards bei der Modelldefinition unterstützt.
Vorteile des maschinellen Lernens
ML ist im Wesentlichen Mustererkennung. Die Muster sind in Daten versteckt, die so umfangreich und komplex sind, dass sie ohne hochentwickelte Tools nur sehr schwer zu erkennen sind. Um Muster zu erkennen, gilt es, zunächst die Zusammenhänge zwischen den Attributen aufzudecken. Ein maschinelles Lernmodell ist letztlich eine mathematische Darstellung dieser Zusammenhänge. Die Vorteile des maschinellen Lernens sind

  • Vorhersagen: Welche Aussage lässt sich treffen, wenn sich auch nur ein oder zwei unauffällige Merkmale verändern, die zum Beispiel den Lebensstil oder die Konstitution einer Person betreffen? Welche veränderte Prognose etwa über Gesundheitsrisiken ergibt sich daraus?
  • Klassifizierung: Neue Daten lassen sich auf der Grundlage bereits erkannter Muster klassifizieren/einordnen. So weist beispielsweise ein neuer Kunde Attribute auf, die ihn in bestehende Kategorien einordnen. Klassifizierungen werden mit der Zeit genauer, da das System Entscheidungen wieder in den Lernprozess einbindet.
  • Genauigkeit: Ein gut trainiertes Modell übertrifft fast immer ein regelbasiertes System. Wenn der Betrachtungsraum groß und die Beziehungen komplex sind, gerät das Festlegen von Regeln zu einer unmöglichen Aufgabe. Machine-Learning-Tools hingegen bewältigen diese Aufgaben schneller und genauer.
Mehr als nur Hype?
Grundsätzlich geht es auch hier um Daten: Denn für ein genaues Modell sind große Datenmengen erforderlich, erst dann lassen sich darin verborgene Muster aufdecken. Die Daten müssen zunächst integriert werden, um die benötigten Merkmale zusammenzubringen, denn sie sind über mehrere Systeme in einem Unternehmen verteilt. Mit anderen Worten: Dieselbe 360-Grad-Ansicht, die der Service-Mitarbeiter benötigt, um einen Kunden zu optimal bedienen, ist ebenso dafür geeignet, zukünftiges Kaufverhalten vorherzusagen.

Hat das Unternehmen die Datenintegration geleistet, kann es nun eine Reihe von modernen hochleistungsfähigen, präzisen Frameworks und Toolkits für ML nutzen, die die Erstellung von Prozessen praktikabel machen. Durch die Open-Source-Gemeinschaft verbessern sich diese ständig und machen sie genauer und schneller.
22.01.2020/ln/Dr. Stefan Grotehans, Senior Director Solutions Engineering DACH bei MarkLogic Deutschland

Nachrichten

Kommandozeile für die Cloud [20.02.2020]

Während die Cloud eine Vielzahl von Vorteilen bietet, wird die Verwaltung mehrerer Archivierungskonfigurationen und SLAs schwierig und erfordert oft eine Reihe von Tools. Rubrik, das Multi-Cloud Data Control-Unternehmen, hat nun ein auf Rubrik-APIs basierendes Command Line Interface namens rbkcli vorgestellt. Die Befehlszeilenschnittstelle erleichtert es Unternehmen, die administrativen Herausforderungen der Cloud auf einfachere Weise zu bewältigen. [mehr]

Fernzugriff für kleine Umgebungen [12.02.2020]

TeamViewer stellt mit "Remote Access" ein neues Angebot für Fernzugriffe vor. Dieses wurde speziell für Existenzgründer und kleine Unternehmen entwickelt. Möglich ist der Zugriff auf bis zu drei Computer, auch von Android- oder iOS-Geräten aus. [mehr]

Tipps & Tools

Download der Woche: Sniptool [19.02.2020]

Die meisten Screenshot-Werkzeuge sind in ihrem Umfang eingeschränkt und bieten keine oder nur wenige Funktionen zur Bildbearbeitung. Mit dem kostenlosen Programm "Sniptool" können Sie mehrere Screenshots erstellen und diese in einer Oberfläche kombinieren. Darüber hinaus lassen sich die Bilder mit Text, Pfeilen und verschiedenen Formen versehen. [mehr]

Mit 1820 Servern zum Supercomputer [18.02.2020]

52 Petaflops – also 52 Billiarden Operationen pro Sekunde – beträgt die Leistung des unlängst in Betrieb genommenen Supercomputers HPC5. Laut dem italienischen Gas- und Erdölkonzern Eni handelt es sich dabei um den derzeit schnellsten Supercomputer in privatwirtschaftlicher Hand. Der Rechner steht in einem Green Data Center des Unternehmens südlich von Mailand und nutzt vor Ort erzeugte Solarenergie zur Reduzierung der Emissionen. [mehr]

Buchbesprechung

Technik der IP-Netze

von Anatol Badach und Erwin Hoffmann

Anzeigen