Neue Wege zur Datenaufbereitung - Datamining und semantische Suche

Nils- Per Steinmann

"The nice thing about standards is that there are so many to choose from." Dieses Zitat von Andrew S. Tanenbaum beschreibt treffend die Arbeitsgrundlage für das Business Integration Team von CIM Aachen und allen anderen, die den Datenfluss über Systemgrenzen hinweg automatisieren wollen. Und dabei steht die Werkzeugbranche noch vergleichsweise gut da.

Ein erster Problemkreis aus der Perspektive der Werkzeughersteller ist die Datenbereitstellung. Hier sind zu den einzelnen Werkzeugen die Daten zusammenzutragen. Es geht um Sachmerkmale, es geht um Grafiken, es geht um Technologieinformationen. Dann müssen diesen Daten in die geforderte Struktur gebracht werden.

Ein zweiter Problemkreis liegt in der Praxisferne der Beschreibungsstandards aus der Sicht der Anwender. So beschreibt beispielsweise die DIN 4000 ein Werkzeug explizit, also genau so, "wie es auf dem Tisch liegt".

Für den Anwender ist aber der Werkzeugeinsatz viel naheliegender. So wird ein Ventilsitzsenker ganz klar anhand der Anwendung spezifiziert. Bezogen auf die benötigten Sachmerkmale ist das mehr als unscharf.

Daten automatisch aufbereiten?
Bereits der Problemkreis der Datenbereitstellung hat 2 Ebenen. Einerseits geht es darum, die Daten des Werkzeuglieferanten in die gewünschte Struktur des Anwenders zu konvertieren. Andererseits muss dazu zunächst ein Datenbestand in der benötigten Informationstiefe und breite verfügbar gemacht sein.
CIM Aachen auf das sog. Data Mining. Ausgangspunkt dazu st ein Datenbestand, von dem nur klar ist, dass er aus Werkzeugdaten besteht. Dieser Datenbestand wird an einer strukturierten Werkzeugdatenbank gespiegelt, um eine einheitliche Struktur herzustellen. Die Data Mining Algorithmen nutzen dabei die CIMSOURCE-Datenbank, um sog. "Ähnlichkeitsmaße" abzuleiten. Anhand der Ähnlichkeitsmaße werden die unstrukturierten Daten dann automatisch strukturiert. Dieser Ansatz ist sehr vielversprechend, vorausgesetzt, der zu strukturierende Datenbestand ist umfassend. Das ist in der Praxis leider nicht häufig der Fall. Vielmehr sind die benötigten Daten in verschiedenen Datenbanken und Dateien abgelegt. Gesucht sind also Methoden und Hilfsmittel zur sog. Datenextraktion. Die Methoden zur Datenextraktion sind so vielfältig wie die Datenquellen selbst. Von den in der Werkzeugbranche wesentlichen Dateiformaten sind die "üblichen" Office- Dateien "Word" und "Excel" gut zu verarbeiten. Gute Erfolge erzielt CIM Aachen auch bei der "Datenrückgewinnung" aus Web- oder Printkatalogen. Anspruchsvoller sind DXFDokumente, die immer noch einen hohen manuellen Aufwand erfordern.

Unscharf suchen?
Der Ansatz des Data Minings bietet auch Potenzial, den aus der Anwenderperspektive wesentlichen Problemkreis zu überwinden. Konkret untersucht CIM Aachen mit Projektpartnern der RWTH Aachen Möglichkeiten, dem Anwender den Zugang zu Technologiewissen durch "umgangssprachliche" Suchmöglichkeiten zu erleichtern. Den Hintergrund erIäutert Sergej Fries wie folgt: Die Lösung liegt in der Abstraktion. Eine Suche nach einem Objekt ist bisher nur über seine beschreibenden und strukturabhängigen Eigenschaften möglich; das Ziel dieses Projektes "MachinNet" ist es aber nun, eine Suche nach der Funktion des Objektes zu ermöglichen. Dadurch entsteht eine strukturunabhängige Suchfunktion, die Informationen losgelöst von ihrer direkten Beschreibung ermittelt.

Eine erste prototypische Lösung präsentierte Fries im Rahmen des Forums "Werkzeugdaten" der METAV 2010. Er verdeutlichte, wie mit Hilfe der strukturunabhängigen Vergleichbarkeit Werkzeuggrafiken für gleiche Problemstellungen identifiziert werden können, ohne eine präzise Suchanfrage zu formulieren.

erschienen in CIM Aktuell, April 2010