Neue Wege zur Datenaufbereitung - Datamining und semantische Suche
Nils- Per Steinmann
"The nice thing about standards is that there are so many to choose from." Dieses Zitat von Andrew S. Tanenbaum beschreibt treffend die Arbeitsgrundlage für das Business Integration Team von CIM Aachen und allen anderen, die den Datenfluss über Systemgrenzen hinweg automatisieren wollen. Und dabei steht die Werkzeugbranche noch vergleichsweise gut da.

Ein erster Problemkreis aus der Perspektive der Werkzeughersteller ist die Datenbereitstellung. Hier sind zu den einzelnen Werkzeugen die Daten zusammenzutragen. Es geht um Sachmerkmale, es geht um Grafiken, es geht um Technologieinformationen. Dann müssen diesen Daten in die geforderte Struktur gebracht werden.
Ein zweiter Problemkreis liegt in der Praxisferne der Beschreibungsstandards aus der Sicht der Anwender. So beschreibt beispielsweise die DIN 4000 ein Werkzeug explizit, also genau so, "wie es auf dem Tisch liegt".
Für den Anwender ist aber der Werkzeugeinsatz viel naheliegender. So wird ein Ventilsitzsenker ganz klar anhand der Anwendung spezifiziert. Bezogen auf die benötigten Sachmerkmale ist das mehr als unscharf.
Daten automatisch aufbereiten?
Bereits der Problemkreis der
Datenbereitstellung hat 2 Ebenen.
Einerseits geht es darum, die Daten des
Werkzeuglieferanten in die gewünschte
Struktur des Anwenders zu konvertieren.
Andererseits muss dazu zunächst
ein Datenbestand in der benötigten
Informationstiefe und breite verfügbar
gemacht sein.
CIM Aachen auf das sog. Data Mining.
Ausgangspunkt dazu st ein Datenbestand, von
dem nur klar ist, dass er aus Werkzeugdaten
besteht. Dieser Datenbestand wird an
einer strukturierten Werkzeugdatenbank
gespiegelt, um eine einheitliche Struktur
herzustellen. Die Data Mining Algorithmen
nutzen dabei die CIMSOURCE-Datenbank,
um sog. "Ähnlichkeitsmaße" abzuleiten.
Anhand der Ähnlichkeitsmaße werden die
unstrukturierten Daten dann automatisch
strukturiert. Dieser Ansatz ist sehr
vielversprechend, vorausgesetzt, der zu
strukturierende Datenbestand ist umfassend.
Das ist in der Praxis leider nicht häufig der
Fall. Vielmehr sind die benötigten Daten in
verschiedenen Datenbanken und Dateien
abgelegt. Gesucht sind also Methoden
und Hilfsmittel zur sog. Datenextraktion.
Die Methoden zur Datenextraktion sind so
vielfältig wie die Datenquellen selbst. Von
den in der Werkzeugbranche wesentlichen
Dateiformaten sind die "üblichen" Office-
Dateien "Word" und "Excel" gut zu verarbeiten.
Gute Erfolge erzielt CIM Aachen auch bei
der "Datenrückgewinnung" aus Web- oder
Printkatalogen. Anspruchsvoller sind DXFDokumente,
die immer noch einen hohen
manuellen Aufwand erfordern.
Unscharf suchen?
Der Ansatz des Data Minings bietet auch
Potenzial, den aus der Anwenderperspektive
wesentlichen Problemkreis zu überwinden.
Konkret untersucht CIM Aachen mit
Projektpartnern der RWTH Aachen
Möglichkeiten, dem Anwender den
Zugang zu Technologiewissen durch
"umgangssprachliche" Suchmöglichkeiten zu
erleichtern. Den Hintergrund erIäutert Sergej
Fries wie folgt: Die Lösung liegt in der
Abstraktion. Eine Suche nach einem Objekt
ist bisher nur über seine beschreibenden und
strukturabhängigen Eigenschaften möglich;
das Ziel dieses Projektes "MachinNet" ist es
aber nun, eine Suche nach der Funktion des
Objektes zu ermöglichen. Dadurch entsteht
eine strukturunabhängige Suchfunktion, die
Informationen losgelöst von ihrer direkten
Beschreibung ermittelt.
Eine erste prototypische Lösung präsentierte Fries im Rahmen des Forums "Werkzeugdaten" der METAV 2010. Er verdeutlichte, wie mit Hilfe der strukturunabhängigen Vergleichbarkeit Werkzeuggrafiken für gleiche Problemstellungen identifiziert werden können, ohne eine präzise Suchanfrage zu formulieren.

erschienen in CIM Aktuell, April 2010