SNML-NEXST – Semantic Search

Sowohl das Internet aber auch rasant wachsende Firmennetzwerke und selbst die wachsende Speicherkapazität von Desktop PCs konfrontiert heute den Anwender mit einer schnell wachsenden Menge an heterogener Information, die aus ebenso heterogenen Quellen stammt. Um die Information in diesen unterschiedlichen Quellen zugänglich zu machen werden mächtige Such- und Retrieval Systeme entwickelt.

Das Projekt NEXST („Next Generation Distributed Sematic Search Technologies„) baut auf den Erfahrungen des Projektproponenten, der UMA Information Technologies GmbH, im Bereich der Entwicklung semantischer Such- und Retrievalsysteme auf. Die Anforderungen für ein derartiges Such- und Retrievalsystem haben sich seit Beginn der Entwicklung speziell in der zu verarbeitenden Datenmenge drastisch geändert. Die ursprüngliche Anforderung gingen von einer Begrenzung der durchsuchten Datenmenge aus. Aspekte einer offenen Skalierung aufgrund der steigenden Datenmenge standen daher im Systemdesign nicht im Vordergrund.

Die Forschungsfragen des Projekts NEXST umfassen folgende Bereiche:

Skalierung

NEXST ist skalierbar über den Zusammenschluss von beliebig vielen „Nodes“ (billiger Hardwarecluster) und verteilt die zu erledigende Arbeit dynamisch auf die zu Verfügung stehenden „Nodes“.
Diese Skalierbarkeit soll z.B. durch die experimentelle Verwendung des für Grid-Computing entwickelten Globus-Toolkits auf einem Linux-Cluster getestet werden. Dabei wird auch die Verwendung von Web Services für die Verwaltung heterogener Informationsquellen und von FIPA Agententechnologie für den Lastausgleich getestet.

Verteilung von Abfragen und Integration von Resultaten

Die gesammelten und verarbeiteten Daten können über die Nodes verteilt werden, um eine optimale Lastenverteilung und somit eine erhöhte Performance zu ermöglichen.
Bei der Verteilung ist vor allem die Abarbeitung der Abfragen, sowie die Erstellung und das Ordnen der Resultatmengen von Interesse. Hier werden einerseits neue Erkenntnisse aus der Forschung (Verwendung von Ontologien zur Definition und Spezifikation semantischer Äquivalenzen über heterogene Datenbankschemata) sowie schon bekannte, aber in Europa wenig angewandte Resultate zum Einsatz kommen (z.B. Intelligent Information Integration – I3, ein DARPA Forschungsprogramm für verteilte Informationssuche in den 90er Jahren).

Automatisierte Informationsextraktion mit Hilfe von semantischen Netzen

Bei der semantisch orientierten Suche müssen folgende Fälle beachtet werden:

  • Durchsuchte Informationsquellen sind schwach strukturiert (text-based Retrieval)
  • Durchsuchte Informationsquellen sind stark strukturiert (Daten- oder Wissensbank)
  • Suchterme sind frei definiert (Volltextsuche)
  • Suchterme bauen auf einem Wissensmodell auf (Schema basierte Suche)

Für jede Kombination von Suchtermen und darunter liegenden Informationsquellen muss eine Übersetzung gefunden werden. Diesen Themen liegen große Forschungsfragen zu Grunde und diese werden zur Zeit in vielen europäischen und internationalen Forschungsprojekten untersucht. Ziel dieses Projekts kann sein, möglichst nah am Puls der Forschung zu sein und vielversprechende Ansätze möglichst früh experimentell zu überprüfen.

Interoperabilität

NEXST soll alle anerkannten Standards wie z.B. RDF, UDDI, MPEG7 für die Beschreibung von Datenquellen und ihren Content unterstützen. Auch WEBDAV soll für das Speichern und Erfassen der Daten untersucht werden.
Die NEXST Server Komponenten und das Konzept der Systemarchitektur sind unter dem Gesichtspunkt der Plattformunabhängigkeit zu entwickeln. Im Rahmen des Projekts wird der Einsatz von semantischen Suchtechnologien im Bereich von Learning Management Systemen (LMS) und Learning Content Management Systemen (LCMS) untersucht werden. Die Projektpartner versprechen sich dadurch eine Möglichkeit zur Verschränkung von eLearning Szenarien und wissensbasierten Technologien.