Dissertation Wei

 

Zum modellbasierten Austausch von Geodaten auf Basis XML

 

Verfasser:  Shi WEI

Dissertation, Universität der Bundeswehr München, Fakultät für Bauingenieur- und Vermessungswesen, Neubiberg.

Schriftenreihe des Studiengangs Geodäsie und Geoinformation der Universität der Bundeswehr München, Heft 77, Neubiberg, 2004, III, 111 S.
ISSN: 0173-1009

 

Promotionsausschuss:

Vorsitzender:


1. Berichterstatter (Betreuer):


2. Berichterstatter:
 

3. Berichterstatter:


Tag der Einreichung:
Tag der mündlichen Prüfung:

Univ.-Prof. Dr.-Ing. Stephan M. Holzer
Universität der Bundeswehr München

Univ.-Prof. Dr.-Ing. Wolfgang Reinhardt
Universität der Bundeswehr München

Univ.-Prof. Dr. Gunnar Teege
Universität der Bundeswehr München

Univ.-Prof. Dr.-Ing. Matthäus Schilcher
Technische Universität München

14.12.2003
22.04.2004

 

 

Zusammenfassung
 

Da die existierenden Geoinformationssysteme auf unterschiedlichen Modellen beruhen, ist die Interoperabilität häufig mit erheblichem Aufwand zu realisieren. Zur Interoperabilität zwischen heterogenen Geoinformationssystemen wird der Datenaustausch eingesetzt. In der vorliegenden Arbeit wird der Austausch von Geodaten in drei Generationen eingeteilt. Die neueste Generation ist der modellbasierte Datenaustausch auf Basis von XML, in dem Daten und Modelle gemeinsam überführt werden. Standards zum modellbasierten Datenaustausch, wie z.B. die ISO/TC211 Serie 19101 und OGC-GML, werden auf Basis der XML-Technologie erarbeitet. XML und GML ermöglichen es, Daten- und Modellaustausch einheitlich auf einer offenen und standardisierten Grundlage auszuführen.

Die wichtigste Charakteristik des modellbasierten Datenaustausches ist die Flexibilität und die Erweiterbarkeit. Die Untersuchung zeigt, dass die Flexibilität und Erweiterbarkeit von XML und GML ein zweischneidiges Schwert sind. Sie bringen nicht nur Vorteile in Form der starken Fähigkeit zur Modell- und Datendarstellung, sondern bergen auch Risiken in sich. In diesem Fall, um den modellbasierten Datenaustausch erfolgreich durchführen zu können, müssen bestimmte Bedingungen erfüllt werden. In der Arbeit werden die notwendigen Bedingungen dafür festgelegt, die sich von auszutauschenden Anwendungsschemas und Daten ausgehend kontrollieren und prüfen lassen. Die Bedingungen sind, dass nach dem auszutauschenden Anwendungsschema das Modell vom Quellsystem richtig im Zielsystem interpretiert und rekonstruiert werden kann und die Daten richtig ins Zielsystem eingelesen werden können. Dazu ist es erforderlich, dass ausreichende Informationen im Anwendungsschema zur Rekonstruktion des Modells enthalten sein müssen. Sonst können Mehrdeutigkeiten entstehen. Dies impliziert, dass die Qualität der auszutauschenden Anwendungsschemas sichergestellt werden muss. Da die XML Schema Sprache große Flexibilität zur Darstellung von vielen unterschiedlichen Datenstrukturen bereitstellt, führt diese Universalität zu einer beispiellosen Komplexität des Standards und zu einer Instabilität mvon XML-Anwendungsschemas. In dieser Situation spielt die Schemaqualität eine wichtige Rolle für den erfolgreichen Datenaustausch.

Um die Qualität von XML-Anwendungsschemas beurteilen zu können, werden sechs Kriterien in der Arbeit festgelegt. Diese sind Richtigkeit, Eindeutigkeit, Skalierbarkeit, Einfachheit, Erweiterbarkeit und Wiederverwendbarkeit. Um diese Kriterien quantifizieren und auch einheitlich abbilden zu können, wird in der Arbeit der XML-Polymorphismus definiert und verwendet, der die Eigenschaft von XML, mehrer Formen eines Objektes zuzulassen, kennzeichnet. Er wird in zwei Typen gegliedert.

Der Schmea-Instanz-Polymorphismus von XML bezeichnet die Beziehung zwischen einem XML-Anwendungsschema und seinen Instanzen. Deshalb bildet er die Eindeutigkeit und Skalierbarkeit eines XML-Anwendungsschemas ab. Dieser XML-Polymorphismus wird in der Arbeit ausführlich klassifiziert und formal definiert. Durch die Messung des Grades des XML-Polymorphismus eines XML-Anwendungsschemas wird die syntaktische Mehrdeutigkeit des XML-Anwendungsschemas identifiziert und die notwendige und hinreichende Bedingung für diese Mehrdeutigkeit des XML-Anwendungsschemas festgelegt. Das Ergebnis zeigt, dass ein XML-Anwendungsschema mehrdeutig ist, wenn der XML-Polymorphismus des XML-Anwendungsschemas endlos groß ist. Außerdem wird die Wurzelmehrdeutigkeit auch erfolgreich gelöst. Die Wurzel ist das globale Element, dessen XML-Polymorphismusgrad maximal ist.

Der Modell-Schema-Polymorphismus von XML beschreibt die Beziehung zwischen einem Anwendungsmodell und seinen XML-Anwendungsschemas. Er spiegelt die Erweiterbarkeit und Wiederverwendbarkeit eines XML-Anwendungsschemas wider. Dieser XML-Polymorphismus wird auch formal definiert und quantifiziert. Dadurch wird ein Überblick über die Evolution vin XML-Basisschemas (z.B. von den GML-Basisschemas) gegeben. Dieser XML-Polymorphismus mit dem Schema-Instanz-Polymorphismus gemeinsam kann die Einfachheit von XML-Anwendungsschemas abbilden. Eine quantitative Messung für die Einfachheit soll auf Grundlage der Analyse einer gropßen Anzahl von verschiedenen XML-Anwendungsschemas erreicht werden. Weitere Forschungsarbeit dafür ist wünschenswert.

GML ist ein offener und flexibler Standard zum modellbasierten Austausch von Geodaten. Die Untersuchung zeigt, dass GML die gleiche Flexibilität wie XML Schema bereitstellt und deshalb nichts von der Komplexität von XML Schema vermindert. Besonders GML-Anwendungsschemas sind gefüllt mit XML-Ersatzgruppen, und GML-Anwendungsschemas werden gezwungen, Rollennamen und die Ersatzgruppen bei der Deklaration von allen GML-Features zu verwenden. Dies führt leicht dazu, GML-Anwendungsschemas aggregationsmehrdeutig zu formulieren. Um diese Mehrdeutigkeit zu vermeiden, muss jedes komplexe Feature bei der Definition genau auf die jeweiligen Kinderfeatures explizit beschränkt werden. In dem Fall wird es sinnlos, die Ersatzgruppe weiter anzuwenden. Dies bringt noch den Nachteil, dass man den Vererbungsmechanismus (XML-extension) von XML Schema nicht mehr in GML-Anwendungsschemas verwenden kann und dass manche Modelle darum nicht mehr dargestellt werden können.

Zur Lösung der Mehrdeutigkeiten werden in der Arbeit drei Ansätze untersucht. Die Methode Instanzextraktion wird in der Arbeit erweitert, damit die Aggregationsmehrdeutigkeit und die Wurzelmehrdeutigkeit dadurch aufgehoben werden können. Diese einfache und praktische Methode ermöglicht es einerseits, Daten mit einem syntaktisch mehrdeutigen XML-Anwendungsschema oder ohne XML-Anwendungsschema in Zielsysteme zu importieren, welche Schema-Informationen beim Einlesen unbedingt brauchen. Andererseits lassen sich mit Hilfe dieser Methode beliebige GML-Daten in ein hierarchisches Geoinformationssystem einlesen.

Da durch die Instanzextraktion unterschiedliche XML-Anwendungsschemas aus jeweiligen Instanzen erzeugt werden können, ist die Untersuchung zu erwarten, wie entschieden werden kann, ob zwei oder mehrere XML- und GML-Anwendungsschemas konzeptionell äquivalent sind?

Der Ansatz von GML-Profilen ist ein effektives Mittel zur Interoperabilität. In der Arbeit werden die Begriffsinhalte von GML-Profilen und die Prinzipien zur Erarbeitung eines GML-Profils beispielsweise für DIGEST untersucht. Im Vergleich mit der Definition eines GML-Subsets ist der Aufbau eines GML-Profils eine Vereinfachung für die GML-Spezifikation. Sie soll zumindest zwei Aspekte - Erweiterung und Beschränkung von GML - enthalten. Die Erweiterung bedeutet, in der GML-Spezifikation nicht standardisierte Komponenten weiter im Profil zu standardisieren. Die weitere Standardisierung lässt sich durch Definition eines Profil-Schemas realisieren. Dadurch können alle GML-Komponenten von anderen Anwendungen erkannt werden. Andererseits bedeutet die Beschränkung, eine Teilmenge von GML für bestimmte Anwendungen festzulegen. Dies wird durch Ergänzung zusätzlicher Regeln erreicht. Dadurch werden die überflüssigen XML/GML-Komponenten, -Funktionalitäten und -Mechanismen und die unnötigen syntaktischen Ausdrucksformen von XML/GML ausgeschlossen, um die GML-Implementierung zu erreichen.

Zur Definition des Profilschemas wird die Vererbungsmethode definiert und verwendet, die durch den XML-Vererbungsmechanismus realisiert wird. Mit dieser Methode kann die Semantik von verschiedenen Eigenschaften eines Features unterschieden werden, d.h. die semantische Mehrdeutigkeit dadurch gelöst werden.

Mit diesem Ansatz können alle Mehrdeutigkeiten aufgehoben und kann die Interoperabilität innerhalb des GML-Profils vollständig verwirklicht werden. Außerhalb des GML-Profils bleibt sie nach wie vor. Besonders stellt der Fall, dass viele unterschiedliche GML-Profile koexistieren, eine neue Herausforderung. Nach der Untersuchung in der Arbeit kann diese Interoperabilität zwischen verschiedenen GML-Profilen durch die Kompabilität gewährleistet werden. Das ist ein neuer Gedanke und ist wünschenswert, weiter zu untersuchen.

Im Ansatz der Schemahierarchie wird eine neue Architektur Schema von Schema vorgeschlagen, mit der die Modellrekonstruktion auf der Ebene von Konzeptschemas ausgeführt wird, die Komplexität der XML Schema Sprachen verringert und die Eindeutigkeit von GML-Anwendungsschemas gewährleistet wird. Das Wesen des Ansatzes ist, dass Anwendungsmodelle nicht mit XML-Anwendungsschemas sondern mit XML-Instanzen dargestellt werden. Außerdem sind Konzeptschemas feature-orientiert statt element-orientiert. Dadurch werden inrelevante Details vernachlässigt. Zum Nachteil muss eine neue und geschlossene Sprache definiert werden und die Festlegung des Metaschemas soll durch ständige Feedbacks weiter vervollständigt und verbessert werden.

Unter Berücksichtigung des Umstandes, dass OGC-Feature-Modell, GML und WFS das Feature als Granularität verwenden, widmet sich der Autor seit langem der Entwicklung von feature-basierten Schnittstellen, z.B. GML-Parser, GeoDOM, GeoSAX, da wegen der komplexen Geometrien die Menge von GML-Daten riesig sein kann und XML-DOM und -SAX für die Abfrage und Manipulation solcher Daten nicht geeignet sind. Es ist auch notwendig, GML-Daten mit XML-Datenbanken zu verwalten und zu manipulieren. Dazu soll die Möglichkeit untersucht werden, wie auf große GML-Datenbestände effizient zugegriffen werden kann, z.B. wie die raumbezogenen Indices in XML-Datenbanken verwirklicht werden können.

Da GML-Daten auf fein-körniger Ebene - Feature ausgetauscht und bearbeitet werden können, ist die inkrementielle Erneuerung ein guter Ansatz für die Bearbeitung großer Datenbestände, besonders für Online-Transaktion ist sie erstrebenswert. Außerdem werden in GML die Inhalte von ihren Präsentationen getrennt. Zur Präsentation kann GML in SVG durch XSLT überführt werden. Die Online-Übertragung, Präsentation und Fortführung eines großen SVG-Dokuments im Web ist zeitaufwendig. Die aktuelle Version von W3C-SVG unterstützt aber kein Streaming SVG. Es ist auch wünschenswert, die Möglichkeit von GML-Streaming im Vergleich mit SVG-Streaming zu untersuchen.

 

▲ Seitenanfang

 

 

Dissertationen