Heft 77/2004

Schriftenreihe
des Instituts für Geodäsie



Heft 77/2004

SHI, Wei

Zum modellbasierten Austausch von Geodaten auf Basis XML

Dissertation
III, 111 S.

Auflage:  400

ISSN:  0173-1009

Inhaltsverzeichnis

Zusammenfassung


 


Vollständiger Abdruck der von der Fakultät für Bauingenieur- und Vermessungswesen der Universität der Bundeswehr München zur Erlangung des akademischen Grades eines Doktor-Ingenieurs (Dr.-Ing.) genehmigten Dissertation.

Promotionsausschuss  
Vorsitzender: Univ.-Prof. Dr.-Ing. Stephan M. Holzer,
Institut für Mathematik und Bauinformatik der UniBw München
1. Berichterstatter: Univ.-Prof. Dr.-Ing. Wolfgang Reinhardt (Betreuer),
Institut für Geoinformation und Landmanagement der UniBw München
2. Berichterstatter: Prof. Dr. Gunnar Teege,
Institut für Informationstechnische Systeme der UniBw München
3. Berichterstatter: Univ.-Prof. Dr.-Ing. Matthäus Schilcher,
Institut für Geodäsie, GIS und Landmanagement der TU München

Diese Dissertation wurde am 14.12.2003 bei der Universität der Bundeswehr München eingereicht.

Tag der mündlichen Prüfung:  22.04.2004
 



Verkürztes Inhaltsverzeichnis

1  Einleitung 1
 
2  Modellbasierter Datenaustausch 6
2.1 Modellierung 6
2.2 Interoperabilität und Datenaustausch 6
2.2.1 System-orientierter Austausch 8
2.2.2 Statischer modellbasierter Austausch 8
2.2.3 Dynamischer modellbasierter Austausch 9
2.2.4 Zusammenfassung 10
2.3 XML-basierter Datenaustausch 10
2.3.1 Grundbegriffe zu XML 10
2.3.2 XML als Grundstein des modellbasierten Austauschs 12
2.4 Probleme beim Modellaustausch auf Basis von XML 13
2.4.1 Mehrdeutigkeit 13
2.4.2 Komplexität 15
2.4.3 Validierung 16
2.5 Bedingungen zum modellbasierten Datenaustausch 16
 
3  Bewertung der Qualität von XML-Anwendungsschemas 18
3.1 Fragestellung 18
3.1.1 Komplexität 18
3.1.2 Flexibilität 18
3.1.3 Einschränkung der Validierung 19
3.2 Konzept der Schemaqualität 19
3.3 Kriterien für Bewertung von XML-Anwendungsschemas 20
3.3.1 Richtigkeit 20
3.3.2 Eindeutigkeit 20
3.3.3 Skalierbarkeit 21
3.3.4 Einfachheit 22
3.3.5 Erweiterbarkeit und Wiederverwendbarkeit 22
3.4 Abhängigkeit der Kriterien und XML-Polymorphismus 23
 
4  Schma-Instanz-Polymorphismus von XML 24
4.1 Begriff des Schema-Instanz-Polymorphismus 24
4.2 Klassifikation des Schmea-Instanz-Polymorphismus 25
4.2.1 Inklusion-Polymorphismus 26
4.2.2 Subtype-Polymorphismus 30
4.2.3 Parameter-Polymorphismus 34
4.2.4 Pseudo-Polymorphismus 36
4.3 Quantifizierung des Schema-Instanz-Polymorphismus 38
4.3.1 Formale Definition des Schema-Instanz-Polymorphismus 38
4.3.2 Messung des Schema-Instanz-Polymorphismus auf der Schema-Ebene
43
4.3.3 Bewertung der Schemaqualität über den Schema-Instanz-Polymorphismus
48
 
5  Modell-Schema-Polymorphismus von XML 51
5.1 Begriff des Modell-Schema-Polymorphismus 51
5.2 Klassifizierung des Modell-Schema-Polymorphismus 51
5.2.1 Polymorphismus der Element-Deklaration 52
5.2.2 Polymorphismus der Elementtyp-Definition 52
5.2.3 Polymorphismus der Attribut-Deklaration 54
5.2.4 Polymorphismus der Schema-Modularität 54
5.3 Quantifizierung des Modell-Schema-Polymorphismus 55
5.3.1 Polymorphismus für modelGroup 55
5.3.2 Polymorphismus für attributeGroup 56
5.3.3 Polymorphismus für schemaInclude 56
5.3.4 Polymorphismus für schemaImport 56
5.3.5 Polymorphismus für elementLocalGlobal 57
5.3.6 Polymorphismus für attributeLocalGlobal 57
5.3.7 Polymorphismus für typeUnAnonym 57
5.3.8 Polymorphismus für typeFinal 58
5.4 Bewertung der Schemaqualität 58
5.4.1 Messung des Modell-Schema-Polymorphismus 58
5.4.2 Einige typische Beispiele 58
5.4.3 Fazit 63
 
6  Analyse des GML-Polymorphismus 64
6.1 Struktur der GML-Basisschemas 64
6.1.1 GML-Metamodell 64
6.1.2 GML-Regeln 66
6.2 Messung des GML-Polymorphismus 67
6.2.1 Mehrdeutigkeit in GML-Anwendungsschemas 67
6.2.2 Schema-Instanz-Polymorphismus von GML-Anwendungs-
schemas

67
6.2.3 Modell-Schema-Polymorphismus der GML-Basisschemas 74
6.2.4 Fazit 74
6.3 Lösungsansätze und Mehrdeutigkeiten 76
6.3.1 Instanzextrahierung 76
6.3.2 GML-Profil 80
6.3.3 Schemahierarchie - Schema von Schema 80
 
7  Beschreibung von Geodaten mit GML-Profilen 81
7.1 Einführung 81
7.1.1 Anmerkungen zu DIGEST 81
7.1.2 Motivation, Zielsetzung und Randbedingungen 82
7.2 Abbildung von DIGEST nach GML 83
7.2.1 Simple Line Feature 83
7.2.2 Zusammenfassung 88
7.3 Erarbeitung eines GML-Profils 89
7.3.1 GML-Erweiterung und Interoperabilität 89
7.3.2 Aufbau des GML-Profil-Basisschemas 90
7.3.3 Festlegung der Regeln für GML-Profil-Anwendungsschemas 94
7.3.4 Ein Prototyp zur Umsetzung des Profils mit Dynamo 94
7.4 Interoperabilität zwischen GML-Profilen 95
 
8  Eine Architektur für die Schemahierarchie 96
8.1 Motivation und Zielsetzung 96
8.2 Design und Implementierung 97
8.2.1 Designprinzipien 97
8.2.2 Modellierung 98
8.2.3 Implementierung 100
8.3 Zusammenfassung 100
 
9  Zusammenfassung und Ausblick 103
 
10  Literaturverzeichnis 106
 
Dank
 
111

 
Zusammenfassung und Ausblick

Da die existierenden Geoinformationssysteme auf unterschiedlichen Modellen beruhen, ist die Interoperabilität häufig mit erheblichem Aufwand zu realisieren. Zur Interoperabilität zwischen heterogenen Geoinformationssystemen wird der Datenaustausch eingesetzt. In der vorliegenden Arbeit wird der Austausch von Geodaten in drei Generationen eingeteilt. Die neueste Generation ist der modellbasierte Datenaustausch auf Basis von XML, in dem Daten und Modelle gemeinsam überführt werden. Standards zum modellbasierten Datenaustausch, wie z.B. die ISO/TC211 Serie 19101 und OGC-GML, werden auf Basis der XML-Technologie erarbeitet. XML und GML ermöglichen es, Daten- und Modellaustausch einheitlich auf einer offenen und standardisierten Grundlage auszuführen.

Die wichtigste Charakteristik des modellbasierten Datenaustausches ist die Flexibilität und die Erweiterbarkeit. Die Untersuchung zeigt, dass die Flexibilität und Erweiterbarkeit von XML und GML ein zweischneidiges Schwert sind. Sie bringen nicht nur Vorteile in Form der starken Fähigkeit zur Modell- und Datendarstellung, sondern bergen auch Risiken in sich. In diesem Fall, um den modellbasierten Datenaustausch erfolgreich durchführen zu können, müssen bestimmte Bedingungen erfüllt werden. In der Arbeit werden die notwendigen Bedingungen dafür festgelegt, die sich von auszutauschenden Anwendungsschemas und Daten ausgehend kontrollieren und prüfen lassen. Die Bedingungen sind, dass nach dem auszutauschenden Anwendungsschema das Modell vom Quellsystem richtig im Zielsystem interpretiert und rekonstruiert werden kann und die Daten richtig ins Zielsystem eingelesen werden können. Dazu ist es erforderlich, dass ausreichende Informationen im Anwendungsschema zur Rekonstruktion des Modells enthalten sein müssen. Sonst können Mehrdeutigkeiten entstehen. Dies impliziert, dass die Qualität der auszutauschenden Anwendungsschemas sichergestellt werden muss. Da die XML Schema Sprache große Flexibilität zur Darstellung von vielen unterschiedlichen Datenstrukturen bereitstellt, führt diese Universalität zu einer beispiellosen Komplexität des Standards und zu einer Instabilität mvon XML-Anwendungsschemas. In dieser Situation spielt die Schemaqualität eine wichtige Rolle für den erfolgreichen Datenaustausch.

Um die Qualität von XML-Anwendungsschemas beurteilen zu können, werden sechs Kriterien in der Arbeit festgelegt. Diese sind Richtigkeit, Eindeutigkeit, Skalierbarkeit, Einfachheit, Erweiterbarkeit und Wiederverwendbarkeit. Um diese Kriterien quantifizieren und auch einheitlich abbilden zu können, wird in der Arbeit der XML-Polymorphismus definiert und verwendet, der die Eigenschaft von XML, mehrer Formen eines Objektes zuzulassen, kennzeichnet. Er wird in zwei Typen gegliedert.

Der Schmea-Instanz-Polymorphismus von XML bezeichnet die Beziehung zwischen einem XML-Anwendungsschema und seinen Instanzen. Deshalb bildet er die Eindeutigkeit und Skalierbarkeit eines XML-Anwendungsschemas ab. Dieser XML-Polymorphismus wird in der Arbeit ausführlich klassifiziert und formal definiert. Durch die Messung des Grades des XML-Polymorphismus eines XML-Anwendungsschemas wird die syntaktische Mehrdeutigkeit des XML-Anwendungsschemas identifiziert und die notwendige und hinreichende Bedingung für diese Mehrdeutigkeit des XML-Anwendungsschemas festgelegt. Das Ergebnis zeigt, dass ein XML-Anwendungsschema mehrdeutig ist, wenn der XML-Polymorphismus des XML-Anwendungsschemas endlos groß ist. Außerdem wird die Wurzelmehrdeutigkeit auch erfolgreich gelöst. Die Wurzel ist das globale Element, dessen XML-Polymorphismusgrad maximal ist.

Der Modell-Schema-Polymorphismus von XML beschreibt die Beziehung zwischen einem Anwendungsmodell und seinen XML-Anwendungsschemas. Er spiegelt die Erweiterbarkeit und Wiederverwendbarkeit eines XML-Anwendungsschemas wider. Dieser XML-Polymorphismus wird auch formal definiert und quantifiziert. Dadurch wird ein Überblick über die Evolution von XML-Basisschemas (z.B. von den GML-Basisschemas) gegeben. Dieser XML-Polymorphismus mit dem Schema-Instanz-Polymorphismus gemeinsam kann die Einfachheit von XML-Anwendungsschemas abbilden. Eine quantitative Messung für die Einfachheit soll auf Grundlage der Analyse einer gropßen Anzahl von verschiedenen XML-Anwendungsschemas erreicht werden. Weitere Forschungsarbeit dafür ist wünschenswert.

GML ist ein offener und flexibler Standard zum modellbasierten Austausch von Geodaten. Die Untersuchung zeigt, dass GML die gleiche Flexibilität wie XML Schema bereitstellt und deshalb nichts von der Komplexität von XML Schema vermindert. Besonders GML-Anwendungsschemas sind gefüllt mit XML-Ersatzgruppen, und GML-Anwendungsschemas werden gezwungen, Rollennamen und die Ersatzgruppen bei der Deklaration von allen GML-Features zu verwenden. Dies führt leicht dazu, GML-Anwendungsschemas aggregationsmehrdeutig zu formulieren. Um diese Mehrdeutigkeit zu vermeiden, muss jedes komplexe Feature bei der Definition genau auf die jeweiligen Kinderfeatures explizit beschränkt werden. In dem Fall wird es sinnlos, die Ersatzgruppe weiter anzuwenden. Dies bringt noch den Nachteil, dass man den Vererbungsmechanismus (XML-extension) von XML Schema nicht mehr in GML-Anwendungsschemas verwenden kann und dass manche Modelle darum nicht mehr dargestellt werden können.

Zur Lösung der Mehrdeutigkeiten werden in der Arbeit drei Ansätze untersucht. Die Methode Instanzextraktion wird in der Arbeit erweitert, damit die Aggregationsmehrdeutigkeit und die Wurzelmehrdeutigkeit dadurch aufgehoben werden können. Diese einfache und praktische Methode ermöglicht es einerseits, Daten mit einem syntaktisch mehrdeutigen XML-Anwendungsschema oder ohne XML-Anwendungsschema in Zielsysteme zu importieren, welche Schema-Informationen beim Einlesen unbedingt brauchen. Andererseits lassen sich mit Hilfe dieser Methode beliebige GML-Daten in ein hierarchisches Geoinformationssystem einlesen.

Da durch die Instanzextraktion unterschiedliche XML-Anwendungsschemas aus jeweiligen Instanzen erzeugt werden können, ist die Untersuchung zu erwarten, wie entschieden werden kann, ob zwei oder mehrere XML- und GML-Anwendungsschemas konzeptionell äquivalent sind?

Der Ansatz von GML-Profilen ist ein effektives Mittel zur Interoperabilität. In der Arbeit werden die Begriffsinhalte von GML-Profilen und die Prinzipien zur Erarbeitung eines GML-Profils beispielsweise für DIGEST untersucht. Im Vergleich mit der Definition eines GML-Subsets ist der Aufbau eines GML-Profils eine Vereinfachung für die GML-Spezifikation. Sie soll zumindest zwei Aspekte - Erweiterung und Beschränkung von GML - enthalten. Die Erweiterung bedeutet, in der GML-Spezifikation nicht standardisierte Komponenten weiter im Profil zu standardisieren. Die weitere Standardisierung lässt sich durch Definition eines Profil-Schemas realisieren. Dadurch können alle GML-Komponenten von anderen Anwendungen erkannt werden. Andererseits bedeutet die Beschränkung, eine Teilmenge von GML für bestimmte Anwendungen festzulegen. Dies wird durch Ergänzung zusätzlicher Regeln erreicht. Dadurch werden die überflüssigen XML/GML-Komponenten, -Funktionalitäten und -Mechanismen und die unnötigen syntaktischen Ausdrucksformen von XML/GML ausgeschlossen, um die GML-Implementierung zu erreichen.

Zur Definition des Profilschemas wird die Vererbungsmethode definiert und verwendet, die durch den XML-Vererbungsmechanismus realisiert wird. Mit dieser Methode kann die Semantik von verschiedenen Eigenschaften eines Features unterschieden werden, d.h. die semantische Mehrdeutigkeit dadurch gelöst werden.

Mit diesem Ansatz können alle Mehrdeutigkeiten aufgehoben und kann die Interoperabilität innerhalb des GML-Profils vollständig verwirklicht werden. Außerhalb des GML-Profils bleibt sie nach wie vor. Besonders stellt der Fall, dass viele unterschiedliche GML-Profile koexistieren, eine neue Herausforderung. Nach der Untersuchung in der Arbeit kann diese Interoperabilität zwischen verschiedenen GML-Profilen durch die Kompabilität gewährleistet werden. Das ist ein neuer Gedanke und ist wünschenswert, weiter zu untersuchen.

Im Ansatz der Schemahierarchie wird eine neue Architektur Schema von Schema vorgeschlagen, mit der die Modellrekonstruktion auf der Ebene von Konzeptschemas ausgeführt wird, die Komplexität der XML Schema Sprachen verringert und die Eindeutigkeit von GML-Anwendungsschemas gewährleistet wird. Das Wesen des Ansatzes ist, dass Anwendungsmodelle nicht mit XML-Anwendungsschemas sondern mit XML-Instanzen dargestellt werden. Außerdem sind Konzeptschemas feature-orientiert statt element-orientiert. Dadurch werden inrelevante Details vernachlässigt. Zum Nachteil muss eine neue und geschlossene Sprache definiert werden und die Festlegung des Metaschemas soll durch ständige Feedbacks weiter vervollständigt und verbessert werden.

Unter Berücksichtigung des Umstandes, dass OGC-Feature-Modell, GML und WFS das Feature als Granularität verwenden, widmet sich der Autor seit langem der Entwicklung von feature-basierten Schnittstellen, z.B. GML-Parser, GeoDOM, GeoSAX, da wegen der komplexen Geometrien die Menge von GML-Daten riesig sein kann und XML-DOM und -SAX für die Abfrage und Manipulation solcher Daten nicht geeignet sind. Es ist auch notwendig, GML-Daten mit XML-Datenbanken zu verwalten und zu manipulieren. Dazu soll die Möglichkeit untersucht werden, wie auf große GML-Datenbestände effizient zugegriffen werden kann, z.B. wie die raumbezogenen Indices in XML-Datenbanken verwirklicht werden können.

Da GML-Daten auf fein-körniger Ebene - Feature ausgetauscht und bearbeitet werden können, ist die inkrementielle Erneuerung ein guter Ansatz für die Bearbeitung großer Datenbestände, besonders für Online-Transaktion ist sie erstrebenswert. Außerdem werden in GML die Inhalte von ihren Präsentationen getrennt. Zur Präsentation kann GML in SVG durch XSLT überführt werden. Die Online-Übertragung, Präsentation und Fortführung eines großen SVG-Dokuments im Web ist zeitaufwendig. Die aktuelle Version von W3C-SVG unterstützt aber kein Streaming SVG. Es ist auch wünschenswert, die Möglichkeit von GML-Streaming im Vergleich mit SVG-Streaming zu untersuchen.
 


 
zurück zum Heft-Verzeichnis