Average Sentiment of Twitter Messages around New York.
Average Sentiment of Twitter Messages around New York.2017, M. Werner

Forschung an der Professur für Big Geospatial Data Management

Big Geospatial Data - Eine Übersicht

Ausgewählte Aspekte von Big Geospatial Data
Ausgewählte Aspekte von Big Geospatial Data(c) 2020 M. Werner

Die Forschung der Professur Big Geospatial Data befasst sich mit allen Formen von geometrischen und geografischen Massendaten. Beispiele für solche Daten kommen wie in der Abbildung dargstellt

In diesem Umfeld entwickeln und implementieren wir neue

Wir stellen unsere Forschung der Öffentlichkeit in Artikeln und Vorträgen vor und stehen jederzeit für einen Dialog mit Politik, Wirtschaft und Gesellschaft zur Verfügung. Ferner verfolgen wir eine Open-Source-Strategie, sodass unsere Ergebnisse von anderen Wissenschaftlerinnen und Wissenschaftlern sowie der Öffentlichkeit und Wirtschaft in die Anwendung gebracht werden können.

Technologie und Algorithmik

Die Professur befasst sich mit Technologie und Algorithmik in Form von Soft- und Hardware im Umfeld der Verarbeitung von Geodaten. Dabei spielen z.B. FPGAs, GPUs und andere Beschleuniger eine immer wichtigere Rolle, aber auch klassische Aspekte wie das Lese-Verhalten und Speicherverhalten von Algorithmen ist wichtig. Wir konzentrieren uns neben der selbstverständlichen Unterscheidung von Komplexitätsklassen auch auf Aspekte der Realperformanz, die sich nur durch Messung auf konkreter Hardware ermitteln lassen. Als Rechenplattformen betrachten wir die ganze Bandbreite von Embedded SoCs über Smartphones und Desktop-PCs bis hin zu Cloud-Clustern und HPC-Infrastrukturen. Denn sowohl in der mobilen Erfassung als auch z.B. auf Satelliten ist ein sehr geringer Energieverbrauch und eine geringe Baugröße essentiell.

Räumliche Algorithmen

Beispiel eines spatialen Algorithmus - Detaillierte und stark verrauschte Bewegungsdaten aus einem Schrittzähler werden automatisch in Gebäudeteile zerlegt.
Beispiel eines spatialen Algorithmus - Detaillierte und stark verrauschte Bewegungsdaten aus einem Schrittzähler werden automatisch in Gebäudeteile zerlegt.(c) 2015 M. Werner

Geospatiale Algorithmen (spatial algorithms) sind Algorithmen für die Verarbeitung von Daten in geometrischen und topologischen Räumen. Viele dieser Algorithmen leiden unter sehr hoher Komplexität und entsprechend ist es sehr wichtig, exzellente Implementierungen und geschicke Vereinfachungen vorzunehmen, sodass solche Algorithmen auch auf größere Datenmengen angewendet werden können.

Für Big Geospatial Data sind die wichtigsten Algorithmen wohl solche, die “Elemente von Interesse” (Elements-of-Interest, EoI) finden. Dazu gehört die Suche nach spatio-temporalen Hotspots, Anomalien, Clustering-Strukturen, räumlichen Unterteilungen, Formen aus Punktwolken, und nach alternativen Pfaden für die Planung, Simulation und Optimierung.

Big Geospatial Data Infrastrukturen

Social media combined with satellite data over Europe rendered using RayTracing and physical materials
Social media combined with satellite data over Europe rendered using RayTracing and physical materials(c)2017 M. Werner

Big Data wird heutzutage sicherlich als eine recht ausgereifte Technologie wahrgenommen und wird breit in Wirtschaft und Wissenschaft eingesetzt. Die inhärenten Eigenschaften von geometrischen Daten führen allerdings zu Schwierigkeiten in der Anwendung. Dies beinhaltet die Tatsache, dass für Räume mit mehr als einer Dimension eine vernünftige Ordnung nicht existiert und somit z.B. die Verteilung auf unterschiedliche Rechner in einem verteilten System ungleich komplizierter ist, als es für sortierbare Datensätze ist. Zusätzlich ist die Unschärfe sämtlicher Ortsangaben eine besondere Herausforderung: Fast jede Berechnung mit Geodaten schließt in der Praxis alle Daten aus einer Umgebung mit ein. Je nach Größe dieser Umgebung führt das dazu, dass diese Umgebungen redundant gespeichert werden müssen oder dass Algorithmen sich während der Ausführung auf Daten von anderen Knoten stützen müssen. In diesem Kontext arbeiten wir an Datenstrukturen, verteilten Algorithmen und Datenbanken, um die effiziente Verwaltung von Geodaten in großen Skalen zu ermöglichen.

Specialized Hardware für Big Geospatial Data

Ein Microcontroller-Board für das IoT.
Ein Microcontroller-Board für das IoT.Von Make Magazin DE - Eigenes Werk, CC BY-SA 4.0, <https://commons.wikimedia.org/w/index.php?curid=53239171>

Innovationen in der Hardwareentwicklung wie zum Beispiel die weite Verfügbarkeit von nicht-volatilen Speichern, FPGAs, GPUs und TPUs bieten uns neue Möglichkeiten zur Umsetzung von Algorithmen. Wir beschäftigen uns dabei insbesondere mit der Bedeutung dieser Hardware für geometrische Berechnungen und für das maschinelle Lernen. Zusätzlich bauen wir gelegentlich eigene Komponenten für die Erfassung von Geodaten, zum Beispiel basierend auf modernen Microcontroller-Plattformen wie dem ESP8266.

Machine Learning and Dependable Artificial Intelligence

Beispiel für eine Augmentierung eines Machine-Learning Tasks mit Daten aus anderer Domäne: Die Schätzung von Local Climate Zones wurde mit Social-Media Daten signifikant verbessert.
Beispiel für eine Augmentierung eines Machine-Learning Tasks mit Daten aus anderer Domäne: Die Schätzung von Local Climate Zones wurde mit Social-Media Daten signifikant verbessert.(c) 2017 ICAML

Knowledge Discovery, Statistical Modeling, Big Data, Data Mining, Data Science, Machine Learning, und Artificial Intelligence sind eng verwandte Begriffe, die sich alle mit unterschiedlichen Aspekten der Frage nach der Extraktion von Wissen aus Daten beschäftigen. Wir beschäftigen uns in diesem Umfeld mit dem speziellen Gebiet der Wissensextraktion aus Daten mit einem Bezug zur Geometrie und zu geographischen Räumen.

Dabei beschäftigen wir uns mit zuverlässiger künstlicher Intelligenz. Dies umfasst Fragen nach der Erklärbarkeit (“Explainable AI”), der Verlässlichkeit (“Dependable AI”) und der Echtzeitfähigkeit (“Real-Time AI”). In diesem Kontext kommen neural-symbolische Verfahren und informationstheoretische Techniken zum Einsatz.

Bei geografischen Daten besteht im Gegensatz zu vielen Domänen in denen die künstliche Intelligenz schon sehr erfolgreich eingesetzt wird, das Problem, dass die Hochdimensionalität und semantische Komplexität der Beobachtungen mit einer sehr kleinen Menge an Trainingsdaten zusammentreffen. So ist die gewünschte statistische Verteilung eines Problems oft nicht einmal im Trainingsdatensatz enthalten. Es müssen also Verfahren geschaffen werden, die weitestgehend ohne Trainingsdaten auskommen (unsupervised) oder mit schlechten Trainingsdaten (weakly supervised), Trainingsdaten aus anderen Domänen (transfer learning) oder eine direkte Einbindung des Menschen (active learning, citizen science) verwenden.

Geometrie und Topologie in Spatial Data Science

Raumzerlegung mit Schrumpfungs-Persistenz - eine datengetriebene Definition von Teilräumen
Raumzerlegung mit Schrumpfungs-Persistenz - eine datengetriebene Definition von Teilräumen(c) 2018 M. Werner

Geometry und Topologie sind zwei essentielle Konzepte für das Verständnis von räumlichen Daten. In der Geometrie wird der Raum vermessen, in der Regel durch eine Distanzfunktion und daraus abgeleitete Maße. Das umfasst Datenbankanfragen nach k nächsten Nachbarn (kNN), Clutsering-Algorithmen wie k-Means, bei denen Mittelpunkte iterativ bewegt werden, um Daten möglichst gut zu repräsentieren, und aufwändige Algorithmen der Computational Geometry wie die Bestimmung der Fréchet-Distanz.

Die Topologie im Gegensatz zur Geometrie versteht sich mehr auf die Modellierung von groben Zusammenhängen, z.B. durch Nachbarschaften in einem Graph oder durch Betrachtung geometrischer Eigenschaften, die unter Verformungen konstant bleiben. Diese reduzierte Trennschärfe der Topologie passt oft sehr gut zu menschlichen Konzepten von Raum.

Datentypen und Datenquellen

Big Data wird oft definiert mit einer Definition aus 3V: Volume, Velocity, Variety. Volume beschreibt dabei die Menge von Daten, Velocity die Geschwindigkeit, in der diese Daten eintreffen, und Variety die Vielfältigkeit der Daten. Einen Eindruck von der Vielfältigkeit von Big Geospatial Data geben die folgenden Abschnitte.

Fernerkundung

Sentinel-2 Bild rund um München
Sentinel-2 Bild rund um München(c) 2019 M. Werner, mit Daten des Copernicus-Programms der ESA

Die Fernerkundung wird eingesetzt, um Dinge aus der Ferne zu beobachten, oft aus der Luft (Flugzeuge, Drohnen) oder aus dem Weltall (Satelliten, ISS). Wir arbeiten mit Experten aus diesem Bereich daran, solche Daten effektiv und effizient zu verarbeiten. Diese Daten liefern qualitativ sehr hochwertige Beobachtungen überall auf der Welt in immer höherer Frequenz und eignen sich daher besonders für Untersuchungen im Umfeld von Klima, Urbanisierung, Landwirtschaft,und anderen makroskopischen Beobachtungen.

Von besonderem Interesse sind hier Algorithmen, die die eingehenden Daten so verarbeiten und komprimieren, dass bei minimalem Speicherverbrauch ein Maximum an Information mit den Methoden des Data Mining oder auch mit maschinellem Lernen noch extrahiert werden kann. Denn ohne solche Algorithmen sprengt die Größe und Menge an Daten aus solchen Satelliten den Rahmen einer breiten wirtschaftliche Nutzbarkeit. Wir arbeiten hier unter anderem an informationstheoretischen Methoden, um gängige Aufgaben wie Cloud Detection, Change Detection und Klassifikation mit möglichst großer räumlicher Speichereffizienz (in Megabyte pro Quadratkilometer) durchzuführen.

HD-Maps und GIS

High-Resolution GIS Information in interaktiver Applikation GeoDialog
High-Resolution GIS Information in interaktiver Applikation GeoDialog(c) 2020 M. Werner, mit Daten von ESRI und OSM

Nicht erst durch das Aufkommen der Vision vom autonomen Fahren steigen die Genauigkeiten, Detaillierungsgrade und Auflösungen verfügbarer Karteninformationen. Wir fassen diese Entwicklung, die sowohl gemessene Karteninformation (3D Punktwolken beim autonomen Fahren, Bildsammlungen, etc.) als auch modellierte Karteninformation (OSM, ATKIS, INSPIRE, etc.) umfasst, unter dem Thema HD-Karten zusammen. In diesem Bereich sind wir besonders an der Strukturierung solcher Daten für die Analyse und Verteilung interessiert, denn diese Karteninformation wird in der Regel auch im mobilen Kontext benötigt, wo nur begrenzte Rechen- und Kommunikationsressourcen zur Verfügung stehen. Wir wenden solche Daten auch in der Positionierung, Navigation, Planung und Simulation an, um möglichst realistische Perspektiven zu bekommen.

Soziale Medien

Social Media Bot Detection - Reject a significant amount of noise from Twitter
Social Media Bot Detection - Reject a significant amount of noise from Twitter(c) 2019 M. Werner; Data courtesy of Twitter Inc.

Soziale Medien liefern sehr große Mengen an georeferenzierten Beobachtungen und das nahezu in Echtzeit. Aus solchen Daten können Ereignisse und Hotspots (Trends) erkannt werden, aber auch Anomalien. Ferner lässt sich über längere Zeiträume ein spatio-temporales Signal extrahieren, dass stark mit sozio-demografischen Faktoren korreliert.

Ein solches Kovariat kann dann zusammen mit gemessenen Daten eingesetzt werden, um eine zusätzliche Trennschärfe in eine datengetriebene Analyse auf Basis von Messdaten einzubringen. Wir verwenden solche Daten in der Forschung für die Auflösung von Mehrdeutigkeiten, als Eingabe für Simulationen, und für die Analyse von mikroskoptischen und makroskopischen Sensordaten mit Bezug zur menschlichen Bevölkerung.

Bewegungsdaten

Mobilitätsanalyse in San Francisco zeigt erwartbare Verkehrsbelastung im Raum
Mobilitätsanalyse in San Francisco zeigt erwartbare Verkehrsbelastung im Raum(c) 2018 M. Werner

Bewegungsdaten stellen eine sehr nützliche Ressource von spatialem Wissen dar. Denn in Bewegungen sind die Tagesabläufe in Städten, die Bewegungen von Waren und Gütern, das Sozialverhalten von Wildtieren und viele andere Aspekte manifestiert, die wir verstehen wollen. Allerdings sind Bewegungsdaten auch besonders schwierig zu verarbeiten. In diesem Kontext besteht unsere Aufgabe darin, anwendungsreife Algorithmen für die Analyse von Bewegnugsdaten zu liefern, die Korrektheit, Aussagekraft und Effizienz miteinander verbinden. Dieser Bereich umfasst auch Aspekte der Erfassung von Bewegungen, z.B. bei der Indoor-Positionierung und zum Vergleich von Bewegungen in komplexen Räumen (z.B. in Constrained Free Space).

Für diesen Bereich stellen wir neben einzelnen Methoden in der Forschung mit der libTrajcomp auch eine Sammlung der wichtigsten Algorithmen als Bibliothek für Forschung und Anwendung zur Verfügung.


© 2020 M. Werner