Dissertation CC BY-NC 4.0
Veröffentlicht

CMAGEP : a new method for automatic model discovery from data and its application to terrestrial ecosystem carbon exchange fluxes

Accurately representing and understanding the dynamics driving the global carbon cycle are of strong significance for the study of the Earth System as well as for reliable climate change projections. Model development in the biogeochemistry field traditionally relies on empirical studies and on already established theoretical foundations. With increased data availability, model development in the field of biogeochemistry has started to open more to the use of machine learning approaches for helping to validate and calibrate the existing model formulations. However, the validity of the studied model structures are not often debated. This thesis introduces a novel framework for modelling biogeochemistry fluxes by using symbolic regression approaches to automatically generate interpretable mathematical models. The thesis starts by first illustrating the potential of gene expression programming (GEP) to discover interesting models as mathematical formulas based entirely on real time series data measured at a single monitoring site. The GEP discovered models perform better predictions than already established models in the ecology community. Further, the GEP models have the advantage of being represented as mathematical formulas that can be used similarly to natural laws from the ecology community. Still, the complexity of GEP models makes it difficult to really interpret the described model dynamics. To tackle model complexity GEP is extended with CMA-ES for performing local parameter optimizations in the evolution process. The resulting algorithm is CMAGEP, a novel system that is a GEP and ES hybrid approach capable of delivering more accurate and more compact solutions compared to standard GEP. Generating compact solutions means that CMAGEP discovers mathematical models that can be more easily interpretable, and that can be more easily combined with already established knowledge. CMAGEP is successfully used for modelling various carbon fluxes; first it helps discover non-linear dynamics in the carbon cycle at an Arctic site and produce a very compact solution, and secondly, it reveals interesting and relevant patterns in the underlying processes determining the global terrestrial carbon exchanges. Considering the important results shown in this extensive interdisciplinary study it becomes clear that by introducing the new CMAGEP system, an important contribution was made to the field of symbolic regression by giving deserved attention to the often neglected aspect of interpretability. Furthermore, the application of CMAGEP in a symbolic regression framework to model terrestrial carbon fluxes helped build novel knowledge in the ecology field, giving this approach a significant potential for other future applications.

Die Dynamik, die den globalen Kohlenstoffkreislauf antreibt, genau darzustellen und zu verstehen, ist von großer Bedeutung für das Studium des Erdsystems und für zuverlässige Prognosen zum Klimawandel. Die Modellentwicklung in der Biogeochemie beruht traditionell auf empirischen Studien und auf bereits etablierten theoretischen Grundlagen. Mit zunehmender Datenverfügbarkeit hat die Modellentwicklung auf dem Gebiet der Biogeochemie begonnen, sich mehr für den Einsatz von Methoden des maschinellen Lernens zu öffnen, um die bestehenden Modellformulierungen zu validieren und zu kalibrieren. Die Validität der untersuchten Modellstrukturen wird jedoch nicht oft diskutiert. Diese Arbeit stellt einen neuartigen Rahmen für die Modellierung von biogeochemischen Flüssen vor, indem mithilfe von symbolischen Regressions ansätzen interpretierbare mathematische Modelle automatisch generiert werden. Die Arbeit beginnt damit, zunächst das Potenzial der Gene Expression Programming (GEP) aufzuzeigen, um interessante Modelle als mathematische Formeln automatisch aus Echtzeit-Zeitseriendaten abzuleiten, die an nur einem Ort gemessen worden sind. Das GEP hat dabei Modelle generiert, die eine bessere Performanz als bereits etablierte Modelle der Ökologie-Community aufweisen. Ferner haben die erzeugten Modelle den Vorteil, dass sie als mathematische Formeln repräsentiert werden, die den Formeln der Ökologie-Community ähnlich sind. Allerdings macht die Komplexität der GEP-Modelle es schwierig, die beschriebene Modelldynamik zu interpretieren. Im nächsten Schritt der Arbeit wurde GEP um eine lokale Parameteroptimierung mittels der CMA-ES erweitert. Das resultierende CMAGEP System ist ein GEP- und ES-Hybridansatz, der Lösungen liefert, die im Vergleich zu Standard GEP Kohlenstoffflüsse sowohl genauer als auch auch kompakter beschreiben. Die Generierung von kompakten Lösungen bedeutet, dass mathematische Modelle entdeckt werden, die leichter interpretiert werden können und die sich einfacher mit bereits etabliertem Wissen kombinieren lassen. Im Anschluss wird CMAGEP erfolgreich zur Modellierung von unterschiedlichen Kohlenstoffflüssen verwendet; Erstens hilft es, nichtlineare Dynamiken im Kohlenstoffkreislauf an einem arktischen Standort zu entdecken und eine sehr kompakte Lösung zu erzeugen, und zweitens offenbart es interessante und relevante Muster in den zugrunde liegenden Prozessen, die den globalen terrestrischen Kohlenstoffaustausch bestimmen. Betrachtet man die wichtigen Ergebnisse dieser umfangreichen interdisziplinären Studie, so wird deutlich, dass mit der Einführung des neuen CMAGEP Systems ein wichtiger Beitrag zum Bereich der symbolischen Regression mit dem oft vernachlässigten aber bedeutsamen Aspekt der Interpretierbarkeit geleistet wurde. Darüber hinaus trug die Anwendung von CMAGEP zur Modellierung terrestrischer Kohlenstoffflüsse dazu bei, neues Wissen auf dem Gebiet der Ökologie aufzubauen, was diesem Ansatz ein signifikantes Potenzial für andere zukünftige Anwendungen verleiht.

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.

Rechte

Nutzung und Vervielfältigung: