Created by W.Langdon from gp-bibliography.bib Revision:1.8168
This thesis introduces a novel framework for modeling biogeochemistry fluxes by using symbolic regression approaches to automatically generate interpretable mathematical models.
The thesis starts by first illustrating the potential of gene expression programming (GEP) to discover interesting models as mathematical formulas based entirely on real time series data measured at a single monitoring site. The GEP discovered models perform better predictions than already established models in the ecology community. Further, the GEP models have the advantage of being represented as mathematical formulas that can be used similarly to natural laws from the ecology community. Still, the complexity of GEP models makes it difficult to really interpret the described model dynamics. To tackle model complexity GEP is extended with CMA-ES for performing local parameter optimisations in the evolution process. The resulting algorithm is CMAGEP, a novel system that is a GEP and ES hybrid approach capable of delivering more accurate and more compact solutions compared to standard GEP. Generating compact solutions means that CMAGEP discovers mathematical models that can be more easily interpretable, and that can be more easily combined with already established knowledge. CMAGEP is successfully used for modelling various carbon fluxes; first it helps discover non-linear dynamics in the carbon cycle at an Arctic site and produce a very compact solution, and secondly, it reveals interesting and relevant patterns in the underlying processes determining the global terrestrial carbon exchanges.
Considering the important results shown in this extensive interdisciplinary study it becomes clear that by introducing the new CMAGEP system, an important contribution was made to the field of symbolic regression by giving deserved attention to the often neglected aspect of interpretability. Furthermore, the application of CMAGEP in a symbolic regression framework to model terrestrial carbon fluxes helped build novel knowledge in the ecology field, giving this approach a significant potential for other future applications.",
Mit zunehmender Datenverfugbarkeit hat die Modellentwicklung auf dem Gebiet der Biogeochemie begonnen, sich mehr fur den Einsatz von Methoden des maschinellen Lernens zu offnen, um die bestehenden Modellformulierungen zu validieren und zu kalibrieren. Die Validitat der untersuchten Modellstrukturen wird jedoch nicht oft diskutiert.
Diese Arbeit stellt einen neuartigen Rahmen fur die Modellierung von biogeochemischen Flussen vor, indem mithilfe von symbolischen Regressions ansatzen interpretierbare mathematische Modelle automatisch generiert werden.
Die Arbeit beginnt damit, zunachst das Potenzial der Gene Expression Programming (GEP) aufzuzeigen, um interessante Modelle als mathematische Formeln automatisch aus Echtzeit-Zeitseriendaten abzuleiten, die an nur einem Ort gemessen worden sind. Das GEP hat dabei Modelle generiert, die eine bessere Performanz als bereits etablierte Modelle der Okologie-Community aufweisen. Ferner haben die erzeugten Modelle den Vorteil, dass sie als mathematische Formeln reprasentiert werden, die den Formeln der Okologie-Community ahnlich sind. Allerdings macht die Komplexitat der GEP-Modelle es schwierig, die beschriebene Modelldynamik zu interpretieren.
Im nachsten Schritt der Arbeit wurde GEP um eine lokale Parameteroptimierung mittels der CMA-ES erweitert. Das resultierende CMAGEP System ist ein GEP- und ES-Hybridansatz, der Losungen liefert, die im Vergleich zu Standard GEP Kohlenstoffflusse sowohl genauer als auch auch kompakter beschreiben. Die Generierung von kompakten Losungen bedeutet, dass mathematische Modelle entdeckt werden, die leichter interpretiert werden konnen und die sich einfacher mit bereits etabliertem Wissen kombinieren lassen.
Im Anschluss wird CMAGEP erfolgreich zur Modellierung von unterschiedlichen Kohlenstoffflussen verwendet; Erstens hilft es, nichtlineare Dynamiken im Kohlenstoffkreislauf an einem arktischen Standort zu entdecken und eine sehr kompakte Losung zu erzeugen, und zweitens offenbart es interessante und relevante Muster in den zugrunde liegenden Prozessen, die den globalen terrestrischen Kohlenstoffaustausch bestimmen.
Betrachtet man die wichtigen Ergebnisse dieser umfangreichen interdisziplinaren Studie, so wird deutlich, dass mit der Einfuhrung des neuen CMAGEP Systems ein wichtiger Beitrag zum Bereich der symbolischen Regression mit dem oft vernachlassigten aber bedeutsamen Aspekt der Interpretierbarkeit geleistet wurde. Daruber hinaus trug die Anwendung von CMAGEP zur Modellierung terrestrischer Kohlenstoffflusse dazu bei, neues Wissen auf dem Gebiet der Okologie aufzubauen, was diesem Ansatz ein signifikantes Potenzial fur andere zukunftige Anwendungen verleiht.",
Genetic Programming entries for Iulia Ilie