Development of symbolic models using genetic programming and domain knowledge

Reuter, Julia

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.25673/119304

Titel:	Development of symbolic models using genetic programming and domain knowledge
Autor(en):	Reuter, Julia
Gutachter:	Mostaghim, Sanaz
Körperschaft:	Otto-von-Guericke-Universität Magdeburg, Fakultät für Informatik
Erscheinungsdatum:	2025
Umfang:	162, XLVII Seiten
Typ:	Hochschulschrift
Art:	Dissertation
Datum der Verteidigung:	2025
Sprache:	Englisch
URN:	urn:nbn:de:gbv:ma9:1-1981185920-1212625
Schlagwörter:	Künstliche Intelligenz Evolution Biologie
Zusammenfassung:	Problems from the science and engineering area come with challenging charac- teristics: They are often high-dimensional, highly non-linear, and have not yet been solved by humans due to their enormous complexity. While “black-box” machine learning methods such as deep neural networks can achieve high ac- curacies on such problems, the underlying relations remain opaque. However, it is essential for experts in science and engineering to analyze and understand the learned models. Symbolic regression (SR) is the construction of mathe- matical expressions from data to identify the relation between input and target variables. While traditional regression methods assume an underlying model structure, SR learns both the model structure and its associated parameters. Genetic programming (GP), a method from the family of evolutionary algo- rithms, is a widely used method for SR, because of its “white box” nature and its capability to optimize multiple objectives simultaneously. Often, domain knowledge is available that can contribute to discovering novel symbolic mod- els. The goal of this thesis is to develop symbolic regression algorithms that can tackle complex science and engineering problems by making use of the valuable knowledge provided by domain experts. In the related literature, various approaches to integrating domain knowledge into algorithms have been proposed and applied to real-world applications. This thesis aims to close a gap in this field by outlining and classifying these methods. Moreover, various techniques have been proposed to improve components of the GP algorithm that are relevant in practice, some of which are further improved upon in this thesis. This thesis proposes two benchmark problems from robotics and fluid mechan- ics, and establishes a comparative baseline to evaluate the efficacy of the newly developed methods. To reduce the number of features of the high-dimensional problems, an inductive bias fitting the nature of the problem is proposed. Given the high complexity of the approached problems and the non-deterministic na- ture of the GP algorithm, methods to improve the repetition stability of a GP algorithm are additionally investigated. Furthermore, this thesis proposes methods to fulfil important expert requirements, such as methods to handle physical unit constraints. In this context, multi-objective optimization plays a pivotal role, allowing for the exploration of a diverse set of solutions while effectively optimizing multiple criteria. Empirical evaluations and case studies considering various problems with both known and unknown equations from the engineering and science area validate the proposed approaches. The results demonstrate how domain knowledge can improve the accuracy of symbolic mod- els, while tackling increased problem complexities and developing meaningful equations for domain experts. Probleme aus den Bereichen der Wissenschaft und des Ingenieurswesens weisen anspruchsvolle Eigenschaften auf: Sie sind oft hochdimensional, in hohem Maße nichtlinear und wurden aufgrund ihrer enormen Komplexität bisher von Men- schen nicht gelöst. Während „Black-Box“-Methoden des maschinellen Lernens wie tiefe neuronale Netze bei solchen Problemen hohe Genauigkeiten erreichen können, bleiben die zugrunde liegenden Beziehungen undurchsichtig. Für Ex- perten in Wissenschaft und Technik ist es jedoch unerlässlich, die gelernten Modelle zu analysieren und zu verstehen. Symbolische Regression (SR) ist die Konstruktion mathematischer Ausdrücke auf Grundlage von Daten, um die Beziehung zwischen Eingabe- und Zielvariablen zu ermitteln. Während traditionelle Regressionsmethoden von einer zugrunde liegenden Modellstruk- tur ausgehen, lernt SR sowohl die Modellstruktur als auch die zugehörigen Parameter. Genetische Programmierung (GP), eine Methode aus der Fami- lie der Evolutionären Algorithmen, ist aufgrund ihrer „White-Box“-Natur und der Fähigkeit, mehrere Zielfunktionen gleichzeitig zu optimieren, eine viel ver- wendete Technik für SR. Oft ist Domänenwissen vorhanden, das zur Entdeck- ung neuer symbolischer Modelle beitragen kann. Das Ziel dieser Arbeit ist es, symbolische Regressionsalgorithmen zu entwickeln, die komplexe technische und physikalische Probleme lösen können, indem sie das wertvolle Wissen von Domänenexperten nutzen. In der einschlägigen Literatur wurden verschiedene Ansätze zur Integration von Domänenwissen in Algorithmen vorgeschlagen und auf reale Probleme angewendet. Diese Arbeit soll eine Lücke in diesem Bereich schließen, in- dem sie diese Methoden skizziert und klassifiziert. Darüber hinaus sind ver- schiedene Techniken zur Verbesserung praxisrelevanter Komponenten des GP- Algorithmus vorgeschlagen worden, von denen einige in dieser Arbeit weiter verbessert werden. In dieser Arbeit werden zwei Benchmark-Probleme aus der Robotik und der Strömungsmechanik eingeführt und eine vergleichende Baseline erarbeitet, um die Wirksamkeit der neu entwickelten Methoden zu bewerten. Um die Anzahl der Variablen von hochdimensionalen Problemen zu reduzieren, wird ein in- duktiver Bias vorgeschlagen, der zu der Natur des Problems passt. Angesichts der hohen Komplexität der behandelten Probleme und der nicht determinis- tischen Natur des GP-Algorithmus werden darüber hinaus Möglichkeiten zur Verbesserung der Wiederholungsstabilität eines GP-Algorithmus untersucht. Zudem werden in dieser Arbeit Methoden vorgeschlagen, um wichtige An- forderungen von Experten zu erfüllen, wie z.B. Methoden zum Umgang mit Nebenbedingungen durch physikalische Einheiten. Dabei spielt die multikri- terielle Optimierung eine zentrale Rolle, die es ermöglicht, eine Vielzahl von Lösungen zu untersuchen und gleichzeitig mehrere Zielfunktionen effektiv zu optimieren. Empirische Auswertungen und Fallstudien zu verschiedenen Prob- lemen mit bekannten und unbekannten Gleichungen aus dem ingenieurtechnischen und wissenschaftlichen Bereich validieren die vorgeschlagenen Ansätze. Die Ergebnisse zeigen, wie Domänenwissen die Genauigkeit symbolischer Mod- elle verbessern kann, während gleichzeitig eine höhere Problemkomplexität be- wältigt und sinnvolle Gleichungen für Domänenexperten entwickelt werden.
Anmerkungen:	Literaturverzeichnis: Seite XIII-XXXV
URI:	https://opendata.uni-halle.de//handle/1981185920/121262 http://dx.doi.org/10.25673/119304
Open-Access:	Open-Access-Publikation
Nutzungslizenz:	(CC BY 4.0) Creative Commons Namensnennung 4.0 International
Enthalten in den Sammlungen:	Fakultät für Informatik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
Reuter_Julia_Dissertation_2025.pdf	Dissertation	19.27 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige BibTeX EndNote