Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen:
http://dx.doi.org/10.25673/119304
Titel: | Development of symbolic models using genetic programming and domain knowledge |
Autor(en): | Reuter, Julia |
Gutachter: | Mostaghim, Sanaz |
Körperschaft: | Otto-von-Guericke-Universität Magdeburg, Fakultät für Informatik |
Erscheinungsdatum: | 2025 |
Umfang: | 162, XLVII Seiten |
Typ: | Hochschulschrift![]() |
Art: | Dissertation |
Datum der Verteidigung: | 2025 |
Sprache: | Englisch |
URN: | urn:nbn:de:gbv:ma9:1-1981185920-1212625 |
Schlagwörter: | Künstliche Intelligenz Evolution Biologie |
Zusammenfassung: | Problems from the science and engineering area come with challenging charac-
teristics: They are often high-dimensional, highly non-linear, and have not yet
been solved by humans due to their enormous complexity. While “black-box”
machine learning methods such as deep neural networks can achieve high ac-
curacies on such problems, the underlying relations remain opaque. However,
it is essential for experts in science and engineering to analyze and understand
the learned models. Symbolic regression (SR) is the construction of mathe-
matical expressions from data to identify the relation between input and target
variables. While traditional regression methods assume an underlying model
structure, SR learns both the model structure and its associated parameters.
Genetic programming (GP), a method from the family of evolutionary algo-
rithms, is a widely used method for SR, because of its “white box” nature and
its capability to optimize multiple objectives simultaneously. Often, domain
knowledge is available that can contribute to discovering novel symbolic mod-
els. The goal of this thesis is to develop symbolic regression algorithms that can
tackle complex science and engineering problems by making use of the valuable
knowledge provided by domain experts.
In the related literature, various approaches to integrating domain knowledge
into algorithms have been proposed and applied to real-world applications. This
thesis aims to close a gap in this field by outlining and classifying these methods.
Moreover, various techniques have been proposed to improve components of the
GP algorithm that are relevant in practice, some of which are further improved
upon in this thesis.
This thesis proposes two benchmark problems from robotics and fluid mechan-
ics, and establishes a comparative baseline to evaluate the efficacy of the newly
developed methods. To reduce the number of features of the high-dimensional
problems, an inductive bias fitting the nature of the problem is proposed. Given
the high complexity of the approached problems and the non-deterministic na-
ture of the GP algorithm, methods to improve the repetition stability of a
GP algorithm are additionally investigated. Furthermore, this thesis proposes
methods to fulfil important expert requirements, such as methods to handle
physical unit constraints. In this context, multi-objective optimization plays
a pivotal role, allowing for the exploration of a diverse set of solutions while
effectively optimizing multiple criteria. Empirical evaluations and case studies
considering various problems with both known and unknown equations from
the engineering and science area validate the proposed approaches. The results
demonstrate how domain knowledge can improve the accuracy of symbolic mod-
els, while tackling increased problem complexities and developing meaningful
equations for domain experts. Probleme aus den Bereichen der Wissenschaft und des Ingenieurswesens weisen anspruchsvolle Eigenschaften auf: Sie sind oft hochdimensional, in hohem Maße nichtlinear und wurden aufgrund ihrer enormen Komplexität bisher von Men- schen nicht gelöst. Während „Black-Box“-Methoden des maschinellen Lernens wie tiefe neuronale Netze bei solchen Problemen hohe Genauigkeiten erreichen können, bleiben die zugrunde liegenden Beziehungen undurchsichtig. Für Ex- perten in Wissenschaft und Technik ist es jedoch unerlässlich, die gelernten Modelle zu analysieren und zu verstehen. Symbolische Regression (SR) ist die Konstruktion mathematischer Ausdrücke auf Grundlage von Daten, um die Beziehung zwischen Eingabe- und Zielvariablen zu ermitteln. Während traditionelle Regressionsmethoden von einer zugrunde liegenden Modellstruk- tur ausgehen, lernt SR sowohl die Modellstruktur als auch die zugehörigen Parameter. Genetische Programmierung (GP), eine Methode aus der Fami- lie der Evolutionären Algorithmen, ist aufgrund ihrer „White-Box“-Natur und der Fähigkeit, mehrere Zielfunktionen gleichzeitig zu optimieren, eine viel ver- wendete Technik für SR. Oft ist Domänenwissen vorhanden, das zur Entdeck- ung neuer symbolischer Modelle beitragen kann. Das Ziel dieser Arbeit ist es, symbolische Regressionsalgorithmen zu entwickeln, die komplexe technische und physikalische Probleme lösen können, indem sie das wertvolle Wissen von Domänenexperten nutzen. In der einschlägigen Literatur wurden verschiedene Ansätze zur Integration von Domänenwissen in Algorithmen vorgeschlagen und auf reale Probleme angewendet. Diese Arbeit soll eine Lücke in diesem Bereich schließen, in- dem sie diese Methoden skizziert und klassifiziert. Darüber hinaus sind ver- schiedene Techniken zur Verbesserung praxisrelevanter Komponenten des GP- Algorithmus vorgeschlagen worden, von denen einige in dieser Arbeit weiter verbessert werden. In dieser Arbeit werden zwei Benchmark-Probleme aus der Robotik und der Strömungsmechanik eingeführt und eine vergleichende Baseline erarbeitet, um die Wirksamkeit der neu entwickelten Methoden zu bewerten. Um die Anzahl der Variablen von hochdimensionalen Problemen zu reduzieren, wird ein in- duktiver Bias vorgeschlagen, der zu der Natur des Problems passt. Angesichts der hohen Komplexität der behandelten Probleme und der nicht determinis- tischen Natur des GP-Algorithmus werden darüber hinaus Möglichkeiten zur Verbesserung der Wiederholungsstabilität eines GP-Algorithmus untersucht. Zudem werden in dieser Arbeit Methoden vorgeschlagen, um wichtige An- forderungen von Experten zu erfüllen, wie z.B. Methoden zum Umgang mit Nebenbedingungen durch physikalische Einheiten. Dabei spielt die multikri- terielle Optimierung eine zentrale Rolle, die es ermöglicht, eine Vielzahl von Lösungen zu untersuchen und gleichzeitig mehrere Zielfunktionen effektiv zu optimieren. Empirische Auswertungen und Fallstudien zu verschiedenen Prob- lemen mit bekannten und unbekannten Gleichungen aus dem ingenieurtechnischen und wissenschaftlichen Bereich validieren die vorgeschlagenen Ansätze. Die Ergebnisse zeigen, wie Domänenwissen die Genauigkeit symbolischer Mod- elle verbessern kann, während gleichzeitig eine höhere Problemkomplexität be- wältigt und sinnvolle Gleichungen für Domänenexperten entwickelt werden. |
Anmerkungen: | Literaturverzeichnis: Seite XIII-XXXV |
URI: | https://opendata.uni-halle.de//handle/1981185920/121262 http://dx.doi.org/10.25673/119304 |
Open-Access: | ![]() |
Nutzungslizenz: | ![]() |
Enthalten in den Sammlungen: | Fakultät für Informatik |
Dateien zu dieser Ressource:
Datei | Beschreibung | Größe | Format | |
---|---|---|---|---|
Reuter_Julia_Dissertation_2025.pdf | Dissertation | 19.27 MB | Adobe PDF | ![]() Öffnen/Anzeigen |