Please use this identifier to cite or link to this item:
http://dx.doi.org/10.25673/118968
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.referee | Al-Hamadi, Ayoub | - |
dc.contributor.referee | Wendemuth, Andreas | - |
dc.contributor.author | Khalifa, Aly Ahmed Aly | - |
dc.date.accessioned | 2025-05-21T14:25:13Z | - |
dc.date.available | 2025-05-21T14:25:13Z | - |
dc.date.issued | 2025 | - |
dc.identifier.uri | https://opendata.uni-halle.de//handle/1981185920/120924 | - |
dc.identifier.uri | http://dx.doi.org/10.25673/118968 | - |
dc.description.abstract | Face recognition stands as the superior biometric technique for identity authentication, finding extensive applications in our daily lives, like access control, finance, entertain- ment, and public security. Despite the widespread integration of face biometrics, most current face recognition systems are tailored for environments where accurate control governs the process of capturing facial images. In recent years, rapid advancements in face recognition techniques have unfolded across both academic and industrial sectors. This transformation has been driven by key factors, including the availability of substantial annotated training datasets, the rise of convolutional neural network based deep architectures, the affordability and power of computational resources, and the emergence of refined loss functions. Despite the considerable strides and achievements, persistent challenges await resolution. This thesis makes significant contributions to in-the-wild face recognition, partic- ularly concerning human-robot interaction, from three perspectives: model enhance- ment, loss function innovation, and network design. By enhancing current face recog- nition framework capabilities, designing novel loss functions, and carefully developing network architectures, this thesis aims to navigate the challenges of recognizing faces within dynamic and uncontrolled environments, where humans and robots interact. Firstly, we address the complexities of human-robot interaction (HRI), highlighting the challenges of real-time face recognition. Emphasizing the need for fast process- ing and high accuracy, we adopt lightweight convolutional neural networks for our proposed face recognition framework. The integration of the state-of-the-art ArcFace loss function and the RetinaFace method for face detection, combined with an online real-time face tracker, empowers our system to adeptly handle challenges such as vary- ing illumination, different head poses, and occlusions. By merging tracking data with recognized identities, we enhance the system’s performance in unconstrained settings, resulting in improved recognition accuracy and processing speed. Evaluations within our HRI system, "RoSA," showcase significant advancements while also highlighting areas for further refinement. Secondly, we explore the transformative role of margin-based softmax loss func- tions in face recognition. Traditional methods, which rely on a static, single margin, may not effectively address diverse real-world data. In response, we introduce the JAMsFace loss function, which offers flexible margin settings based on the class distri- bution. Harnessing joint adaptive margins in both angle and cosine spaces, JAMsFace refines feature discernibility and effectively addresses the challenge of class imbalance. Comprehensive evaluations across various datasets validate the efficacy of JAMsFace, signaling a shift towards more adaptive face recognition methodologies. Finally, we present RobFaceNet, a network specifically designed for face recogni- tion. Balancing computational efficiency with accuracy, RobFaceNet employs a multi- feature approach and integrates the modified h-swish activation function. We further enhance RobFaceNet with an attention-based bottleneck, incorporating either a CA or SE attention module, to boost its facial feature discernment capabilities. Rigor- ous evaluations against state-of-the-art face recognition models confirm RobFaceNet’s superior performance, underscoring the potential of lightweight models in real-world scenarios. In conclusion, this thesis encapsulates a comprehensive journey through the complex landscape of face recognition in dynamic and uncontrolled environments, specifically within the context of human-robot interactions. Addressing fundamental challenges, innovating within the scope of loss functions, and devising efficient network designs underscores a clear roadmap toward achieving more seamless and natural interactions between humans and robots. | eng |
dc.description.abstract | Gesichtserkennung gilt als überlegene biometrische Technik zur Identitätsauthentifi- zierung und findet umfangreiche Anwendungen in unserem täglichen Leben, wie Zu- gangskontrolle, Finanzen, Unterhaltung und öffentliche Sicherheit. Trotz der weit ver- breiteten Integration von Gesichtsbiometrie sind die meisten aktuellen Gesichtserken- nungssysteme für Umgebungen maßgeschneidert, in denen eine genaue Steuerung den Prozess der Erfassung von Gesichtsbildern bestimmt. In den letzten Jahren haben rasante Fortschritte in den Techniken zur Gesichts- erkennung sowohl im akademischen als auch im industriellen Bereich stattgefunden. Diese Transformation wurde durch Schlüsselfaktoren vorangetrieben, darunter die Ver- fügbarkeit umfangreicher annotierter Trainingsdatensätze, der Aufstieg von tiefen Ar- chitekturen auf der Grundlage von Convolutional Neural Networks, die Erschwing- lichkeit und Leistungsfähigkeit von Rechenressourcen und das Auftreten raffinierter Verlustfunktionen. Trotz der erheblichen Fortschritte und Erfolge warten weiterhin anhaltende Herausforderungen auf Lösungen. Diese Dissertation trägt zur Gesichtserkennung unter realen Bedingungen bei, ins- besondere im Zusammenhang mit der Interaktion zwischen Mensch und Roboter, aus drei Perspektiven: der Verbesserung von Modellen, der Innovation von Verlustfunk- tionen und dem Design von Netzwerken. Durch die Verbesserung der Fähigkeiten des aktuellen Gesichtserkennungsrahmens, die Entwicklung innovativer Verlustfunktionen und die sorgfältige Gestaltung von Netzwerkarchitekturen zielt diese Arbeit darauf ab, die Herausforderungen bei der Erkennung von Gesichtern in dynamischen und unkon- trollierten Umgebungen zu bewältigen, in denen Menschen und Roboter interagieren. Erstens behandeln wir die Komplexitäten der Mensch-Roboter-Interaktion (HRI) und betonen die Herausforderungen der Echtzeit-Gesichtserkennung. Mit Schwerpunkt auf schneller Verarbeitung und hoher Genauigkeit verwenden wir leichte Convolutional Neural Networks für unseren vorgeschlagenen Gesichtserkennungsrahmen. Die Inte- gration der hochmodernen ArcFace-Verlustfunktion und der RetinaFace-Methode zur Gesichtserkennung, kombiniert mit einem online Echtzeit-Gesichts-Tracker, ermöglicht es unserem System, Herausforderungen wie unterschiedliche Beleuchtung, verschiedene Kopfpositionen und Verdeckungen geschickt zu bewältigen. Durch die Zusammenfüh- rung von Tracking-Daten mit erkannten Identitäten verbessern wir die Leistung des Systems in nicht eingeschränkten Umgebungen und erzielen eine verbesserte Erken- nungsgenauigkeit und Verarbeitungsgeschwindigkeit. Bewertungen innerhalb unseres HRI-Systems, "RoSA", zeigen signifikante Fortschritte und weisen gleichzeitig Bereiche für weitere Verbesserungen auf. Zweitens untersuchen wir die transformative Rolle von margenbasierten Softmax- Verlustfunktionen in der Gesichtserkennung. Traditionelle Methoden, die auf einem statischen, einzelnen Margin basieren, können vielfältige realweltliche Daten mögli- cherweise nicht effektiv bewältigen. Als Reaktion darauf führen wir die JAMsFace Verlustfunktion ein, die flexible Margin-Einstellungen basierend auf der Klassenvertei- lung bietet. Durch die Nutzung gemeinsamer anpassbarer Margen sowohl im Winkel- als auch im Cosinus-Raum verfeinert JAMsFace die Merkmalsunterscheidbarkeit und bewältigt effektiv die Herausforderung der Klassenungleichgewicht. Umfassende Be- wertungen in verschiedenen Datensätzen bestätigen die Wirksamkeit von JAMsFace, was auf eine Verschiebung hin zu adaptiveren Methoden in der Gesichtserkennung hinweist. Schließlich präsentieren wir RobFaceNet, ein speziell für die Gesichtserkennung ent- wickeltes Netzwerk. RobFaceNet balanciert Recheneffizienz und Genauigkeit aus und verwendet einen multi-feature Ansatz und integriert die modifizierte h-swish Akti- vierungsfunktion. Wir verbessern RobFaceNet weiter mit einem aufmerksamkeitsba- sierten Engpass, der entweder ein CA- oder SE-Aufmerksamkeitsmodul enthält, um seine Fähigkeiten zur Merkmalsunterscheidung im Gesicht zu steigern. Rigorose Be- wertungen im Vergleich zu modernsten Gesichtserkennungsmodellen bestätigen die überragende Leistung von RobFaceNet, was das Potenzial von leichten Modellen in realen Szenarien unterstreicht. Zusammenfassend fasst diese Dissertation eine umfassende Reise durch das komplexe Gebiet der Gesichtserkennung in dynamischen und unkontrollierten Umgebungen zu- sammen, insbesondere im Kontext der Interaktion zwischen Mensch und Roboter. Die Bewältigung grundlegender Herausforderungen, die Innovation im Rahmen von Ver- lustfunktionen und die Entwicklung effizienter Netzwerke unterstreichen einen klaren Weg zur Erreichung nahtloserer und natürlicherer Interaktionen zwischen Menschen und Robotern. | ger |
dc.format.extent | X, 143 Seiten | - |
dc.language.iso | eng | - |
dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ | - |
dc.subject | Maschinelles Sehen | ger |
dc.subject | face recognition | eng |
dc.subject.ddc | 006.25 | - |
dc.title | Efficient and robust face recognition in the wild | eng |
dcterms.dateAccepted | 2025 | - |
dcterms.type | Hochschulschrift | - |
dc.type | PhDThesis | - |
dc.identifier.urn | urn:nbn:de:gbv:ma9:1-1981185920-1209241 | - |
local.versionType | acceptedVersion | - |
local.publisher.universityOrInstitution | Otto-von-Guericke-Universität Magdeburg, Fakultät für Elektrotechnik und Informationstechnik | - |
local.openaccess | true | - |
dc.identifier.ppn | 1926039114 | - |
dc.description.note | Literaturverzeichnis: Seite 123-143 | - |
cbs.publication.displayform | Magdeburg, 2025 | - |
local.publication.country | XA-DE-ST | - |
cbs.sru.importDate | 2025-05-21T14:21:40Z | - |
local.accessrights.dnb | free | - |
Appears in Collections: | Fakultät für Elektrotechnik und Informationstechnik |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Khalifa_Aly_Ahmed_Aly_Dissertation_2025.pdf | Dissertation | 15.72 MB | Adobe PDF | ![]() View/Open |