Designing Meta-Rewards for Multi-Agent Reinforcement Learning Cooperation

Masterarbeit (Juni 2024)

Autor: Jonas Wild

Abstract:

Diese Arbeit untersucht die Integration des dynamischen Meta-Reward-Shapings in das Multi-Agent Reinforcement Learning (MARL), um kooperatives Verhalten unter Agenten zu verbessern. Wir entwickelten ein Framework basierend auf dem ePyMarl Framework, das Strategien implementiert, um Agenten durch das Erreichen von Meta- und Hauptzielen zu kooperativem Verhalten zu führen. Wir führten einen Base Reward Critic ein, der erwartete zukünftige Returns ohne Meta-Rewards abschätzt. Dieser Critic wurde dann verwendet, um Targets für ein Neurales Netzwerk und einen Stochastic Gradient Descent Regressor zu generieren, die anzeigen, ob die Vergabe einer Meta-Reward im aktuellen Zustand mit der Policy kollidieren oder vorteilhaft sein würde. Experimentelle Auswertungen in drei Szenarien – Level based Foraging: Exploration und Gemeinsames Sammeln, und synchronisierte Angriffe in SMAC – zeigten signifikante Verbesserungen im kooperativen Verhalten der Agenten. Während Neurale Netzwerke und SGD Regressoren Potenzial zur Leistungssteigerung in der Erkundungsaufgabe zeigten, konnte ihre Wirksamkeit in den anderen beiden Herausforderungen nicht validiert werden. Letztendlich legt diese Arbeit nahe, dass dynamisches Meta-Reward-Shaping ein leistungsstarkes Werkzeug zur Entwicklung vorhersehbarer und anpassungsfähiger Multi-Agenten-Systeme ist, das Verhalten und Policies lenkt und steuert. Das automatisierte Shaping von Meta-Rewards entsprechend der Übereinstimmung mit der Belohnungsstruktur der Umgebung zeigte Potenzial und erfordert weitere Validierung.

Betreuer: Maximilian Zorn, Philipp Altmann, Claudia Linnhoff-Popien

Masked Autoencoders for Unsupervised Anomalous Sound Detection

Masterarbeit (Juni 2024)

Autor: Florian Reusch

Abstract:

In dieser Masterarbeit wird die Verwendung von Masked Autoencoders (MAEs) für die unüberwachte Erkennung von Anomalien in Audiodaten untersucht. Dabei wird das Prinzip des unüberwachten Lernens genutzt, um unregelmäßige Klangmuster zu erkennen, ohne dass manuell gelabelte Datensätze benötigt werden. Dieses Forschungsprojekt konzentriert sich auf den auditiven Bereich und zielt darauf ab, die erfolgreiche Anwendung von MAEs, die ursprünglich in der Computer Vision angewandt wurde, auf die Erkennung von Anomalien in Sounddaten auszuweiten, indem Audiodaten zur Analyse in Mel-Spektrogramme umgewandelt werden. Um die Effizienz der MAEs bei der Unterscheidung zwischen normalen und anomalen Klängen unter Verwendung des Rekonstruktionslosses als Anomalie-Score zu bewerten, wird der DCASE2020-Datensatz genutzt, der ein breites Spektrum an Klangkategorien umfasst. Zu den wichtigsten Beiträgen dieser Arbeit gehören die Anpassung des MAE-Frameworks für die Erkennung anormaler Geräusche, die Erweiterung durch Vektorquantisierung und ID-Vorhersage zur Verbesserung der Genauigkeit, die Durchführung einer umfassenden Hyperparameter-Optimierung und der Vergleich der Leistung des MAE-Modells mit anderen Methoden. Die Forschungsergebnisse unterstreichen die Effektivität von MAEs bei der Erkennung von Anomalien und zeigen, dass ein geringeres Maskierungsverhältnis von 15 Prozent und eine spezifische Encoder-Decoder-Konfiguration, insbesondere ein kleiner Encoder gepaart mit einem großen Decoder, die Fähigkeit des Modells zur Erkennung von Anomalien erheblich verbessern. Darüber hinaus stellen wir fest, dass die Vektorquantisierung zwar die Erkennung von Anomalien nicht verbessert, die ID-Vorhersage jedoch eine nützliche zusätzliche Lernaufgabe darstellt. Trotz Herausforderungen wie dem ungünstigen Skalierungsproblem, das Transformermodellen innewohnt, unterstreicht diese Arbeit das Potenzial von MAEs bei der unüberwachten Erkennung von Anomalien in Sounddaten. Indem sie sowohl die Möglichkeiten als auch die Grenzen von MAEs bei der Anomalieerkennung aufzeigt, trägt diese Arbeit zu einem differenzierten Verständnis ihrer Anwendung in der Anomaliedetektion auf Audiodaten bei und ebnet den Weg für zukünftige Untersuchungen.

Betreuer: Michael Kölle, Claudia Linnhoff-Popien

Evaluierung von metaheuristischen Optimierungsalgorithmen für Quantum Reinforcement Learning

Masterarbeit (Mai 2024)

Autor: Daniel Seidl

Abstract:

Quantum Reinforcement Learning bietet das Potenzial für Vorteile gegenüber klassischem Reinforcement Learning, wie beispielsweise eine kompaktere Repräsentation des Zustandsraums durch Quantenzustände. Darüber hinaus deuten theoretische Untersuchungen darauf hin, dass Quantum Reinforcement Learning in bestimmten Szenarien eine schnellere Konvergenz als klassische Ansätze aufweisen kann. Allerdings bedarf es weiterer Forschung, um die tatsächlichen Vorteile von Quantum Reinforcement Learning in praktischen Anwendungen zu validieren. Diese Technologie sieht sich zudem mit Herausforderungen wie einer flachen Lösungslandschaft konfrontiert, die durch fehlende oder geringe Gradienten gekennzeichnet ist und somit die Anwendung traditioneller, gradientenbasierter Optimierungsmethoden ineffizient macht. In diesem Kontext gilt es, gradientenfreie Algorithmen als Alternative zu prüfen. Die vorliegende Arbeit befasst sich mit der Integration von metaheuristischen Optimierungsalgorithmen wie der Partikelschwarmoptimierung, dem Ameisenkolonie-Algorithmus, der Tabu Suche, Simulated Annealing und der Harmonie Suche in Quantum Reinforcement Learning. Diese Algorithmen bieten Flexibilität und Effizienz bei der Parameteroptimierung, da sie spezialisierte Suchstrategien und Anpassungsfähigkeit nutzen. Die Ansätze werden im Rahmen von zwei Reinforcement Learning Umgebungen evaluiert und mit zufälliger Aktionsauswahl verglichen. Die Ergebnisse zeigen, dass in der 5×5 Empty MiniGrid Umgebung alle Algorithmen zu akzeptablen oder sogar sehr guten Ergebnissen führen, wobei Simulated Annealing und die Partikelschwarmoptimierung die besten Leistungen erzielen. In der Cart Pole Umgebung erreichen Simulated Annealing und die Partikelschwarmoptimierung optimale Ergebnisse, während der Ameisenkolonie-Algorithmus, die Tabu Suche und die Harmonie Suche nur leicht besser abschneiden als ein Algorithmus mit zufälliger Aktionswahl. Diese Ergebnisse demonstrieren das Potenzial metaheuristischer Optimierungsmethoden wie der Partikelschwarmoptimierung und Simulated Annealing für effizientes Lernen in Quantum Reinforcement Learning Systemen, zeigen aber auch die Notwendigkeit einer sorgfältigen Auswahl und Anpassung des Algorithmus an die jeweilige Problemstellung.

Betreuer: Michael Kölle, Maximilian Zorn, Claudia Linnhoff-Popien

Towards Less Greedy Quantum Coalition Structure Generation in Induced Subgraph Games

Masterarbeit (Mai 2024)

Autor: Daniëlle Schuman

Abstract:

Die Energiewende ist einer der wichtigsten Schritte im Kampf gegen den Klimawandel, den viele Nationen aktuell angehen. Jedoch stellt uns diese Umstellung auf 100 % erneubare Energien vor Herausforderungen bezüglich der erfolgreichen Steuerung von Stromnetzen. Ein Lösungsansatz ist hier das sinnvolle Zerlegen dieser Netze in Kleingruppen sogenannter Prosumenten, die Microgrids. Diese sinnvolle Zerlegung stellt jedoch ein schwieriges Optimierungsproblem da, das in etwas vereinfachter Form formalisiert werden kann als ein Problem der Koalitionsstrukturengenerierung in Induzierten Subgraph-Spielen. Hierbei versucht man einen vollvermaschten, ungerichteten, gewichteten Graphen so in Subgraphen zu zerlegen, dass die Summe über die Gewichte der in diesen Subgraphen enthaltenen Kanten maximiert wird. Zur Lösung dieses Problems wurden in den letzten Jahren auch einige Quanten-Algorithmen publiziert, wovon der Neueste ein effizienter, aber gieriger Ansatz namens GCS-Q ist. In dieser Arbeit werden diverse weitere, weniger gierige Quantum Annealing (QA)-basierte Algorithmen zur Lösung des Problems entworfen und mit GCS-Q verglichen, um festzustellen, ob einer dieser Ansätze eine bessere Lösungsqualität erzielen kann. Experimente auf drei verschiedenen Solvern – der QBSolv-Software, dem D-Wave Advantage 4.1 Quantum Annealer, und dem Algorithmus QAOA auf dem Qiskit Quantensimulator – ergeben, dass dies auf der aktuellen echten Quanten-Hardware nicht möglich ist. Mit der QBSolv-Software findet jedoch ein Großteil der neu entwickelten Ansätze bessere Lösungen, insbesondere der 4-split iterative R-QUBO Algorithmus, der auf dem verwendeten Datensatz alle Optima findet. Da seine Laufzeit zudem gut mit der Graphgröße skaliert, scheint dies ein vielversprechender Ansatz für zukünftige Forschung an der Problemstellung zu sein.

Betreuer: Jonas Nüßlein, David Bucher, Claudia Linnhoff-Popien

Specification Aware Evolutionary Error Search in Parameterized RL Environments

Masterarbeit (März 2024)

Autor: Ioan-Luca Ionescu

Abstract:

Um die Zuverlässigkeit von autonomen Systemen und maschinell erlernten Verfahren, insbesondere im Bereich des Verstärkungslernens, zu gewährleisten, ist ein Verständnis des verwendeten Modellverhaltens unerlässlich. Nimmt man die Politik eines solchen Agenten als gegeben (trainiert) und überwiegend zuverlässig an, wird es zunehmend schwieriger, durch stichprobenartiges Testen gültige Fehlerfälle (Randfälle) im Raum der möglichen Probleme zu finden. In dieser Arbeit liegt der Fokus auf der Untersuchung und Generierung von spezifikationsbewussten Problemfällen in parametrisierbaren Reinforcement Learning Umgebungen mit Hilfe von evolutionären Algorithmen. Gesucht wird nach Fehlern in Bezug auf die funktionale Spezifikation, d.h. harte Anforderungsbedingungen (hat ein Ziel in vorgegebener Zeit oder Art und Weise erfüllt) und die nicht-funktionale Spezifikation, z.B. über Proxy-Performance-Metriken wie die Körperausrichtung der Agenten auf die Ziele. Unsere evolutionäre Suche findet zum Beispiel problematische Ziele in der Nähe des Agenten, die auf Trainingsdefizite beim Umdrehen hinweisen, sowie in der Nähe von Wänden und Hindernissen. Ein erster Proof-of-Concept hat gezeigt, dass Evolutionäre Algorithmen in der Lage sind, eine spezifikationsbewusste Fehlersuche durchzuführen, aber nicht in der Lage waren, randomisierte Tests und eine Basisheuristik vollständig zu übertreffen.

Betreuer: Maximilian Zorn, Fabian Ritz, Claudia Linnhoff-Popien

Optimierung von Variational Quantum Circuits für Hybride Quantum Proximal Policy Optimization Algorithmen

Bachelorarbeit (Februar 2024)

Autor: Timo Witter

Abstract:

Quantencomputer, welche sich aktuell in der Entwicklung befinden, bieten in der Theorie neben der Hoffnung auf einen Quantenvorteil auch die Möglichkeit der Parameterreduktion. Diese ist insbesondere für das Machine Learning interessant, da sie einen schnelleren Lernvorgang und geringeren Arbeitsspeicherverbrauch für die rechenintensiven Prozesse erlauben würde. Im aktuellen Noisy Intermediate-Scale Quantum (NISQ) Zeitalter ist die Anzahl der Quantenbits jedoch noch beschränkt und Quantenrauschen erschwert das Training, daher konzentriert sich die Forschung auf Variational Quantum Circuits (VQCs). Diese hybriden Algorithmen aus einem parametrisierten Quantenschaltkreis mit klassischer Optimierung benötigen nur wenige Qubits, wodurch sie bereits jetzt die Möglichkeit bieten relevante Erfolge zu erzielen. In der der Literatur wurden in den letzten Jahren einige interessante Versionen vorgestellt, welche diese einsetzen, um Reinforcement Learning Probleme zu lösen und dabei vielversprechende Ansätze zur Verbesserung der Performance verwenden, welche es verdienen genauer betrachtet zu werden. In dieser Arbeit wird die Effektivität von Data Re-uploading, Input und Output Scaling und einer exponentiell abfallenden Lernrate für den Actor VQC eines Quantum Proximal Policy Optimization (QPPO) Algorithmus in den Frozen Lake und Cart Pole Umgebungen auf ihre Fähigkeit die Leistung des Schaltkreises im Verhältnis zur verwendeten Parameterzahl zu erhöhen evaluiert. Die Ergebnisse zeigen, dass die exponentiell abfallenden Lernrate und Data Re-uploading ohne das Hinzufügen weiterer trainierbarer Parameter die Leistung des VQC und dessen Hyperparameterstabilität deutlich erhöhen. Während Input Scaling keinen Einfluss auf die Parametereffizienz zu haben scheint, konnte Output Scaling eine wirksame Greediness-Kontrolle und so eine deutliche Steigerung der Performance und Robustheit ermöglichen.

Betreuer: Michael Kölle, Philipp Altmann, Claudia Linnhoff-Popien

Link-Konfiguration für Satellitenkommunikation mittels Reinforcement Learning

Bachelorarbeit (Februar 2024)

Autor: Jan Matheis

Abstract:

Die Satellitenkommunikation ist eine Schlüsseltechnologie unserer modernen vernetzten Welt. Angesichts zunehmend komplexerer Hardware in diesem Bereich stehen Herausforderungen bevor, die bewältigt werden müssen. Eine dieser Herausforderungen ist die effiziente Konfiguration von Links (Verbindungen) auf einem Satellitentransponder. Eine optimale Link-Konfiguration zu planen ist äußerst komplex und hängt von vielen Parametern und Metriken ab. Dabei ist die optimale Nutzung der begrenzten Ressourcen, Bandbreite und Leistung des Transponders von entscheidender Bedeutung. Ein solches Optimierungsproblem kann mithilfe von metaheuristischen Methoden wie dem Simulated Annealing angegangen werden. Aktuelle Forschungsergebnisse zeigen, dass Reinforcement Learning bei Optimierungsverfahren eine gleich gute oder bessere Leistung erzielen kann wie metaheuristische Verfahren. Für die Link-Konfiguration auf einem Satellitentransponder gibt es dazu keine Untersuchungen. Um diese Forschungslücke zu schließen, wurde im Rahmen dieser Arbeit ein Transponder Environment entwickelt. Für dieses Environment wurde die Performance des Reinforcement Learning Algorithmus PPO in zwei Experimenten mit der Metaheuristik Simulated Annealing verglichen. Die Ergebnisse zeigen, dass Simulated Annealing für dieses statische Problem bessere Ergebnisse liefert als der PPO Algorithmus. Es sind weitere Experimente erforderlich, um ein wirklich aussagekräftiges Ergebnis zu erzielen.

Betreuer: Michael Kölle, Claudia Linnhoff-Popien

Anomalous Sound Detection with Multimodal Embeddings

Bachelorarbeit (Februar 2024)

Autor: Lara Lanz

Abstract:

Die Aufgabe der akustischen Anomalieerkennung im Bereich des Maschinenlernens (ML) ist es, eine Entscheidung darüber zu treffen, ob ein Geräusch normal oder abnormal ist. In der Realität kann dies im industriellen Bereich angewendet werden, um Maschinengeräusche zu überwachen, da abnormale Geräusche hier auf einen Fehler oder Defekt hinweisen können. Eine häufige Herangehensweise zur Konstruktion von ML Modellen ist es, die Leistung bereits vortrainierter Modelle zu nutzen, um semantisch bedeutsame Merkmalsrepräsentationen, auch genannt Embeddings, aus den Daten zu extrahieren. Üblicherweise werden hierzu Modelle verwendet, die in der gleichen Modalität wie die Zielaufgabe trainiert wurden, im Kontext der akustischen Anomalieerkennung also in der Modalität Audio. Diese Bachelorarbeit untersucht die Wirksamkeit von multimodalen Embeddings für die Aufgabe der akustischen Anomalieerkennung. Dabei werden Modelle, die in mehreren Modalitäten vortrainiert wurden, benutzt, um semantisch bedeutsame Audioembeddings aus Audiodaten zu extrahieren. Diese Embeddings dienen dann als Input für etablierte Outlier Detection Methoden, um Anomalien zu identifizieren. Da die Layers der vortrainierten Modelle bei der reinen Merkmalsextraktion gefroren bleiben, ist der vorgestellte Ansatz schnell, simpel und rechnerisch kostengünstig. Verschiedene Kombinationen von vortrainierten Modellen und Outlier Detection Methoden werden in einer Ablation Study evaluiert. Die daraus resultierende beste Kombination wird hinsichtlich den Gesichtspunkten Leistung und Robustheit gegenüber verschiedenen Maschinentypen und Domänenverschiebungen bewertet. Die Ergebnisse deuten darauf hin, dass die Merkmalsextraktion mit vortrainierten multimodalen Modellen zu einer stabilen und robusten Leistung über verschiedene Maschinentypen hinweg beiträgt, wobei in diesem Kontext alle drei Baselines übertroffen werden. Der Ansatz zeigt auch eine vielversprechende Robustheit gegenüber Domänenverschiebungen und übertrifft in dieser Hinsicht zwei von drei Baselines, reicht jedoch nicht an die dritte Baseline heran, die weitere spezifische Ansätze für die Domänengeneralisierung implementiert.

Betreuer: Michael Kölle, Claudia Linnhoff-Popien

Beeinflussung von Verhalten durch Reward-Manipulation im Multi-Agent Reinforcement-Learning

Masterarbeit (März 2024)

Autor: Llewellyn Hochhauser

Abstract:

Im Bereich von Polymatrix-Spielen wurde in der Vergangenheit gezeigt, dass es möglich ist, das Verhalten anderer Agenten durch eine Manipulation der Belohnungen zu beeinflussen. Beispielsweise kann hiermit in einem kompetitiven Szenario eine Kooperation erzwungen werden. In dieser Masterarbeit wird geprüft, ob und wie dieser Ansatz auf Multi-Agent-Reinforcement-Learning (MARL) übertragen werden kann. Hierbei gibt es stets zwei Typen von Agenten, welche, die die Belohnungen aller Agenten manipulieren können, und triviale Agenten, die die Umgebung herkömmlich erlernen. Beide Agenten-Typen können von manipulierenden Agenten beeinflusst werden. Zusätzlich gelten hier bei einige Einschränkungen. Es können sich weder normale noch manipulierende Agenten untereinander ohne Umgebungsinteraktion absprechen. Auch geschieht die Manipulation individuell. Dies bedeutet, dass mehrere manipulierende Agenten sich auch hier nicht miteinander absprechen können. Die Belohnungs-Manipulation kann allerdings auf den jeweiligen Agenten angepasst werden. Mehre manipulierende Agenten können die gleiche Belohnung beeinflussen. Die Belohnungen im Gesamtsystem müssen allerdings erhalten bleiben. Agenten können daher keine Belohnungen frei erfinden. Hierfür wird in dieser Arbeit das Reward-Manipulation-Protokoll erstellt. Für dieses wurden drei verschiedene Abstufungen herausgearbeitet, mit denen dieser Ansatz verwendet und auch weiter erforscht werden kann. Getestet wird der Ansatz in verschiedenen Sozialen Dilemma-Szenarien. Um das Reward-Manipulation-Protokoll einordnen zu können, wird der Ansatz mit verwandten Algorithmen aus dem Bereich der Peer Incentivization verglichen.

Betreuer: Philipp Altmann, Michael Kölle, Claudia Linnhoff-Popien

Portraying Reinforcement Learning Policies via Diverse Behavior selected using Evolutionary Algorithms

Masterarbeit (März 2024)

Autor: Céline Davignon

Abstract:

Es ist nicht einfach, einem Reinforcement Learning Model zu vertrauen. Selbst wenn eintrainierter Agent gute Rewards erhält, ist es nicht sicher, dass er auch das erwartete Verhalten zeigt. Um mehr Vertrauen in Reinforcement Learning setzen zu können, ist die Interpretierbarkeit von Reinforcement Learning Agenten wichtig. In dieser Arbeit versuchen wir, die visuelle Interpretierbarkeit eines trainierten Agenten durch Finden diverser Verhaltensweisen eines Agenten zu verbessern. Dies möchten wir mithilfe Evolutionärer Suche erreichen. Ein Genetischer Algorithmus selektiert verschiedene Startzustände, die zu neuen Verhaltensweisen des trainierten Agenten führen. Der Ansatz wurde anhand einer einfachen Gridworld-Umgebung entwickelt. Weiterhin wurde er anhand dieser Umgebung und einer etwas komplexeren Umgebung validiert und evaluiert. Außerdem wurde der Genetische Algorithmus in einer Robotik-Umgebung angewendet, um ihn auch in kontinuierlichen Räumen zu evaluieren. Als Hauptbeitrag dieser Arbeit schlagen wir eine geeignete Fitnessfunktion vor, die diverse Verhaltensweisen bewerten kann. Sie bewertet nicht nur das Verhalten eines Agenten, sondern auch sein Verhalten unter Berücksichtigung bereits bekannter Verhaltensweisen. Das Ergebnis des Genetischen Algorithmus ist eine Menge an Episoden, die besonders diverse Verhaltensweisen zeigen. In manchen Episoden erreicht der Agent sein Ziel in erwarteter Weise, während er in anderen Episoden unerwartetes und nicht einfach erklärbares Verhalten zeigt. Außerdem schlagen wir eine mögliche Kodierung der Startzustände der Umgebung vor. Unser Ansatz kann genutzt werden, um die Qualität verschiedener trainierter Agenten zu evaluieren und zu vergleichen. Des Weiteren kann herausgefunden werden, in welchen Startzuständen der Agent noch mehr Training benötigt.

Betreuer: Philipp Altmann, Maximilian Zorn, Claudia Linnhoff-Popien

Diversity-Driven Pre-Training for Efficient Transfer Reinforcement Learning

Bachelorarbeit (Dezember 2023)

Autor: Simon Hackner

Abstract:

In dieser Arbeit wird der kürzlich vorgestellte Diskriminative Reward Co-Training (DI- RECT) Ansatz für die Vortrainierung einer generellen Policy eingesetzt, um die Lernfähigkeit von Reinforcement Learning Agenten zu verbessern und den Trainingsprozess effizienter zu gestalten. DIRECT erweitert Deep Reinforcement Learning Algorithmen durch Integration eines Buffers, der auf Basis des Episoden-Rewards vorteilhafte, von der Policy generierte Episoden aufnimmt, und eines Diskriminators, der im Laufe des Trainings lernt zwischen Episoden der Policy und des Buffers zu unterscheiden. Diese Struktur wird adaptiert um in einer Umgebung ohne Reward zu trainieren, indem der Episoden-Reward durch eine Diversitäts-Metrik ersetzt wird, wodurch der Buffer mit viel- fältigen Episoden gefüllt wird. Die vortrainierte Policy kann im Anschluss von bewährten Reinforcement Learning Algorithmen wie PPO genutzt werden, um unterschiedliche Auf- gaben in der zuvor erkundeten Umgebung effizient zu erlernen. Ziel der Arbeit ist es, die Auswirkungen des Ansatzes auf die Lernfähigkeit des Agenten, die Exploration und die Beschleunigung des Lernens verschiedener Aufgaben zu untersuchen.

Betreuer: Philipp Altmann, Maximilian Zorn, Claudia Linnhoff-Popien

Konstruktion von Quantenschaltkreisen mit eingeschränkten Gattern

Bachelorarbeit (Januar 2024)

Autor: Sebastian Wölckert

Abstract:

In der Praxis stehen bei einem Quantenrechner ähnlich wie zu den klassischen Rechnern nur eine eingeschränkte Menge an Grundoperationen zur Verfügung. Diese werden auch Quantengatter genannt und nach den Forderungen der Quantenmechanik durch unitäre Transformationen modelliert. Im Gegensatz zu klassischen Schaltkreisen werden hier die Informationen sogenannter Qubits manipuliert. Solch eine Realisierung stellt jedoch eine große Herausforderung dar, weshalb nur ausgewählte Quantengatter anwendbar sind. Um schlussendlich einen beliebigen Schaltkreis auf einem Quantenrechner ausführen zu können, muss die implementierte Grundmenge jede beliebige unitäre Transformation erzeugen können. In dieser Arbeit werden wir eine eindeutige Charakterisierung sogenannter exakt universeller Mengen für Systeme mit bis zu zwei Qubits zeigen und auch für beliebig viele Qubits eine Grundmenge angeben. Quantengatter für einzelne Qubits können mit dreidimensionalen Rotationen gleichgesetzt werden, sodass hier zwei nicht parallele Rotationsachse ausreichen. Größere Systeme hingegen benötigen nicht lokale Gatter, die auch die Rotationen einzelner Qubits (lokale Gatter) ersetzen können. Durch eine rekursive Zerlegung werden wir für eine beliebige Anzahl an Qubits eine exakt universelle Menge konstruieren und zudem notwendige Eigenschaften zeigen. Die Ergebnisse geben einen Einblick, wie die Grundoperationen gestalten sein müssen, um eine beliebige Transformation zu erzeugen. Letztendlich soll diese Arbeit einen Ansatz bieten, hinreichende Eigenschaften für exakt universelle Mengen beliebig vieler Qubits für eine eindeutige Charakterisierung zu finden. Dieses noch offene Problem könnte Zerlegungen gegebener Quantengatter effizienter gestalten und überflüssige Elemente eliminieren.

Betreuer: Maximilian Balthasar Mansky, Sebastian Zielinski, Claudia Linnhoff-Popien

Balancing Populations with Multi-Agent Reinforcement Learning

Masterarbeit (Januar 2024)

Autor: Clara Goldmann

Abstract:

Diese Arbeit widmet sich dem nachhaltigen und kooperativen Verhalten in Multiagentensystemen. In der Simulation von Beute-Prädator-Interaktionen werden mehrere selbstinteressierte Raubtiere darauf trainiert, ihre Populationen ausgewogen zu halten. Dies geschieht durch die Aufrechterhaltung einer Herde sich fortpflanzender Beutetiere und einer eigenen fortpflanzenden Raubtierpopulation. Unter dem Druck des drohenden Verhungerns müssen die Raubtiere vermeiden, die gesamte Population ihrer Beute durch instabiles Verhalten auf einmal zu dezimieren. Dieses egoistische Verhalten könnte letztendlich zum Aussterben der Beute- und folglich auch der Raubtierpopulationen führen. Hier setzen wir auf Multi-Agent Reinforcement Learning, um zu analysieren, ob Raubtiere, selbst unter Vermehrung, in der Lage sind, einen Zusammenbruch des simulierten Ökosystems zu verhindern. Dabei werden verschiedene Reinforcement – Algorithmen eingesetzt und geeignete Metriken vorgeschlagen, um zu zeigen, dass fortpflanzende Raubtiere nachhaltiges Verhalten entwickeln können. Insbesondere wird untersucht, dass sie in der Lage sind, kollektive Herdenbildung unter Hungerdruck zu erlernen und ihre Beute-Prädator-Populationen auszubalancieren. Darüber hinaus wird dargelegt, dass komplexe Kooperationen in Form von Gruppenjagden zwischen den Raubtieren entstehen, unabhängig der Geschwindigkeit der Raubtiere.

Betreuer: Fabian Ritz, Maximilian Zorn, Claudia Linnhoff-Popien

Path-Connectedness of the Boundary between Features that Are Labeled Differently by a Single Layer Perceptron

Bachelorarbeit (Dezember 2023)

Autor: Remo Kötter

Abstract:

Dank der bemerkenswerten Fortschritte im High-Performance-Computing können Maschinen immer größere Datenmengen verarbeiten, um zahlreiche Parameter eines Machine-Learning-Modells (ML-Modell) anzulernen. Auf diese Weise erkennt und lernt eine Maschine Muster und kann durchaus zu guten und schnellen Entscheidungen kommen. Der Erfolg eines ML-Modells hängt jedoch nicht nur von der Leistungsfähigkeit des Systems ab, auf dem es läuft, welches dadurch große oder weniger große Datenmengen verarbeiten kann. Zahlreiche und vielfältige Daten sind meist hilfreich, aber nicht der alleinige Schlüssel zu einem zuverlässigen Modell. Auch Modelle mit nur wenigen trainierbaren Parametern, bei denen kleinere Datensätze für das Training ausreichen, können erstaunliche Ergebnisse liefern, wenn das Basismodell sinnvoll gewählt ist und zu den Daten und der Aufgabe passt. Abstrakt betrachtet sind ML-Modelle parametrisierte Funktionen, bei denen die Parameter während des Lernprozesses optimiert werden. Um zu prüfen, ob ein bestimmtes ML-Modell qualitativ passt, können wir auf mathematische Weise Anforderungen an das Modell aufstellen. Hier erwägen wir solche Vorgaben, die keine konkrete Belegung der Parameter voraussetzen, sondern die ein bestimmtes Verhalten der dem Modell entsprechenden Funktion für beliebige Parameter erwarten. Anschließend können wir beweisen, dass ein bestimmtes Modell die Anforderungen erfüllt oder ein spezifischeres Gegenbeispiel konstruieren, aus dem hervorgeht, dass eine bestimmte mathematische Eigenschaft für das betrachtete Modell nicht im Allgemeinen gilt. In dieser Bachelorarbeit betrachten wir Single Layer Perceptrons (SLPs), die Features zwischen zwei verschiedenen Labels kategorisieren. SLPs kann man als Ursprung der heutigen Deep Neural Networks bezeichnen. Wir zeigen, dass unter bestimmten Vorbedingungen der Rand zwischen den beiden Kategorien innerhalb des Feature Space wegzusammenhängend ist. Dies spricht dafür, dass ein SLP eine vernünftige Wahl ist, wenn wir bestimmtes Vorwissen über die Features haben: Falls wir wissen, dass die Grenze zwischen den beiden Kategorien in der Realität wegzusammenhängend ist, können wir Modelle ausschließen, die einen Rand mit Unterbrechungen (nicht wegzusammenhängend) erzeugen.

Betreuer: Maximilian Balthasar Mansky, Claudia Linnhoff-Popien

Consensus-Based Mutual Acknowledgment Token Exchange

Masterarbeit (November 2023)

Autor: Katharina Winter

Abstract:

Mutual Acknowledgement Token Exchange (MATE) ist ein vielversprechender Ansatz im Bereich Peer Incentivization, der darauf abzielt, emergente Kooperation in Multi-Agenten-Systemen zu stärken und es Agenten zu ermöglichen, Reward Token gegenseitig auszutauschen um Einfluss auf das Lernverhalten des Token-Empfängers zu nehmen. In verschiedenen Vergleichen konnte sich MATE bereits gegen andere Ansätze durchsetzen. Der Erfolg von MATE in Bezug auf kooperatives Verhalten hängt vom Wert des Token ab, dessen Eignung je nach Domäne variiert. Aktuell werden Token manuell definiert, doch eine effiziente Generalisierung auf verschiedene Domänen erfordert die automatische Anpassung der Token statt Hyperparameterisierung. Zudem erfordern reale Szenarien häufig vollständige Dezentralisierung, was Agenten benötigt, die autonom ihre Token Werte formen. Dies motiviert die Forschungsfrage: “Wie wirken sich die Dynamiken der Acknowledgement Token im MATE Protokoll auf die Kooperation zwischen Agenten aus und wie können effiziente Token von Agenten erlernt werden?” Experimente mit trainierenden Agenten in sequenziellen sozialen Dilemmas zeigen, dass optimale Soziale Wohlfahrt die Gleichheit der Token aller Agenten erfordert. Das Verlagern der Token-Verantwortung von einer zentralen Instanz hin zu individuellen Agenten auf dezentraler Ebene kann jedoch bestehende Ungleichheiten verschärfen. Ich stelle den AutoMATE Algorithmus vor, welcher das Token dynamisch generiert und von der aktuellen Schätzung des Value-Wertes eines Agenten herleitet. Der Algorithmus wird durch in Konsens-Mechanismus erweitert, um einer manipulativen Form der Kooperation entgegenzuwirken. AutoMATE verbessert in Kombination mit diesem Konsens-Mechanismus die Leistung des aktuellen MATE Ansatzes, der standardmäßig das Token 1 verwendet, in allen evaluierten Szenarien hinsichtlich Sozialer Wohlfahrt und Kooperation. Die Ergebnisse legen nahe, dass AutoMATE als erweiterte Form von MATE das Potenzial hat, die Effizienz und gleichgestellte Kooperation in Multi-Agenten-Systemen signifikant zu verbessern, und bieten eine Grundlage für zukünftige Forschungen in diesem Bereich.

Betreuer: Philipp Altmann, Claudia Linnhoff-Popien

A Reinforcement Learning Environment for directed Quantum Circuit Synthesis

Bachelorarbeit (November 2023)

Autor: Tom Schubert

Abstract:

Angesichts des steigenden Interesses an Quantencomputing-Technologien, gewinnen Themen wie das gezielte Design von Quantenschaltenkreisen einschließlich der zuverlässigen Erzeugung von Quantenzuständen zunehmend an Bedeutung. Bekannte Ansätze für diese Probleme erfordern häufig ein großes Maß an Know-How und manueller Berechnung. Dies wird insbesondere bei Zunahme der Qubit- und Gatter-Anzahl der behandelten Schaltkreise für die Erstellung der jeweiligen Quantenzustände problematisch. Aufgrund der rasch anwachsenden Menge an Kombinationsmöglichkeiten von Gattern auf Qubits bietet sich ein Machine-Learning-basierter Ansatz für die Bewältigung dieser Aufgabe an. Die folgende Arbeit beinhaltet die Bereitstellung einer Reinforcement Learning Umgebung zum Training von Agenten für das Quantenschaltkreis-Design zur Erzeugung von Quantenzuständen. Somit soll den trainierten Agenten die Fähigkeit vermittelt werden, bei Vorgabe eines beliebigen Quantenzustands einen entsprechenden Quantenschaltkreis für dessen Erzeugung zu erstellen. Dabei werden lediglich die im Clifford+T Quantengatter Set enthaltenen Gatter zur Schaltkreis-Synthese verwendet. Anhand der eingeführten Umgebung wird das Quantenschaltkreis-Design Problem bezüglich der benötigten Tiefe der rekonstruierten Quantenschaltkreise in Abhängigkeit zu den gewählten Zielzustands-Parametern erforscht. Die hierbei untersuchten Parameter inkludieren die jeweiligen zur Zielzustands-Initialisierung verwendeten Qubitanzahlen und Schaltkreistiefen. Zur Durchführung von Benchmarking-Versuchen von Reinforcement Learning Algorithmen auf das Problem wird zusätzlich eine Testumgebung mit unterschiedlichen Schwierigkeitsgraden inklusive einer Sammlung von Testzuständen formuliert. Diskrete Ergebnisse der Arbeit beinhalten unter anderem die Erzeugung von PPO-basierten Agenten, welche eine bessere Leistung im Vergleich zur verwendeten Random-Baseline zeigen. Weiterhin wird durch Anwendung der trainierten Agenten auf die Benchmarking-Versuche das zielgerichtete Design von minimalen Quantenschaltkreisen zur Erzeugung einer Auswahl an 2-qubit Bell States gezeigt.

Betreuer: Michael Kölle, Philipp Altmann, Claudia Linnhoff-Popien

Final Productive Fitness in Evolutionary Algorithms and its Approximation via Neural Network Surrogates

Bachelorarbeit (November 2023)

Autor: Sarah Gerner

Abstract:

Evolutionäre Algorithmen sind bekannte Optimierungsmethoden. Ein wesentlicher Bestandteil ist die Fitnessfunktion, der die Kandidatenlösungen evaluiert. Kürzlich wurde angenommen, dass leicht veränderte Fitnessfunktionen einfachere Lösungslandschaften für Optimierungen liefern können als die Zielfunktionen. Die endgültige produktive Fitness wurde eingeführt, und es wird argumentiert, warum die endgültige produktive Fitness die ideale Fitnessfunktion darstellt. Sie wird aus dem Durchschnitt der objektiven Fitness aller ihrer möglichen Nachkommen berechnet. Da sie nicht effizient berechnet werden kann, weil die Nachkommenschaft exponentiell ansteigt, wird sie derzeit als aposteriori-Näherung verwendet. In dieser a posteriori-Näherung wurde die endgültige produktive Fitness für alle Individuen berechnet, nachdem ein evolutionärer Prozess stattgefunden hat. Dieser Näherungswert kann dann für die anschließende Analyse des Evolutionsprozesses verwendet werden. Das Ziel in dieser Arbeit ist es, die a-posteriori Näherung der approximierten endgültigen produktiven Fitness genauer zu untersuchen und sie mit einem neuronalen Netz-Surrogatmodell zu approximieren. Surrogatmodelle sind nützlich, um schwer zu berechnende Fitnessfunktionen in evolutionären Algorithmen zu approximieren und können Zeit bei der Berechnung weiterer Fitnesswerte sparen. Außerdem haben Surrogatmodelle das Potenzial, weniger komplexe Fitnesslandschaften zu erzeugen. Unsere Ergebnisse zeigen, dass die a posteriori-Approximation der endgültigen produktiven Fitness einfachere Lösungslandschaften liefert als die Zielfunktion und die Fitnesslandschaften der Surrogatmodell-Approximation einfacher sind als die der a posteriori-Approximation. Durch Erhöhung des Mutationsfaktors werden die Lösungslandschaften noch einfacher. Außerdem konnte unser Surrogatmodell die globalen Optima in einer schwierigen Lösungslandschaft identifizieren. Diese Ergebnisse zeigen die erfolgreiche Anwendung unserer Methode mit der approximierten endgültigen produktiven Fitness in evolutionären Algorithmen mit Surrogatmodellen.

Betreuer: Thomas Gabor, Philipp Altmann, Claudia Linnhoff-Popien

The Impact of Action Order in Multi-Agent Reinforcement Learning

Masterarbeit (November 2023)

Autor: Matthias Fruth

Abstract:

Der vorherrschende Weg Multi-Agent-Reinforcement Learning (MARL) Algorithmen zu entwerfen, erlaubt jedem Agenten, eine individuelle Aktion pro globaler Zeiteinheit auszuführen. Diese Aktionen werden in der Theorie zeitglich ausgeführt. Die meisten MARL-Umgebungen sind jedoch simuliert, was bedeutet, dass die Aktionen in einer beliebigen sequenziellen Reihenfolge ausgeführt werden. Somit werden zum Beispiel Pattsituationen gelöst. Der am weitesten verbreitete Ansatz ist es, die Reihenfolge, in welcher die Aktionen ausgeführt werden, zufällig zu wählen. Dies führt aus Sicht der Agenten zu Stochastizität in der Umgebung, wodurch die globale Performance negativ beeinflusst werden kann. Um dieses Problem zu behandeln, werden im Rahmen dieser Arbeit mehrere simulierte Umgebungen implementiert. Die Umgebungen sind ein einfaches Matrix Spiel und mehrere Grid World-Umgebungen. Zu den Umgebungen gehören dass „One-Step-Game“, ein einfaches Matrix-Spiel, der „Enge Korridor“, in dem sich 2 Agenten koordinieren müssen, um aneinader vorbeizukommen, die „N-Puzzles“, in denen 4-8 Agenten numerierte Platten repräsentieren und eine bestimmte Anordnung finden müssen, und dassas „Intelligente Lagerhause“, in dem 4 Agenten sowohl Navigationsaufgaben lösen müssen als auch Gegenstände aufnehmen und wieder ablegen. Diese Umgebungen erlauben es, die Aktionsreihenfolge extern festzulegen. Zudem sind die Umgebungen so konzipiert, dass es Zugreihenfolgen gibt, welche bessere Ergebnisse erzielen als eine zufallsbasierte. Die Agenten werden mit den MARL-Algorithmen IDQL, VDN, QMIX, IPPO und MAPPO trainiert. 4 verschiedene Ansätze werden zusätzlich zur zufallsbasierten Aktionsreihenfolge getestet. Die Reihenfolge wird unter anderem konstant gehalten, sie wird den Beobachtungen der Agenten hinzugefügt, und sie wird von einem zusätzlichen zentralen Agenten bestimmt, der als Planer fungiert. Ein weiterer Ansatz testet, ob es einen Einfluss auf die Agenten hat, wenn die Beobachtungen nach jeder einzelnen ausgeführten Aktion aktualisiert werden. Die Ansätze wurden zentral und dezentral evaluiert, wobei eine randomisierte Zugreihenfolge als Vergleichswert diente. Für das „One-Step-Game“ erzielen alle 4 Ansätze bessere Ergebnisse als eine zufällige Zugreihenfolge. Die Architektur mit zentralem Planer erzielt für alle Umgebungen bessere Ergebnisse als eine zufallsbasierte Zugreihenfolge. Für das „Intelligente Lagerhaus“ erzielen die so trainierten Agenten auch während der Evaluierung mit einer randomisierten Zugreihenfolge bessere Ergebnisse als jene, welche bereits mit einer randomisierten Zugreihenfolge trainiert wurden. Die Ergebnisse werden diskutiert und mögliche Interpretationen werden vorgestellt. Letztendlich wird ein Ausblick sowie mögliche zukünftige Themen gegeben.

Betreuer: Fabian Ritz, Maximilian Zorn, Claudia Linnhoff-Popien

Development of a Universal Multi-Agent Reinforcement Learning Environment for Predator-Prey Research

Bachelorarbeit (November 2023)

Autor: Yannick Erpelding

Abstract:

In den letzten Jahren hat die Wirksamkeit von Methoden des Multi-Agent Reinforcement Learning dazu geführt, dass die komplizierten Interaktionen zwischen mehreren Agenten in bestimmten Umgebungen eingehend untersucht und simuliert wurden. Insbesondere die Untersuchung der Predator-Prey Dynamik hat großes Interesse geweckt. Es wurden bereits zahlreiche Studien durchgeführt und grafische Schnittstellen geschaffen, um das Agentenverhalten in Predator-Prey Szenarien systematisch zu bewerten und zu analysieren. Bislang erforderten solche Untersuchungen jedoch immer die zeitintensive Entwicklung spezieller Umgebungen, die auf die jeweiligen experimentellen Anforderungen zugeschnitten waren. Dementsprechend zielt diese Arbeit darauf ab, eine universelle Multi-Agent Reinforcement Learning Umgebung für die Predator-Prey Forschung zu entwickeln, die die Untersuchung von auftretenden Multi-Agenten-Verhaltensweisen in verschiedenen Szenarien ermöglicht. Die neu-entwickelte Umgebung, Predator-Prey-Aquarium genannt, bietet realistische physikbasierte Agentenbewegungen und die Anpassung verschiedener Parameter, die mit den Beobachtungen, Aktionen und Belohnungen der Agenten zusammenhängen. Darüber hinaus können die Eigenschaften der Agenten angepasst werden, zum Beispiel die Vermehrung der Prey Agenten und das Aushungern der Predator Agenten. Zusätzlich unterstützt die Umgebung die Aufzeichnung der Episoden als Videodateien, die ein visuelles Verständnis der Agentenstrategien ermöglichen. Der Code des Predator-Prey-Aquariums ist verfügbar unter folgendem Link https://github.com/yannickErp/marl-predator-prey-aquarium. Um die Fähigkeiten der Umgebung zu veranschaulichen, wurden Prey Agenten mit Hilfe eines Proximal Policy Optimization Algorithmus gegen einen Predator Agenten mit statischem Algorithmus trainiert. Die Ergebnisse zeigten, dass individuell trainierte Prey Agenten nur begrenzte Ausweichfähigkeiten aufwiesen, während die mit gemeinsamer Nutzung von Parametern trainiert wurden, koordinierte Bewegungen und eine insgesamt bessere Leistung zeigten.

Betreuer: Michael Kölle, Fabian Ritz, Claudia Linnhoff-Popien

Efficient semi-supervised quantum anomaly detection using one-class support vector machines

Bachelorarbeit (November 2023)

Autor: Afrae Ahouzi

Abstract:

Quantencomputing ist eine aufstrebende Technologie, die verschiedene Aufgaben des maschinellen Lernens verbessern kann. Durch die Kombination der Darstellungsleistung eines klassisch harten Quantenkerns und der Einklassen-SVM kann eine spürbare Verbesserung der durchschnittlichen Genauigkeit im Vergleich zur klassischen Version erreicht werden. Die übliche Methode zur Berechnung dieser Kernel ist jedoch mit einer quadratischen Zeitkomplexität in Bezug auf die Datengröße verbunden. Um dieses Problem zu lösen, versuchen wir zwei verschiedene Methoden. Die erste besteht darin, den Quantenkern mit Hilfe von Zufallsmessungen zu messen, während die zweite die Ensemble-Methode der variablen Subsampling verwendet, um eine lineare Zeitkomplexität zu erreichen. Unsere Experimente zeigen, dass diese beiden Methoden die Trainingszeiten um bis zu 95 % und die Inferenzzeiten um bis zu 25 % reduzieren. Obwohl die Methoden zu einer geringeren Leistung führen, ist die durchschnittliche Genauigkeit etwas besser als beim klassischen RBF-Kernel.

Betreuer: Michael Kölle, Robert Müller, Claudia Linnhoff-Popien

Empowerment for Evolutionary Algorithms

Bachelorarbeit (November 2023)

Autor: Moritz Glawleschkoff

Abstract:

Im Bereich des Reinforcement-Learnings hat die Suche nach einem intrinsischen Antrieb bei Agenten zu dem Konzept der “Maximierung des Einflusses auf die Umwelt” geführt ([SGP13]), das gemeinhin als empowerment-getriebene Agenten bezeichnet wird. Dieses Konzept scheint für natürliche Systeme insgesamt glaubwürdig zu sein, da jedes System, das nicht dazu neigt empowerment-getrieben zu sein, letztendlich von empowerment-getriebenen Systemen annektiert werden kann. Über die Dauer der Zeit überleben nur empowerment-getriebene Agenten. Ähnlich wie Agenten beim Reinforcement-Learning Tiere mit neuronalen Netzwerken simulieren, imitieren evolutionäre Algorithmen (EAs) die biologische Evolution. In Anbetracht der potenziellen Relevanz von empowerment-getriebenen Systemen in der Natur könnte die Einbeziehung des Empowerments in evolutionäre Algorithmen eine logische Weiterentwicklung sein. In dieser Studie wird Empowerment in EAs als die informationstheoretische Channel-Capacity von Individuen der aktuellen Generation zu denen der nachfolgenden Generation eingeführt. Diese neuartige Empowerment-Metrik in evolutionären Algorithmen wird dann als Fitness der Individuen übernommen, was eektiv zu einem intrinsisch motivierten EA führt. Darüber hinaus wird ein alternativer Ansatz vorgestellt, bei dem Empowerment als Mittel zur Förderung der Diversität innerhalb der Population vor der Problemoptimierung eingesetzt werden kann. Obwohl das Experimentieren mit empowerment-getriebenen EAs zur Optimierung verschiedener Probleme in einem constrained State-Space einige Vorteile erkennen lässt, ist eine breite Anwendbarkeit nicht ohne weiteres ersichtlich.

Betreuer: Thomas Gabor, Maximilian Zorn, Claudia Linnhoff-Popien

Using Quantum Machine Learning to Predict Asset Prices in Financial Markets

Masterarbeit (November 2023)

Autor: Maximilian Adler

Abstract:

Im Finanzwesen wird viel Aufwand betrieben, um zukünftige Vermögenspreise vorherzusagen. Schon eine kleine Steigerung der Prognosefähigkeit kann enorme Gewinne generieren. Einige statistische Modelle identifizieren Muster, Trends und Korrelationen in vergangenen Preisen und wenden diese an, um zukünftige Vermögenspreise vorherzusagen. Ein neuartiger Ansatz ist die Verwendung künstlicher Intelligenz, um die zugrunde liegenden Trends in den Daten zu erlernen und zukünftige Vermögenspreise vorherzusagen. Mit der rasanten Weiterentwicklung von Quantencomputern werden auch diese Anwendungsbereiche, insbesondere im Hinblick auf maschinelles Lernen, immer interessanter. Diese Arbeit implementiert mehrere Modelle dieser verschiedenen Gruppen: ARIMA, RBM, LSTM und QDBM (Quantum Deep Boltzmann Machine). Diese Modelle werden mithilfe historischer Vermögenspreise trainiert und zur Vorhersage zukünftiger Vermögenspreise verwendet. Die Vorhersagen der Modelle dienen außerdem als Eingabe für einen simulierten Handelsalgorithmus, der die Effektivität dieser Vorhersagen beim aktiven Handel von Vermögenswerten untersucht. Die Vorhersagen werden für zehn verschiedene Vermögenswerte durchgeführt, die an der NYSE, NASDAQ und XETRA notiert sind. Der betrachtete Zeitraum erstreckt sich über fünf Jahre, von 2018 bis 2022. Die ausgewählten Vermögenswerte stammen aus verschiedenen Industriesektoren und weisen unterschiedliche Preisverläufe auf. Der Handel, basierend auf den Modellvorhersagen, konnte die klassische Buy-and-Hold-Strategie in neun der zehn getesteten Vermögenswerte entweder erreichen oder übertreffen.

Betreuer: Jonas Stein, Jonas Nüßlein, Claudia Linnhoff-Popien

Dimensionality Reduction with Autoencoders for Efficient Classification with Variational Quantum Circuits

Bachelorarbeit (Oktober 2023)

Autor: Jonas Maurer

Abstract:

Quantencomputing verspricht insbesondere bei datenintensiven und komplexen Berechnungen Leistungsvorteile. Allerdings befinden wir uns derzeit in der Noisy-Intermediate-Scale-Quantum Ära mit einer begrenzten Anzahl von Qubits, was es erschwert diese potentiellen Quantum-Advantages bei maschinellem Lernen zu realisieren. Mehrere Lösungen wurden vorgeschlagen, wie beispielsweise das hybride Transfer-Learning, bei dem ein vortrainiertes klassisches neuronales Netz als Feature-Extractor und ein Variational Quantum Circuit als Classifier fungiert. Während diese Ansätze oft gute Ergebnisse liefern, ist es nicht möglich, den Beitrag des klassischen und des Quantenanteils zu der Gesamtperformance eindeutig zu bestimmen. Ziel dieser Arbeit ist es daher, ein hybrides Modell einzuführen, das die genannten Einschränkungen behandelt und eine klare Unterscheidung zwischen den Komponenten in Bezug auf die Gesamtleistung vornimmt. ZurReduktion der Input-Dimension wird ein Autoencoder verwendet. In diesem Zusammenhang wollen wir auch die Leistung von Transfer-Learning-Modellen (Dressed Quantum Circuit und SEQUENT) und einem Variational Quantum Circuit mit Amplitude Embedding mit unserem Modell vergleichen. Zusätzlich wird die Leistung eines rein klassischen neuronalen Netzes und eines Autoencoders in Kombination mit ebendiesem untersucht. Wir vergleichen die Test-Accuracies der Modelle über die Datensätze Banknote Authentication, Breast Cancer Wisconsin, MNIST und AudioMNIST. Die Ergebnisse zeigen, dass das klassische neuronale Netz und die hybriden Transfer-Learning-Ansätze eine bessere Performance liefern als unser Modell. Das entspricht unseren Erwartungen und deutet darauf hin, dass der klassische Teil des Transfer-Learnings in der Tat den Großteil an der Gesamtperformance leistet. Im Vergleich zu einem Variational Quantum Circuit mit Amplitude Embedding ist kein signifikanter Unterschied zu beobachten, sodass unser Modell eine valide Alternative zu diesem darstellt.

Betreuer: Michael Kölle, Philipp Altmann, Claudia Linnhoff-Popien

Quantum-Enhanced Denoising Diffusion Models

Masterarbeit (Oktober 2023)

Autor: Gerhard Stenzel

Abstract:

Machine Learning Modelle zur Erzeugung von Bildern haben im letzten Jahr stark an Bekanntheit gewonnen. DALL-E, Craiyon und Stable Diffusion können hochauflösende Bilder erzeugen, indem die Nutzer nur eine kurze Beschreibung (Prompt) des gewünschten Bildes eingeben. Ein weiteres wachsendes Feld ist die Quanteninformatik, besonders das Quantum-enhanced Machine Learning. Quantencomputer lösen Probleme mit Hilfe ihrer einzigartigen quantummechanischen Eigenschaften. In dieser Arbeit wird untersucht, wie die Verwendung von Quantum-enhanced Machine Learning und Variational Quantum Circuits die Bildgenerierung durch Diffusion-basierte Modelle verbessern kann. Dabei wird auf die beiden größten Schwächen von klassischen Diffusionsmodellen eingegangen, die niedrige Geschwindigkeit beim Sampling und die hohe Anzahl an benötigten Parametern. Es werden Implementierungen eines Quantum-enhanced Denoising Diffusion Models präsentiert und ihre Leistung mit der von klassischen Modellen verglichen, indem die Modelle auf bekannten Datensätzen (MNIST digits und fashion, CIFAR10) trainiert werden. Wir zeigen, dass unsere Modelle eine bessere Leistung (gemessen in FID, SSIM und PSNR) liefern als die klassischen Modelle mit vergleichbarer Anzahl an Parametern.

Betreuer: Michael Kölle, Jonas Stein, Claudia Linnhoff-Popien

Approximating Quadratic Unconstrained Binary Optimization Problems using Graph Convolutional Neural Networks

Masterarbeit (Oktober 2023)

Autor: Felix Ferdinand Mindt

Abstract:

Die derzeit verfügbare Quantum Annealing-Hardware hat aufgrund von Beschränkungen in Größe und Konnektivität noch nicht den Stand erreicht, um erfolgreich mit effzienten Algorithmen auf klassischen Computern konkurrieren zu können. Angesichts dieser Herausforderung wurde eine Herangehensweise vorgestellt, welche QUBO-Matrizen vor dem Lösen auf der Quantenhardware approximiert, indem bestimmte Einträge herausgestrichen werden. Dadurch reduziert sich die Größe und Komplexität des benötigten Embeddings und es werden Vorteile in Bezug auf die Größe der lösbaren Probleme sowie die Qualität der Lösungen erwartet. Wir werden auf diesem Ansatz aufbauen und ihn erweitern, indem wir mithilfe künstlicher neuronaler Netze versuchen, geeignete Approximationen basierend auf der Struktur der Matrix zu generieren. Das vorgeschlagene Modell besteht aus zwei separaten neuronalen Netzen: einem Graph Convolutional Network, um Eigenschaften für die Knoten im QUBO-Graphen zu berechnen und einem zweiten vollständig verbundenen Netzwerk, welches entscheidet, ob die Verbindung zwischen zwei Knoten aus der Matrix entfernt werden soll. Unter Verwendung eines genetischen Algorithmus wird das Modell trainiert, wozu Instanzen von sieben verschiedenen Problemen verwendet werden. Problemspezifische Phasenübergänge wurden berücksichtigt, damit das Modell in der Trainingsphase mit einfachen als auch mit schwierigen Probleminstanzen konfrontiert wird. Die trainierten Modelle wurden anschließend mit klassischen und quantenmechanischen Solvern evaluiert, wobei die Qualität der Lösungen der approximierten Matrix mit denen der ursprünglichen Matrix, einer anderen Approximationsstrategie und klassischen Ansätzen verglichen wurde. Die Experimente lieferten grundsätzlich zufriedenstellende Ergebnisse, teilweise konnte die approximierte Matrix bessere Ergebnisse erzielen als die ursprüngliche Matrix. Gleichzeitig wurde jedoch auch deutlich, dass dieser Ansatz nicht für alle Problemen anwendbar ist.

Betreuer: David Bucher, Sebastian Zielinski, Claudia Linnhoff-Popien

Coconut Palm Tree Counting in Drone Images with Deep Object Detection

Bachelorarbeit (Oktober 2023)

Autor: Barbara Böhm

Abstract:

Die Drohnentechnologie hat in der Landwirtschaft vielfältige Einsatzpotentiale. In den letzten Jahren hat sich die Objekterkennung als Teilgebiet der Computer Vision dank der Fortschritte im Bereich Deep Learning erheblich weiterentwickelt. Diese Arbeit analysiert die Anwendbarkeit von YOLO (You Only Live Once) zur Erkennung und Zählung von Kokosnusspalmen in Drohnenaufnahmen am Beispiel einer Farm in Ghana, Westafrika. YOLO stellt eine Reihe an Echtzeit-Objekterkennungssystemen dar. Der Kokosnussanbau spielt für die Wirtschaft vieler westafrikanischer Länder eine wichtige Rolle. Eine genaue Überwachung der Kokosnussbestände ist für eine gut organisierte Ertragsschätzung erforderlich. Aufgrund der extremen Wetterbedingungen in der Trockenzeit besteht die Gefahr, dass die Kokospalmen verderben oder austrocknen. Das für den Anwendungsfall gewählte Projekt durchlief bereits zwei Anbauphasen während der Regenzeit. Dies bedeutet, dass die Palmen in Höhe und Alter variieren. Nach einer Weile verlor das Projekt den Überblick über die Anzahl der gepflanzten Kokospalmen. Eine manuelle Erfassung ist zeitaufwändig, arbeitsintensiv und fehleranfällig. Diese Arbeit untersucht, ob YOLO zur Erkennung und Zählung der Anzahl der Palmen als Teil eines halbautomatischen Datenflusses verwendet werden kann und ob das Endergebnis ein nützliches Instrument für Landwirte sein könnte. Die Datenerfassung fand im September 2022 statt. Teile des Landes wurden fotografiert, indem Drohnenbilder aus verschiedenen Höhen aufgenommen wurden. Strategien wurden getestet, um das Ergebnis der YOLO-Objektzählung mit begrenzten Daten zu verbessern. Für das Training und die Validierung des Modells wurden neue synthetische Bilder erstellt. Die vorliegende Arbeit ordnet den Anwendungsfall in den Bereich der Computer Vision ein und gibt einen Überblick über Fortschritte bei der Objekterkennung mit Schwerpunkt auf YOLO als Algorithmus. YOLOv7 ist eine Deep-Learning-Architektur zur Echtzeit-Erkennung mehrerer Objekte. Die Implementierung erfolgt mit vorab trainierten Gewichten, die mit einem populären Bilderkennungsdatensatz namens COCO (Common Objects in Context) trainiert wurden. Dieser enthält 80 verschiedene Objektkategorien, jedoch keine Kokospalmen. Das YOLO-Training erfolgte unter Verwendung von benutzerdefinierten Daten. Trainings- und Validierungsdaten wurden synthetisch generiert, indem eine bestimmte Anzahl von Kokospalmen aus den Drohnenbildern ausgewählt und ausgeschnitten wurden. Diese wurden dann zufällig platziert und gedreht, ohne sich zu überlappen. Der Hintergrund ist mithilfe eines Stable Diffusion Service erstellt. Als Testdaten wurden echte Drohnenbilder verwendet. In mehreren Experimenten wurde die Mean Average Precision (mAP) verbessert, die als Metrik im Bereich der Objekterkennung verbreitet ist. Die Versuche variierten Eingangsparameter, wie die Anzahl der Objektklassen und Hyperparameter, wie die Anzahl der eingefrorenen Ebenen des Modells. Der Test umfasste die Verwendung von Bilddaten aus verschiedenen Höhen, um die optimale Flughöhe der Drohne zu ermitteln. Ausgehend von einem mAP@.5-Basiswert von 0,65, der in den ersten Modelltests erreicht wurde, konnte die Metrik auf einen Durchschnittswert von 0,82 verbessert werden. Für den Anwendungsfall in der Landwirtschaft scheint dies gut genug zu sein, um das Projekt zu planen. Der Ansatz der synthetisch erzeugten Bilder hat sich als nützlich erwiesen.

Betreuer: Robert Müller, Fabian Ritz, Claudia Linnhoff-Popien

Einfluss von Embedding Methoden auf Generalisierbarkeit in Quantum Machine Learning

Masterarbeit (August 2023)

Autor: Steffen Brandenburg

Abstract:

Quantum Machine Learning ist ein vielversprechendes Anwendungsgebiet für Quantum Computer. Um aber reale Vorteile gegenüber klassischen Computern zu sehen, benö- tigt es ausgereifte Quantum Grundlagen. Ein Grundbaustein von Quantum Computern sind Embeddings, welche reelle Daten in Quantum Daten umwandeln. In dieser Arbeit stehen der Einfluss verschiedener Embedding-Methoden auf die ”Qualität” eines Quantum Machine Learning Modells im Mittelpunkt. Da der Fokus auf diesen Embeddings liegt, werden Modell und Quantum Circuit simpel gehalten. Sie lösen ein binäres Klassifikationsproblem. Dennoch ist auch das Zusammenspiel von bestimmten Embeddings mit verschiedenen Circuits von Interesse und darauf wird in dieser Arbeit knapp eingegangen. Da in der Literatur bereits viel zu den Embedding-Methoden ”Angle-Embedding” und ”Amplitude-Embedding” existiert, fokussiert diese Arbeit auch auf andere Embedding- Methoden aus der Literatur. Zum Bestimmen der Qualität eines Modells untersuchten wir die Generalisierbarkeit. Dazu wurden verschiedene Maße aus dem klassischen Machine Learning verwendet. Es konnte zwar die Frage nach einem besten Embedding nicht beantwortet werden, dennoch konnten interessante Erkenntnisse zu den Auswirkungen der Embeddings bei unterschiedlichen Datensätzen gewonnen werden.

Betreuer: Leo Sünkel, Thomas Gabor, Claudia Linnhoff-Popien

Community detection für gewichtete Graphen mittels Trennknotenerkennung in der NISQ Ära

Bachelorarbeit (August 2023)

Autor: Dominik Ott

Abstract:

Ein wichtiges Optimierungsproblem in der Informatik ist die Community Detection. Dabei können durch die Analyse von Netzwerken sogenannte Communities gefunden werden und wichtige Informationen in vielen Bereichen – von der Biologie bis zu sozialen Strukturen – abgeleitet werden. Durch Gewichte an den einzelnen Kanten können noch mehr Informationen verarbeitet werden als durch die bloße Existenz jener Kanten, jedoch müssen für die Community Detection auf gewichteten Graphen dadurch auch mehr Faktoren berücksichtigt werden. Als NP-schweres Optimierungsproblem werden häufig Heuristiken benutzt, um schneller und effizienter eine akzeptable Lösung zu finden. Ein vielversprechender Ansatz ist dabei die Nutzung von Quanten-Computern, da bereits experimentell gezeigt werden konnte, dass diese in bestimmten Bereichen (z.B. Grover oder Shor-Algorithmus) effizienter Resultate erzielen können als klassische Computer. Da die meisten Ansätze für Community Detection durch QUBO-Matrizen jedoch sehr viel Speicherplatz verbrauchen, ist das Ziel dieser Arbeit einen Ansatz mit möglichst guter Speichereffizienz zu finden. Dafür wird ein vielversprechender Ansatz für die Community Detection vorgestellt, der auf der Erkennung und Analyse von Trennknoten basiert, was den Vorteil bietet, dass die Dimensionen der daraus resultierenden QUBO-Matrix die Anzahl der Knoten nicht übersteigen und die Matrix selber genauso dünn besetzt ist wie die Adjazenzmatrix des Graphs. Diese Trennknoten sollen den Graphen bei ihrer Entfernung so unterteilen, dass die übrig gebliebenen Komponenten jeweils exakt Teil einer Community sind. Dieser Ansatz wird auf gewichtete Graphen ausgebaut, indem die Wahrscheinlichkeit, dass es sich bei einer Kante um eine Trennkante handelt, anhand des Informationsdurchflusses der Nachbarschaft bestimmt wird. Dies wird anhand von synthetisch hergestellten Graphen mit einer festen Grundwahrheit über deren Communities, denen Gewichte zugewiesen werden ohne die Community-Struktur zu verändern, überprüft.

Betreuer: Jonas Stein, Jonas Nüßlein, Claudia Linnhoff-Popien

Anwendung von Graphpartitionierungsalgorithmen und genetischen Algorithmen zur Optimierung der Teleportationskosten in verteilten Quantenschaltkreisen

Bachelorarbeit (August 2023)

Autor: Teodor Slaveykov

Abstract:

Derzeit befinden wir uns in der Noisy Intermediate Scale Quantum (NISQ) – Ära, in der die Anzahl der Qubits, die in einem einzelnen Quantencomputer verwendet werden können, zunimmt. Mit dieser Entwicklung entstehen jedoch Herausforderungen bei der Handhabung großer Quantensysteme. Die verteilte Quantenberechnung gewinnt daher an Bedeutung, um diese Herausforderungen zu bewältigen. Dabei werden mehrere Quantencomputer oder Quantenverarbeitungseinheiten miteinander verbunden, um gemeinsam an einem Problem zu arbeiten. Dies ermöglicht die Nutzung größerer Rechenkapazitäten und effizientere Lösungen komplexer Aufgaben. In der verteilten Quantenberechnung kommunizieren verschiedene Einheiten oder Teilsysteme miteinander, um Quanteninformation auszutauschen. Dabei spielt das grundlegende Teleportationsprotokoll eine wichtige Rolle. Es ermöglicht die Übertragung von Quanteninformationen zwischen den Teilsystemen. Ein wichtiger Aspekt besteht darin, die Anzahl der Teleportationen zu minimieren. Somit wird angestrebt, die Genauigkeit der Quantenberechnungen zu steigern, die Fehleranfälligkeit der Qubits zu reduzieren und gleichzeitig den Ressourcenverbrauch effizienter zu gestalten. In dieser Arbeit werden verschiedene Graphpartitionierungsalgorithmen, wie der Kernighan-Lin-Algorithmus und die Spektrale Partitionierung, ein Genetischer Algorithmus (GA) sowie zwei hybride Genetische Algorithmen (HGA), die eine Kombination aus den Graphpartitionierungsalgorithmen und einem GA sind, angewendet und untersucht, um die Anzahl globaler Quantengatter und die damit verbundenen Teleportationskosten zu minimieren. Zunächst werden die Graphpartitionierungsalgorithmen verwendet, um die Knoten möglichst gleichmäßig zu partitionieren. Zusätzlich wird ein GA implementiert, der sich um die Aufteilung der Qubits mittels zufälliger Partitionen kümmert. Die beiden HGA führen zu einer nahezu optimalen Anordnung der globalen Quantengatter, nachdem die Qubits mithilfe der Graphpartitionierungsalgorithmen partitioniert sind. Schließlich werden die vorgeschlagenen Ansätze anhand von neun Benchmark-Schaltkreisen untersucht und hinsichtlich der Anzahl globaler Quantengatter und Teleportationskosten verglichen. Außerdem werden zufällige Suchläufe für den GA und der beiden HGA durchgeführt, um deren Leistungsfähigkeit in Bezug auf das Optimierungsziel zu überprüfen. Die Ergebnisse deuten auf eine signifikante Verbesserung der Teleportationskosten hin.

Betreuer: Leo Sünkel, Thomas Gabor, Claudia Linnhoff-Popien

Multi-Agent Exploration through Peer Incentivization

Masterarbeit (August 2023)

Autor: Johannes Tochtermann

Abstract:

Während Exploration im Bereich des bestärkenden Lernens (Reinforcement Learning) mit einem einzelnen Agenten innerhalb der letzten Jahre weitreichend untersucht wurde, gibt es diesbezüglich weitaus weniger Arbeiten im Bereich des bestärkenden Lernens mit Multi-Agenten-Systemen (Multi-Agent Reinforcement Learning). Um diese Lücke zu adressieren, wird in dieser Arbeit eine Belohnungsfunktion mit Peer Incentivisation Mechanismus (d.h., Agenten haben die Möglichkeit, sich gegenseitig zu belohnen) vorgeschlagen, inspiriert von vorangegangenen Arbeiten in den Bereichen intrinsische Neugier und Belohnung basierend auf Einfluss. Die PIMAEX Belohnung – kurz für Peer-Incentivised Multi-Agent Exploration – zielt darauf ab, Exploration in Multi-Agenten Szenarien zu verbessern, und gibt Agenten einen Anreiz, in einer Art und Weise aufeinander Einfluss auszuüben, die es wahrscheinlicher macht, dass die Agenten neue Zustände (im Zustandsraum ihrer Umgebung) entdecken. Die PIMAEX Belohnung wird in Verbindung mit PIMAEX-Communication evaluiert, einem Multi-Agenten Trainings-Algorithmus, der einen Kommunikationskanal nutzt, um Agenten Einfluss aufeinander ausüben zu lassen. Zur Evaluation werden Agenten in der Consume/Explore Umgebung trainiert, einer partiell-beobachtbaren Umgebung mit irreführenden Belohnungen, die mit dem Ziel entwickelt wurde, eine Herausforderung in Bezug auf das Exploration-vs.-Exploitation Dilemma sowie das Credit-Assignment Problem darzustellen. Die Resultate dieser Evaluation zeigen empirisch, dass Agenten, die die PIMAEX Belohnung in Verbindung mit PIMAEX-Communication nutzen, die Leistung von Agenten übertreffen, die dies nicht tun.

Betreuer: Michael Kölle, Claudia Linnhoff-Popien

LMU Links

Navigationspfad

Beliebte Seiten

Abschlussarbeiten

Designing Meta-Rewards for Multi-Agent Reinforcement Learning Cooperation

Masked Autoencoders for Unsupervised Anomalous Sound Detection

Evaluierung von metaheuristischen Optimierungsalgorithmen für Quantum Reinforcement Learning

Towards Less Greedy Quantum Coalition Structure Generation in Induced Subgraph Games

Specification Aware Evolutionary Error Search in Parameterized RL Environments

Optimierung von Variational Quantum Circuits für Hybride Quantum Proximal Policy Optimization Algorithmen

Link-Konfiguration für Satellitenkommunikation mittels Reinforcement Learning

Anomalous Sound Detection with Multimodal Embeddings

Beeinflussung von Verhalten durch Reward-Manipulation im Multi-Agent Reinforcement-Learning

Portraying Reinforcement Learning Policies via Diverse Behavior selected using Evolutionary Algorithms

Diversity-Driven Pre-Training for Efficient Transfer Reinforcement Learning

Konstruktion von Quantenschaltkreisen mit eingeschränkten Gattern

Balancing Populations with Multi-Agent Reinforcement Learning

Path-Connectedness of the Boundary between Features that Are Labeled Differently by a Single Layer Perceptron

Consensus-Based Mutual Acknowledgment Token Exchange

A Reinforcement Learning Environment for directed Quantum Circuit Synthesis

Final Productive Fitness in Evolutionary Algorithms and its Approximation via Neural Network Surrogates

The Impact of Action Order in Multi-Agent Reinforcement Learning

Development of a Universal Multi-Agent Reinforcement Learning Environment for Predator-Prey Research

Efficient semi-supervised quantum anomaly detection using one-class support vector machines

Empowerment for Evolutionary Algorithms

Using Quantum Machine Learning to Predict Asset Prices in Financial Markets

Dimensionality Reduction with Autoencoders for Efficient Classification with Variational Quantum Circuits

Quantum-Enhanced Denoising Diffusion Models

Approximating Quadratic Unconstrained Binary Optimization Problems using Graph Convolutional Neural Networks

Coconut Palm Tree Counting in Drone Images with Deep Object Detection

Einfluss von Embedding Methoden auf Generalisierbarkeit in Quantum Machine Learning

Community detection für gewichtete Graphen mittels Trennknotenerkennung in der NISQ Ära

Anwendung von Graphpartitionierungsalgorithmen und genetischen Algorithmen zur Optimierung der Teleportationskosten in verteilten Quantenschaltkreisen

Multi-Agent Exploration through Peer Incentivization

Unsere Aktivitäten

Veröffentlichungen

Informationen für

Jobs