Q-EvoQD: A Quantum Annealing-Based QualityDiversity Framework for Evolution Strategies inMulti-agent Reinforcement Learning

Mazyar Taghavi
Ihsan Ullah
Javad Vahidi

Read the full article

Discuss this preprint

Start a discussion What are Sciety discussions?

Listed in

This article is not in any list yet, why not save it to one of your lists.

Abstract

This paper presents Q-EvoQD, a hybrid quantum–classical framework thatintegrates Evolution Strategies (ES), Quality-Diversity (QD) optimization,and Quantum Annealing (QA) for improved exploration and optimization inMulti-Agent Reinforcement Learning (MARL). MARL problems exhibit highlynon-convex and deceptive landscapes, where gradient-based and classical evolutionarymethods often suffer from premature convergence. Q-EvoQD evolves policypopulations using ES, maintains behavioral diversity via a QD archive, and periodicallyrefines elite policies by mapping a combinatorial subproblem to a QuadraticUnconstrained Binary Optimization (QUBO) formulation solved through QA. Thisquantum-assisted refinement complements population-based search by enablingglobal exploration beyond local optima. Experimental results across cooperativeMARL benchmarks demonstrate improved performance, diversity, and convergencestability compared to classical ES- and QD-based baselines, with statisticallysignificant gains and moderate computational overhead. The findings highlightthe potential of quantum-enhanced optimization in scalable multi-agent learningsystems. All implementation code and supplementary materials are publiclyavailable on GitHub to ensure reproducibility.

Version published to 10.21203/rs.3.rs-8546324/v1 on Research Square
Feb 24, 2026

Learning to Build Quantum Kernels: A Reinforcement Learning Framework for Quantum SVC Optimization

This article has 7 authors:
1. Luigi Barbato
2. Giuseppe Buonaiuto
3. Lidia Marassi
4. Stefano Marrone
5. Carlo Sansone
6. Massimo Esposito
7. Francesco Gargiulo
This article has no evaluationsLatest version Mar 4, 2026
PVLS: A Learning-Based Parameter Initialization Method for Variational Quantum Linear Solvers

This article has 1 author:
1. Youla Yang
This article has no evaluationsLatest version Jan 29, 2026
Large-scale portfolio optimization using Pauli Correlation Encoding

This article has 2 authors:
1. Vicente P. Soloviev
2. Michal Krompiec
This article has no evaluationsLatest version Jan 29, 2026

Discuss this preprint

Listed in

Abstract

Article activity feed

Related articles

Learning to Build Quantum Kernels: A Reinforcement Learning Framework for Quantum SVC Optimization

PVLS: A Learning-Based Parameter Initialization Method for Variational Quantum Linear Solvers

Large-scale portfolio optimization using Pauli Correlation Encoding