Building a Security and Reliability Evaluation Suite for Retrieval-Augmented Generation (RAG) Systems

Pronoy Roy
Debayan Roy

Read the full article

Discuss this preprint

Start a discussion What are Sciety discussions?

Listed in

This article is not in any list yet, why not save it to one of your lists.

Abstract

Retrieval-Augmented Generation (RAG) enables large language models (LLMs) to produce domain-aware, up-to-date answers by conditioning on retrieved evidence. However, the additional retrieval stage introduces new failure modes, hence, evaluating security and reliability in Retrieval-Augmented Generation (RAG) systems is critical to deploying trustworthy applications. In this paper, we present Secure-RAG, a modular, security-first evaluation suite for multi-dimensional assessment of RAG systems, including factual accuracy, hallucination avoidance, adversarial robustness, bias and fairness, toxicity, security, and calibration. Secure-RAG instruments each stage (query, retrieval, generation) with lightweight monitors that compute standardized metrics. In an illustrative evaluation, we demonstrate Secure-RAG improves reliability without sacrificing utility. Secure-RAG’s integrated perspective security-utility tradeoffs that siloed tools often miss, and offers a practical template for continuous evaluation of RAG systems in risk-sensitive settings.

Version published to 10.20944/preprints202510.0418.v2
Oct 15, 2025
Version published to 10.20944/preprints202510.0418.v1
Oct 8, 2025

Building a Security and Reliability Evaluation Suite for Retrieval-Augmented Generation (RAG) Systems

This article has 2 authors:
1. Pronoy Roy
2. Debayan Roy
This article has no evaluationsLatest version Oct 15, 2025
SOMA-Bench: An Open Synthetic Benchmark and Evaluation Harness for Risk-Aware Recovery & Machine Identities in Post-Quantum IAM

This article has 1 author:
1. Sravanakumar Nidamanooru
This article has no evaluationsLatest version Oct 8, 2025
LPCI: Defining and Mitigating a Novel Vulnerability in Agentic AI Systems

This article has 6 authors:
1. Hammad Atta
2. Yasir Mehmood
3. Muhammad Zeeshan Baig
4. Muhammad Aziz Ul Haq
5. Ken Huang
6. Nadeem Shahzad
This article has no evaluationsLatest version Sep 4, 2025

Discuss this preprint

Listed in

Abstract

Article activity feed

Related articles

Building a Security and Reliability Evaluation Suite for Retrieval-Augmented Generation (RAG) Systems

SOMA-Bench: An Open Synthetic Benchmark and Evaluation Harness for Risk-Aware Recovery & Machine Identities in Post-Quantum IAM

LPCI: Defining and Mitigating a Novel Vulnerability in Agentic AI Systems