Federated Learning for XSS Detection: Analysing OOD, Non-IID Challenges, and Embedding Sensitivity

Bo Wang
Imran Khan
Martin White
Natalia Beloff

Read the full article

Discuss this preprint

Start a discussion What are Sciety discussions?

Listed in

This article is not in any list yet, why not save it to one of your lists.

Abstract

This paper investigates federated learning (FL) for cross-site scripting (XSS) detection under out-of-distribution (OOD) drift. Real-world XSS traffic involves fragmented attacks, heterogeneous benign inputs, and client imbalance, which erode conventional detectors. To simulate this, we construct two structurally divergent datasets: one with obfuscated, mixed-structure samples and another with syntactically regular examples, inducing structural OOD in both classes. We evaluate GloVe, GraphCodeBERT, and CodeT5 in both centralised and federated settings, tracking embedding drift and client variance. FL consistently improves OOD robustness by averaging decision boundaries from cleaner clients. Under FL scenarios, CodeT5 achieves the best aggregated performance (97.6% accuracy, 3.5% FPR), followed by GraphCodeBERT (96.8%, 4.7%), but is more stable on convergence. GloVe reaches a competitive final accuracy (96.2%) but exhibits a high instability across rounds, with a higher false positive rate (5.5%) and pronounced variance under FedProx. These results highlight the value and limits of structure-aware embeddings and support FL as a practical, privacy-preserving defence within OOD XSS scenarios.

Version published to 10.3390/electronics14173483
Aug 31, 2025
Version published to 10.20944/preprints202505.0439.v4
Jun 3, 2025
Version published to 10.20944/preprints202505.0439.v3
May 26, 2025
Version published to 10.20944/preprints202505.0439.v2
May 12, 2025
Version published to 10.20944/preprints202505.0439.v1
May 7, 2025

Beyond Semantic Noise: Diagnosing and Correcting Structural Bias in Code-Mixed Script Detection via XAI-Driven Hybridization

This article has 4 authors:
1. Prasert Teppap
2. Wirot Ponglangka
3. Panudech Tipauksorn
4. Prasert Luekhong
This article has no evaluationsLatest version Dec 18, 2025
MAD-OOD: A Deep Learning Cluster-Driven Framework for an Out-of-Distribution Malware Detection and Classification

This article has 6 authors:
1. Tosin Ige
2. Christopher Kiekintveld
3. Aritran Piplai
4. Asif Rahman
5. Olukunle Kolade
6. Sasidhar Kunapuli
This article has no evaluationsLatest version Dec 22, 2025
Domain Knowledge-Infused Synthetic Data Generation for LLM-Based ICS Intrusion Detection: Mitigating Data Scarcity and Imbalance

This article has 6 authors:
1. Seokhyun Ann
2. Hongeun Kim
3. Suhyeon Park
4. Seong-je Cho
5. Joonmo Kim
6. Harksu Cho
This article has no evaluationsLatest version Jan 14, 2026

Discuss this preprint

Listed in

Abstract

Article activity feed

Related articles

Beyond Semantic Noise: Diagnosing and Correcting Structural Bias in Code-Mixed Script Detection via XAI-Driven Hybridization

MAD-OOD: A Deep Learning Cluster-Driven Framework for an Out-of-Distribution Malware Detection and Classification

Domain Knowledge-Infused Synthetic Data Generation for LLM-Based ICS Intrusion Detection: Mitigating Data Scarcity and Imbalance