What are People Talking about in High-Dimension Data Visualization? LLM-supported Analysis of Domain Literature

Qianwen Wang
Xinyi liu
Nils Gehlenborg

Read the full article

Discuss this preprint

Start a discussion What are Sciety discussions?

Listed in

This article is not in any list yet, why not save it to one of your lists.

Abstract

Visualizing high-dimensional (HD) data is a common yet challenging task in various application domains. Previous surveys on HD visualization are conducted either in the visualization community or through the interview of a limited number of domain users. A comprehensive understanding of the usage of HD visualizations in the wild is missing. To fill this gap, we analyzed more than 1,000 papers from one representative domain (single-cell transcriptomics) that extensively employed HD data visualizations. To effectively analyze this extensive corpus filled with highly domain-specific terminologies, we propose a pipeline to effectively collaborate with an LLM annotator on interpreting and summarizing the usage of HD visualizations in the collected papers.This pipeline includes machine learning techniques for figure detection, traditional NLP methods for text cleaning, and LLM prompt engineering for nuanced interpretation.With this pipeline, we categorized HD visualization based on how users referred to and mentioned these visualizations in their papers.We then discussed representative visualizations for each category, as well as current practices and potential wrong uses.These analyses can assist the visualization community in designing and evaluating future HD visualizations.

Version published to 10.31219/osf.io/qtsak on OSF Preprints
Apr 3, 2024

DQVis Dataset: Natural Language to Biomedical Visualization

This article has 5 authors:
1. Devin Lange
2. Pengwei Sui
3. Shanghua Gao
4. Marinka Zitnik
5. Nils Gehlenborg
This article has no evaluationsLatest version Dec 15, 2025
Geranium: Multimodal Retrieval of Genomics Data Visualizations

This article has 6 authors:
1. Huyen N. Nguyen
2. Sehi L'Yi
3. Thomas Chris Smits
4. Shanghua Gao
5. Marinka Zitnik
6. Nils Gehlenborg
This article has no evaluationsLatest version Dec 27, 2025
Tuning Knowledge Graph Embeddings in Clustering with LISE

This article has 5 authors:
1. Verdiana Schena
2. Simona Colucci
3. Donini Francesco Maria
4. Floriano Scioscia
5. Eugenio Di Sciascio
This article has no evaluationsLatest version Dec 15, 2025

Discuss this preprint

Listed in

Abstract

Article activity feed

Related articles

DQVis Dataset: Natural Language to Biomedical Visualization

Geranium: Multimodal Retrieval of Genomics Data Visualizations

Tuning Knowledge Graph Embeddings in Clustering with LISE