Potential of ChatGPT in Youth Mental Health Emergency Triage: Comparative Analysis with Clinicians

Samanvith Thotapalli
Musa Yilanli
Ian McKay
William Leever
Eric Youngstrom
Karah Harvey-Nuckles
Kimberly Lowder
Steffanie Schweitzer
Erin Sunderland
Daniel I. Jackson
Emre Sezgin

Read the full article

Discuss this preprint

Start a discussion What are Sciety discussions?

Listed in

This article is not in any list yet, why not save it to one of your lists.

Abstract

Background

Large language models (LLMs), such as GPT-4, are increasingly integrated into healthcare to support clinicians in making informed decisions. Given ChatGPT’s potential, it is necessary to explore such applications as a support tool, particularly within mental health telephone triage services. This study evaluates whether GPT-4 models can accurately triage psychiatric emergency vignettes and compares its performance to clinicians.

Methods

A cross-sectional study with qualitative analysis was conducted. Two clinical psychologists developed 22 psychiatric emergency vignettes. Responses were generated by three versions of GPT-4 (GPT-4o, GPT-4o Mini, GPT-4 Legacy) using ChatGPT, and two independent nurse practitioners (clinicians). The responses focused on three triage criteria: risk (Low 1-3 High), admission (Yes-1; No-2), and urgency (Low 1-3 High).

Results

Substantial interrater reliability was observed between clinicians and GPT-4 responses across the three triage criteria (Cohen’s Kappa: Admission = 0.77; Risk = 0.78; Urgency = 0.76). Among the GPT-4 models, Kappa values indicated moderate to substantial agreement (Fleiss’ Kappa: Admission = 0.69, Risk = 0.63, Urgency = 0.72). The mean scores for triage criteria responses between GPT-4 models and clinicians exhibited consistent patterns with minimal variability. Admission responses had a mean score of 1.73 (SD = 0.45), risk scores had a mean of 2.12 (SD= 0.83), and urgency scores averaged 2.27 (SD = 0.44).

Conclusion

This study suggests that GPT-4 models could be leveraged as a support tool in mental health telephone triage, particularly for psychiatric emergencies. While findings are promising, further research is required to confirm clinical relevance.

Version published to 10.1101/2025.01.06.24319771 on medRxiv
Jan 6, 2025

Simple Prompting Enhances ChatGPT’s Diagnostic Accuracy in Psychiatric Cases

This article has 9 authors:
1. Seraphina Fong
2. Alessandro Carollo
3. Martina Dal Maso
4. Giovanni Martinotti
5. Debora Luciani
6. Yasser Saeed Khan
7. Luca Pellegrini
8. Ornella Corazza
9. Gianluca Esposito
This article has no evaluationsLatest version Oct 13, 2025
Evaluation of ChatGPT-5 Responses in Obstetric and Gynecological Emergencies: Concordance, Readability, and Clinical Reliability

This article has 5 authors:
1. Hale Cetin Arslan¹
2. Kadir Arslan²
3. Mehmet Gün³
4. Pakize Ozge Karkın¹
5. Tugce Arslanoglu¹
This article has no evaluationsLatest version Sep 24, 2025
University-Based Mental Health Services for Students: Scoping Review Protocol

This article has 5 authors:
1. Arif Tri Setyanto
2. probandari
3. Ratih Febrinasari
4. Moh Hakim
5. Andrian Liem
This article has no evaluationsLatest version Aug 18, 2025

Discuss this preprint

Listed in

Abstract

Background

Methods

Results

Conclusion

Article activity feed

Related articles

Simple Prompting Enhances ChatGPT’s Diagnostic Accuracy in Psychiatric Cases

Evaluation of ChatGPT-5 Responses in Obstetric and Gynecological Emergencies: Concordance, Readability, and Clinical Reliability

University-Based Mental Health Services for Students: Scoping Review Protocol