Exploring Text Mining and Analytics for Applications in Public Security: An in-depth dive into a systematic literature review

This article has been Reviewed by the following groups

Read the full article See related articles

Discuss this preprint

Start a discussion What are Sciety discussions?

Abstract

Text mining and related analytics emerge as a technological approach to support human activities in extracting useful knowledge through texts in several formats. From a managerial point of view, it can help organizations in planning and decision-making processes, providing information that was not previously evident through textual materials produced internally or even externally. In this context, within the public/governmental scope, public security agencies are great beneficiaries of the tools associated with text mining, in several aspects, from applications in the criminal area to the collection of people's opinions and sentiments about the actions taken to promote their welfare. This article reports details of a systematic literature review focused on identifying the main areas of text mining application in public security, the most recurrent technological tools, and future research directions. The searches covered four major article bases (Scopus, Web of Science, IEEE Xplore, and ACM Digital Library), selecting 194 materials published between 2014 and the first half of 2021, among journals, conferences, and book chapters. There were several findings concerning the targets of the literature review, as presented in the results of this article.

Article activity feed

  1. This Zenodo record is a permanently preserved version of a Structured PREreview. You can view the complete PREreview at https://prereview.org/reviews/17398706.

    A introdução explica o objetivo da pesquisa apresentada no preprint? Sim
    Os métodos são adequados para esta pesquisa? Moderadamente adequados A justificativa é a seguinte: Pontos positivos: Os autores seguem um método de Revisão Sistemática da Literatura (SLR), citando diretrizes reconhecidas de Kitchenham & Charters (2007), o que mostra alinhamento com as melhores práticas em engenharia e ciência da computação. Detalham o processo de busca, critérios de inclusão/exclusão, extração manual de dados, e ferramentas utilizadas (Mendeley, Python scripts, WordItOut). As buscas foram conduzidas em quatro bases de alto impacto (Scopus, Web of Science, IEEE Xplore e ACM DL), cobrindo 194 publicações entre 2014–2021 — uma amostra robusta e relevante. Limitações identificadas: Apesar do rigor geral, nem todas as etapas do protocolo PRISMA/Kitchenham foram apresentadas de forma completa — por exemplo, não há descrição detalhada das strings de busca, nem das etapas de triagem e análise quantitativa dos resultados. Falta maior reprodutibilidade, pois a metodologia de extração e categorização das informações é descrita, mas não validada por múltiplos revisores (risco de viés manual).
    As conclusões são sustentadas pelos dados? Moderadamente sustentadas Aspectos positivos: As conclusões refletem diretamente os resultados obtidos na revisão sistemática, destacando as principais áreas de aplicação da mineração de texto na segurança pública (cibersegurança, detecção de crimes, fraude, terrorismo, etc.) e as técnicas mais recorrentes (NLP, machine learning, TF-IDF, SVM, Naïve Bayes). Os autores também apresentam tendências e desafios futuros com base nas 194 publicações analisadas, o que indica coerência entre os dados coletados e as interpretações apresentadas. Não há extrapolação indevida — as conclusões permanecem dentro do escopo dos resultados, discutindo implicações práticas e oportunidades de pesquisa. Limitações: As conclusões carecem de análise quantitativa mais profunda (por exemplo, não há métricas estatísticas que relacionem a frequência de técnicas ou ferramentas com impacto prático). Embora baseadas em ampla revisão, as inferências são predominantemente descritivas, com pouca discussão crítica sobre vieses das fontes ou qualidade dos estudos revisados.
    As apresentações de dados, incluindo visualizações, são adequadas para representar os dados? Moderadamente adequadas e claras Pontos positivos: O artigo apresenta tabelas organizadas por áreas de aplicação (ex.: Cibersegurança, Detecção de Crimes, Fraude, Terrorismo etc.) com contagem de publicações por ano, o que facilita a compreensão da distribuição temporal e temática dos estudos. Há visualizações complementares, como Figura 1 (fluxo metodológico da revisão) e Figura 2 (nuvem de palavras das técnicas e tecnologias), que ajudam a sintetizar resultados de maneira visual e intuitiva. As tabelas são claras, bem rotuladas e consistentes, permitindo ao leitor verificar padrões e frequências de forma direta. Pontos de melhoria: As visualizações são predominantemente descritivas, com ausência de gráficos comparativos (como histogramas, heatmaps ou diagramas de coocorrência) que poderiam representar melhor as relações entre técnicas, áreas e tendências temporais. A acessibilidade visual é limitada — por exemplo, não há menção ao uso de contraste adequado, legendas detalhadas ou explicações textuais alternativas (essenciais para boas práticas de comunicação científica).
    Quão claramente os autores discutem, explicam e interpretam seus achados e possíveis próximos passos da pesquisa? De forma razoavelmente clara Aspectos positivos: A seção de resultados e a subsequente discussão são bem organizadas, com detalhamento por área de aplicação (cibersegurança, detecção de crimes, fraude, terrorismo, etc.), apresentando interpretações coerentes sobre tendências, técnicas mais recorrentes e lacunas. Os autores identificam oportunidades e desafios para pesquisas futuras em 17 áreas distintas, mostrando um bom nível de síntese e entendimento do panorama da literatura. A discussão mantém coerência com os dados levantados, evitando extrapolações indevidas. Limitações: Apesar de extensa, a discussão é mais descritiva do que analítica — há pouco aprofundamento sobre as razões subjacentes às tendências observadas (por exemplo, por que certas técnicas prevalecem em determinadas áreas). A seção poderia explorar melhor as implicações práticas e conexões teóricas entre as descobertas e o campo mais amplo da segurança pública e da ciência de dados aplicada.
    É provável que o preprint contribua para o avanço do conhecimento acadêmico? Razoavelmente provável Justificativas: O estudo aborda um tema emergente e interdisciplinar — mineração de texto aplicada à segurança pública — que combina ciência de dados, inteligência artificial e políticas públicas, áreas com crescimento significativo na literatura científica. A pesquisa oferece uma síntese inédita e abrangente de publicações entre 2014 e 2021, mapeando 19 áreas de aplicação e identificando técnicas, ferramentas e lacunas. Isso cria uma base de referência útil para pesquisadores que desejam aprofundar investigações nesse domínio. As recomendações de pesquisa futura (por exemplo, integração com deep learning e aplicações em cibersegurança) mostram um entendimento maduro das tendências e oportunidades. Limitações: A contribuição é mais consolidativa do que inovadora: o estudo organiza o conhecimento existente, mas não propõe um novo modelo teórico ou experimental. A ausência de análise quantitativa ou bibliométrica aprofundada reduz o potencial de impacto metodológico.
    Seria benéfico passar por uma revisão de linguagem? Sim O texto apresenta pequenos deslizes gramaticais, repetições e construções longas típicas de autores não nativos de língua inglesa. Em várias seções, há frases excessivamente extensas e pouco fluídas, o que reduz a clareza e pode dificultar a leitura acadêmica. Embora o conteúdo técnico esteja correto e compreensível, uma revisão linguística profissional (copyediting) ajudaria a aprimorar a coerência, concisão e estilo científico, especialmente nas transições entre parágrafos e na padronização de termos técnicos.
    Você recomendaria este preprint a outras pessoas? Sim, mas precisa ser aprimorado Pontos fortes O estudo é bem fundamentado, com tema atual e relevante. A metodologia de revisão sistemática é adequada e cobre bases de dados de alto impacto. Os resultados e conclusões são coerentes e contribuem para o avanço do conhecimento em mineração de texto aplicada à segurança pública. Aspectos que requerem aprimoramento A redação apresenta pequenos problemas linguísticos e de fluidez, o que justifica uma revisão de linguagem. A metodologia poderia ser mais detalhada e transparente, especialmente quanto às etapas de seleção e análise dos estudos. As visualizações e tabelas, embora adequadas, poderiam ser mais variadas e analíticas.
    Está pronto para receber atenção de um editor, de editoras ou de um público mais amplo? Sim, após pequenas alterações Pronto para publicação com ajustes menores: O artigo apresenta boa estrutura científica, metodologia coerente e resultados relevantes para o campo da mineração de texto aplicada à segurança pública. Principais qualidades: Clareza do objetivo e consistência metodológica; Discussão fundamentada e conclusões bem alinhadas aos dados; Contribuição concreta ao consolidar o estado da arte na área.

    Conflitos de interesse

    O autor declara que não possui conflitos de interesse.

    Uso de Inteligência Artificial (IA)

    The author declares that they did not use generative AI to come up with new ideas for their review.