Transkribus e o Modelo de OCR Early Portuguese Printing (EPP): Inovações na Transcrição de Documentos Históricos e suas Potencialidades para as Humanidades Digitais
Discuss this preprint
Start a discussion What are Sciety discussions?Listed in
This article is not in any list yet, why not save it to one of your lists.Abstract
Este trabalho apresenta o modelo de Reconhecimento Óptico de Caracteres (OCR) “Early Portuguese Printing” (EPP), desenvolvido na plataforma Transkribus, e discute o potencial, os desafios e a história dessas ferramenta para a pesquisa com documentos históricos brasileiros. O Transkribus, mantido pela cooperativa europeia Read-Coop, permite que pesquisadores treinem modelos de IA especializados nas características de seus próprios corpora. O modelo EPP foi treinado especificamente para a transcrição de impressos em língua portuguesa dos séculos 16 ao 19, utilizando um corpus de gramáticas e obras linguísticas do período. Com um training set de 142.606 palavras (745 páginas), o EPP alcançou uma Taxa de Erro de Caracteres (CER) de apenas 2,58%. Este resultado representa um avanço significativo, pois demonstra a potencialidade de ferramentas do tipo para a formação de corpora quantitativos históricos de maior escala e em menos tempo, mantendo a precisão da transcrição de diacríticos, símbolos tipográficos e caracteres gregos, elementos que frequentemente limitam a eficácia de ferramentas de OCR generalistas. Contudo, além de divulgar o potencial da ferramenta, este trabalho problematiza sua natureza. Por pertencer a uma entidade privada europeia e ser um produto SaaS, o uso do Transkribus levanta questões sobre a centralização de dados e a sustentabilidade de sua aplicação em projetos de pesquisa brasileiros de grande escala, considerando o futuro e o volume de nossos acervos históricos.