Dissertação
A Framework for Digitized Document Processing and Analysis EVALUATED
Reconhecimento ótico de caracteres (OCR) é uma tecnologia em desenvolvimento ativo que permite a um computador converter um documento ou imagem digitalizada num formato digital que pode ser reconhecido por máquinas. Hoje em dia, várias indústrias têm enormes arquivos em papel que são difíceis de explorar quando se procura tópicos ou palavras-chave específicas, pelo que muitas empresas estão a fazer a transição para bibliotecas digitais. Este documento fornece uma visão geral dos últimos avanços na tecnologia relevante e aprofunda as complexidades do \ac{OCR} para documentos com uma única coluna ou vários blocos. Disseca os desafios associados ao \ac{OCR} e descreve a arquitetura do sistema de software. Além disso, elucida várias características do sistema, incluindo, entre outras, a funcionalidade central do \ac{OCR}, as opções para exportar ficheiros, a funcionalidade de sessões privadas e a utilização de dados processados. A aplicação também permite ao utilizador pesquisar e agrupar páginas por palavras específicas. A versão atual do sistema é capaz de tratar documentos com vários \ac{GB}s e mais de cinco mil páginas. De acordo com os resultados obtidos nos testes realizados por utilizadores, mais de 89\% dos testes foram concluídos sem grandes preocupações.
junho 11, 2024, 13:0
Documentos da dissertação ainda não disponíveis publicamente
Orientação
ORIENTADOR
Departamento de Engenharia Informática (DEI)
Professor Catedrático
ORIENTADOR
Departamento de Engenharia Informática (DEI)
Professor Auxiliar