DF-EXTRACTOR - um modelo para extração e estruturação de documentos financeiros visualmente ricos [Digital]
Dissertação
Português
681.3.02:007.52
Fortaleza, 2024.
78f.
A extração e estruturação de informações presentes em documentos visualmente ricos é um domínio em constante evolução e se destaca pela sua relevância na era digital. À medida que a quantidade de informações digitais cresce exponencialmente, a necessidade de extrair e organizar dados de documentos...
Ver mais
A extração e estruturação de informações presentes em documentos visualmente ricos é um domínio em constante evolução e se destaca pela sua relevância na era digital. À medida que a quantidade de informações digitais cresce exponencialmente, a necessidade de extrair e organizar dados de documentos que incorporam elementos visuais complexos torna-se cada vez mais importante. Os documentos atuais vão além do texto simples, por incorporarem gráficos, imagens, tabelas, diagramas e outras formas de representações visuais que enriquecem a apresentação da informação. Além disso, em muitos documentos, a exemplo dos demonstrativos financeiros, a parte textual possui camadas hierárquicas representadas por seus títulos e subtítulos. Assim, a tarefa de extrair e estruturar dados a partir desses documentos é desafiadora, exigindo o desenvolvimento de algoritmos e técnicas avançadas para interpretar e entender as informações visuais de forma eficaz. Esse processo é fundamental para a análise, organização e utilização eficiente desses dados em diversas áreas, como financeira, pesquisa acadêmica, negócios, medicina, ciência, direito, entre outras. Neste trabalho, exploraremos os avanços e desafios presentes na extração e estruturação de documentos financeiros visualmente ricos. Apresentaremos um sistema de Extração de Informação que utiliza um modelo neural, refinado para uso em Demonstrações Financeiras. Além disso, duas etapas de pós-processamento foram desenvolvidas com o intuito de ajustar os resultados gerados pelo modelo refinado. A partir de avaliações empíricas comparativas, concluiu-se que o sistema proposto é eficaz na extração e estruturação de informações de documentos financeiros e oferece potencial para automatizar e otimizar os processos de análise e validação de demonstrações financeiras.
Palavras-chave: Extração de informações, Estruturação de informações, Documentos Visualmente Ricos, Classificação de Texto. Ver menos
Palavras-chave: Extração de informações, Estruturação de informações, Documentos Visualmente Ricos, Classificação de Texto. Ver menos
The extraction and structuring of information from visually rich documents is a constantly evolving domain and stands out for its relevance in the digital age. As the amount of digital information grows exponentially, the need to extract and organize data from documents that incorporate complex...
Ver mais
The extraction and structuring of information from visually rich documents is a constantly evolving domain and stands out for its relevance in the digital age. As the amount of digital information grows exponentially, the need to extract and organize data from documents that incorporate complex visual elements becomes increasingly important. Today’s documents go beyond plain text by incorporating graphics, images, tables, diagrams, and other forms of visual representations that enrich the presentation of information. Moreover, in many documents, such as financial statements, the textual part has hierarchical layers represented by their titles and subtitles. Thus, the task of extracting and structuring data from these documents is challenging, requiring the development of advanced algorithms and techniques to interpret and understand the visual information effectively. This process is fundamental for the analysis, organization, and efficient use of this data in various areas, such as finance, academic research, business, medicine, science, law, among others. In this work, we will explore the advances and challenges in the extraction and structuring of visually rich financial documents. We will present an Information Extraction system that uses a neural model, refined for use in Financial Statements. Additionally, two postprocessing stages were developed with the aim of adjusting the results generated by the refined model. From comparative empirical evaluations, it was concluded that the proposed system is effective in extracting and structuring information from financial documents and offers potential to automate and optimize the processes of analysis and validation of financial statements.
Keywords:Common Sense knowledge, Natural Language Understanding, Dialogue System, Text Classification Ver menos
Keywords:Common Sense knowledge, Natural Language Understanding, Dialogue System, Text Classification Ver menos
Pinheiro, Vladia Celia Monteiro
Orientador
Furtado, João José Vasco Peixoto
Banca examinadora
Silveira, Francisca Raquel de Vasconcelos
Banca examinadora
Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada
Dissertação (mestrado)