CDJUR-BR: uma coleção dourada do judiciário brasileiro com entidades nomeadas refinadas [Digital]
Dissertação
Português
681.3:004.53
Fortaleza, 2023.
72f.
Esta dissertação apresenta o desenvolvimento da Coleção Dourada do Judiciário Brasileiro (CDJUR-BR), um corpus formado por 21 entidades refinadas anotadas de forma manual por especialistas em documentos jurídicos. Nosso objetivo principal é preencher uma lacuna existente de processos e recursos...
Ver mais
Esta dissertação apresenta o desenvolvimento da Coleção Dourada do Judiciário Brasileiro (CDJUR-BR), um corpus formado por 21 entidades refinadas anotadas de forma manual por especialistas em documentos jurídicos. Nosso objetivo principal é preencher uma lacuna existente de processos e recursos linguísticos, disponibilizando uma metodologia própria de criação de um corpus de entidades nomeadas (EN) e uma coleção dourada abrangente e robusta, em língua portuguesa, composta por 44.526 anotações, que possa servir ao processo de treinamento e validação de modelos de Inteligência Artificial Legal (Legal AI) na esfera do judiciário brasileiro. Neste trabalho, relatamos os critérios de seleção do corpus utilizado e ferramentas de anotações, as definições de entidades nomeadas e diretrizes de anotação, os treinamentos de anotadores especialistas, o processo de anotação e as métricas de aferição da concordância entre os anotadores e os resultados dos modelos de reconhecimento de entidades nomeadas (REN) utilizados.
Palavras-chave: Reconhecimento de Entidades Nomeadas · Anotação de Corpus · Coleção Dourada · Processamento de Linguagem Natural · Documentos Legais · Inteligência Artificial Legal · Aprendizado de Máquina · Português. Ver menos
Palavras-chave: Reconhecimento de Entidades Nomeadas · Anotação de Corpus · Coleção Dourada · Processamento de Linguagem Natural · Documentos Legais · Inteligência Artificial Legal · Aprendizado de Máquina · Português. Ver menos
This thesis presents the development of the Golden Collection of the Brazilian Judiciary (CDJURBR), a corpus formed by 21 fine-grained entities annotated manually by experts in legal documents. Our main objective is to fill an existing gap in linguistic processes and resources, providing our own...
Ver mais
This thesis presents the development of the Golden Collection of the Brazilian Judiciary (CDJURBR), a corpus formed by 21 fine-grained entities annotated manually by experts in legal documents. Our main objective is to fill an existing gap in linguistic processes and resources, providing our own methodology for creating a corpus of named entities (NE) and a comprehensive and robust golden collection, in Portuguese, composed of 44,526 annotations, which can serve the training and validation process of Legal Artificial Intelligence (Legal AI) models in the sphere of the Brazilian judiciary. In this work, we report the selection criteria for the used corpus and annotation tools, the definitions of named entities and annotation guidelines, the training of expert annotators, the annotation process and the metrics for measuring agreement inter annotators and the results of the named entity recognition models (NER) used.
Keywords: Named-Entity Recognition · Corpus Annotation · Gold Standard Corpora · Natural Language Processing · Legal Documents · Legal Artificial Intelligence · Machine Learning · Portuguese. Ver menos
Keywords: Named-Entity Recognition · Corpus Annotation · Gold Standard Corpora · Natural Language Processing · Legal Documents · Legal Artificial Intelligence · Machine Learning · Portuguese. Ver menos
Pinheiro, Vladia Celia Monteiro
Orientador
Ruiz, Evandro Eduardo Seron
Banca examinadora
Furtado, João José Vasco Peixoto
Banca examinadora
Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada
Dissertação (mestrado)