Interpretabilidade em textos jurídicos: uma metodologia para avaliar o impacto do contexto na classificação de documentos [Digital]
Dissertação
Português
681.3.02:007.52:34
Fortaleza, 2025.
80f.
A crescente digitalização do Judiciário brasileiro, com apenas 2,8% de processos físicos iniciados em 2021, faz com que a maioria dos processos atualmente tramite em meio eletrônico. Para analisar o conteúdo desses documentos em grande escala, são necessá-rias técnicas avançadas de Processamento de...
Ver mais
A crescente digitalização do Judiciário brasileiro, com apenas 2,8% de processos físicos iniciados em 2021, faz com que a maioria dos processos atualmente tramite em meio eletrônico. Para analisar o conteúdo desses documentos em grande escala, são necessá-rias técnicas avançadas de Processamento de Linguagem Natural (PLN). Esse cenário é desafiador pela complexidade do discurso jurídico, marcada por terminologia técnica, argumentação densa e demanda por transparência. Diante disso, este trabalho propõe uma metodologia que combina a interpretabilidade baseada em Gradientes Integrados com uma LLM (GPT-4o) para oferecer um arcabouço de suporte a profissionais de PLN que precisam compreender melhor os resultados de suas tarefas, bem como avaliar o impacto da escolha da janela de contexto do modelo. Como estudo de caso, aborda-se a classificação de um conjunto de 300 mil petições iniciais do
Tribunal de Justiça do Ceará (TJCE), categorizadas em 307 classes segundo as definições da Tabela Processual Unificada (TPU). Os resultados indicam que o uso de uma janela longa (4096 tokens) supera o uso de uma janela curta (512 tokens) em termos de desempenho geral. Entretanto, esse ganho varia conforme a categoria do Direito. Por exemplo, no Direito da Saúde, houve um aumento de +5,44 pontos percentuais, enquanto no Direito Processual Civil e no Direito do Trabalho, o acréscimo foi de apenas +0,48 pontos. Além disso, observou-se que, nos documentos com maiores ganhos, as atribuições se concentraram mais no final do texto, ao contrário dos demais. Identificou-se, portanto, uma correlação negativa (r = -0,68) entre a importância atribuída aos primeiros 512 tokens e o ganho de acurácia. Isso demonstra que o método de interpretabilidade é capaz de destacar as áreas mais relevantes utilizadas pelo modelo para compreender o assunto principal do texto. Também desenvolvemos uma técnica para
identificar subtemas no texto que geram maior confusão para o modelo. Por exemplo, o modelo apresenta dificuldade em classificar textos sobre "contratos" como pertencentes ao Direito Civil ou ao Direito do Consumidor. Por fim, com base nas sentenças-chave geradas pelo método de interpretabilidade, elabora-
mos uma série de prompts que, ao receberem essas sentenças, permitem à LLM identificar padrões de erros recorrentes no modelo. Verificamos que uma das confusões entre Direito Administrativo e Direito Tributário resulta da ênfase em termos como "férias" e "13º salário", além da dificuldade em distinguir entre o contexto da CLT e o regime estatutário. A sistematização desses erros culminou em uma taxonomia que oferece ao especialista elementos para aprimorar a precisão do modelo, além de proporcionar maior transparência sobre seu funcionamento.
Palavras-chave: Inteligência Artificial. Interpretabilidade. Direito. Ver menos
Tribunal de Justiça do Ceará (TJCE), categorizadas em 307 classes segundo as definições da Tabela Processual Unificada (TPU). Os resultados indicam que o uso de uma janela longa (4096 tokens) supera o uso de uma janela curta (512 tokens) em termos de desempenho geral. Entretanto, esse ganho varia conforme a categoria do Direito. Por exemplo, no Direito da Saúde, houve um aumento de +5,44 pontos percentuais, enquanto no Direito Processual Civil e no Direito do Trabalho, o acréscimo foi de apenas +0,48 pontos. Além disso, observou-se que, nos documentos com maiores ganhos, as atribuições se concentraram mais no final do texto, ao contrário dos demais. Identificou-se, portanto, uma correlação negativa (r = -0,68) entre a importância atribuída aos primeiros 512 tokens e o ganho de acurácia. Isso demonstra que o método de interpretabilidade é capaz de destacar as áreas mais relevantes utilizadas pelo modelo para compreender o assunto principal do texto. Também desenvolvemos uma técnica para
identificar subtemas no texto que geram maior confusão para o modelo. Por exemplo, o modelo apresenta dificuldade em classificar textos sobre "contratos" como pertencentes ao Direito Civil ou ao Direito do Consumidor. Por fim, com base nas sentenças-chave geradas pelo método de interpretabilidade, elabora-
mos uma série de prompts que, ao receberem essas sentenças, permitem à LLM identificar padrões de erros recorrentes no modelo. Verificamos que uma das confusões entre Direito Administrativo e Direito Tributário resulta da ênfase em termos como "férias" e "13º salário", além da dificuldade em distinguir entre o contexto da CLT e o regime estatutário. A sistematização desses erros culminou em uma taxonomia que oferece ao especialista elementos para aprimorar a precisão do modelo, além de proporcionar maior transparência sobre seu funcionamento.
Palavras-chave: Inteligência Artificial. Interpretabilidade. Direito. Ver menos
The increasing digitization of the Brazilian Judiciary, with only 2.8% of new cases filed in paper form in 2021, means that most proceedings now take place electronically. Analyzing the content of these documents on a large scale requires advanced Natural Language Processing (NLP) techniques. This...
Ver mais
The increasing digitization of the Brazilian Judiciary, with only 2.8% of new cases filed in paper form in 2021, means that most proceedings now take place electronically. Analyzing the content of these documents on a large scale requires advanced Natural Language Processing (NLP) techniques. This environment poses challenges due to the complexity of legal discourse, which features specialized terminology, dense argumentation, and a demand for transparency. In light of this, the present work proposes a methodology that combines Integrated Gradients interpretability with a Large Language Model (GPT-4) to provide an analytical framework for NLP professionals who need deeper insights into their results, as well as to assess how the model’s choice of context window impacts performance. As a case study, we examine the classification of 300,000 initial pleadings from the Court of Justice of Ceará
(TJCE), divided into 307 classes based on the Unified Procedural Table (TPU). Results suggest that using a longer context window (4096 tokens) outperforms a shorter window (512 tokens) in overall performance. However, the extent of this improvement varies among different branches of law. For example, in Health Law, accuracy improved by 5.44 percentage points, whereas the increase was only 0.48 points in Civil Procedure Law and Labor Law. Moreover, in the documents showing greater gains, the most relevant portions tended to appear near the end of the text, unlike in others. Accordingly, we
identified a negative correlation (r = -0.68) between the importance placed on the first 512 tokens and the accuracy gain. This demonstrates that the interpretability method can highlight the most relevant text segments used by the model to understand the main topic. We also developed a technique to identify subtopics that pose greater challenges. For instance, the model struggles to classify texts involving "contracts" as Civil Law or Consumer Law. Finally, based on the key sentences generated by the interpretability method, we developed a series of prompts that, when supplied with these sentences, enable the LLM to pinpoint recurring errors in the model. We found that one source of confusion between Administrative Law and Tax Law arises from an overemphasis on terms like "vacation" and "13th salary,"
as well as difficulty distinguishing between the CLT’s framework and the statutory regime. The systematic evaluation of these errors led to a taxonomy that provides specialists with ways to improve the model’s accuracy and offers greater transparency regarding its decision-making process.
Keywords: Artificial Intelligence. Interpretability. Legal NLP. Ver menos
(TJCE), divided into 307 classes based on the Unified Procedural Table (TPU). Results suggest that using a longer context window (4096 tokens) outperforms a shorter window (512 tokens) in overall performance. However, the extent of this improvement varies among different branches of law. For example, in Health Law, accuracy improved by 5.44 percentage points, whereas the increase was only 0.48 points in Civil Procedure Law and Labor Law. Moreover, in the documents showing greater gains, the most relevant portions tended to appear near the end of the text, unlike in others. Accordingly, we
identified a negative correlation (r = -0.68) between the importance placed on the first 512 tokens and the accuracy gain. This demonstrates that the interpretability method can highlight the most relevant text segments used by the model to understand the main topic. We also developed a technique to identify subtopics that pose greater challenges. For instance, the model struggles to classify texts involving "contracts" as Civil Law or Consumer Law. Finally, based on the key sentences generated by the interpretability method, we developed a series of prompts that, when supplied with these sentences, enable the LLM to pinpoint recurring errors in the model. We found that one source of confusion between Administrative Law and Tax Law arises from an overemphasis on terms like "vacation" and "13th salary,"
as well as difficulty distinguishing between the CLT’s framework and the statutory regime. The systematic evaluation of these errors led to a taxonomy that provides specialists with ways to improve the model’s accuracy and offers greater transparency regarding its decision-making process.
Keywords: Artificial Intelligence. Interpretability. Legal NLP. Ver menos
Furtado, João José Vasco Peixoto
Orientador
Pires, Rilder de Sousa
Coorientador
Oliveira, Patrícia Rufino
Banca examinadora
Pinheiro, Vladia Celia Monteiro
Banca examinadora
Monteiro Neto, João Araújo
Banca examinadora
Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada
Dissertação (mestrado)