Bert Sherlock: refinamento de um modelo de linguagem para classificação de mensagens em investigações criminais [Digital]
Dissertação
Português
681.3:800.92
Fortaleza, 2024.
61f.
Esta dissertação apresenta contribuições no campo da investigação criminal digital. Por meio do uso de um corpus de mensagens de redes sociais provenientes de telefones celulares apreendidos em prisões, um modelo de linguagem em português denominado BERT Sherlock foi aprimorado para auxiliar na...
Ver mais
Esta dissertação apresenta contribuições no campo da investigação criminal digital. Por meio do uso de um corpus de mensagens de redes sociais provenientes de telefones celulares apreendidos em prisões, um modelo de linguagem em português denominado BERT Sherlock foi aprimorado para auxiliar na classificação de trechos de conversas que possam indicar atividades criminosas. A comparação entre algoritmos que utilizam o modelo BERT Sherlock e abordagens tradicionais demonstra uma vantagem do primeiro sobre os métodos convencionais. Além disso, as análises revelaram que o BERT Sherlock é capaz de identificar mensagens suspeitas que indicam atividades ilícitas, inclusive aquelas que fazem uso de gírias e linguagem específica desconhecida pelos investigadores. Esses resultados proporcionam evidências de que o modelo é eficaz na identificação de mensagens suspeitas, considerando o contexto em que são utilizadas. A pesquisa, portanto, contribui para aumentar a eficiência dos analistas criminais ao lidar com mensagens de redes sociais em investigações criminais, especialmente aquelas relacionadas a atividades ilícitas.
Palavras-chaves: Processamento de Linguagem Natural, Classificação de Mensagens Informais, Refinamento do Modelo BERTimbau, Treinamento de Modelo de Língua. Ver menos
Palavras-chaves: Processamento de Linguagem Natural, Classificação de Mensagens Informais, Refinamento do Modelo BERTimbau, Treinamento de Modelo de Língua. Ver menos
This dissertation presents contributions to the field of digital criminal investigation. Through the use of a corpus of social media messages from cell phones seized in prisons, a Portuguese language model called BERT Sherlock was improved to help classify excerpts of conversations that could...
Ver mais
This dissertation presents contributions to the field of digital criminal investigation. Through the use of a corpus of social media messages from cell phones seized in prisons, a Portuguese language model called BERT Sherlock was improved to help classify excerpts of conversations that could indicate criminal activity. The comparison between algorithms that use the BERT Sherlock model and traditional approaches demonstrates an advantage of the former over conventional methods. Furthermore, analyzes revealed that BERT Sherlock is capable of identifying suspicious messages that indicate illicit activities, including those that use slang and specific language unknown to investigators. These results provide evidence that the model is effective in identifying suspicious messages, taking into account the context in which they are used. The research therefore contributes to increasing the efficiency of crime analysts when dealing with social media messages in criminal investigations, especially those related to illicit activities.
Key-words: Natural Language Processing, Classification of Informal Messages, BERTimbau Model Refinement, Language Model Training. Ver menos
Key-words: Natural Language Processing, Classification of Informal Messages, BERTimbau Model Refinement, Language Model Training. Ver menos
Nepomuceno, Napoleão Vieira
Orientador
Pinheiro, Vladia Celia Monteiro
Coorientador
Furtado, João José Vasco Peixoto
Banca examinadora
Silveira, Francisca Raquel de Vasconcelos
Banca examinadora
Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada
Dissertação (mestrado)