Detecção de anomalias com uso de grafos na base de dados abertos da Receita Federal do Brasil e do cadastro de empresas inidôneas e suspensas [Digital]
Dissertação
Português
658.1
Fortaleza, 2024.
92f.
A tarefa de estimar empresas candidatas a serem fiscalizadas prioritariamente pelo fisco é não-trivial devido ao grande número de potenciais candidatas e da alta diversidade e granularidade de informações que caracterizam essas empresas. Esta dissertação propõe uma metodologia inovadora baseada em...
Ver mais
A tarefa de estimar empresas candidatas a serem fiscalizadas prioritariamente pelo fisco é não-trivial devido ao grande número de potenciais candidatas e da alta diversidade e granularidade de informações que caracterizam essas empresas. Esta dissertação propõe uma metodologia inovadora baseada em redes complexas e aprendizagem automática que permite estimar, acuradamente, a probabilidade de uma empresa estar envolvida em fraudes. A metodologia mostra que, somente com dados cadastrais das empresas, em especial dados societários, juntamente com dados de uma pequena amostra de dados de empresas inidôneas (advindos da Controladoria Geral da União), ambos dados abertos ao público, pode-se indicar empresas candidatas à fiscalização com maior probabilidade de sucesso do que métodos tradicionais, que não utilizam grafos e aprendizado de máquina na detecção de anomalias. Ao invés de se concentrar exclusivamente em características individuais das empresas, a metodologia visa inicialmente definir um padrão de grupos de empresas levando particularmente em conta a relação que as empresas têm entre si através de seus sócios. Uma rede bipartite entre empresas e sócios foi criada, o que permitiu posteriormente realizar a projeção dessa rede numa rede entre empresas onde o peso entre elas está relacionado ao índice Jaccard entre os sócios que elas possuem. A partir da identificação dos componentes conexos da rede projetada, pode-se criar grupos representando um padrão de empresas de um certo componente conexa levando em conta as relações societárias bem como as características individuais das mesmas. Grupos gerados a partir de componentes conexos em que pelo menos uma empresa grande estava presente foram escolhidos como foco. Cada padrão foi associado a uma probabilidade de se conter empresas inidôneas. A partir disso, pode-se aplicar um modelo de classificação baseado em aprendizado de máquina para estimar a probabilidade de um padrão de empresas indicar o risco de que uma empresa, que se encaixa nesse padrão, esteja envolvida em atividades fraudulentas. Os resultados encontrados sugerem que os modelos criados a partir dessa metodologia são capazes de prever o risco de inidoneidade de uma empresa com uma razoável acurácia (ACC ~ 0.77, AUC ~ 0.86).
Palavras-chave: Redes Complexas, Aprendizado de Máquina, Detecção de fraudes Ver menos
Palavras-chave: Redes Complexas, Aprendizado de Máquina, Detecção de fraudes Ver menos
The task of estimating candidate companies to be inspected primarily by the tax authorities is non-trivial due to the large number of potential candidates and the high diversity and granularity of information that characterize these companies. This dissertation proposes an innovative methodology...
Ver mais
The task of estimating candidate companies to be inspected primarily by the tax authorities is non-trivial due to the large number of potential candidates and the high diversity and granularity of information that characterize these companies. This dissertation proposes an innovative methodology based on complex networks and machine learning that makes it possible to estimate with high accuracy the probability of a company being involved in fraud. The methodology shows that, only with company registration data, especially corporate data, together with data from a small sample of unreputable companies (coming from the General Comptroller of the Union), both open to the public, it is possible to indicate companies candidates for inspection with a higher probability of success than traditional methods, that don't use graphs and machine learning to detect anomalies. Instead of focusing exclusively on individual characteristics of companies, the methodology initially aims to define a pattern of groups of companies, taking particularly into account the relationship that companies have among themselves through their partners. A bipartite network between companies and partners was created, which later allowed the projection of this network into a network between companies where the weight between them defines the number of common partners they have. From the identification of the connected components of the designed network, it is possible to create groups representing a pattern of companies of a certain connected component, taking into account the corporate relationships as well as their individual characteristics. Groups generated from related components in which at least one large company was present were chosen as the focus. Each pattern was associated with a probability of containing unreputable companies. From this, a machine learning-based classification model can be applied to estimate the probability of a pattern of companies indicating the risk that a company, which fits that pattern, is involved in fraudulent activities. The results found suggest that the models created using this methodology are capable of predicting a company's risk of unsuitability with reasonable accuracy (ACC ~ 0.77, AUC ~ 0.86).
Keywords: Complex Networks, Machine Learning, Fraud Detection Ver menos
Keywords: Complex Networks, Machine Learning, Fraud Detection Ver menos
Furtado, Vasco
Orientador
Pires, Rilder de Sousa
Coorientador
Andrade Junior, José Soares de
Banca examinadora
Caminha Neto, Carlos de Oliveira
Banca examinadora
Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada
Dissertação (mestrado)