Ensembles de detectores de anomalias: uma abordagem multi-critério utilizando topsis [Digital]
Dissertação
Português
658:005.53
Fortaleza, 2020.
Dentro da área de mineração de dados, a detecção de anomalias diz respeito à tarefa de identificação
de itens em um conjunto de dados que são substancialmente diferentes dos demais. Para
algumas aplicações, essas anomalias podem representar informações valiosas, tratando-se de
algum tipo de fraude,... Ver mais
de itens em um conjunto de dados que são substancialmente diferentes dos demais. Para
algumas aplicações, essas anomalias podem representar informações valiosas, tratando-se de
algum tipo de fraude,... Ver mais
Dentro da área de mineração de dados, a detecção de anomalias diz respeito à tarefa de identificação
de itens em um conjunto de dados que são substancialmente diferentes dos demais. Para
algumas aplicações, essas anomalias podem representar informações valiosas, tratando-se de
algum tipo de fraude, intrusão em sistemas, anomalia em rede de computador, falha mecânica
ou condição clínica crítica. Dentre os principais desafios encontrados na detecção de tais itens
está a dificuldade de criação de modelos, devido à sua imprevisibilidade e dependência com o
contexto dos dados. Determinado modelo geralmente funciona bem apenas em situações com
características específicas de distribuição de dados, não sendo indicado para todos os cenários.
Ensembles de detectores de anomalias surgiram para suprir essa deficiência, combinando algoritmos
e resultando em um único método mais versátil e robusto. Neste trabalho, uma nova
abordagem de detecção de anomalias foi proposta, denominada Multicriteria Outlier Detector
Ensembles (MCODES), com o objetivo de alcançar melhores resultados para uma grande
quantidade de conjuntos de dados distintos. Tal abordagem é não-supervisionada, uma vez
que não leva em consideração informações sobre os rótulos das instâncias, e utiliza ensemble
e análise multi-critério. Essa abordagem foi desenvolvida utilizando o método multi-critério
para seleção de alternativas Technique for Order Preference by Similarity to Ideal Solution
(TOPSIS), em que se busca a alternativa mais próxima da solução ideal e mais distante da
solução não-ideal. Algumas variações para cálculos dos pesos dos critérios utilizados no TOPSIS
foram criadas. Foi desenvolvido um novo algoritmo para definição dos pesos, denominado
efeito manada (EM), que se baseia na premissa de que métodos de detecção de anomalias que
classificam os dados de forma similar à maioria dos outros métodos tendem a ser melhores e
recebem uma maior pontuação. Outros algoritmos para definição dos pesos foram utilizados,
como entropia e desvio-padrão. Experimentos com essa abordagem foram realizados utilizando
diferentes cenários, através de conjuntos de dados sintéticos, com o intuito de validar cenários
específicos de distribuições de dados, e conjuntos de dados públicos, com o objetivo de avaliar
cenários mais próximos da realidade. A abordagem proposta mostrou melhor desempenho em
comparação com os modelos de detecção individuais analisados, bem como com outros modelos
de ensemble, como MOA, AOM e LSCP, demonstrando sua robustez e eficácia para situações em
que a forma da distribuição das instâncias em um determinado conjunto de dados é desconhecida.
Palavras-chave: detecção de anomalias. análise multi-critério. ensembles. TOPSIS. Ver menos
de itens em um conjunto de dados que são substancialmente diferentes dos demais. Para
algumas aplicações, essas anomalias podem representar informações valiosas, tratando-se de
algum tipo de fraude, intrusão em sistemas, anomalia em rede de computador, falha mecânica
ou condição clínica crítica. Dentre os principais desafios encontrados na detecção de tais itens
está a dificuldade de criação de modelos, devido à sua imprevisibilidade e dependência com o
contexto dos dados. Determinado modelo geralmente funciona bem apenas em situações com
características específicas de distribuição de dados, não sendo indicado para todos os cenários.
Ensembles de detectores de anomalias surgiram para suprir essa deficiência, combinando algoritmos
e resultando em um único método mais versátil e robusto. Neste trabalho, uma nova
abordagem de detecção de anomalias foi proposta, denominada Multicriteria Outlier Detector
Ensembles (MCODES), com o objetivo de alcançar melhores resultados para uma grande
quantidade de conjuntos de dados distintos. Tal abordagem é não-supervisionada, uma vez
que não leva em consideração informações sobre os rótulos das instâncias, e utiliza ensemble
e análise multi-critério. Essa abordagem foi desenvolvida utilizando o método multi-critério
para seleção de alternativas Technique for Order Preference by Similarity to Ideal Solution
(TOPSIS), em que se busca a alternativa mais próxima da solução ideal e mais distante da
solução não-ideal. Algumas variações para cálculos dos pesos dos critérios utilizados no TOPSIS
foram criadas. Foi desenvolvido um novo algoritmo para definição dos pesos, denominado
efeito manada (EM), que se baseia na premissa de que métodos de detecção de anomalias que
classificam os dados de forma similar à maioria dos outros métodos tendem a ser melhores e
recebem uma maior pontuação. Outros algoritmos para definição dos pesos foram utilizados,
como entropia e desvio-padrão. Experimentos com essa abordagem foram realizados utilizando
diferentes cenários, através de conjuntos de dados sintéticos, com o intuito de validar cenários
específicos de distribuições de dados, e conjuntos de dados públicos, com o objetivo de avaliar
cenários mais próximos da realidade. A abordagem proposta mostrou melhor desempenho em
comparação com os modelos de detecção individuais analisados, bem como com outros modelos
de ensemble, como MOA, AOM e LSCP, demonstrando sua robustez e eficácia para situações em
que a forma da distribuição das instâncias em um determinado conjunto de dados é desconhecida.
Palavras-chave: detecção de anomalias. análise multi-critério. ensembles. TOPSIS. Ver menos
Within the area of data mining, the detection of anomalies concerns the task of identifying
items in a dataset that are substantially different from the others. For some applications, anomalies
can represent valuable information, dealing with some kind of fraud, system intrusion,
computer network... Ver mais
items in a dataset that are substantially different from the others. For some applications, anomalies
can represent valuable information, dealing with some kind of fraud, system intrusion,
computer network... Ver mais
Within the area of data mining, the detection of anomalies concerns the task of identifying
items in a dataset that are substantially different from the others. For some applications, anomalies
can represent valuable information, dealing with some kind of fraud, system intrusion,
computer network anomaly, mechanical failure or critical clinical condition. Among the main
challenges encountered in detecting such items is the difficulty in creating models, due to their
unpredictability and dependence on the context of the data. A given model generally works
well only in situations with specific data distribution characteristics, and is not suitable for all
scenarios. Anomaly detector assemblies have emerged to address this deficiency, combining
algorithms and resulting in a single, more versatile and robust method. In this work, a new
anomaly detection approach was proposed, called Multicriteria Outlier Detector Ensembles
(MCODES), in order to achieve better results for a large number of different datasets. Such an
approach is unsupervised, since it does not take into account information about the labels of the
instances, and uses ensemble and multi-criteria analysis. This approach was developed using the
multi-criteria method for selecting alternatives Technique for Order Preference by Similarity to
Ideal Solution (TOPSIS), in which the alternative that is closest to the ideal solution and furthest
from the non-ideal solution is sought. Some variations for calculating the weights of the criteria
used in TOPSIS were created. A new algorithm for defining weights was developed, called herd
effect (EM), which is based on the premise that anomaly detection methods that classify data
similarly to most other methods tend to be better and receive a higher score . Other algorithms
for defining the weights were used, such as entropy and standard deviation. Experiments with
this approach were carried out using different scenarios, using synthetic datasets, in order to
validate specific scenarios of data distributions, and public datasets, in order to evaluate scenarios
closer to reality. The proposed approach showed better performance compared to the individual
detection models analyzed, as well as with other ensemble models, such as MOA, AOM and
LSCP, demonstrating its robustness and effectiveness for situations in which the form of the
distribution of instances in a given set data is unknown.
Keywords: outlier detection. multi-criteria analysis. ensembles. TOPSIS. Ver menos
items in a dataset that are substantially different from the others. For some applications, anomalies
can represent valuable information, dealing with some kind of fraud, system intrusion,
computer network anomaly, mechanical failure or critical clinical condition. Among the main
challenges encountered in detecting such items is the difficulty in creating models, due to their
unpredictability and dependence on the context of the data. A given model generally works
well only in situations with specific data distribution characteristics, and is not suitable for all
scenarios. Anomaly detector assemblies have emerged to address this deficiency, combining
algorithms and resulting in a single, more versatile and robust method. In this work, a new
anomaly detection approach was proposed, called Multicriteria Outlier Detector Ensembles
(MCODES), in order to achieve better results for a large number of different datasets. Such an
approach is unsupervised, since it does not take into account information about the labels of the
instances, and uses ensemble and multi-criteria analysis. This approach was developed using the
multi-criteria method for selecting alternatives Technique for Order Preference by Similarity to
Ideal Solution (TOPSIS), in which the alternative that is closest to the ideal solution and furthest
from the non-ideal solution is sought. Some variations for calculating the weights of the criteria
used in TOPSIS were created. A new algorithm for defining weights was developed, called herd
effect (EM), which is based on the premise that anomaly detection methods that classify data
similarly to most other methods tend to be better and receive a higher score . Other algorithms
for defining the weights were used, such as entropy and standard deviation. Experiments with
this approach were carried out using different scenarios, using synthetic datasets, in order to
validate specific scenarios of data distributions, and public datasets, in order to evaluate scenarios
closer to reality. The proposed approach showed better performance compared to the individual
detection models analyzed, as well as with other ensemble models, such as MOA, AOM and
LSCP, demonstrating its robustness and effectiveness for situations in which the form of the
distribution of instances in a given set data is unknown.
Keywords: outlier detection. multi-criteria analysis. ensembles. TOPSIS. Ver menos
Guerra, David Motta
Autor
Coelho, Andre Luis Vasconcelos
Orientador
Coelho, Andre Luis Vasconcelos
Banca examinadora
Sandes, Nelson C.
Banca examinadora
Pinheiro, Plácido Rogério
Banca examinadora
Nepomuceno, Napoleão Vieira
Banca examinadora
Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada
Dissertação (mestrado)