Projeto multiobjetivo de fusores hierárquicos de partições de dados via programação genética [Digital]
Dissertação
Português
681.3:004.021
Fortaleza, 2009.
Um notável avanço vem sendo recentemente obtido na área de agrupamento de
dados mediante o desenvolvimento de métodos de fusão de partições. Essa abordagem,
conhecida como clustering ensembles, consiste em combinar os resultados de múltiplos
agrupamentos de uma mesma base de dados em uma única... Ver mais Um notável avanço vem sendo recentemente obtido na área de agrupamento de
dados mediante o desenvolvimento de métodos de fusão de partições. Essa abordagem,
conhecida como clustering ensembles, consiste em combinar os resultados de múltiplos
agrupamentos de uma mesma base de dados em uma única partição-consenso. Embora
promissora, essa abordagem ainda é restritiva, já que uma única resposta para um
problema limita a aquisição do conhecimento que poderia ser obtido considerando
outras possíveis soluções (partições). Por outro lado, devido à existência de vários
critérios de avaliação da qualidade de agrupamentos, pode-se modelar essa tarefa como
um problema típico de otimização multiobjetivo. Nesse contexto, o presente estudo
apresenta uma nova abordagem, baseada em programação genética multiobjetivo, que
projeta automaticamente novos operadores hierárquicos de fusão de partições. Desse
modo, um conjunto inicial de partições, obtido via a aplicação de diferentes técnicas de
agrupamento, pode ser continuamente refinado através de uma população de hierarquias
de fusores, que selecionam e combinam as partições originais, utilizando diferentes
critérios de qualidade como funções-objetivo. Para validar a nova abordagem, em
termos de eficiência e eficácia, foi implementado um protótipo e conduzido um estudo
comparativo, envolvendo outros algoritmos de agrupamento (dentre os quais três são de
clustering ensembles e dois são multiobjetivo), sobre 10 diferentes bases de dados. Os
experimentos demonstram que, em geral, a ideia de se ter uma hierarquia de fusores
aliada à correta seleção das partições pode proporcionar ganhos significativos em
termos de eficácia e robustez.
Palavras-chave: Agrupamento de Dados. Clustering Ensembles. Fusão Hierárquica de
Partições. Algoritmos Evolutivos Multiobjetivos. Programação Genética. Ver menos
dados mediante o desenvolvimento de métodos de fusão de partições. Essa abordagem,
conhecida como clustering ensembles, consiste em combinar os resultados de múltiplos
agrupamentos de uma mesma base de dados em uma única... Ver mais Um notável avanço vem sendo recentemente obtido na área de agrupamento de
dados mediante o desenvolvimento de métodos de fusão de partições. Essa abordagem,
conhecida como clustering ensembles, consiste em combinar os resultados de múltiplos
agrupamentos de uma mesma base de dados em uma única partição-consenso. Embora
promissora, essa abordagem ainda é restritiva, já que uma única resposta para um
problema limita a aquisição do conhecimento que poderia ser obtido considerando
outras possíveis soluções (partições). Por outro lado, devido à existência de vários
critérios de avaliação da qualidade de agrupamentos, pode-se modelar essa tarefa como
um problema típico de otimização multiobjetivo. Nesse contexto, o presente estudo
apresenta uma nova abordagem, baseada em programação genética multiobjetivo, que
projeta automaticamente novos operadores hierárquicos de fusão de partições. Desse
modo, um conjunto inicial de partições, obtido via a aplicação de diferentes técnicas de
agrupamento, pode ser continuamente refinado através de uma população de hierarquias
de fusores, que selecionam e combinam as partições originais, utilizando diferentes
critérios de qualidade como funções-objetivo. Para validar a nova abordagem, em
termos de eficiência e eficácia, foi implementado um protótipo e conduzido um estudo
comparativo, envolvendo outros algoritmos de agrupamento (dentre os quais três são de
clustering ensembles e dois são multiobjetivo), sobre 10 diferentes bases de dados. Os
experimentos demonstram que, em geral, a ideia de se ter uma hierarquia de fusores
aliada à correta seleção das partições pode proporcionar ganhos significativos em
termos de eficácia e robustez.
Palavras-chave: Agrupamento de Dados. Clustering Ensembles. Fusão Hierárquica de
Partições. Algoritmos Evolutivos Multiobjetivos. Programação Genética. Ver menos
A remarkable progress has been recently achieved in the area of data clustering,
in part due to the development of clustering ensemble methods. In a nutshell, this
approach aims at combining multiple partitions produced over the same dataset into a
single consensus partition. Although promising,... Ver mais A remarkable progress has been recently achieved in the area of data clustering,
in part due to the development of clustering ensemble methods. In a nutshell, this
approach aims at combining multiple partitions produced over the same dataset into a
single consensus partition. Although promising, this approach is still restrictive in the sense that obtaining a single solution (partition) as result limits the knowledge that could be grasped from the data, which could contain several meaningful alternative
solutions. On the other hand, there exist several validation criteria to assess the data
partitions, each considering a distinct viewpoint. This permits to model the data
clustering task as a typical multiobjective optimization problem. This strategy, which
has also gained much attention in the last years, is known as multiobjective clustering.
In this context, this study presents a novel hybrid approach, based on multiobjective
genetic programming, aiming at the automatic design of novel hierarchical fusion
operators for clustering ensembles. By this means, an initial set of partitions obtained
via the application of different clustering techniques could be continuously refined
through a population of hierarchies of fusion operators, which select and combine the
original partitions, using different quality criteria as objective functions. To validate the new approach in terms of efficiency and effectiveness, we have implemented a prototype and conducted a comparative study including other clustering algorithms
(three of which are of clustering ensembles and two are multiobjective in nature) over
10 different datasets. The experiments indicate that, in general, the idea of having a
fusion hierarchy together with the correct selection of the data partitions can provide
significant gains in terms of effectiveness and robustness.
Keywords: Data Clustering. Clustering Ensembles. Hierarchical Fusion. Multiobjective
Evolutionary Algorithms, Genetic Programming. Ver menos
in part due to the development of clustering ensemble methods. In a nutshell, this
approach aims at combining multiple partitions produced over the same dataset into a
single consensus partition. Although promising,... Ver mais A remarkable progress has been recently achieved in the area of data clustering,
in part due to the development of clustering ensemble methods. In a nutshell, this
approach aims at combining multiple partitions produced over the same dataset into a
single consensus partition. Although promising, this approach is still restrictive in the sense that obtaining a single solution (partition) as result limits the knowledge that could be grasped from the data, which could contain several meaningful alternative
solutions. On the other hand, there exist several validation criteria to assess the data
partitions, each considering a distinct viewpoint. This permits to model the data
clustering task as a typical multiobjective optimization problem. This strategy, which
has also gained much attention in the last years, is known as multiobjective clustering.
In this context, this study presents a novel hybrid approach, based on multiobjective
genetic programming, aiming at the automatic design of novel hierarchical fusion
operators for clustering ensembles. By this means, an initial set of partitions obtained
via the application of different clustering techniques could be continuously refined
through a population of hierarchies of fusion operators, which select and combine the
original partitions, using different quality criteria as objective functions. To validate the new approach in terms of efficiency and effectiveness, we have implemented a prototype and conducted a comparative study including other clustering algorithms
(three of which are of clustering ensembles and two are multiobjective in nature) over
10 different datasets. The experiments indicate that, in general, the idea of having a
fusion hierarchy together with the correct selection of the data partitions can provide
significant gains in terms of effectiveness and robustness.
Keywords: Data Clustering. Clustering Ensembles. Hierarchical Fusion. Multiobjective
Evolutionary Algorithms, Genetic Programming. Ver menos
Disponibilidade forma física: Existe obra impressa de código: 83630
Disponibilidade forma física: Existe Cd-rom de código: 83500
Coelho, Andre Luis Vasconcelos
Orientador
Coelho, Andre Luis Vasconcelos
Banca examinadora
Faceli, Katti
Coorientador
Santos, Rafael Duarte Coelho dos
Banca examinadora
Santos, Cícero Nogueira dos
Banca examinadora
Universidade de Fortaleza
Dissertação (mestrado)