CLASTRIN - um Classificador de Tráfego de Aplicações Internet Utilizando a Abordagem "Um-Contra-Todos" [Digital]
Dissertação
Português
681.3:621.391
Fortaleza, 2009.
Neste trabalho, apresenta-se uma proposta de um classificador de aplicações presentes no tráfego Internet. A proposta deste classificador é utilizar informações estatísticas coletadas dos fluxos de dados e identificar a menor quantidade de discriminantes estatísticos capazes de distinguir os fluxos...
Ver mais
Neste trabalho, apresenta-se uma proposta de um classificador de aplicações presentes no tráfego Internet. A proposta deste classificador é utilizar informações estatísticas coletadas dos fluxos de dados e identificar a menor quantidade de discriminantes estatísticos capazes de distinguir os fluxos de determinada classe de aplicação dos demais, separando-os em grupos.
Para a realização desta classificação a metodologia apresentada se baseia na divisão de um problema de classificação de 1 para N em N problemas de classificação 1 para 1 (abordagem um contra todos ? one-against all). A geração dos conglomerados de dados é realizada através da análise de agrupamentos (método de estatística multivariada) utilizando-se de um método não hierárquico (K-Médias ? K-Means) em conjunto com técnicas de aprendizagem de máquina supervisionada.
A metodologia apresentada parte do princípio que o melhor conjunto de variáveis para classificar uma determinada aplicação não é o mesmo para classificar N aplicações. Comparativamente a outros métodos estudados, este trabalho inovou ao apresentar uma redução do número de variáveis (features) a serem analisadas através de um método estatístico computacionalmente simples, que pode ser utilizado em outros conjuntos de dados (traces). Foi obtida uma média de acerto na classificação dos fluxos das classes sob análise de 74,40% e média de falsos negativos de 5,98%.
Palavras-chave: Redes de Computadores; Discriminantes Estatísticos; Classificação de Tráfego; Estatística Multivariada; Análise de Agrupamentos; Aprendizagem de Máquina. Ver menos
Para a realização desta classificação a metodologia apresentada se baseia na divisão de um problema de classificação de 1 para N em N problemas de classificação 1 para 1 (abordagem um contra todos ? one-against all). A geração dos conglomerados de dados é realizada através da análise de agrupamentos (método de estatística multivariada) utilizando-se de um método não hierárquico (K-Médias ? K-Means) em conjunto com técnicas de aprendizagem de máquina supervisionada.
A metodologia apresentada parte do princípio que o melhor conjunto de variáveis para classificar uma determinada aplicação não é o mesmo para classificar N aplicações. Comparativamente a outros métodos estudados, este trabalho inovou ao apresentar uma redução do número de variáveis (features) a serem analisadas através de um método estatístico computacionalmente simples, que pode ser utilizado em outros conjuntos de dados (traces). Foi obtida uma média de acerto na classificação dos fluxos das classes sob análise de 74,40% e média de falsos negativos de 5,98%.
Palavras-chave: Redes de Computadores; Discriminantes Estatísticos; Classificação de Tráfego; Estatística Multivariada; Análise de Agrupamentos; Aprendizagem de Máquina. Ver menos
In this work, it is presented a proposal of a classifier for applications present into the Internet traffic. The purpose of this classifier is to use statistical information collected from the data flow and identify the least amount of statistical discriminators able to distinguish the flow of a...
Ver mais
In this work, it is presented a proposal of a classifier for applications present into the Internet traffic. The purpose of this classifier is to use statistical information collected from the data flow and identify the least amount of statistical discriminators able to distinguish the flow of a determined application class from the others, separating them into groups.
To achieve this classification, the proposed method is based on split an 1 to N classification problem in N problems of classification 1 to 1 (one against all approach). The generation of data clusters is performed by cluster analysis (a method of multivariate statistics) using a non-hierarchical method (K-Means) together with techniques of supervised machine learning.
The methodology presented claims that the best set of variables to classify a given application is not the same to classify N applications. Compared to other methods, this work innovates in providing a reduction in the number of variables (features) to be analyzed by a statistical method computationally simple, which can be used in other data sets (traces). It was observed that for most classes only one variable was sufficient to discriminate the traffic of the application, getting an average of 74,40% of correct classification of flows in the class under analysis.
Keywords: Computer Networks; Statistical Discriminators; Traffic Classification; Multivariate Statistics; Cluster Analysis; Machine Learning. Ver menos
To achieve this classification, the proposed method is based on split an 1 to N classification problem in N problems of classification 1 to 1 (one against all approach). The generation of data clusters is performed by cluster analysis (a method of multivariate statistics) using a non-hierarchical method (K-Means) together with techniques of supervised machine learning.
The methodology presented claims that the best set of variables to classify a given application is not the same to classify N applications. Compared to other methods, this work innovates in providing a reduction in the number of variables (features) to be analyzed by a statistical method computationally simple, which can be used in other data sets (traces). It was observed that for most classes only one variable was sufficient to discriminate the traffic of the application, getting an average of 74,40% of correct classification of flows in the class under analysis.
Keywords: Computer Networks; Statistical Discriminators; Traffic Classification; Multivariate Statistics; Cluster Analysis; Machine Learning. Ver menos
Disponibilidade forma física: Existe obra em Cd-Rom de código : 82543
Disponibilidade forma física: Existe obra impressa de código : 83084
Holanda Filho, Raimir
Orientador
Holanda Filho, Raimir
Banca examinadora
Coelho, Andre Luis Vasconcelos
Banca examinadora
Santos, Aldri Luiz dos
Banca examinadora
Universidade de Fortaleza
Dissertação (mestrado)