Artigo

AVALIACAO DO IMPACTO DE TECNICAS DE BALANCEAMENTO PARA MINERAÇÃO DE STREAMS DESBALANCEADAS

PIZZATTO, Samuel Wilson Ferrante1; ENEMBRECK, Fabricio2;

Resumo

Introdução:Uma base de dados está desbalanceada se a distribuição de categorias ou classes não está próxima de uma distribuição uniforme. Este, é um problema muito comum no mundo real, quando se tem uma amostra de dados que é predominantemente composta de exemplos “normais” e uma pequena quantia de “anormais”. Esse comportamento tende a prejudicar o comportamento de algoritmos de aprendizagem de máquina. Por isso, técnicas de tratamento de dados desbalanceados tem sido desenvolvidas.

Objetivo:O impacto do desbalanceamento dos dados ainda se torna mais severo quando os dados são gerados continuamente em tempo real, na forma de fluxo (data streams), pois a complexidade computacional das técnicas de tratamento de balanceamento deve respeitar as restrições de tempo de processamento e memória desse contexto dinâmico. Este projeto, tem como objetivo analisar e adaptar algoritmos que tratam de desbalanceamento no ambiente off-line para cenários de data streams.

Metodologia:Nesse projeto foi utilizada a ferramenta MOA (Massive Online Analisys) com a extensão do WEKA (outra ferramenta para mineração de dados em JAVA). Uma abordagem genérica de janelamento foi desenvolvida e os algoritmos SMOTE (Synthetic Minority Over-Sampling Technique) e SMOTE Borderline 1 foram adaptados para trabalhar sobre uma janela deslizante. Os algoritmos de balanceamento utilizam a janela de dados para gerar instâncias sintéticas quando o desbalanceamento ultrapassa um limitar estabelecido. Essas instâncias são então utilizadas para treinar o classificador base Hoeffding Tree.

Resultados:Os experimentos mostraram que o algoritmo SMOTE, em um caso, apresentou resultados superiores em relação ao SMOTE Bordeline 1, e em outro caso ocorreu o contrário. Em ambos os experimentos, as abordagens que utilizaram a abordagem desenvolvida superaram a execução do classificador base padrão.

Conclusões:Nos cenários utilizados como estudo de caso a abordagem para tratamento de balanceamento em fluxos de dados mostrou-se superior em relação ao classificador base. Isso sugere que o tratamento de streams desbalanceadas pode melhorar o processo de aprendizagem. Em pesquisas futuras, mais experimentos e comparações entre abordagens de tratamento de desbalanceamento em fluxos de dados devem verificar a validade dessa hipótese.

Palavras-chave:Fluxos desbalanceados de dados. Mineração de fluxos de dados. Aprendizagem de Máquina.

Legendas

    1. Estudante
    2. Orientador