Reconhecimento de Spam usando Funções de Base Radial Simbólicas
Click here to get the file
Size
3.9 kB
-
File type
text/plain
File contents
EDITAL FACEPE 13/2008 Concess�o de Bolsas de P�s-Gradua��o stricto sensu
T�tulo para Proposta de uma Bolsa de Mestrado:
Reconhecimento de Spam usando Fun��es de Base Radial Simb�licas
Institui��o: Centro de Inform�tica CIn � Universidade Federal de Pernambuco
Orientadora: Renata Maria Cardoso Rodrigues de Souza
Resumo
O conceito de Spam, o define como uma mensagem indesejada enviada de forma massiva na
Internet. O problema de reconhecimento de Spams caracteriza-se como um problema cl�ssico
de classifica��o de padr�es, na �rea de aprendizagem de m�quina que, por sua vez, � um
subcampo da Intelig�ncia Artificial. O problema � que, em geral, estas mensagens inundam
a Internet enchendo as caixas de e-mail dos usu�rios, causando sobrecarga de servidores
de e-mail, irritabilidade de usu�rios e preju�zos para as empresas. Al�m disto, ainda
existe a classe dos Spams utilizados apenas para distribui��o indevida de MalWares, que s�o,
em sua maioria, os maiores causadores de problemas para usu�rios dom�sticos e empresas no
mundo da Internet. Portanto, identificar (reconhecer) de maneira eficaz os Spams traria
grandes benef�cios para os usu�rios da Internet ao redor do mundo. Desta forma, a fim de
auxiliar a valida��o de modelos para resolver o problema de reconhecimento de Spams, foi
criada a �Spam e-mail Database�, que � uma base de dados com informa��es a respeito de
e-mails, sejam estes Spams ou n�o. Um aspecto fundamental quando usando t�cnicas de
aprendizagem � o tratamento com os dados de entrada. Em situa��es em que um grande n�mero
de dados est�o presentes torna-se dif�cil a extra��o de padr�es e tend�ncias que est�o
usualmente escondidos nesses dados. Uma solu��o � criar novas unidades (resumos) que s�o
obtidas por meio de agrega��o dos dados originais. A an�lise de dados simb�licos (ADS)
[Bock e Diday (2000)] � uma abordagem de tipo data mining pois seu ponto de partida � a
extra��o de conhecimentos em grandes conjuntos de dados. O conhecimento extra�do �
representado por dados mais complexos, chamados de dados simb�licos, pois permitem levar
em conta varia��o e/ou incerteza quando descrevendo dados agregados. O objetivo dessa
representa��o simb�lica � de realizar melhor a modelagem do conjunto de dados associado
�s unidades agregadas. Os dados simb�licos s�o descritos por vari�veis multivaloradas
que podem n�o somente assumir um valor num�rico ou categ�rico, mas um conjunto de
categorias, intervalos ou distribui��es de pesos. Esse projeto pretende realizar avan�os
no estado da arte da an�lise dados simb�licos com desenvolvimento de t�cnicas de
classifica��o supervisionada. As redes de fun��es de bases radial s�o modelos de
redes neurais artificiais que s�o tipicamente usados para problemas de classifica��o
supervisionada. O objetivo desse projeto � adaptar a arquitertura destas redes para
resolver problemas de classifica��o supervisionada usando bases de dados cujos elementos
podem ser intervalos e/ou distribui��es de pesos. Al�m disso, uma aplica�ao da metodologia
proposta para fazer reconhecimento de spam ser� considerada usando uma base de dados
do UCI Machine Learning Repository http://archive.ics.uci.edu/ml/.
Resultados Esperados e Contribui��es
Como resultados esperados, este trabalho visa contribuir de quatro maneiras diferentes:
a) realizar avan�os no plano te�rico relativo aos m�todos e algoritmos da abordagem
simb�lica em classifica��o supervisionada e m�todos afins, referendados com 2 publica��es
em congressos nacionais e internacionais;
b) contribuir para o estado da arte de aplica��es para reconhecimento de spam;
c) implementa��o de m�todos de classifica��o supervisionada que poder�o ser usados n�o
apenas pelo CIn mas por outras partes do mundo que trabalham da abordagem simb�lica em
an�lise de dados e m�todos afins;
d) forma��o de um aluno de mestrado.
Palavras-chave: Classifica��o, An�lise de Dados Simb�licos, Fun��es de Base Radial