You are here: Home Projects Graduate Projects Artificial Intelligence in Epidemiology Elaine de Assis @ CIn-UFPE Reconhecimento de Spam usando Funções de Base Radial Simbólicas
Document Actions

Reconhecimento de Spam usando Funções de Base Radial Simbólicas

by Jones Albuquerque last modified 2010-05-13 07:09

Click here to get the file

Size 3.9 kB - File type text/plain

File contents

EDITAL FACEPE 13/2008  Concess�o de Bolsas de P�s-Gradua��o stricto sensu
T�tulo para Proposta de uma Bolsa de Mestrado: 
Reconhecimento de Spam usando Fun��es de Base Radial Simb�licas
Institui��o: Centro de Inform�tica CIn � Universidade Federal de Pernambuco
Orientadora: Renata Maria Cardoso Rodrigues de Souza

Resumo
O conceito de Spam, o define como uma mensagem indesejada enviada de forma massiva na 
Internet. O problema de reconhecimento de Spams caracteriza-se como um problema cl�ssico 
de classifica��o de padr�es, na �rea de aprendizagem de m�quina que, por sua vez, � um 
subcampo da Intelig�ncia Artificial. O problema � que, em geral, estas mensagens inundam 
a Internet enchendo as caixas de e-mail dos usu�rios, causando sobrecarga de servidores 
de e-mail, irritabilidade de usu�rios e preju�zos para as empresas. Al�m disto, ainda 
existe a classe dos Spams utilizados apenas para distribui��o indevida de MalWares, que s�o, 
em sua maioria, os maiores causadores de problemas para usu�rios dom�sticos e empresas no 
mundo da Internet. Portanto, identificar (reconhecer) de maneira eficaz os Spams traria 
grandes benef�cios para os usu�rios da Internet ao redor do mundo. Desta forma, a fim de 
auxiliar a valida��o de modelos para resolver o problema de reconhecimento de Spams, foi 
criada a �Spam e-mail Database�, que � uma base de dados com informa��es a respeito de 
e-mails, sejam estes Spams ou n�o. Um aspecto fundamental quando usando t�cnicas de 
aprendizagem � o tratamento com os dados de entrada. Em situa��es em que um grande n�mero 
de dados est�o presentes torna-se dif�cil a extra��o de padr�es e tend�ncias que est�o 
usualmente escondidos nesses dados. Uma solu��o � criar novas unidades (resumos) que s�o 
obtidas por meio de agrega��o dos dados originais. A an�lise de dados simb�licos (ADS) 
[Bock e Diday (2000)] � uma abordagem de tipo data mining pois seu ponto de partida � a 
extra��o de conhecimentos em grandes conjuntos de dados.  O conhecimento extra�do � 
representado por dados mais complexos, chamados de dados simb�licos, pois permitem levar 
em conta varia��o e/ou incerteza quando descrevendo dados agregados. O objetivo dessa 
representa��o simb�lica � de realizar melhor a modelagem do conjunto de dados associado 
�s unidades agregadas. Os dados simb�licos s�o descritos por vari�veis multivaloradas 
que podem n�o somente assumir um valor num�rico ou categ�rico, mas um conjunto de 
categorias, intervalos ou distribui��es de pesos.  Esse projeto pretende realizar avan�os
 no estado da arte da an�lise dados simb�licos com desenvolvimento de t�cnicas de 
classifica��o supervisionada.  As redes de fun��es de bases radial s�o modelos de 
redes neurais artificiais que s�o tipicamente usados para problemas de classifica��o 
supervisionada.  O objetivo desse projeto � adaptar a arquitertura destas redes para 
resolver problemas de classifica��o supervisionada usando bases de dados cujos elementos 
podem ser intervalos e/ou distribui��es de pesos. Al�m disso, uma aplica�ao da metodologia 
proposta para fazer  reconhecimento de spam ser�  considerada usando uma base de dados 
do UCI Machine Learning Repository http://archive.ics.uci.edu/ml/. 
       

Resultados Esperados e Contribui��es
Como resultados esperados, este trabalho visa contribuir de quatro maneiras diferentes: 
a) realizar avan�os no plano te�rico relativo aos m�todos e algoritmos da abordagem 
simb�lica em classifica��o supervisionada e m�todos afins, referendados com 2 publica��es 
em congressos nacionais e internacionais; 
b) contribuir para o estado da arte de aplica��es para reconhecimento de spam; 
c) implementa��o de m�todos de classifica��o supervisionada que poder�o ser usados n�o 
apenas pelo CIn mas por outras partes do mundo que trabalham da abordagem simb�lica em 
an�lise de dados e m�todos afins; 
d) forma��o de um aluno de mestrado.

Palavras-chave: Classifica��o, An�lise de Dados Simb�licos, Fun��es de Base Radial