EDITAL FACEPE 13/2008  Concessão de Bolsas de Pós-Graduação stricto sensu
Título para Proposta de uma Bolsa de Mestrado: 
Reconhecimento de Spam usando Funções de Base Radial Simbólicas
Instituição: Centro de Informática CIn – Universidade Federal de Pernambuco
Orientadora: Renata Maria Cardoso Rodrigues de Souza

Resumo
O conceito de Spam, o define como uma mensagem indesejada enviada de forma massiva na 
Internet. O problema de reconhecimento de Spams caracteriza-se como um problema clássico 
de classificação de padrões, na área de aprendizagem de máquina que, por sua vez, é um 
subcampo da Inteligência Artificial. O problema é que, em geral, estas mensagens inundam 
a Internet enchendo as caixas de e-mail dos usuários, causando sobrecarga de servidores 
de e-mail, irritabilidade de usuários e prejuízos para as empresas. Além disto, ainda 
existe a classe dos Spams utilizados apenas para distribuição indevida de MalWares, que são, 
em sua maioria, os maiores causadores de problemas para usuários domésticos e empresas no 
mundo da Internet. Portanto, identificar (reconhecer) de maneira eficaz os Spams traria 
grandes benefícios para os usuários da Internet ao redor do mundo. Desta forma, a fim de 
auxiliar a validação de modelos para resolver o problema de reconhecimento de Spams, foi 
criada a “Spam e-mail Database”, que é uma base de dados com informações a respeito de 
e-mails, sejam estes Spams ou não. Um aspecto fundamental quando usando técnicas de 
aprendizagem é o tratamento com os dados de entrada. Em situações em que um grande número 
de dados estão presentes torna-se difícil a extração de padrões e tendências que estão 
usualmente escondidos nesses dados. Uma solução é criar novas unidades (resumos) que são 
obtidas por meio de agregação dos dados originais. A análise de dados simbólicos (ADS) 
[Bock e Diday (2000)] é uma abordagem de tipo data mining pois seu ponto de partida é a 
extração de conhecimentos em grandes conjuntos de dados.  O conhecimento extraído é 
representado por dados mais complexos, chamados de dados simbólicos, pois permitem levar 
em conta variação e/ou incerteza quando descrevendo dados agregados. O objetivo dessa 
representação simbólica é de realizar melhor a modelagem do conjunto de dados associado 
às unidades agregadas. Os dados simbólicos são descritos por variáveis multivaloradas 
que podem não somente assumir um valor numérico ou categórico, mas um conjunto de 
categorias, intervalos ou distribuições de pesos.  Esse projeto pretende realizar avanços
 no estado da arte da análise dados simbólicos com desenvolvimento de técnicas de 
classificação supervisionada.  As redes de funções de bases radial são modelos de 
redes neurais artificiais que são tipicamente usados para problemas de classificação 
supervisionada.  O objetivo desse projeto é adaptar a arquitertura destas redes para 
resolver problemas de classificação supervisionada usando bases de dados cujos elementos 
podem ser intervalos e/ou distribuições de pesos. Além disso, uma aplicaçao da metodologia 
proposta para fazer  reconhecimento de spam será  considerada usando uma base de dados 
do UCI Machine Learning Repository http://archive.ics.uci.edu/ml/. 
       

Resultados Esperados e Contribuições
Como resultados esperados, este trabalho visa contribuir de quatro maneiras diferentes: 
a) realizar avanços no plano teórico relativo aos métodos e algoritmos da abordagem 
simbólica em classificação supervisionada e métodos afins, referendados com 2 publicações 
em congressos nacionais e internacionais; 
b) contribuir para o estado da arte de aplicações para reconhecimento de spam; 
c) implementação de métodos de classificação supervisionada que poderão ser usados não 
apenas pelo CIn mas por outras partes do mundo que trabalham da abordagem simbólica em 
análise de dados e métodos afins; 
d) formação de um aluno de mestrado.

Palavras-chave: Classificação, Análise de Dados Simbólicos, Funções de Base Radial