You are here: Home Projects Graduate Projects Artificial Intelligence in Epidemiology Elaine de Assis @ CIn-UFPE Reconhecimento de Spam usando Funções de Base Radial Simbólicas
Document Actions

Reconhecimento de Spam usando Funções de Base Radial Simbólicas

by Jones Albuquerque last modified 2010-05-13 07:09

Click here to get the file

Size 3.9 kB - File type text/plain

File contents

EDITAL FACEPE 13/2008  Concesso de Bolsas de Ps-Graduao stricto sensu
Ttulo para Proposta de uma Bolsa de Mestrado: 
Reconhecimento de Spam usando Funes de Base Radial Simblicas
Instituio: Centro de Informtica CIn  Universidade Federal de Pernambuco
Orientadora: Renata Maria Cardoso Rodrigues de Souza

Resumo
O conceito de Spam, o define como uma mensagem indesejada enviada de forma massiva na 
Internet. O problema de reconhecimento de Spams caracteriza-se como um problema clssico 
de classificao de padres, na rea de aprendizagem de mquina que, por sua vez,  um 
subcampo da Inteligncia Artificial. O problema  que, em geral, estas mensagens inundam 
a Internet enchendo as caixas de e-mail dos usurios, causando sobrecarga de servidores 
de e-mail, irritabilidade de usurios e prejuzos para as empresas. Alm disto, ainda 
existe a classe dos Spams utilizados apenas para distribuio indevida de MalWares, que so, 
em sua maioria, os maiores causadores de problemas para usurios domsticos e empresas no 
mundo da Internet. Portanto, identificar (reconhecer) de maneira eficaz os Spams traria 
grandes benefcios para os usurios da Internet ao redor do mundo. Desta forma, a fim de 
auxiliar a validao de modelos para resolver o problema de reconhecimento de Spams, foi 
criada a Spam e-mail Database, que  uma base de dados com informaes a respeito de 
e-mails, sejam estes Spams ou no. Um aspecto fundamental quando usando tcnicas de 
aprendizagem  o tratamento com os dados de entrada. Em situaes em que um grande nmero 
de dados esto presentes torna-se difcil a extrao de padres e tendncias que esto 
usualmente escondidos nesses dados. Uma soluo  criar novas unidades (resumos) que so 
obtidas por meio de agregao dos dados originais. A anlise de dados simblicos (ADS) 
[Bock e Diday (2000)]  uma abordagem de tipo data mining pois seu ponto de partida  a 
extrao de conhecimentos em grandes conjuntos de dados.  O conhecimento extrado  
representado por dados mais complexos, chamados de dados simblicos, pois permitem levar 
em conta variao e/ou incerteza quando descrevendo dados agregados. O objetivo dessa 
representao simblica  de realizar melhor a modelagem do conjunto de dados associado 
s unidades agregadas. Os dados simblicos so descritos por variveis multivaloradas 
que podem no somente assumir um valor numrico ou categrico, mas um conjunto de 
categorias, intervalos ou distribuies de pesos.  Esse projeto pretende realizar avanos
 no estado da arte da anlise dados simblicos com desenvolvimento de tcnicas de 
classificao supervisionada.  As redes de funes de bases radial so modelos de 
redes neurais artificiais que so tipicamente usados para problemas de classificao 
supervisionada.  O objetivo desse projeto  adaptar a arquitertura destas redes para 
resolver problemas de classificao supervisionada usando bases de dados cujos elementos 
podem ser intervalos e/ou distribuies de pesos. Alm disso, uma aplicaao da metodologia 
proposta para fazer  reconhecimento de spam ser  considerada usando uma base de dados 
do UCI Machine Learning Repository http://archive.ics.uci.edu/ml/. 
       

Resultados Esperados e Contribuies
Como resultados esperados, este trabalho visa contribuir de quatro maneiras diferentes: 
a) realizar avanos no plano terico relativo aos mtodos e algoritmos da abordagem 
simblica em classificao supervisionada e mtodos afins, referendados com 2 publicaes 
em congressos nacionais e internacionais; 
b) contribuir para o estado da arte de aplicaes para reconhecimento de spam; 
c) implementao de mtodos de classificao supervisionada que podero ser usados no 
apenas pelo CIn mas por outras partes do mundo que trabalham da abordagem simblica em 
anlise de dados e mtodos afins; 
d) formao de um aluno de mestrado.

Palavras-chave: Classificao, Anlise de Dados Simblicos, Funes de Base Radial