Reconhecimento de Spam usando Funções de Base Radial Simbólicas
Click here to get the file
Size
3.9 kB
-
File type
text/plain
File contents
EDITAL FACEPE 13/2008 Concesso de Bolsas de Ps-Graduao stricto sensu
Ttulo para Proposta de uma Bolsa de Mestrado:
Reconhecimento de Spam usando Funes de Base Radial Simblicas
Instituio: Centro de Informtica CIn Universidade Federal de Pernambuco
Orientadora: Renata Maria Cardoso Rodrigues de Souza
Resumo
O conceito de Spam, o define como uma mensagem indesejada enviada de forma massiva na
Internet. O problema de reconhecimento de Spams caracteriza-se como um problema clssico
de classificao de padres, na rea de aprendizagem de mquina que, por sua vez, um
subcampo da Inteligncia Artificial. O problema que, em geral, estas mensagens inundam
a Internet enchendo as caixas de e-mail dos usurios, causando sobrecarga de servidores
de e-mail, irritabilidade de usurios e prejuzos para as empresas. Alm disto, ainda
existe a classe dos Spams utilizados apenas para distribuio indevida de MalWares, que so,
em sua maioria, os maiores causadores de problemas para usurios domsticos e empresas no
mundo da Internet. Portanto, identificar (reconhecer) de maneira eficaz os Spams traria
grandes benefcios para os usurios da Internet ao redor do mundo. Desta forma, a fim de
auxiliar a validao de modelos para resolver o problema de reconhecimento de Spams, foi
criada a Spam e-mail Database, que uma base de dados com informaes a respeito de
e-mails, sejam estes Spams ou no. Um aspecto fundamental quando usando tcnicas de
aprendizagem o tratamento com os dados de entrada. Em situaes em que um grande nmero
de dados esto presentes torna-se difcil a extrao de padres e tendncias que esto
usualmente escondidos nesses dados. Uma soluo criar novas unidades (resumos) que so
obtidas por meio de agregao dos dados originais. A anlise de dados simblicos (ADS)
[Bock e Diday (2000)] uma abordagem de tipo data mining pois seu ponto de partida a
extrao de conhecimentos em grandes conjuntos de dados. O conhecimento extrado
representado por dados mais complexos, chamados de dados simblicos, pois permitem levar
em conta variao e/ou incerteza quando descrevendo dados agregados. O objetivo dessa
representao simblica de realizar melhor a modelagem do conjunto de dados associado
s unidades agregadas. Os dados simblicos so descritos por variveis multivaloradas
que podem no somente assumir um valor numrico ou categrico, mas um conjunto de
categorias, intervalos ou distribuies de pesos. Esse projeto pretende realizar avanos
no estado da arte da anlise dados simblicos com desenvolvimento de tcnicas de
classificao supervisionada. As redes de funes de bases radial so modelos de
redes neurais artificiais que so tipicamente usados para problemas de classificao
supervisionada. O objetivo desse projeto adaptar a arquitertura destas redes para
resolver problemas de classificao supervisionada usando bases de dados cujos elementos
podem ser intervalos e/ou distribuies de pesos. Alm disso, uma aplicaao da metodologia
proposta para fazer reconhecimento de spam ser considerada usando uma base de dados
do UCI Machine Learning Repository http://archive.ics.uci.edu/ml/.
Resultados Esperados e Contribuies
Como resultados esperados, este trabalho visa contribuir de quatro maneiras diferentes:
a) realizar avanos no plano terico relativo aos mtodos e algoritmos da abordagem
simblica em classificao supervisionada e mtodos afins, referendados com 2 publicaes
em congressos nacionais e internacionais;
b) contribuir para o estado da arte de aplicaes para reconhecimento de spam;
c) implementao de mtodos de classificao supervisionada que podero ser usados no
apenas pelo CIn mas por outras partes do mundo que trabalham da abordagem simblica em
anlise de dados e mtodos afins;
d) formao de um aluno de mestrado.
Palavras-chave: Classificao, Anlise de Dados Simblicos, Funes de Base Radial