EDITAL FACEPE 13/2008 Concessão de Bolsas de Pós-Graduação stricto sensu Título para Proposta de uma Bolsa de Mestrado: Reconhecimento de Spam usando Funções de Base Radial Simbólicas Instituição: Centro de Informática CIn – Universidade Federal de Pernambuco Orientadora: Renata Maria Cardoso Rodrigues de Souza Resumo O conceito de Spam, o define como uma mensagem indesejada enviada de forma massiva na Internet. O problema de reconhecimento de Spams caracteriza-se como um problema clássico de classificação de padrões, na área de aprendizagem de máquina que, por sua vez, é um subcampo da Inteligência Artificial. O problema é que, em geral, estas mensagens inundam a Internet enchendo as caixas de e-mail dos usuários, causando sobrecarga de servidores de e-mail, irritabilidade de usuários e prejuízos para as empresas. Além disto, ainda existe a classe dos Spams utilizados apenas para distribuição indevida de MalWares, que são, em sua maioria, os maiores causadores de problemas para usuários domésticos e empresas no mundo da Internet. Portanto, identificar (reconhecer) de maneira eficaz os Spams traria grandes benefícios para os usuários da Internet ao redor do mundo. Desta forma, a fim de auxiliar a validação de modelos para resolver o problema de reconhecimento de Spams, foi criada a “Spam e-mail Database”, que é uma base de dados com informações a respeito de e-mails, sejam estes Spams ou não. Um aspecto fundamental quando usando técnicas de aprendizagem é o tratamento com os dados de entrada. Em situações em que um grande número de dados estão presentes torna-se difícil a extração de padrões e tendências que estão usualmente escondidos nesses dados. Uma solução é criar novas unidades (resumos) que são obtidas por meio de agregação dos dados originais. A análise de dados simbólicos (ADS) [Bock e Diday (2000)] é uma abordagem de tipo data mining pois seu ponto de partida é a extração de conhecimentos em grandes conjuntos de dados. O conhecimento extraído é representado por dados mais complexos, chamados de dados simbólicos, pois permitem levar em conta variação e/ou incerteza quando descrevendo dados agregados. O objetivo dessa representação simbólica é de realizar melhor a modelagem do conjunto de dados associado às unidades agregadas. Os dados simbólicos são descritos por variáveis multivaloradas que podem não somente assumir um valor numérico ou categórico, mas um conjunto de categorias, intervalos ou distribuições de pesos. Esse projeto pretende realizar avanços no estado da arte da análise dados simbólicos com desenvolvimento de técnicas de classificação supervisionada. As redes de funções de bases radial são modelos de redes neurais artificiais que são tipicamente usados para problemas de classificação supervisionada. O objetivo desse projeto é adaptar a arquitertura destas redes para resolver problemas de classificação supervisionada usando bases de dados cujos elementos podem ser intervalos e/ou distribuições de pesos. Além disso, uma aplicaçao da metodologia proposta para fazer reconhecimento de spam será considerada usando uma base de dados do UCI Machine Learning Repository http://archive.ics.uci.edu/ml/. Resultados Esperados e Contribuições Como resultados esperados, este trabalho visa contribuir de quatro maneiras diferentes: a) realizar avanços no plano teórico relativo aos métodos e algoritmos da abordagem simbólica em classificação supervisionada e métodos afins, referendados com 2 publicações em congressos nacionais e internacionais; b) contribuir para o estado da arte de aplicações para reconhecimento de spam; c) implementação de métodos de classificação supervisionada que poderão ser usados não apenas pelo CIn mas por outras partes do mundo que trabalham da abordagem simbólica em análise de dados e métodos afins; d) formação de um aluno de mestrado. Palavras-chave: Classificação, Análise de Dados Simbólicos, Funções de Base Radial