FenixEdu™

Dissertação

Semantic Classification of Nouns EVALUATED

Detalhes: Esta dissertação apresenta vários métodos que podem ser utilizados para obter a classificação semântica de substantivos, testando a aplicabilidade de um desses algoritmos, através do estudo dos resultados obtidos. Utilizando uma técnica de aprendizagem automática, co-training, espera-se que o sistema permita aumentar o número de substantivos portugueses semanticamente classificados no léxico do sistema STRING. Este algoritmo recebe como dados de entrada um conjunto de nomes previamente classificados (sementes) rotulados de acordo com um conjunto existente de categorias semânticas, e realiza uma extensa pesquisa cíclica num corpus que visa obter frases que contenham essas palavras-sementes e de seguida comparar essas frases com o restante corpus, a fim de extrair frases de estrutura semelhante que contenham outras palavras no mesmo contexto da palavra-semente, analisando para isso a estrutura sintática das frases, nomeadamente as dependências entre os seus constituintes. Assim, serão retiradas conclusões acerca de novos substantivos que devem receber como classificação o rótulo da categoria semântica da palavra-semente com a qual se assemelham em termos do contexto. As propostas de classificação do algoritmo são apresentadas sob a forma de uma listagem de substantivos identificados como pertencentes à categoria semântica escolhida pelo utilizador. Estas propostas ficam sujeitas a aprovação de um utilizador quanto à sua correção, permitindo, assim, a ampliação da base de dados depois de aprovados. Foi desenvolvida uma interface gráfica para facilitar a interação do utilizador com a aplicação.
Keywords: Processamento de Língua Natural, classificação semântica de nomes, aprendizagem automática, co-training

Discussão: junho 4, 2015, 18:0