FenixEdu™

Dissertação

{pt_PT=Semantic Classification of Nouns} {} EVALUATED

Detalhes: {pt=Esta dissertação apresenta vários métodos que podem ser utilizados para obter a classificação semântica de substantivos, testando a aplicabilidade de um desses algoritmos, através do estudo dos resultados obtidos. Utilizando uma técnica de aprendizagem automática, co-training, espera-se que o sistema permita aumentar o número de substantivos portugueses semanticamente classificados no léxico do sistema STRING. Este algoritmo recebe como dados de entrada um conjunto de nomes previamente classificados (sementes) rotulados de acordo com um conjunto existente de categorias semânticas, e realiza uma extensa pesquisa cíclica num corpus que visa obter frases que contenham essas palavras-sementes e de seguida comparar essas frases com o restante corpus, a fim de extrair frases de estrutura semelhante que contenham outras palavras no mesmo contexto da palavra-semente, analisando para isso a estrutura sintática das frases, nomeadamente as dependências entre os seus constituintes. Assim, serão retiradas conclusões acerca de novos substantivos que devem receber como classificação o rótulo da categoria semântica da palavra-semente com a qual se assemelham em termos do contexto. As propostas de classificação do algoritmo são apresentadas sob a forma de uma listagem de substantivos identificados como pertencentes à categoria semântica escolhida pelo utilizador. Estas propostas ficam sujeitas a aprovação de um utilizador quanto à sua correção, permitindo, assim, a ampliação da base de dados depois de aprovados. Foi desenvolvida uma interface gráfica para facilitar a interação do utilizador com a aplicação., en=This dissertation presents several methods that can be used to achieve a semantic classification of nouns, testing the applicability of one of these algorithms, through the study of the quality of the results obtained. Using a machine learning technique, co-training, we expect the system to increase the number of Portuguese nouns semantically classified in the lexicon of the STRING system. This algorithm receives as input a set of names previously classified (seeds) labeled in accordance with an existing set of semantic categories, and it performs an extensive cyclic search on a corpus that aims to obtain sentences containing such seed-words, and next compares these sentences with the remaining sentences in the corpus in order to extract other sentences with matching structure that contain other words that fit the same word-seed context, by analyzing the syntactic structure of the sentences, namely the dependencies. This way, conclusions arise about new nouns that must receive as classification label the semantic category of the word seed with which they resemble in terms of the context, as in, the sentence where they occur. The proposed classifications of the algorithm are then presented as a list of nouns identified as belonging to the semantic category selected by the user. These proposals are subject to approval by a user, allowing the expansion of the database if approved. A graphic interface was developed to facilitate the interaction between user and application.}
Keywords: {pt=Processamento de Língua Natural, classificação semântica de nomes, aprendizagem automática, co-training, en=Natural Language processing, nouns semantic classification, machine learning, co-training}

Discussão: junho 4, 2015, 18:0