Dissertação

Cross-lingual Text Classification EVALUATED

O problema de atribuir classes a documentos de texto, chamado classificação de texto, é prevalente em Processamento de Língua Natural. Devido à diferença em quantidade de recursos disponíveis para estes problemas, há uma necessidade de aproveitar informação de algumas línguas para aplicar a problemas noutras línguas. Ao processo de aproveitar informação de um conjunto de línguas, usando-a para classificação de documentos noutras, chamamos de classificação de documentos multilíngue. Este é um problema desafiante, porque línguas diferentes possuem estruturas diferentes. O conceito de aprendizagem de representações tem ganho popularidade recentemente como maneira de aproveitar informação de várias línguas para diversos tipos de problemas. Revemos conceitos usados em Processamento de Língua Natural, e propomos duas novas abordagens, baseadas no conceito de aprendizagem de representações. A primeira abordagem utiliza análise de correlações canónicas, sendo baseada em trabalho anterior que usa alinhamentos de palavras, mas usamos alinhamentos de frases, que estão prontamente disponíveis e têm menor propensão a erro. As abordagens anteriores separam o problema de classificação multilíngue em dois problemas distintos: começam por aprender representações multilíngues, e só depois um classificador. A segunda abordagem aprende um classificador e representações multilíngues, em simultâneo. Ao aprender representações para um problema específico, esperamos obter melhores resultados nesse problema. Formulamos então um problema de optimização convexo, no qual aprendemos representações multilíngues para um problema em particular. Apresentamos alguns resultados teóricos sobre limitações desta abordagem. Avaliamos as abordagens num problema de classificação de documentos multilíngue previamente estabelecido na literatura, e obtemos resultados do nível do estado da arte.
classificação de documentos, aprendizagem de representações, representações multilíngues, análise de correlações canónicas

novembro 23, 2015, 11:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Mariana Almeida

Priberam

Especialista

ORIENTADOR

André F. Torres Martins

Priberam

Especialista

ORIENTADOR

Maria do Rosário De Oliveira Silva

Departamento de Matemática (DM)

Professor Auxiliar