Dissertação

{en_GB=Neural Methods for Cross-lingual Sentence Compression} {} EVALUATED

{pt=A compressão de frases permite produzir uma frase mais pequena ao retirar a informação redundante, mantendo a gramaticalidade. Os sistemas actuais são baseados em redes neuronais que geram uma sequência binária de etiquetas para cada frase: se uma palavra se mantiver da frase original para a compressão é atribuída uma etiqueta com o número um, caso contrário é atribuída a etiqueta zero. Nesta tese, são propostas arquitecturas neuronais que tentam melhorar os sistemas actuais baseados em redes neuronais, especificamente é usado um método que permite gerar globalmente a melhor sequência de etiquetas para uma sequência de palavras, em vez de gerar independentemente como fazem os métodos actuais. Além de estratégias adicionais durante o treino do modelo é também considerado o uso de características sintácticas que podem ajudar a generalizar. Neste trabalho, a tarefa de comprimir frases é também extendida para uma configuração multilíngua que permite gerar compressões em Inglês e Português. A arquitectura proposta conseguiu resultados melhor ou iguais ao avaliar os modelos no mesmo conjunto de dados de teste que os sistemas actuais. Adicionalmente, ao avaliar os modelos nos dados em Português, a arquitectura com melhores resultados apenas usou as palavras de uma sequência, visto que o modelo que continha características sintácticas obteve resultados inferiores., en=Sentence compression produces a shorter sentence by removing redundant information, preserving the grammatically and the important content of the original sentence. This thesis proposes an improvement to the current neural deletion systems. These systems output a binary sequence of labels for an input sentence, the label one indicates that the token from the source sentence remains in the compression, whereas zero indicates that the token had been removed. Our improvement is the use of a method on the output layer which benefits the decoding of the best global sequence of labels for a given input. An auxiliary loss function is also considered as well as the incorporation of syntactic features which helps to capture grammatical relations. In addition, the sentence compression task is extended into a cross-lingual setting where the models are evaluated on English and Portuguese. The proposed architecture has achieved better or equal results than the current systems, validating that the model benefited from the modification in both languages.}
{pt=Compressão de Frases, Sumarização, Redes Neuronais Profundas, Processamento Multilingue, Vectores de Palavras, en=Sentence Compression, Summarization, Deep Neural Networks, Cross-lingual Processing, Word Embeddings}

Junho 7, 2018, 13:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Ricardo Daniel Santos Faro Marques Ribeiro

ISCTE

Professor Auxiliar