Descrição
O Corref-PT consiste em um corpus, anotado com correferências para o Português. O recurso foi construído por meio de um esforço coletivo entre sete times de anotadores, com um total de vinte e um anotadores falantes nativos do Português, variando entre estudantes e professores da área de linguística computacional. O corpus está disponível em quatro formatos, TXT, SemEval, XML e HTML.
Download
O corpus é formado por 4 tipos de arquivo: o primeiro, TXT, livre de anotações; o segundo, SemEval, contendo as informações anotadas de cada palavra dos textos, em forma de colunas, correspondendo as diferentes camadas: morfossintáticas, e correferência; o terceiro, HTML, fornece uma forma de visualização amigável, de forma a facilitar a identificação e leitura do texto; e, o quarto, XML, provê uma estrutura que facilita a extração de informação. O detalhamento do corpus é apresentado no artigo citado.
Modelo (template):
Citação
Citação em texto, bibtex e PDF do artigo