Descrição

O CORP é um ferramenta de resolução de coreferências para o Português. Tendo como entrada textos puros, livres de anotação, o modelo é capaz de produzir cadeias de correferência em dois formatos de anotação (XML e HTML) . A ferramenta foi concebida por meio de regras linguísticas e conhecimento semântico. A ferramenta está disponível também em versão web.

Download

CORP versão desktop

Instruções de Uso

Para executar, basta colocar os arquivos a serem processados no diretório “Entrada” e executar o arquivo CORPv2.jar.

– Para sistemas Linux, usar linha de comando java -Dfile.encoding=ISO8859-1 -jar [caminho do corp.jar] – Os arquivos de saída estarão disponíveis em dois formatos diferentes, nos diretórios “/Saida/HTML” e “/Saida/XML”.

Citação

Citação em texto, bibtex e PDF do artigo

[Fonseca et al. ,2017] E. B. Fonseca, V. Sesti, A. Antonitsch, A. A. Vanin, and R. Vieira. Corp – uma abordagem baseada em regras e conhecimento semântico para a resolução de correferências. Linguamatica, 9(1):3–18, 2017 [pdf] [bib]

[Fonseca et al. , 2016] E. B. Fonseca, R. Vieira, and A. Vanin. Corp: Coreference resolution for portuguese. In 12th International Conference on the Computational Processing of Portuguese, Demo Session (PROPOR), 2016. [pdf] [bib]

Licença de Uso

O CORP, está licenciado sob uma licença creative commons CC BY-NC-ND 3.0