BlogSet-BR

English Version

Descrição

BlogSet-BR é uma coleção de postagens retiradas de blogs na plataforma Blogspot escritas  por usuários brasileiros. Três arquivos compõe esse recurso:

  • um csv somente com as postagens brasileiras e
  • um xls com a resposta do questionário.
  • um tar.gz com os json originais,

Download

CSV compactado com 7,4 milhões de Postagens de Brasileiros.

XLS com a resposta de 4 mil blogueiros Brasilieros.

TAR compactado com 3 milhões de blogs coletados do Blogspot.
Estão separados em 11 arquivos de 1.5 GB cada.

Instruções de Uso

O arquivo principal blogset-br pode ser aberto diretamente pelo Pandas com a linha de comando abaixo:

import pandas as pd
posts = pd.read_csv('blogset-br.csv.gz', compression='gzip', header=None)
# columns: post.id, .blog.id, .published, .title, .content, .author.id, .author.displayName, .replies.totalItems, tags

Citação

Bibtex e Artigo Completo

Henrique D. P. dos Santos, Vinicius Woloszyn, and Renata Vieira. 2018. BlogSet-BR: A Brazilian Portuguese Blog Corpus. In Proceedings of 11th edition of the Language Resources and Evaluation Conference, 7-12 May 2018, Miyazaki (Japan).

Licença de Uso

Apache License 2.0