English Version
Descrição
BlogSet-BR é uma coleção de postagens retiradas de blogs na plataforma Blogspot escritas por usuários brasileiros. Três arquivos compõe esse recurso:
- um csv somente com as postagens brasileiras e
- um xls com a resposta do questionário.
- um tar.gz com os json originais,
Download
CSV compactado com 7,4 milhões de Postagens de Brasileiros.
XLS com a resposta de 4 mil blogueiros Brasilieros.
TAR compactado com 3 milhões de blogs coletados do Blogspot.
Estão separados em 11 arquivos de 1.5 GB cada.
Instruções de Uso
O arquivo principal blogset-br pode ser aberto diretamente pelo Pandas com a linha de comando abaixo:
import pandas as pd posts = pd.read_csv('blogset-br.csv.gz', compression='gzip', header=None) # columns: post.id, .blog.id, .published, .title, .content, .author.id, .author.displayName, .replies.totalItems, tags
Citação
Henrique D. P. dos Santos, Vinicius Woloszyn, and Renata Vieira. 2018. BlogSet-BR: A Brazilian Portuguese Blog Corpus. In Proceedings of 11th edition of the Language Resources and Evaluation Conference, 7-12 May 2018, Miyazaki (Japan).