Word Embeddings para Saúde

Descrição

Esse  recurso corresponde à três modelos pré-treinados de palavras retiradas de textos médicos do Hospital Nossa Senhora da Conceição de Porto Alegre, RS, Brasil. Foram utilizados 21 milhões de sentenças para criar os modelos das palavras. O resultado são 63 mil palavras com relação semântica e sintática utilizando a biblioteca Gensim, com a função Word2Vec.

Download

Abaixo segue os modelos treinados com 300 dimensões com os algoritmos Word2Vec e FastText com as estratégias CBOW e Skip-Gram.

Instruções de Uso (opcional)

Para utilizar os modelos, basta carregá-los no Gensim, ou na sua biblioteca Word2Vec.

!tar -zxvf health_word2vec_300v1.tar.gz

from gensim.models import KeyedVectors
model = KeyedVectors.load('health_word2vec_300.model')

Mais exemplos de uso em https://github.com/nlp-pucrs/cci-regression e https://github.com/nlp-pucrs/fall-detection

Citação

Henrique D. P. dos Santos, Ana Helena D. P. S. Ulbrich, Vinicius Woloszyn, and Renata Vieira. 2018. An initial investigation of the Charlson comorbidity index regression based on clinical notes. 31st International Symposium on Computer-Based Medical Systems, CBMS 2018, 6 pages.

Licença de Uso (opcional)

Apache License 2.0