História e Compilação de um Corpus Grande e Diversificado de Português no CEPRIL

Tony Berber Sardinha

Resumo


Neste trabalho, apresento o Banco de Português, um corpus grande e variado de português brasileiro, que é armazenado no CEPRIL (Centro de Pesquisa, Recursos e Informação em Linguagem) da Pontifícia Universidade Católica de São Paulo. O objetivo é descrever em detalhe sua natureza, história, estado atual, bem como discutir questões relacionadas ao planejamento e desenvolvimento futuro do corpus. Com cerca de 230 milhões de palavras, é atualmente um dos maiores corpora de português do mundo. O corpus era inicialmente uma coleção de textos em papel e mais tarde tornou-se um corpus eletrônico, à medida que corpora eletrônicos foram sendo disponibilizados por pesquisadores. Subseqüentemente, coletâneas maiores foram adicionadas, como a de um jornal diário. Há problemas com o corpus, como a falta de equilíbrio entre os subcorpora, a impossibilidade de acesso ao corpus completo fora da universidade e a presença de conteúdo desatualizado.

Palavras-chave


corpora; DIRECT; CEPRIL; Lingüística de Corpus

Texto completo:

PDF (English)

Métricas do artigo

Carregando Métricas ...

Metrics powered by PLOS ALM


Indexicadores

Apoio

A Revista The Especialist e os textos aqui publicados estão licenciados com uma Lincença Creative Commons: Atribuição 4.0 Internacional (CC BY 4.0)