História e Compilação de um Corpus Grande e Diversificado de Português no CEPRIL
Palavras-chave:
corpora, DIRECT, CEPRIL, Lingüística de CorpusResumo
Neste trabalho, apresento o Banco de Português, um corpus grande e variado de português brasileiro, que é armazenado no CEPRIL (Centro de Pesquisa, Recursos e Informação em Linguagem) da Pontifícia Universidade Católica de São Paulo. O objetivo é descrever em detalhe sua natureza, história, estado atual, bem como discutir questões relacionadas ao planejamento e desenvolvimento futuro do corpus. Com cerca de 230 milhões de palavras, é atualmente um dos maiores corpora de português do mundo. O corpus era inicialmente uma coleção de textos em papel e mais tarde tornou-se um corpus eletrônico, à medida que corpora eletrônicos foram sendo disponibilizados por pesquisadores. Subseqüentemente, coletâneas maiores foram adicionadas, como a de um jornal diário. Há problemas com o corpus, como a falta de equilíbrio entre os subcorpora, a impossibilidade de acesso ao corpus completo fora da universidade e a presença de conteúdo desatualizado.Downloads
Como Citar
Sardinha, T. B. (2011). História e Compilação de um Corpus Grande e Diversificado de Português no CEPRIL. The Especialist, 28(2). Recuperado de https://revistas.pucsp.br/index.php/esp/article/view/6175
Edição
Seção
Artigos
Licença
Os autores concedem à revista todos os direitos autorais referentes aos trabalhos publicados. Os conceitos emitidos em artigos assinados são de absoluta e exclusiva responsabilidade de seus autores.
Esta obra está licenciada com uma Licença
