História e Compilação de um Corpus Grande e Diversificado de Português no CEPRIL

Autores

  • Tony Berber Sardinha Pontifical Catholic University of São Paulo (PUC-SP), São Paulo, Brasil

Palavras-chave:

corpora, DIRECT, CEPRIL, Lingüística de Corpus

Resumo

Neste trabalho, apresento o Banco de Português, um corpus grande e variado de português brasileiro, que é armazenado no CEPRIL (Centro de Pesquisa, Recursos e Informação em Linguagem) da Pontifícia Universidade Católica de São Paulo. O objetivo é descrever em detalhe sua natureza, história, estado atual, bem como discutir questões relacionadas ao planejamento e desenvolvimento futuro do corpus. Com cerca de 230 milhões de palavras, é atualmente um dos maiores corpora de português do mundo. O corpus era inicialmente uma coleção de textos em papel e mais tarde tornou-se um corpus eletrônico, à medida que corpora eletrônicos foram sendo disponibilizados por pesquisadores. Subseqüentemente, coletâneas maiores foram adicionadas, como a de um jornal diário. Há problemas com o corpus, como a falta de equilíbrio entre os subcorpora, a impossibilidade de acesso ao corpus completo fora da universidade e a presença de conteúdo desatualizado.

Biografia do Autor

Tony Berber Sardinha, Pontifical Catholic University of São Paulo (PUC-SP), São Paulo, Brasil

Tony Berber Sardinha received a BA in English from the Catholic University of São Paulo, Brazil, an MA in Applied Linguistics from the same university and a PhD from the English Department of the University of Liverpool (UK). He is a researcher with CNPq (Brazilian National Research Council) and CEPRIL (Center for Research, Resources and Information on Language), an Adjunct Professor with both the Linguistics Department and the Graduate Program in Applied Linguistics, Catholic University of São Paulo. He was recently a visiting scholar in Corpus Linguistics at Northern Arizona University (USA) and his research interests include Corpus Linguistics, Applied Linguistics, Language Teaching, Business Discourse, Metaphor, Forensic Linguistics, Computer Programming, and Web Design and Tools Development.

Downloads

Como Citar

Sardinha, T. B. (2011). História e Compilação de um Corpus Grande e Diversificado de Português no CEPRIL. The Especialist, 28(2). Recuperado de https://revistas.pucsp.br/index.php/esp/article/view/6175

Edição

Seção

Artigos