O Corpus de Português Escrito em Periódicos - CoPEP

Authors

  • Tanara Zingano Kuhn Centro de Estudos de Linguística Geral e Aplicada (CELGA-ILTEC), Universidade de Coimbra
  • José Pedro Ferreira Centro de Estudos de Linguística Geral e Aplicada (CELGA-ILTEC), Universidade de Coimbra

Keywords:

corpus multivariedade, compilação de corpus, discurso acadêmico, língua portuguesa

Abstract

O presente estudo tem como objetivo descrever os desafi os e soluções encontrados na compilação do Corpus de Português Escrito em Periódicos - CoPEP, que contém aproximadamente 40 milhões de palavras, é equilibrado entre as variedades português brasileiro e português europeu em número de palavras e cobre seis grandes áreas de conhecimento. Primeiramente, apresentaremos o contexto de criação do CoPEP, qual seja, a elaboração de um dicionário on-line de português para universitários, para o qual serviu como fonte primária de obtenção de evidências linguísticas. Assim, foram as características desse projeto lexicográfi co que informaram os critérios de criação do desenho do CoPEP e as consequentes tomadas de decisão. A seguir, descreveremos a metodologia de aquisição de dados, com foco especial nos desafi os enfrentados e nas soluções encontradas. Terminaremos com a descrição da fase fi nal de compilação, na qual aplicamos uma série de procedimentos para obtenção de equilíbrio.

Published

2021-02-08

How to Cite

Kuhn, T. Z., & Ferreira, J. P. (2021). O Corpus de Português Escrito em Periódicos - CoPEP. DELTA: Documentação E Estudos Em Linguística Teórica E Aplicada, 36(2). Retrieved from https://revistas.pucsp.br/index.php/delta/article/view/52552

Issue

Section

Articles