Identificação e Classificação de Dados Sensíveis Usando Técnicas de Processamento de Linguagem Natural (PLN)

Autores

DOI:

https://doi.org/10.23925/ddem.v.3.n.12.68378

Palavras-chave:

Machine Learning (ML), Classificação de Dados, Naive Bayes, Random Forest, Matriz de Confusão

Resumo

Este estudo investiga a aplicação de técnicas de Processamento de Linguagem Natural (PLN) e Machine Learning (ML) na identificação e classificação de dados sensíveis, com ênfase na conformidade com a Lei Geral de Proteção de Dados (LGPD). O processo inclui o pré-processamento de dados textuais, a vetorização com TF-IDF, e a implementação dos algoritmos Naive Bayes e Random Forest, com otimização de hiperparâmetros utilizando Grid Search. O desempenho dos modelos é avaliado por análises como acurácia, matriz de confusão e curva ROC. A abordagem proposta tem como objetivo auxiliar as empresas na proteção e gerenciamento de dados, garantindo o cumprimento das exigências de privacidade e segurança determinadas pela legislação.

Biografia do Autor

Eric Henrique da Silva Passos, Universidade de São Paulo - USP, São Paulo, SP

Pós Graduado do curso em DATA SCIENSE e ANALYTICS – 2024 do MBA USP/ESALQ. Bacharel em direito.

Lisleandra Machado, IFSUDESTEMG

Professora e Pesquisadora pelo CNPQ, FAPEMIG, FUNDEP e CAPES. Possui graduação em Direito, Administração de Empresas, Engenharia de Produção, Pedagogia Doutora em Engenharia de Produção pela UNIMEP e mestra em Engenharia de Produção pela UFSC - Universidade Federal de Santa Catarina. Atualmente é coordenadora do Curso de graduação em Engenharia Ferroviária e Metroviária. Tem profundos conhecimentos em Data Science y Analytics, Digital Business (Business Intelligence). Professora no Instituto Federal de Educação Ciência e Tecnologia do Sudeste de Minas Gerais - Juiz de Fora, MG. Desde 2002, é avaliadora ad hoc de cursos de graduação (INEP/MEC).

Domingos Sávio da Cunha Garcia, Universidade Estadual de Campinas - UNICAMP, Campinas, SP

Doutor pelo Curso de História Econômica da UNICAMP.

Leonardo Amorim de Araújo, Universidade Federal do Rio de Janeiro - UFRJ - Rio de Janeiro, RJ

Doutor pelo Curso de Engenharia de Transportes da UFRJ

Samuel Alves de Freitas, Universidade Federal de São João del Rei, Campus Santo Antônio, São João del Rei, MG

Mestre pelo Curso de Engenharia de Mecânica da UFSJ

Ana Paula Lima dos Santos, Universidade Federal de São João del Rei, Campus Santo Antônio, São João del Rei, MG

Mestre pelo Curso de Engenharia Elétrica pela UFSJ

Gustavo José Santiago Rosseti, Universidade Federal de Juiz de Fora, Juiz de Fora, MG, Brasil

Doutor em Engenharia Elétrica pela UFJF

Silvana Rodrigues Pires Moreira, Universidade federal de Visçosa - UFV - Visçosa, MG

Doutora em Bioquímica Agrícola pela UFV

Referências

BRASIL. 1988. Constituição da República Federativa do Brasil. Estabelece a Constituição Federal do Brasil. Disponível em: https://www.planalto.gov.br/ccivil_03/constituicao/constituicao.htm. Acesso em: 29 de agosto de 2023.

BRASIL. 2018. Lei nº 13.709, de Agosto de 2018. Dispõe de maneira geral sobre a proteção de dados no âmbito nacional. Disponível em: https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/lei/l13709.htm. Acesso em: 29/08/2023.

JOHNSON, Kjell; KUHN, Max. 2016. Applied Predictive Modeling.1ed. Editora Springer. New York, USA. Disponível em: https://www.ic.unicamp.br/~wainer/cursos/1s2021/432/2013_Book_AppliedPredictiveModeling.pdf. Acesso em: 04 de outubro de 2023.

LIMA, Ana P. M. C.; CRESPO, Marcelo; PINHEIRO, Patricia P.2020. LGPD aplicada. Editora Atlas, São Paulo, SP, Brasil. Disponível em: https://integrada.minhabiblioteca.com.br/reader/books/9788597026931/epubcfi/6/10[%3Bvnd.vst.idref%3Dcopyright]!/4/12/4/1:0[%2Cby. Acesso em: 29 de setembro de 2023.

LIMA, Rosa. P. Lima. 2021. ANPD e LGPD: Desafios e perspectivas. Editora Almedina, São Paulo, SP, Brasil. Disponível em: https://integrada.minhabiblioteca.com.br/reader/books/9786556272764/pageid/50. Acesso em: 29 de setembro de 2023.

LOUPPE, Gilles. 2014. Understanding Random Forest: From Theory to Practice. PhD Dissertation. University Of Liége. Liége, Bélgica. Disponível em: https://arxiv.org/pdf/1407.7502.pdf. Acesso em: 02 de setembro de 2023.

OLIVEIRA, Adrielly L. S.; SANTOS, Alessandra, P. B.; LIRA, Bruno B. L.; ABRÃO, Bianca, B.; CAMARGO, Caio P. F. 2022. LGPD e a Proteção de dados pessoais na SOCIEDADE EM REDE: Dados de Criança e Adolescentes na Internet; Tratamento de Proteção de Dados no Comércio Eletrônico; Proteção de Dados Falecidos; Violação de Direitos da Personalidade e Responsabilidade Civil.1ed. Editora Almedina, São Paulo, SP, Brasil. Disponível em: https://integrada.minhabiblioteca.com.br/reader/books/9786556276373/pageid/3. Acesso em: 28 de setembro de 2023.

TEIXEIRA, Tarcisio. 2021. LGPD e E-commerce. 2ed. Editora Saraiva, São Paulo, SP, Brasil. Disponível em: https://integrada.minhabiblioteca.com.br/reader/books/9786555598155/epubcfi/6/36[%3Bvnd.vst.idref%3Dmiolo15.xhtml]!/4. Acesso em: 20 de setembro de 2023.

VAJJALA, Sowmya. MAJUMDER, Bodhisattwa. GUPTA, Anuj. SURANA Harshit. 2020. Practical Natural Language Processing: A Comprehensive Guide to Building Real-World NLP Systems. O’Reilly Media, Inc., Sebastopol, CA, USA. Disponível em: https://www.oreilly.com/library/view/practical-natural-language/9781492054047/. Acesso em: 08 de setembro de 2023.

WITTEN, Daniela; JAMES Gareth; TIBSHIRANI. 2021. An introduction to statistical learning: Witch Application in R. Editora Springer. New York, USA. Disponível em: https://www.stat.berkeley.edu/users/rabbee/s154/ISLR_First_Printing.pdf. Acesso em: 01 de outubro de 2023.

Downloads

Publicado

2024-12-19