Identificação e Classificação de Dados Sensíveis Usando Técnicas de Processamento de Linguagem Natural (PLN)
DOI:
https://doi.org/10.23925/ddem.v.3.n.12.68378Palavras-chave:
Machine Learning (ML), Classificação de Dados, Naive Bayes, Random Forest, Matriz de ConfusãoResumo
Este estudo investiga a aplicação de técnicas de Processamento de Linguagem Natural (PLN) e Machine Learning (ML) na identificação e classificação de dados sensíveis, com ênfase na conformidade com a Lei Geral de Proteção de Dados (LGPD). O processo inclui o pré-processamento de dados textuais, a vetorização com TF-IDF, e a implementação dos algoritmos Naive Bayes e Random Forest, com otimização de hiperparâmetros utilizando Grid Search. O desempenho dos modelos é avaliado por análises como acurácia, matriz de confusão e curva ROC. A abordagem proposta tem como objetivo auxiliar as empresas na proteção e gerenciamento de dados, garantindo o cumprimento das exigências de privacidade e segurança determinadas pela legislação.
Referências
BRASIL. 1988. Constituição da República Federativa do Brasil. Estabelece a Constituição Federal do Brasil. Disponível em: https://www.planalto.gov.br/ccivil_03/constituicao/constituicao.htm. Acesso em: 29 de agosto de 2023.
BRASIL. 2018. Lei nº 13.709, de Agosto de 2018. Dispõe de maneira geral sobre a proteção de dados no âmbito nacional. Disponível em: https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/lei/l13709.htm. Acesso em: 29/08/2023.
JOHNSON, Kjell; KUHN, Max. 2016. Applied Predictive Modeling.1ed. Editora Springer. New York, USA. Disponível em: https://www.ic.unicamp.br/~wainer/cursos/1s2021/432/2013_Book_AppliedPredictiveModeling.pdf. Acesso em: 04 de outubro de 2023.
LIMA, Ana P. M. C.; CRESPO, Marcelo; PINHEIRO, Patricia P.2020. LGPD aplicada. Editora Atlas, São Paulo, SP, Brasil. Disponível em: https://integrada.minhabiblioteca.com.br/reader/books/9788597026931/epubcfi/6/10[%3Bvnd.vst.idref%3Dcopyright]!/4/12/4/1:0[%2Cby. Acesso em: 29 de setembro de 2023.
LIMA, Rosa. P. Lima. 2021. ANPD e LGPD: Desafios e perspectivas. Editora Almedina, São Paulo, SP, Brasil. Disponível em: https://integrada.minhabiblioteca.com.br/reader/books/9786556272764/pageid/50. Acesso em: 29 de setembro de 2023.
LOUPPE, Gilles. 2014. Understanding Random Forest: From Theory to Practice. PhD Dissertation. University Of Liége. Liége, Bélgica. Disponível em: https://arxiv.org/pdf/1407.7502.pdf. Acesso em: 02 de setembro de 2023.
OLIVEIRA, Adrielly L. S.; SANTOS, Alessandra, P. B.; LIRA, Bruno B. L.; ABRÃO, Bianca, B.; CAMARGO, Caio P. F. 2022. LGPD e a Proteção de dados pessoais na SOCIEDADE EM REDE: Dados de Criança e Adolescentes na Internet; Tratamento de Proteção de Dados no Comércio Eletrônico; Proteção de Dados Falecidos; Violação de Direitos da Personalidade e Responsabilidade Civil.1ed. Editora Almedina, São Paulo, SP, Brasil. Disponível em: https://integrada.minhabiblioteca.com.br/reader/books/9786556276373/pageid/3. Acesso em: 28 de setembro de 2023.
TEIXEIRA, Tarcisio. 2021. LGPD e E-commerce. 2ed. Editora Saraiva, São Paulo, SP, Brasil. Disponível em: https://integrada.minhabiblioteca.com.br/reader/books/9786555598155/epubcfi/6/36[%3Bvnd.vst.idref%3Dmiolo15.xhtml]!/4. Acesso em: 20 de setembro de 2023.
VAJJALA, Sowmya. MAJUMDER, Bodhisattwa. GUPTA, Anuj. SURANA Harshit. 2020. Practical Natural Language Processing: A Comprehensive Guide to Building Real-World NLP Systems. O’Reilly Media, Inc., Sebastopol, CA, USA. Disponível em: https://www.oreilly.com/library/view/practical-natural-language/9781492054047/. Acesso em: 08 de setembro de 2023.
WITTEN, Daniela; JAMES Gareth; TIBSHIRANI. 2021. An introduction to statistical learning: Witch Application in R. Editora Springer. New York, USA. Disponível em: https://www.stat.berkeley.edu/users/rabbee/s154/ISLR_First_Printing.pdf. Acesso em: 01 de outubro de 2023.
Downloads
Publicado
Edição
Seção
Licença
Copyright (c) 2024 Direitos Democráticos & Estado Moderno
Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Este obra está licenciada com uma Licença Creative Commons Atribuição 4.0 Internacional.
Revista DD&EM - ISSN 2675-7648