Identificación y clasificación de datos confidenciales mediante técnicas de procesamiento del lenguaje natural (PLN)
DOI:
https://doi.org/10.23925/ddem.v.3.n.12.68378Palabras clave:
Aprendizaje automático (ML), Clasificación de Datos, Bayes ingenuo, Bosque aleatorio, Matriz de confusiónResumen
Este estudio investiga la aplicación de técnicas de Procesamiento del Lenguaje Natural (NLP) y Machine Learning (ML) en la identificación y clasificación de datos sensibles, con énfasis en el cumplimiento de la Ley General de Protección de Datos (LGPD). El proceso incluye preprocesamiento de datos textuales, vectorización con TF-IDF e implementación de algoritmos Naive Bayes y Random Forest, con optimización de hiperparámetros mediante Grid Search. El rendimiento de los modelos se evalúa mediante análisis como precisión, matriz de confusión y curva ROC. El enfoque propuesto tiene como objetivo ayudar a las empresas a proteger y gestionar los datos, garantizando el cumplimiento de los requisitos de privacidad y seguridad determinados por la legislación.
Citas
BRASIL. 1988. Constituição da República Federativa do Brasil. Estabelece a Constituição Federal do Brasil. Disponível em: https://www.planalto.gov.br/ccivil_03/constituicao/constituicao.htm. Acesso em: 29 de agosto de 2023.
BRASIL. 2018. Lei nº 13.709, de Agosto de 2018. Dispõe de maneira geral sobre a proteção de dados no âmbito nacional. Disponível em: https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/lei/l13709.htm. Acesso em: 29/08/2023.
JOHNSON, Kjell; KUHN, Max. 2016. Applied Predictive Modeling.1ed. Editora Springer. New York, USA. Disponível em: https://www.ic.unicamp.br/~wainer/cursos/1s2021/432/2013_Book_AppliedPredictiveModeling.pdf. Acesso em: 04 de outubro de 2023.
LIMA, Ana P. M. C.; CRESPO, Marcelo; PINHEIRO, Patricia P.2020. LGPD aplicada. Editora Atlas, São Paulo, SP, Brasil. Disponível em: https://integrada.minhabiblioteca.com.br/reader/books/9788597026931/epubcfi/6/10[%3Bvnd.vst.idref%3Dcopyright]!/4/12/4/1:0[%2Cby. Acesso em: 29 de setembro de 2023.
LIMA, Rosa. P. Lima. 2021. ANPD e LGPD: Desafios e perspectivas. Editora Almedina, São Paulo, SP, Brasil. Disponível em: https://integrada.minhabiblioteca.com.br/reader/books/9786556272764/pageid/50. Acesso em: 29 de setembro de 2023.
LOUPPE, Gilles. 2014. Understanding Random Forest: From Theory to Practice. PhD Dissertation. University Of Liége. Liége, Bélgica. Disponível em: https://arxiv.org/pdf/1407.7502.pdf. Acesso em: 02 de setembro de 2023.
OLIVEIRA, Adrielly L. S.; SANTOS, Alessandra, P. B.; LIRA, Bruno B. L.; ABRÃO, Bianca, B.; CAMARGO, Caio P. F. 2022. LGPD e a Proteção de dados pessoais na SOCIEDADE EM REDE: Dados de Criança e Adolescentes na Internet; Tratamento de Proteção de Dados no Comércio Eletrônico; Proteção de Dados Falecidos; Violação de Direitos da Personalidade e Responsabilidade Civil.1ed. Editora Almedina, São Paulo, SP, Brasil. Disponível em: https://integrada.minhabiblioteca.com.br/reader/books/9786556276373/pageid/3. Acesso em: 28 de setembro de 2023.
TEIXEIRA, Tarcisio. 2021. LGPD e E-commerce. 2ed. Editora Saraiva, São Paulo, SP, Brasil. Disponível em: https://integrada.minhabiblioteca.com.br/reader/books/9786555598155/epubcfi/6/36[%3Bvnd.vst.idref%3Dmiolo15.xhtml]!/4. Acesso em: 20 de setembro de 2023.
VAJJALA, Sowmya. MAJUMDER, Bodhisattwa. GUPTA, Anuj. SURANA Harshit. 2020. Practical Natural Language Processing: A Comprehensive Guide to Building Real-World NLP Systems. O’Reilly Media, Inc., Sebastopol, CA, USA. Disponível em: https://www.oreilly.com/library/view/practical-natural-language/9781492054047/. Acesso em: 08 de setembro de 2023.
WITTEN, Daniela; JAMES Gareth; TIBSHIRANI. 2021. An introduction to statistical learning: Witch Application in R. Editora Springer. New York, USA. Disponível em: https://www.stat.berkeley.edu/users/rabbee/s154/ISLR_First_Printing.pdf. Acesso em: 01 de outubro de 2023.
Descargas
Publicado
Número
Sección
Licencia
Derechos de autor 2024 Derechos democráticos & estado moderno
Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Este trabajo está bajo licencia Creative Commons Atribuição 4.0 Internacional.
Los autores otorgan a la revista todos los derechos de autor relativos a los trabajos publicados. Los conceptos emitidos en los artículos firmados son de absoluta y exclusiva responsabilidad de sus autores.
Revista DD&EM - ISSN 2675-7648