Identificación y clasificación de datos confidenciales mediante técnicas de procesamiento del lenguaje natural (PLN)

Autores/as

DOI:

https://doi.org/10.23925/ddem.v.3.n.12.68378

Palabras clave:

Aprendizaje automático (ML), Clasificación de Datos, Bayes ingenuo, Bosque aleatorio, Matriz de confusión

Resumen

Este estudio investiga la aplicación de técnicas de Procesamiento del Lenguaje Natural (NLP) y Machine Learning (ML) en la identificación y clasificación de datos sensibles, con énfasis en el cumplimiento de la Ley General de Protección de Datos (LGPD). El proceso incluye preprocesamiento de datos textuales, vectorización con TF-IDF e implementación de algoritmos Naive Bayes y Random Forest, con optimización de hiperparámetros mediante Grid Search. El rendimiento de los modelos se evalúa mediante análisis como precisión, matriz de confusión y curva ROC. El enfoque propuesto tiene como objetivo ayudar a las empresas a proteger y gestionar los datos, garantizando el cumplimiento de los requisitos de privacidad y seguridad determinados por la legislación.

Biografía del autor/a

Eric Henrique da Silva Passos, Universidade de São Paulo - USP, São Paulo, SP

Postgrado en CIENCIA DE DATOS y ANÁLISIS – 2024 del MBA USP/ESALQ. Licenciado en Derecho.

Lisleandra Machado, IFSUDESTEMG

Profesor e Investigador del CNPQ, FAPEMIG, FUNDEP y CAPES. Es licenciado en Derecho, Administración de Empresas, Ingeniería de Producción, Pedagogía, doctorado en Ingeniería de Producción por la UNIMEP y maestría en Ingeniería de Producción por la UFSC - Universidad Federal de Santa Catarina. Actualmente es coordinadora de la carrera de Ingeniería Ferroviaria y Metro. Tiene un profundo conocimiento en Ciencia y Analítica de Datos, Negocios Digitales (Business Intelligence). Profesor del Instituto Federal de Educación, Ciencia y Tecnología del Sudeste de Minas Gerais - Juiz de Fora, MG. Desde 2002 es evaluadora ad hoc de cursos de pregrado (INEP/MEC).

Domingos Sávio da Cunha Garcia, Universidade Estadual de Campinas - UNICAMP, Campinas, SP

Doctorado por la Carrera de Historia Económica de la UNICAMP.

Leonardo Amorim de Araújo, Universidade Federal do Rio de Janeiro - UFRJ - Rio de Janeiro, RJ

Doctorado por el Curso de Ingeniería de Transportes de la UFRJ

Samuel Alves de Freitas, Universidade Federal de São João del Rei, Campus Santo Antônio, São João del Rei, MG

Maestría del Curso de Ingeniería Mecánica de la UFSJ

Ana Paula Lima dos Santos, Universidade Federal de São João del Rei, Campus Santo Antônio, São João del Rei, MG

Maestría en Ingeniería Eléctrica de la UFSJ

Gustavo José Santiago Rosseti, Universidade Federal de Juiz de Fora, Juiz de Fora, MG, Brasil

Doctorado en Ingeniería Eléctrica por la UFJF

Silvana Rodrigues Pires Moreira, Universidade federal de Visçosa - UFV - Visçosa, MG

Doctorado en Bioquímica Agrícola por la UFV

Citas

BRASIL. 1988. Constituição da República Federativa do Brasil. Estabelece a Constituição Federal do Brasil. Disponível em: https://www.planalto.gov.br/ccivil_03/constituicao/constituicao.htm. Acesso em: 29 de agosto de 2023.

BRASIL. 2018. Lei nº 13.709, de Agosto de 2018. Dispõe de maneira geral sobre a proteção de dados no âmbito nacional. Disponível em: https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/lei/l13709.htm. Acesso em: 29/08/2023.

JOHNSON, Kjell; KUHN, Max. 2016. Applied Predictive Modeling.1ed. Editora Springer. New York, USA. Disponível em: https://www.ic.unicamp.br/~wainer/cursos/1s2021/432/2013_Book_AppliedPredictiveModeling.pdf. Acesso em: 04 de outubro de 2023.

LIMA, Ana P. M. C.; CRESPO, Marcelo; PINHEIRO, Patricia P.2020. LGPD aplicada. Editora Atlas, São Paulo, SP, Brasil. Disponível em: https://integrada.minhabiblioteca.com.br/reader/books/9788597026931/epubcfi/6/10[%3Bvnd.vst.idref%3Dcopyright]!/4/12/4/1:0[%2Cby. Acesso em: 29 de setembro de 2023.

LIMA, Rosa. P. Lima. 2021. ANPD e LGPD: Desafios e perspectivas. Editora Almedina, São Paulo, SP, Brasil. Disponível em: https://integrada.minhabiblioteca.com.br/reader/books/9786556272764/pageid/50. Acesso em: 29 de setembro de 2023.

LOUPPE, Gilles. 2014. Understanding Random Forest: From Theory to Practice. PhD Dissertation. University Of Liége. Liége, Bélgica. Disponível em: https://arxiv.org/pdf/1407.7502.pdf. Acesso em: 02 de setembro de 2023.

OLIVEIRA, Adrielly L. S.; SANTOS, Alessandra, P. B.; LIRA, Bruno B. L.; ABRÃO, Bianca, B.; CAMARGO, Caio P. F. 2022. LGPD e a Proteção de dados pessoais na SOCIEDADE EM REDE: Dados de Criança e Adolescentes na Internet; Tratamento de Proteção de Dados no Comércio Eletrônico; Proteção de Dados Falecidos; Violação de Direitos da Personalidade e Responsabilidade Civil.1ed. Editora Almedina, São Paulo, SP, Brasil. Disponível em: https://integrada.minhabiblioteca.com.br/reader/books/9786556276373/pageid/3. Acesso em: 28 de setembro de 2023.

TEIXEIRA, Tarcisio. 2021. LGPD e E-commerce. 2ed. Editora Saraiva, São Paulo, SP, Brasil. Disponível em: https://integrada.minhabiblioteca.com.br/reader/books/9786555598155/epubcfi/6/36[%3Bvnd.vst.idref%3Dmiolo15.xhtml]!/4. Acesso em: 20 de setembro de 2023.

VAJJALA, Sowmya. MAJUMDER, Bodhisattwa. GUPTA, Anuj. SURANA Harshit. 2020. Practical Natural Language Processing: A Comprehensive Guide to Building Real-World NLP Systems. O’Reilly Media, Inc., Sebastopol, CA, USA. Disponível em: https://www.oreilly.com/library/view/practical-natural-language/9781492054047/. Acesso em: 08 de setembro de 2023.

WITTEN, Daniela; JAMES Gareth; TIBSHIRANI. 2021. An introduction to statistical learning: Witch Application in R. Editora Springer. New York, USA. Disponível em: https://www.stat.berkeley.edu/users/rabbee/s154/ISLR_First_Printing.pdf. Acesso em: 01 de outubro de 2023.

Publicado

2024-12-19