Spécificités de l'Analyse Statistique Implicative par rapport à d'autres mesures de qualité de règles d'association <br> Especificidades da Análise Estatística Implicativa em relação a outras medidas de qualidade de regras de associação

Autores

  • Régis Gras École Polytechnique de l'Université de Nantes, Équipe Connaissance et Décision, Laboratoire d'Informatique de Nantes-Atlantique (LINA), UMR 6241
  • Raphaël Couturier Laboratoire d'Informatique de Franche Comté (LIFC), IUT Belfort-Montbéliard, Belfort

Palavras-chave:

Mesure de qualité, règles d’association non symétriques, dialectique, structure, émergence, support, confiance, probabilité conditionnelle, coefficient de corrélation linéaire, indépendance, contre-exemple, linéarité, sémantique, épistémologique

Resumo

De nombreuses mesures de qualité d'une règle d'association implicative existent mais peu d'entre elles se fondent sur des bases statistiques et en faisant état de la sémantique qui a guidé leurs choix épistémologiques. Nous présentons ici quelques propriétés susceptibles de donner un sens aux indices servant à quantifier la qualité de l'association non symétrique entre variables. A cette occasion, nous explicitons, en les justifiant, les différents choix que nous avons faits en A.S.I. pour mesurer la qualité des implications entre variables binaires ou non binaires et les comparons à d'autres choix. Nous les confrontons aux propriétés énoncées préalablement. Quelques simulations permettent d'illustrer graphiquement la différence de comportement entre certains indices classiques au regard de ces propriétés. Nous exposons également comment l'analyse numérique et graphique de l'ensemble foisonnant des règles obtenues à partir d'un corpus de données conduit à une ou des structures émergentes que notre méthode systémique, l'A.S.I., conceptualise.

Resumo

Existem muitas medidas de qualidade de uma regra de associação implicativa, mas poucas se fundamentam em uma base estatística sólida e fazendo o estudo da semântica que guiaram as escolhas epistemológicas. Apresentamos aqui algumas propriedades suscetíveis de atribuir significado aos índices que quantificam a qualidade da associação não simétrica entre variáveis. Nesta ocasião, explicitamos, justificando, as diferentes escolhas que fizemos na A.S.I, para medir a qualidade das implicações entre variáveis binárias ou não binárias, e as comparamos com outras escolhas. Faremos a confrontação com as propriedades enunciadas préviamente. Algumas simulações permitem ilustrar graficamente a diferença de comportamento entre certos índices clássicos em relação a essas propriedades. Apresentamos, igualmente, como a análise numérica e gráfica do conjunto de régras obtidas a partir de um corpus de dados conduz a uma ou mais estruturas emergentes que nosso método sistêmico, o A.S.I., conceitualiza.

 

Metrics

Carregando Métricas ...

Referências

Agrawal R. et al. (1993), Mining association rules between sets of items in large databases, Proc. of the ACM SIGMOD’93.

Ag Amouloud S., (1992), L’ordinateur, outil d’aide à l’apprentissage de la démonstration et de traitement de données didactiques, Thèse de doctorat de l’Université de Rennes 1.

Atlan H. (1986), A tort ou à raison, Seuil.

Aze J. et Kodratoff Y. (2001), Evaluation de la résistance au bruit de quelques mesures d’extraction de règles d’association , Extraction des connaissances et apprentissage, Hermès, Vol 1, n° 4, 2001, p. 143-154

Bailleul M. (1994), Analyse statistique implicative : variables modales et contributions des sujets. Application à la modélisation de l’enseignant dans le système didactique, thèse, Université de Rennes I.

Benkirane R. (2002), La complexité, vertiges et promesses, Entretiens avec E. Morin, I.Prigogine, F. Varela,… Le Pommier

Bernard J.-M., Poitrenaud S. (1999), L'analyse implicative bayesienne d'un questionnaire binaire : quasi-implications et treillis de Galois simplifié, Mathématiques, Informatique et Sciences Humaines 147, p.25-46.

Blanchard J., Guillet F., Briand H. (2002), L’intensité d’implication entropique pour la recherche de règles de prédiction intéressantes dans des séquences de pannes d’ascenseur, Extraction et gestion des connaissances, Hermès, p. 77-88.

Blanchard J., Guillet F., Briand H. et Gras R., (2005a), IPEE : Indice Probabiliste d’Ecart à l’Equilibre pour l’évaluation de la Qualité des Règles, RNTI-E-5, Cépaduès Editions, p. 391-395.

Blanchard J., Kuntz P., Guillet F. et Gras R. (2005b), Mesure de la qualité des règles d’association par l’intensité d’implication entropique, Mesure de Qualité pour la Fouille de Données, RNTI-E-1, dir. H.Briand, M.Sebag, R.Gras, F.Guillet, Cépaduès Editions., p. 33-44.

Bodin A., Gras R. [1999], Analyse du préquestionnaire enseignants avant EVAPM-Terminales, Bulletin n°425 de l'Association des Professeurs de Mathématiques de l'Enseignement Public, p. 772-786, Paris

Brin S ., Motwani R., Silverstein C. [1997], Behond market baskets : generaling association rules to correlations, in ACM SICMOD / PODS 97Joint conference, p. 265-276.

Cadot M., (2009), Graphe de règles d’implication statistique pour le raisonnement courant. Comparaison avec les réseaux bayesiens et les treillis de Galois, Analyse Statistique Implicative, Une méthode d'analyse de données pour la recherche de causalités, sous la direction de Régis Gras, réd, invités R. Gras, J.C. Régnier, F. Guillet, Cépaduès Ed. Toulouse, p.223-250.

Couturier R, Gras R., et Guillet F. ( 2004), Reducing the number of variables using implicative analysis In International Federation of Classification Societies, IFCS 2004, Springer Verlag: Classification, Clustering, and Data Mining Applications, ISBN 3-540-22014-3, Chicago, USA, July 2004, p. 277--285.

Couturier, R. (2008). Statistical implicative analysis. In CHIC : Cohesive Hierarchical Implicative Classification, Volume 127 of Studies in Computational Intelligence, Springer Verlag, , p. 41–5.

Couturier R. et Ag Almouloud S. (2009), Historique et fonctionnalités de CHIC, Analyse Statistique Implicative, Une méthode d'analyse de données pour la recherche de causalités, sous la direction de Régis Gras, réd, invités R. Gras, J.C. Régnier, F. Guillet, Cépaduès Ed. Toulouse p.279-293

Croset M.-C.,(2007), Un modèle d’élève par l’analyse statistique implicative. Prise en compte du contexte algébrique, Nouveaux Apports Théoriques à l’Analyse Statistique Implicative et Applications, 4th International Meeting on Statistical Implicative Analysis, Ed. R.Gras, P.Orus, B.Pinaud, P.Gregori, p.211-220

Fleury L. (1996), Extraction de connaissances dans une base de données pour la gestion des ressources humaines, Thèse d’Université, Nantes, 1996

Ganascia J.G. (1991), CHARADE : Apprentissage de bases de connaissances, Induction symbolique-numérique à partir de données, Cépaduès Éditions, 1991

Gaudin P., (2005), Y a-t-il de la non linéarité en sémantique ?, dans Émergence, complexité et dialectique, Odile Jacob, Paris, p. 279-288

Goodman R.M. et Smyth P. (1989), The induction of probabilistic rule set. The ITRULE algorithm, Proceedings of sixth international conference on machine learning, 1989, p. 129-132

Gras R. (1979), Contribution à l’étude expérimentale et à l’analyse de certaines acquisitions cognitives et de certains objectifs didactiques en mathématiques, Thèse d’État, Université de Rennes 1, 1979.

Gras R. et Larher A (1993), L'implication statistique, une nouvelle méthode d'analyse de données, Revue Mathématiques, Informatique et Sciences Humaines n°120, p.5-31.

Gras R. et al. (1996). L’implication statistique. Nouvelle méthode exploratoire de données. Grenoble, La Pensée Sauvage.

Gras R. et Ratsimba-Rajohn H. (1996), Analyse non symétrique de données par l'implication statistique, RAIRO-Recherche Opérationnelle, AFCET, Paris, n° 30-3, 1996, p. 217-232.

Gras R., Kuntz P., Couturier R. Guillet F. (2001a), Une version entropique de l’intensité d’implication pour les corpus volumineux, Extraction et Gestion des Connaissances, Vol. 1, Hermès, p. 69-80.

Gras R., Kuntz P., Briand H. (2001b), Les fondements de l’analyse statistique implicative et leurs prolongements pour la fouille de données, Mathématiques et Sciences Humaines n° 154-155, p. 9-29.

Gras R., Diday E., Kuntz P, Couturier R. (2001c), Variables sur intervalles et variables-intervalles en analyse statistique implicative, Actes VIIIèmes Rencontres de la S.F.C., Université de Pointe-à-Pitre, 2001.

Gras R., Kuntz P., Briand H., Couturier R. (2002), Hiérarchie de règles généralisées et notion de variable supplémentaire en analyse statistique implicative, Actes des IXèmes Rencontres de la Société Francophone de Classification, Université de Toulouse, 2002, p. 211-214.

Gras R., Kuntz P., Briand H. (2003), Hiérarchie orientée de règles généralisées en analyse implicative, Extraction et Gestion des Connaissances 2003, Vol 1, Hermès, p. 145-158.

Gras R., Couturier R.., Blanchard J., Briand H., Kuntz P., Peter P., (2004), Quelques critères pour une mesure de qualité de règles d’association. Un exemple : l’implication statistique, Mesures de qualité pour la fouille de données, RNTI-E-1, Cépaduès –Editions, p 3-32

Gras R, Kuntz P.et Régnier J.C. (2004), Significativité des niveaux d’une hiérarchie orientée, Classification et fouille de données, RNTI-C-1, Cépaduès- Editions, ISBN 2.85428.667.7, p 39-50.

Gras R. et Kuntz P. (2005), Discovering R-rules with a directed hierarchy, Soft Computing, A Fusion of Foundations, Methodologies and Applications,Volume 1, ISSN 1432-7643, Springer Verlag, 2005, p. 46-58.

Gras R. et Kuntz P. (2008), An overview of the Statistical Implicative, Statistical Implicative Analysis, R.Gras, E. Suzuki, F.Guillet and F.Spagnolo, Eds, Springer-Verlag, Berlin-Heidelberg, p. 11-40.

Gras R. et Régnier J.C. (2009), Origine et développement de l’Analyse Statistique Implicative, Analyse Statistique Implicative, Une méthode d'analyse de données pour la recherche de causalités, sous la direction de Régis Gras, réd, invités R. Gras, J.C. Régnier, F. Guillet, Cépaduès Ed. Toulouse p. 6-16

Kodratoff Y. (2000), Extraction de connaissances à partir des données et des textes, Actes du colloque ASI 2, IUFM de Caen.

Guillaume S. (2002), Découverte de règles d’association ordinales, EGC 2002, Volume 1, Hermès, p. 29-40

Lagrange J.B. (1998), Analyse implicative d’un ensemble de variables numériques ; application au traitement d’un questionnaire aux réponses modales ordonnées, Revue de Statistiques Appliquées, XLVI (1), p. 71-93.

Lahanier-Reuter D. (1999), Conceptions du hasard et enseignement des probabilités et statistiques, Éducation et Formation, PUF.

Lallich S., Lenca p. et Vaillant B. (2004), Variation autour de l’intensité d’implication, Actes de la Troisième Rencontre Internationale A.S.I., Università degli Studi di Palermo, p. 237-246

Lallich S., Teytaud O. et Prudhomme E. (2007), Association Rule Interestingness : Measure and Statistical Validation, F.Guillet and H. J.Hamilton eds, Studies in Computational Intelligence 43, Springer, p. 251-275.

Leblond J.-M., (1981), L’esprit de sel, Fayard

Lenca P., Meyer P., Vaillant B., Picouet P. et Lallich S. (2004), Évaluation et analyse multicritère des mesures de qualité des règles d’association, Mesures de qualité pour la fouille de données, RNTI-E-1, Cépaduès –Éditions, p 219-246

Lenca P., Vaillant B., Meyer P., et Lallich S. (2007), Association Rule Interestingness Measures : Experimental and Theorical Studies, F.Guillet and H. J.Hamilton eds, Studies in Computational Intelligence 43, Springer, p. 51-76.

Lerman I.C., Gras R., Rotsam H. (1981a), Élaboration et évaluation d'un indice d'implication pour des données binaires, I et II, Mathématiques et Sciences Humaines n° 74, p. 5-35 et n° 75, p. 5-47.

Lerman I.C. (1981b), Classification et analyse ordinale des données, Paris, Dunod

Lerman I.C. et Azé J. (2004), Indice probabiliste discriminant (de vraisemblance du lien) d’une règle d’association en cas de « très grosses données », Mesures de qualité pour la fouille de données, RNTI-E-1, Cépaduès –Editions, p 69-94.

Loevinger J. (1947), A systematical approach to the construction and evaluation of tests of ability, Psychological Monographs, n° 61, 1947, p. 1-49.

Pearl J., (1988), Probabilistic Reasoning in intelligent systems, San Mateo, CA, Morgan Kaufmann

Ratsimba-Rajohn H. (2009), Guide d’utilisation des principales fonctionnalités du logiciel CHIC (2009), Analyse Statistique Implicative, Une méthode d'analyse de données pour la recherche de causalités, sous la direction de Régis Gras, réd, invités R. Gras, J.C. Régnier, F. Guillet, Cépaduès Ed. Toulouse p.295-315.

Ritschard G., Zighed D. et Marcellin S., (2007), Données déséquilibrées, entropie décentrée et indice d’implication, Actes de la Quatrième Rencontre Internationale A.S.I, Universitat Jaume I, Castellon, p.315-328.

Ritschard G., Marcellin S., Zighed D.A. (2009), Arbre de décision pour données déséquilibrées : sur la complémentarité de l’intensité d’implication et de l’entropie décentrée, Une méthode d'analyse de données pour la recherche de causalités, sous la direction de Régis Gras, réd, invités R. Gras, J.C. Régnier, F. Guillet, Cépaduès Ed. Toulouse p.207-219.

Sebag M. et Schoenauer (1991), Un réseau de règles d’apprentissage, Induction symbolique-numérique à partir de données, Cépaduès Éditions, Toulouse.

Sève L. (2005), Emergence, complexité et dialectique, Odile Jacob, Paris.

Terano T., Liu H. et Chen L.P., eds, Association Rules, volume 1805 of Lectures Notes in Computer Science, Spinger.

Thom R., (1980), Paraboles et catastrophes, Flammarion, Paris.

Xuan-Hiep Huynh, Guillet F., Blanchard J., Kuntz P., Briand H. et Gras R. (2007), A Graph-based Clustering Approach to Evaluate Interestinguess Measures : A Tool and and a Comparative Study, F.Guillet and H. J.Hamilton eds, Studies in Computational Intelligence 43, Springer, p. 25-50

Ouvrages de référence :

L’implication statistique. Nouvelle méthode exploratoire de donnée, sous la direction de R.Gras, et la collaboration de S. Ag Almouloud, M. Bailleul, A. Larher, M. Polo, H. Ratsimba-Rajohn, A.Totohasina, La Pensée Sauvage, Grenoble.

Mesures de Qualité pour la Fouille de Données, H.Briand, M.Sebag, R.Gras er F.Guillet eds, RNTI-E-1, Cépaduès, 2004

Quality Measures in Data Mining , F.Guillet et H.Hamilton eds, Springer, 2007,

Statistical Implicative Analysis, Theory and Applications, R.Gras, E. Suzuki, F. Guillet, F. Spagnolo, eds, Springer, 2008.

Analyse Statistique Implicative.Une méthode d'analyse de données pour la recherche de causalités, sous la direction de Régis Gras, réd. invités R. Gras, J.C. Régnier, F. Guillet, Cépaduès Ed. Toulouse, 2009.

Teoria y Aplicaciones del Analisis Estadistico Implicativo, Eds : P.Orus, L.Zemora, P.Gregori, Universitat Jaume-1, Castellon (Espagne), ISBN : 978-84-692-3925-4.

Downloads

Publicado

2013-08-28

Edição

Seção

Artigos