1. Explosion de l'informatique d�cisionnelle - PowerPoint - PowerPoint by MVvQ9JgD

VIEWS: 0 PAGES: 48

									Le Data Mining: Méthodologie

Définition et introduction
Principales applications
Méthodologie du DM
Exemples de fonctionnement



                               1
          1. Emergence du domaine

 Workshops
      1991, 1993, 1994
 International Conf. on KDD and DM
      1995, 1996, 1997, 1998, 1999
 Data Mining and Knowledge Discovery Journal
  (1997)
 Special Interest Group Knowledge Discovery in
  Databases (1999) de l’Association for Computing
  Machinery (ACM)
                                                    2
                       Métaphore

 Par analogie à la recherche des pépites d ’or
  dans un gisement, la fouille de données vise :
     à extraire des informations cachées par analyse
      globale
     à découvrir des modèles (“patterns”) difficiles à
      percevoir car:
       le volume de données est très grand
       le nombre de variables à considérer est important

       ces “patterns” sont imprévisibles (même à titre
        d ’hypothèse à vérifier)
                                                            3
                      Définition

 Data mining
     ensemble de techniques d'exploration de données
      afin d'en tirer des connaissances (la signification
      profonde) sous forme de modèles présentés à
      l ’utilisateur averti pour examen

      Données           Data
      entrepôt         mining         Connaissances
                      Découverte de     Compréhension
                        modèles           Prédiction
                                                        4
               Découverte de modèles

          x1                        c Confiance
Entrées x2
        x3                          y
                                        Sortie
                      MODELE
     x1          x2       x3    y
     1           10       100   alpha
     2           20       200   beta
                                                  5
          Découverte et Exploitation
               Training Data   Mining Model Data to Predict




                  DM                    DM
                 Engine                Engine


Mining Model   Mining Model          Predicted Data


                                                       6
                    Connaissances

 Knowledge Discovery in Databases (KDD)
     Processus complet d’Extraction de Connaissance des
      Données (ECD)
     Comprend plusieurs phases dont le data mining
 Exemples
     analyses (distribution du trafic en fonction de l ’heure)
     scores (fidélité d ’un client), classes (mauvais payeurs)
     règles (si facture > 10000 et mécontent > 0.5 alors
      départ à 70%)

                                                                  7
Le processus de KDD




                      8
                   Etapes du processus

   1. Compréhension du domaine d’application
   2. Création du fichier cible (target data set)
   3. Traitement des données brutes (data cleaning and preprocessing)
   4. Réduction des données (data reduction and projection)
   5. Définition des tâches de fouille de données
   6. Choix des algorithmes appropriés de fouille de données
   7. Fouille de données (data mining)
   8. Interprétation des formes extraites (mined patterns)
   9. Validation des connaissances extraites
              (source : Fayyat et al., 1996, p. 1-34)



                                                                         9
                Mécanismes de base

 Déduction : base des systèmes experts
      schéma logique permettant de déduire un théorème à
       partir d'axiomes
      le résultat est sûr, mais la méthode nécessite la
       connaissance de règles
 Induction : base du data mining
      méthode permettant de tirer des conclusions à partir
       d'une série de faits
      généralisation un peu abusive
      indicateurs de confiance permettant la pondération

                                                              10
         2. Domaines d'application

 De plus en plus de domaines
     explosion des données historisées
     puissance des machines support
     nombreux datawarehouses
     OLAP limité
     nécessité de mieux comprendre
     rapports sophistiqués, prédictions
     aide efficace aux managers
                                           11
      Quelques domaines réputés

 Analyse de risque (Assurance)
 Marketing
 Grande distribution
 Médecine, Pharmacie
 Analyse financière
 Gestion de stocks
 Maintenance
 Contrôle de qualité
                                  12
                          Exemples

 Targeted ads
      “What banner should I display to this visitor?”
 Cross sells
      “What other products is this customer likely to buy?
 Fraud detection
      “Is this insurance claim a fraud?”
 Churn analysis
      “Who are those customers likely to churn?”
 Risk Management
      “Should I approve the loan to this customer?”
                                                              13
               Churn Analysis

 Application de télécom
 Bases de données des clients et des appels
 Fichiers des réclamations
 Qui sont les clients le plus susceptibles de
  partir ?
 Application de techniques de DM
 Fichiers de 1000 clients les plus risqués
 600 ont quittés dans les 3 mois
                                                 14
                     Trading Advisor

 Application boursière
       conseil en achat / vente d'actions
 Données de base
       historique des cours
       portefeuille client
   Analyse du risque
   Analyse technique du signal
   Conseils d'achat – vente
   Mise à disposition sur portail Web
                                             15
                  3. Méthodologie -1

 1. Identifier le             2. Préparer les données
  problème                          préciser les sources
      cerner les objectifs         collecter les données
      trouver les sources          nettoyer les données
      définir les cibles           transformer les données
      vérifier les besoins         intégrer les données




                                                           16
                     Méthodologie - 2

 3. Explorer des modèles              5. Suivre le modèle
      choisir une technique                bâtir des estimateurs
      échantillonner sur un groupe
                                            corriger et affiner le
      valider sur le reste (5% à
       1/3)                                  modèle
      calculer le  d ’erreurs
 4. Utiliser le modèle
      observer la réalité
      recommander des actions



                                                                      17
               Explorer des modèles :
                     SEMMA
 Sampling = Échantillonner
      tirer un échantillon significatif pour extraire les modèles
 Exploration = Explorer
      devenir familier avec les données (patterns)
 Manipulation = Manipuler
      ajouter des informations, coder, grouper des attributs
 Modelling = Modéliser
      construire des modèles (statistiques, réseaux de neuronnes, arbres de
       décisions, règles associatives, …)
 Assessment = Valider
      comprendre, valider, expliquer, répondre aux questions

                                                                          18
               Validation d’un modèle

 Matrice de confusion
     comparaison des cas observés par rapport aux prédictions
       exemple : prédiction de factures impayées
       Prédit                     Observé
                         Payé     Retardé   Impayé   Total
       Payé              80        15        5       100
       Retardé            1        17        2         20
       Impayé             5        2         23        30
       Total             86         34      30       150
     Validité du modèle
         nombre exacte (diagonale) / nombre totale = 120/150 = 0.80
                                                                       19
                Définition de Mesures

 précision
      Rapport du nombre de documents pertinents trouvés au nombre total
       de documents sélectionnés. En anglais precision.
 rappel
      Rapport du nombre de documents pertinents trouvés au nombre total
       de documents pertinents. En anglais recall.
 Soient
      S l'ensemble des objets qu'un processus considère comme ayant une
       propriété recherchée,
      V l'ensemble des objets qui possèdent effectivement cette propriété,
      P et R respectivement la précision et le rappel du système :
           P=|S∩V|/|S|
           R=|S∩V|/|V|


                                                                          20
                              Mesures

 Précision (Precision)
      = NbTrouvésCorrects/(1+NbTotal)

 Bruit (Noise)
      = NbTrouvésIncorrects/(1+NbTotal)
      = 1- Précision

 Rappel (Recall)
      = NbTrouvésCorrects/(1+NbValide)

 F-mesure
      = 2*(précision*rappel)/(précision+rappel)

                                                   21
             Principales Techniques

 Dérivées
     des statistiques (e.g., réseaux bayésiens)
     de l'analyse de données (e.g., analyse en composantes)
     de l'intelligence artificielle (e.g., arbres de décision,
      réseaux de neurones)
     des bases de données (e.g., règles associatives)
 Appliquées aux grandes bases de données
 Difficultés :
     passage à l'échelle et performance
     fonctionnement avec échantillon > qq milliers
     présentation et validation des résultats                    22
                  4. Quelques produits

 Intelligent Miner d'IBM                Oracle 10g ODM
      modélisation prédictive
       (stat.), groupage,
       segmentation, analyse
       d'associations, détection de      SQL Server DM
       déviation, analyse de texte
       libre
 SAS de SAS                             DB2 V8
      Statistiques, groupage,
       arbres de décision, réseaux
       de neurones, associations, ...
 SPSS de SPSS
      statistiques, classification,
       réseaux de neurones
                                                           23
SAS




      24
                   INPUT

 Choix des variables




                           25
                SAMPLING

 Choix du type d'échantillon




                                26
                INSIGHT

 Analyse des données en 4D




                              27
              TRANSFORM

 Transformation pour préparer




                                 28
                PARTITION

 Création de partition d'exploration parallèle




                                                  29
              REGRESSION

 Sélection de la méthode de régression




                                          30
            DECISION TREE

 Construction d'un arbre par 2




                                   31
                NEURONES

 Spécification d'un réseau de neurones




                                          32
              ASSESSMENT

 Validation des résultats




                             33
                     Approches

 De multiples approches:
     Statistiques
     Classification
     Clustering
     Règles associatives
     …



                                 34
     Méthodes d'analyse
                                    1 ...   J   ...   p
                           1
                            .
                            .
                    Table
                    Table = i
                            .
                            .
                           n




            1 ...   J    ...    p                           1 ...   J   ...   p
       1                                               1
        .                                               .
        .                                               .
Table = i                                       Table = i
        .                                               .
        .                                               .
       n                                               n




       Points dans Rp                                       Points dans Rn
                                                                                  35
                 Familles de méthodes


                             Nuage de points




 Visualisation dans                            Regroupement
 Le meilleur espace réduit                     dans tout l'espace

METHODES STATISTIQUES                 METHODES DE CLASSIFICATION,
ET FACTORIELLES                       SUPERVISEE OU NON …
                                                                    36
        5. Méthodes statistiques

 Quelques techniques de base

 A la limite du DM

 Calculs d'information sophistiqués



                                       37
             Fonctions Statistiques

 Espérance
     permet de calculer la moyenne pondérée d'une
      colonne pi = 1/N par défaut
 Variance
     traduit la dispersion de la distribution de la v.a.
      autour de sa valeur moyenne.
 Variable centrée réduite
     Permet d'éliminer le facteur dimension
                                                            38
            Diagrammes en bâtons
                                                     Catégorie d'employé
                                               400




 Comptage de fréquence                        300




      COUNT                                   200




 Extension aux calculs                        100




                             Fréquence
  d'agrégats                                    0
                                                          Secrétariat      Cadre    Responsable




       AVG, MIN, MAX, …
                                                     Catégorie d'employé
   

 Possibilité d'étendre au
                                         100
  3D                                      80
                                          60
                                                                                        North
                                                                                                  East
                                                                                                  West
                                          40

 Apporte une vision
                                                                                      West        North
                                          20
                                                                                   East
                                           0
                                               1st 2nd 3rd 4th

  synthétique                                  Qtr Qtr Qtr Qtr




                                                                                                      39
                     Tableaux croisés
                 (Vision 2D du Datacube)
    Tableau croisé Catégorie d'employé * Sexe de l'employé * Classe minoritaire ?

Classe minoritaire ?: Non
                                                           Effectif     Effectif théorique
Catégorie   Secrétariat     Sexe de l'employé Masculin         110                  144,7
d'employé                                     Féminin          166                  131,3
                            Total                              276                  276,0
            Cadre           Sexe de l'employé Masculin           14                    7,3
                                              Féminin               0                  6,7
                            Total                                14                  14,0
            Responsable     Sexe de l'employé Masculin           70                  41,9
                                              Féminin            10                  38,1
                            Total                                80                  80,0
Total                       Sexe de l'employé Masculin         194                  194,0
                                              Féminin          176                  176,0
                            Total                              370                  370,0



Effectif théorique = calculé par une loi de distribution
(uniforme)
                                                                                             40
                         Corrélation

 Covariance
      La covariance peut être vue comme le moment centré
       conjoint d'ordre 1 de deux v.a.
      Si les deux v.a. sont indépendantes, alors leur covariance
       est nulle (mais la réciproque n'est pas vraie en général).
 Coefficient de corrélation
      Elimine le facteur dimension
      mesure la qualité de la relation linéaire entre deux
       variables aléatoires

                                                                41
                             Droite de régression

                 $160,000
                                               Salaire actuel = 1928,21 + 1,91 * saldeb
                                                                                                          Régression linéaire
                                               R-Deux = 0,77
                                                                                                 199
                                                                                                   



                 $120,000
                                                                                                          Y=aX+b
                                                                     120
                                                                          
                                               70
Salaire actuel




                                                                                        
                                                                      
                                                          
                                                               
                                                                          
                                                         
                  $80,000                        
                                                                 
                                                   
                                                        
                                                       
                                                                               
                                                                          
                                                    
                                                        
                                            
                                         
                                              
                                                     
                                                    
                                           
                                                       
                                      
                                       
                                            
                                    
                                     
                                       
                                     
                                        
                                     
                  $40,000           
                                     
                                      
                                   
                                    
                                     
                                               
                                   
                                 
                                   
                                     
                                  
                                
                                 
                                 
                                
                                
                                   
                                
                               
                               
                               
                              
                               
                               
                                
                               
                              
                             
                                 
                               
                              
                               
                               
                             
                            
                             


                                    $20,000                $40,000                    $60,000   $80,000

                                                Salaire d'em ba uche

                                                                                                                                42
                     Test du 2

 Détermine l'existence d'une dépendance entre
  deux variables
     Exemple : salaire d'embauche, niveau d'étude
 Compare la distribution des variables par
  rapport à une courbe théorique supposant
  l'indépendance


                                                     43
            De nombreuses fonctions

   Test t sur moyenne
   ANOVA
   Analyses de variance sophistiquées
   Corrélation partielle
   Régresion logistique
   Séries chronologiques
       Lissage exponentiel, Moyenne mobile, …
       Comparaison
…
                                                 44
                   Calculs en SQL

 Introduction de fonctions d'agrégats
      AVG = moyenne
      MAVG = moyenne mobile
      STDDEV = écart type
      VARIANCE = variance
      COVARIANCE = covariance
      …
 Exemple
      SELECT COVARIANCE(SALAIRE_ACTU, SALAIRE_EMB)
      FROM EMPLOYEE
      WHERE GRADE = "ingénieur"
      GROUP BY SEXE
                                                      45
           Statistiques: Conclusion

 Calculs statistiques sur variables
     Mono ou bi-variées
     Résumé des données
     Observation de dépendances
     Peu de modèles prédictifs ...
 La plupart sont faisables avec SQL OLAP
     Extensions cube et rollup
     Extensions avec fonctions d'agrégats
                                             46
                         6. Conclusion

 Le data mining vise à            Questions ?
  découvrir des modèles à
  partir de grandes bases de           Quoi de nouveau par
  faits connus                          rapport à l'IA et aux
  (datawarehouse)                       statistiques ?
 Le processus de
  construction de modèles est
  complexe
      préparer les données
      modéliser 1/3 de la base
      valider sur 2/3
      expérimenter plusieurs
       modèles
                                                                47
                           DM, Stat., IA
       DM                          Stat.                              IA
                        Tableau individu -variable          Formalisme de la logique
                           Calculs numériques                 Induction/déduction
Recherche de règles Méthodes de discrimination           Apprentissage supervisé/ex.
de classement       Réseaux de neuronnes                 -Génèr° de règles
                    Segmentation                         -Constr° d'arbre de décision
                                                         -Raisonnement à base de cas
Régression           Méthodes de régression
                     Réseaux de neuronnes                _
Classification       Classif° automatique hiérarchique   Apprentissage non supervisé
automatique          Partitionnement                     -Classif° conceptuelle
                     Réseaux de neuronnes
Description          Stat. Élémentaire (histogramme,     Apprentissage non supervisé
synthétique          moy, écart-type)                    -Généralisation
                     Outils d'interprét° de classes
                     Méthodes factorielles (ACP)
Recherche de         Corrélations                        Apprentissage non supervisé
dépendances          Analyse factorielles des corr.      -Généralisation
                     (AFC)                               -Recherche d'associations
                     Réseaux bayésiens
Détection de         Test stat sur les écarts
déviations
                                                         _
                                                                                        48

								
To top