Docstoc

6-060-00

Document Sample
6-060-00 Powered By Docstoc
					6-600-04
Techniques de prospection de
données (data mining)
         Gilles Caporossi
         MQG
         Bureau: 4-503
         Poste:    6471
         Email:
          Gilles.Caporossi@hec.ca




 Site web du cours:
Voir zone cours (6-600-04) ou temporairement
http://www.hec.ca/sites/cours/6-600-04
                                               1
6-600-04 Techniques de
prospection de données

            Âge de
        l’information


                        MKT
   TI


            MQG


                              2
M.Sc. en gestion
option intelligence d’affaires
Structure de l’option

COURS OBLIGATOIRES DE L'OPTION (9 crédits)

•6-600-03 Techniques de data mining (MQG)
•6-701-03 Technologies de l'intelligence d'affaires (TI)
•6-105-03 Analyse des bases de données en marketing (MKT)




                                                        3
Intelligence d’affaires
 Les données forment le cœur des
  processus de base dans la plupart
  des entreprises.
 L’archivage des données crée la
  mémoire de l’entreprise.
 L’exploitation des données (data
  mining) crée l’intelligence de
  l’entreprise.
                                      4
Définition de l’exploitation des
données (data mining)
L’exploration et l’analyse de grandes
quantités de données afin de découvrir des
formes et des règles significatives en
utilisant des moyens automatiques ou
semi-automatiques.

(Berry et Linoff)



                                         5
Définition de SAS:

« Data mining is the process of selecting, exploring and
modeling large amounts of data to uncover previously
unknown patterns for business advantage.

•You can produce new knowledge to better inform decision
makers before they act.
•Build a model of the real world based on data collected from
a variety of sources, including corporate transactions,
customer histories and demographics, even external sources
such as credit bureaus.
•Then use this model to produce patterns in the information
that can support decision making and predict new business
opportunities. »


                                                                6
Le data mining est utilisé
 par les compagnies d’assurances, les
  banques et les gouvernements pour
  détecter les fraudes;
 en médecine, génétique,
  bioinformatique, et autres domaines
  de recherche scientifique (ex:
    téléphones mobiles au volant et risques
    d’accidents; ceinture de sécurité; psychologie
    cognitive);


                                                     7
Le data mining est utilisé
   par plusieurs entreprises
       pour mieux connaître leur clientèle et
        accroître les profits:
         • Quel client restera fidèle et qui partira?
         • Quels produits proposés à quels clients?
         • Qu’est-ce qui détermine si une personne répondra à
           une offre donnée?
         • Quel est le prochain produit ou service qu’un client
           particulier désirera?
       pour mieux gérer:
         • la distribution
         • la production
         • les ressources humaines
                                                              8
L’exploitation des données
devenue une réalité industrielle
   Les techniques d’exploitation des
    données existent depuis des années.
   L’utilisation de ces techniques dans
    l’industrie est cependant beaucoup plus
    récente parce que:
       Les données sont produites,
       Les données sont archivées,
       La puissance de calcul nécessaire est
        abordable,
       Le contexte est ultra-concurrentiel,
       Des produits commerciaux pour l’exploitation
        des données sont devenus disponibles.        9
Entreprises courtiers en
informations (données = $$$)
 IMS
 AC Nielson
 Equifax




                           10
Les 4 étapes du cercle vertueux du
data mining (Berry et Linoff)
   identifier les opportunités commerciales
    et les domaines où l’exploitation des
    données peut produire de la valeur;
   utiliser les techniques d’exploitation des
    données pour les transformer en
    informations permettant des actions
    concrètes;
   agir sur la base des informations;
   mesurer les résultats des actions afin de
    savoir comment exploiter les données.
                                                 11
Cercle vertueux du data mining (Berry et Linoff)




                                               12
Les principales tâches du
data mining
   Analyse exploratoire des données
       (ex: visualisation des données, ACP, détection
        des valeurs aberrantes, estimation de densité)
   Modèles descriptifs
       (ex: segmentation)
   Modèles prédictifs
       (ex: classification et régression)
   Découvertes de règles et de patterns
   Extraction par contenu
       (ex: recherche de documents à l’aide de mots clés
        dans des bases de données ou sur le Web)
                                                       13
La découverte de connaissances
peut être dirigée ou non dirigée
   Non dirigée:groupement par similitudes,
    segmentation, description
       • Dans la découverte non dirigée de
         connaissances, on s’intéresse à identifier des
         relations ou groupements significatifs.
   Dirigée: classification, estimation,
    prédiction
       • Dans la découverte dirigée de connaissances,
         la tâche est d’expliquer la valeur d’un certain
         champ (réponse) en fonction de tous les
         autres.

                                                     14
Principales techniques de
data mining
   Apprentissage non dirigé
       Règles d’association
       Détection de clusters (cluster analysis),
        segmentation
   Apprentissage dirigé
       Régression linéaire et généralisation
       Régression logistique
       Analyse discriminante
       Arbres de décision
       Réseaux de neurones

                                                    15
Composantes des
algorithmes de data mining
   Déterminer la forme fonctionnelle ou la
    structure du modèle.
   Déterminer le critère à utiliser pour juger
    de la qualité du modèle.
   Déterminer la méthode d’optimisation pour
    trouver les paramètres du modèle.
   Déterminer la stratégie d’accès aux
    données durant le processus
    d’optimisation.


                                             16
Pour être spécialiste en
data mining …
   Selon Hand, Manilla & Smith (2001),
    un(e) spécialiste en data mining doit
    avoir une bonne connaissance des
    principes de
     la statistique

     l’informatique




                                       17
Statistique vs Data mining
       Statistique                 Data mining
   n petit (généralement      n généralement très
    < 1000).                    grand (souvent >
                                104).
   Planification de la        Données recueillies
    collecte des données        pour d’autres besoins
    pour répondre à une         (ex: données
    hypothèse de                opérationnelles).
    recherche.
   Échantillon aléatoire      Pas un échantillon
                                aléatoire

                                                     18
Les données
   Types de données
       nominale, ordinale, intervalle (ratio)
   Données pour l’analyse se
    présentent souvent sous la forme
    d’une matrice n x p
        • n = nombre de lignes (cas)
        • p = nombre de variables
   Bases de données relationnelles
                                                 19
Structure des données
   Exemple de différentes structures de
    données:
       série chronologique
       structure hiérarchique
   Toute application du data mining doit
    tenir compte de la structure des données
         • sinon la découverte peut tout simplement être celle
           de la structure sous-jacente aux données!!




                                                             20
Qualité des données
   GIGO
       • (Garbage In, Garbage Out)
   Le danger est d’autant plus grand dans le
    contexte du data mining:
       • analyse secondaire de grandes bases de données
       • aucun contrôle sur la collecte des données
   Validité et précision des mesures
   Valeurs manquantes (pourquoi?
    imputation?)
   Valeurs aberrantes
       • Objectif : détection de fraude ou de défectuosité
       • Objectif: modèle pour prédiction ou classification
                                                              21
Data mining: « dredging »,
« snooping », « fishing »!
   Presque toujours possible de trouver des
    relations ou patterns dans un ensemble
    de données:
       pattern local où il y a peu de données
       modèles très flexibles.
   Il n’y a aucune solution technique facile à
    ce problème:
       validation des modèles avec d’autres données
       modèle interprétable par les experts du
        domaine d’application et utile.

                                                  22
Introduction à SAS
Entreprise Miner (EM)
    Vous devez prendre un rendez-vous avec le
                Centre d'aide Virtuose
                        RC-416
                 Tél. : (514) 340-1328
                   pour faire installer
          le logiciel SAS sur votre portable

   SAS est également disponible dans les
    laboratoires de HEC au 3ième étage

                                                 23
SAS EM
   Help de SAS EM
    C:\Program Files\SAS Institute\SAS\V8\core\help\emgui.chm


   Help de SAS
    C:\Program Files\SAS Institute\ SAS\V8\core\help\base.chm



   Données pour l’exemple:
     C:\Program Files\SAS Institute\SAS\V8\dmine\sample\
      hmeq.sas7bdat



                                                                24

				
DOCUMENT INFO
Shared By:
Categories:
Stats:
views:17
posted:3/24/2011
language:French
pages:24