Effet surface by b8v5Wr

VIEWS: 1 PAGES: 28

									UV207




                       Marketing Direct

                         Séance du 02 Mai 2012


        DataMining - Focus sur le scoring




          Master M1 MARKETING/ Gwarlann de Kerviler   1
                 Le Data Mining
 Objectif du ciblage en MD : hiérarchiser les individus afin de sélectionner
    ceux qui ont le meilleur potentiel
             Réduction des coûts
             Amélioration ROI
             Vente plus facile (appétence identifiée) => élaboration d’offres pertinentes
             Réponses immédiates à des demandes (crédit, assurance,…) à partir de scores

   Méthode : attribuer à chaque adresse cible une note reliée à une probabilité =>
    Sélectionner un sous ensemble du fichier permettant de maximiser un objectif

=> Datamining : ensemble des algorithmes et méthodes permettant exploration et
analyse de grandes BDD informatiques, sans a priori,
           En vue de détecter dans ces données des règles, des tendances inconnues ou
              cachées, des structures particulières restituant de façon concise l’essentiel de
              l’information utile pour l’aide à la décision »
           Pour constituer des groupes d’individus ; rechercher une relation de
              dépendance entre VI et VD. S. Stufféry, enseignant datamineur,http://data.mining.free.fr

                                                                                     2      Sommaire
                   Loi des 20/80
   20% des clients, 80% du CA et 200% du                                      Echantillon

    bénéfice !
                                                          25 000                      CA       coûts


                                                          20 000


   Bien sûr, le CA augmente toujours                     15 000


   Mais les coûts augmentent plus vite !                 10 000


                                                           5 000


                                                               0
                                                                   1   2       3           4         5       6         7       8


                                                                           Res clas                      Res Cum
   Le profit dégagé sur les clients les plus rentables   2 000

    est perdu sur les derniers                            1 000

                                                              0
                                                                   1   2      3            4     5       6         7       8
                                                          -1 000
Résultat par classe et cumulé                             -2 000

                                                          -3 000

                                                          -4 000

                                                          -5 000




                                                                                                     3           Sommaire
             Trois grandes familles de méthodes

1. Visualisation/ description : compréhension synthétique de

   l’ensemble des données

2. Classification et structuration : techniques de classification

   automatique (typologies, réseaux de neurones…)

3. Explication et prédiction de type scoring : relier un phénomène à

   expliquer à un phénomène explicatif pour extraire des modèles de

   classement ou de prédiction (arbre de décision, régressions, analyse

   discriminante…)

    Trouver une fonction f(X1, …, Xp) permettant de prédire Y


                                                                       Sommaire
                  Visualisation / description
Objectif : compréhension synthétique des données

Moyens :

           1.   Statistiques élémentaires (moyenne, médiane, min/max, écart-type, etc)

           2.   Nuages de point des observations

           3.   Histogrammes (données en groupes de classes)

           4.   Tris croisés / tableau de contingence




                                                                          5     Sommaire
             Classification / structuration

Objectif : former des groupes


Moyens :


        1. Segmentation typologique des clients

        2. Réseau neurones : chaque neurone se
           spécialise pour représenter un groupe de
           clients selon les points communs qui les
           rassemblent. La carte permet de diviser en
           zones. Le réseau de neurones permet
           d’attribuer à chacun des objets une
           probabilité d’appartenance à une classe. (ex:
           ADN)

                                                           6   Sommaire
                 Prédiction de type Scoring
Objectifs : trier les individus en fonction d’une probabilité de comportement
=> anticiper afin de cibler ses actions MD


Moyen : attribuer une note (score) à chaque client afin de prédire sa
probabilité d’avoir un certain comportement
       Ce qu’on cherche à faire : prédire la probabilité d’un comportement (départ ou
        non, achat ou non, envoi d’un bon de commande ou non, réponse favorable à
        une sollicitation commerciale ou non, défaut de paiement ou non, etc.)

       Moyen : fonction mathématique (régression logistique, arbre de décision, etc.)
        qui prédit cette probabilité en fonction de certaines caractéristiques ou
        variables indépendantes

        S = F (X1, X2, … ,Xi)
        Avec S = score ou note attribuée au client F = fonction du score Xi = caractéristiques des clients



                                                                                       7       Sommaire
              Prédiction
Fonctions permettant de trier les individus
 Z–score




                              Arbre de décision




 Régressions




                                                   8   Sommaire
                   Chi2 (Khi2)
Test du Chi2 : existence d’une association entre 2 variables nominales
   Calcul : somme des écarts pondérés entre les effectifs théoriques et les effectifs
    réels de chaque case

                        Chi2 case = (observé-théorique)2 / théorique
                             Chi2 tableau = Somme des Chi2 case
On rejette l’hypothèse H0 (non relation entre les variables) si Chi2 est supérieur à la
valeur critique associée au risque d’erreur accepté (habituel 5%) avec ddl= (nb
colonnes-1)*(nb lignes-1)
Plus l’écart entre l’effectif théorique et l’effectif réel est important plus la relation est forte (ne
résulte pas du hasard)
   Effectifs théoriques d’une case : effectif total multiplié par la fréquence de la ligne
    et la fréquence de la colonne

 Lecture dans la table du Chi2 critique
                     À 5% (ddl, Chi2) = (1, 3.84) (2, 5.99)…(4, 9.49)
        Ou calcul du risque associé au chi2 calculé (si petit risque, rejet de H0)

 Une relation existe si Chi2 calculé > Chi2 critique

                                                                                        9       Sommaire
                         Illustration Chi2
Exemple « modalité : Homme/femme »
Sur 10.000 adresses (N), on observe 909 réponses (b).
• modalité « femme » de la variable X1 = effectif de 7074 (n), soit 70%
• modalité « femme » = 491 réponses (x)
• Chi2 case = (observé-théorique)2 / théorique
• Chi2 tableau = Somme des Chi2 case

       2         1           418                        Chi² case                 35,94          3,59      39,54
       2         2          2508                        Réel                        418         2508        2926
              Total        10000                        Théorique                 266,0       2660,0        2926
                                                        Chi² case                 86,90          8,69      95,58
    X\Y          1              2      Total       %    Total                       909         9091       10000
       1    491         6583         7074      70,7%                              909,0       9091,0
       2    418         2508         2926      29,3%                                         Chi²         135,12
    Total   909         9091        10000      nc = 2                      Risque d'erreur                 0,00%
       %     9,1%         90,9%       nl = 2
                                                                           Chi² critique à 5%                3,84
nb colonnes (nc)                2
nb lignes (nl)                  2                       avec un risque de       0,00% de vous tromper
ddl : Degrés de liberté (nc-1)*(nl-1)              1    vous pouvez conclure que la connaissance de X approrte une information
                                                        sur la fréquence des réponses sur les modalités de Y (et inversement)

Facteur multiplicatif                              1    Valeur maximale possible du chi2                10 000,00



                                                                                                             10     Sommaire
    Le Chi2 a deux limites importantes





                                         11   Sommaire
                     Illustration limites du Chi2

  Selon les effectifs, le chi2 est significatif ou non
  Plus les effectifs sont élevés, plus il est significatif

  Les autres coefficients ne changent pas de valeur




 Facteur                  Risque                              Coefficient de Coefficient de Coefficient de
multiplicatif   Chi2      d'erreur   Effectifs Phi (Pearson) contingence ( C) Tschuprow (T) Cramer (V)
        0,01       1,35    24,507%         100          0,116           0,115         0,014          0,116
         0,1      13,51      0,024%       1000          0,116           0,115         0,014          0,116
           1     135,12      0,000%      10000          0,116           0,115         0,014          0,116
           2     270,24      0,000%      20000          0,116           0,115         0,014          0,116
                                    Maximum              1,00             0,71            1               1




                                                                                           12       Sommaire
               CHAID CHi-squared Automatic Interaction Detector

 Problématique : constituer des groupes pour lesquels les valeurs de Y sont
    Aussi semblables que possible à l'intérieur des groupes (minimiser variance intra
     groupe) et
    Aussi dissemblables entre les groupes (maximiser variance inter groupes)

 Principe : recherche itérative du meilleur découpage parmi les découpages
   possibles (en utilisant le chi2)
 Intérêt de la méthode :
     Adaptée à tous types de variables
     Simple et rapide
     Pertinence managériale :
          sélection des variables pertinentes (test de Chi2)
          mais discrétisation manuelle possible facilement
          transformation en règles de décision simple
     Mais : les variables explicatives peuvent être corrélées; pas de méthode
       formelle pour l’arrêt de l’arborescence


                                                                           13     Sommaire
                            Exemple d’un arbre

                                                                 Total       Chi²
                                                       Effectifs 10 000      358 récence
                                                       % acheteurs7,8%       304 ville
                                                                             123 âge
                          > 6 mois                                                          <=6 mois
                          2708 59                                                           7292 111
                          16,1% 16                                                           4,7% 102
        Ville +                              Ville -                      Ville +                               Ville -
        1468 9                               1240 24                       1876 15                               5416 160
        21,1%                                10,2%                          9,2%                                  3,2%
age <35           age >35            age <35           age >35 age <35               age >35            age <35             age >35
 645               823                722               518      559                 1317               2486                2930
24,6%             18,3%              13,8%              5,3%     13,1%               7,5%                6,4%               0,4%




                                                                                                                  14        Sommaire
                Z-score
Principe : on classe les variables selon la sur-représentation des acheteurs dans ce
groupe
   Pour chaque modalité de la variable étudiée
      Z score = [x – b*(p)] / [ b*(p)*(1-p)]
          x = nombre de réponses pour cette modalité
          b = nombre total de réponses
          p = fréquence observée sur toute la population (n/N)

   Exemple « modalité : Homme/femme »
      sur 10.000 adresses (N), on observe 909 réponses (b).
      Pour la modalité « femme » de la variable X1 qui représente un effectif de 7074 (n),
        soit 70%
      Pour la modalité « femme » on observe 491 réponses (x) alors qu’on aurait dû observer
        643 réponses (p*b=70%*909).
      La valeur de Z est –0.808.

   Plus la valeur de Z est élevée en valeur absolue, plus la modalité est associé au
    comportement
      Choix des variables par valeur décroissante du maximum du Z-score pour ces modalités


                                                                          15      Sommaire
                    Illustration Z-Score


                           Calculs des Z-Scores
                                                Effectifs (E)        10 000
                                              Acheteurs (A)             909
                                           % Acheteurs (A%)          9,09%

Code       Variable        Modalités         Effectifs (Ei)     Acheteurs (Ai) % Acheteurs (Ai%)        Zi
X1_1        Genre          Femme                         7 074             491            6,94%         -0,808
X1_2                       Homme                         2 926             418           14,29%          0,808
X2_1   Livre de cuisine    Pas cuisine                   8 730             740            8,48%         -0,531
X2_2                       Cuisine                       1 270             169           13,31%          0,531
X3_1        Atlas          Pas atlas                     9 614             831            8,64%         -1,272
X3_2                       Atlas                            386             78           20,21%          1,272
X4_1      Livre d'art      Pas art                       9 424             754            8,00%         -2,080
X4_2                       Art                              576            155           26,91%          2,080
X5_1   Nombre de livres    1 livre                       3 009             197            6,55%         -0,400
X5_2      achetés          2 livres                      2 953             196            6,64%         -0,383
X5_3                       3 livres et +                 4 038             516           12,78%          0,681
X6_1   Ancienneté client   Nouveau                       7 767             541            6,97%         -1,047
X6_2                       Ancien                        2 233             368           16,48%          1,047




                                                                                                   16       Sommaire
               Autres méthodes classiques
 Régression linéaire

      Maximiser le pourcentage de la variance de Y expliqué par les variables du
       modèle => qualité de l’ajustement : R2

      Vérification Distribution normale : test T

 Régression logistique

      Dans le cas où la variable prédite est dichotomique, la spécification d’un modèle
       linéaire est incorrect

      On cherche à spécifier la probabilité d’apparition d’un événement

           Prévisions de Y comprises entre 0 et 1 et interprétables comme des
            probabilités d’occurrence d’un événement sachant les Xi

        =>La régression logistique permet d’étudier la relation entre une variable
            réponse binaire [0,1] : succès/ échec et plusieurs variables explicatives

           relation NON linéaire


                                                                         17     Sommaire
                Qualité de l’affectation des individus
   A partir d’un score seuil « S », un modèle de scoring classe selon le groupe prévu
      Si score(i) >S alors i appartient au groupe « positif »


   Mais plus on cherche à bien classer les « positifs »…. plus on y ajoute de « faux
    positifs » (prévu positif, mais négatif)


   La qualité de l’affectation est déterminée par 2 indicateurs
      Sensibilité (a)
      Spécificité (b)
                                                            Positif   Négatif

                                                 Prévu        a        (1- b)
                                                 Positif
   On cherche S tel qu’il
      Maximise (a) (vrais positifs)             Prévu       (1-a)       b
                                                Négatif
      Minimise (1- b) (faux positifs)




                                                                          18     Sommaire
                  Qualité de l’affectation des individus
Matrice de confusion : Estimé x Réel


Exemple: On considère un système de classification dont le but est de classer du courrier
électronique en deux classes : courriels normaux et courriels spam. On va vouloir savoir combien
de courriels normaux seront faussement estimés comme du spam (fausses alarmes) et combien
de spams ne seront pas estimés comme tels (non détections). On va supposer qu'on a testé
notre classificateur avec 100 courriels normaux et 100 courriels de spam.




     Ainsi, la matrice se lit comme suit :
      sur les 98 courriels que le système a estimé comme normaux, 3 sont en fait du spam ;
      sur les 102 courriels que le système a estimé comme spam, 5 sont en fait des courriels
        normaux.




                                                                              19
                                                                                      Sommaire
                Evaluer la qualité du ciblage
                Courbe ROC (receiver operating characteristic)
Utilisation de la courbe de ROC

   Sensibilité : taux de vrais positifs

   (1-Spécificité) : taux de faux positifs

Taux de classifications correctes (vrais
positifs) en fonction du nombre de
classifications incorrectes (faux positifs).

   la courbe doit être au-dessus de la
    première diagonale aléatoire (x = y).

   L’aire sous la courbe permet de
    comparer les modèles

AUC : « c statistic » dans la table « prévu-
réel » ou dans le graphique ROC


                                                                 20   Sommaire
              Evaluer la qualité du ciblage
              Courbe de Lift (ou de Pareto)
 La courbe met en regard :

      le % des acheteurs, pour les individus
       rangés en classe d’effectifs égaux par ordre
       décroissant de probabilité d’achat,




                                                        % des acheteurs
      au pourcentage obtenu à partir d’un                                         hasard


       classement aléatoire (ligne diagonale)                             AUL

 Lecture de la courbe:

      En prenant 30% du fichier on a 50% des                               % du fichier

       acheteurs

      L’effet de levier ou « lift » est le rapport =
       50% / 30% = 1.66 (amélioration vs aléatoire)

      L’aire sous la courbe (AUL) Area Under the
       Line illustre l’efficacité du scoring


                                                                                  21        Sommaire
Démarche du SCORING




                      Sommaire
                  5 étapes clé
1.   Extraction d’un échantillon
              Travail (ou test) : à partir duquel les méthodes sont définies

              Validation : sur lequel les méthodes sont validées

2. Envoi de la campagne => stockage des comportements

3. Modélisation des comportements => fonction de score = f (x1, x2, …)

4. Analyse de la performance du scoring

    Vérification de la performance (minimiser les erreurs) via une des 3 principales
     méthodes (matrice de confusion, courbe de Lift, courbe de ROC)

    Vérification de la facilité d’utilisation (méthode compréhensible et rapide à mettre
     en œuvre)

5. “Scoring” de l’ensemble de la base
       Classement des individus selon un score



                                                                                23   Sommaire
 BDD de 102.000 clients                      2.000 clients sollicités au hasard
  Noms         Enfants       Salaires    100 ont répondu favorablement (RR=5%)
  Natalia                2       1408       Noms         Enfants       Salaires Retour
  Elise                  1       1294       Natalia                2       1408   +
                                                                                                                                         Fonction de score
  Jose                   0       1810       Elise                  1       1294   +
                                                                                           Echantillon                                          S(R)= (X)
  Jean                   5       1800       Jose                   0       1810    -       d’apprentissage
  StŽphanie              1       1770       Jean                   5       1800   +
  Constance              2       1550       StŽphanie              1       1770   +
  Tiphaine               2       1561       Constance              2       1550    -
                                                                                           Echantillon de
  Nicolas                1       1561       Tiphaine               2       1561   +        validation
  Paul RenŽ              0       1660
  Juliette               1       1408
  Elizabeth              0       1402
  Indre                  1         862
  Maria                  1       1914
  Mathieu                1       2324                                                                                    Noms        Enfants        Salaires Retour                        vision
                                                                                                                                                                                   Score PrŽ
  ThimotŽ e              0         862                                                                                     phanie
                                                                                                                         StŽ                   1        1770   +                    0,99     +
  Sandra                 0         892                                                                                   Constance             2        1550    -                   0,45      -
  Eleni                  1       2214                                                                                    Tiphaine              2        1561   +                    0,87     +
  Cyndi                  1       2021
  Barthelemy             2       1425
  Marcela                0       1863
  Adriana                2       1318
  Marie                  1       1800
                                                                                                             Matrice de confusion                                            Courbe ROC
  Louis                  0         981
  Delphine               5       2900                                                                                   prévision          1

  Guillaume              1       5400                                                                                   +       -
                                                                                                                    +   %      %          0,8

                                            Noms         Enfants       Salaires    Score                     réel
                                                                                                                    -   %      %          0,6
                                            Nicolas                1       1561    0,985
                                            Sandra                 0         892   0,985                                                  0,4


                                            Eleni                  1       2214    0,985                                                  0,2
                                            Cyndi                  1       2021    0,985
                                            Barthelemy             2       1425     0,98                                                   0




                                                                                                                                                0
                                                                                                                                                     05

                                                                                                                                                      1



                                                                                                                                                            2




                                                                                                                                                                                                               1
                                                                                                                                                           15



                                                                                                                                                                 25

                                                                                                                                                                  3
                                                                                                                                                                       35

                                                                                                                                                                        4
                                                                                                                                                                             45

                                                                                                                                                                              5
                                                                                                                                                                                   55

                                                                                                                                                                                    6
                                                                                                                                                                                         65

                                                                                                                                                                                          7
                                                                                                                                                                                               75

                                                                                                                                                                                                8
                                                                                                                                                                                                     85

                                                                                                                                                                                                      9
                                                                                                                                                                                                          95
                                                                                    0,98




                                                                                                                                                    0,



                                                                                                                                                          0,



                                                                                                                                                                0,



                                                                                                                                                                      0,



                                                                                                                                                                            0,



                                                                                                                                                                                  0,



                                                                                                                                                                                        0,



                                                                                                                                                                                              0,



                                                                                                                                                                                                    0,
                                            Mathieu                1       2324




                                                                                                                                                0,



                                                                                                                                                      0,



                                                                                                                                                            0,



                                                                                                                                                                  0,



                                                                                                                                                                        0,



                                                                                                                                                                              0,



                                                                                                                                                                                    0,



                                                                                                                                                                                          0,



                                                                                                                                                                                                0,



                                                                                                                                                                                                      0,
                                            Marcela                0       1863     0,98
                                            Nicolas                1       1561     0,98
                                            Adriana                2       1318     0,98
                                            Marie                  1       1800     0,97
                                            Louis                  0         981    0,96
                                            Delphine               5       2900     0,96                     Si la prévision est satisfaisante :
                                            Guillaume              1       5400     0,96                     1/ appliquer la fonction score sur le reste de la BDD
                                            Juliette               1       1408     0,96
                                                                                                             2/ trier la BDD selon le score
                                                                                    0,96
Adapté de
                                            Maria                  1       1914
                                            ThimotŽ e              0         862    0,96                     3/ cibler en priorité les clients à fort score
R. RAKOTOMALALA                             Paul RenŽ
                                            Indre
                                                                   0
                                                                   1
                                                                           1660
                                                                             862
                                                                                    0,95
                                                                                    0,95
                                                                                                             4/ prévoir la performance du ciblage grâce à la
                                                                                                             courbe ROC
                                            Elizabeth              0       1402     0,95




                                                                                                                                                                                  Sommaire
                                 Pour évaluer la qualité du score :
                                 la matrice de confusion

Noms         Enfants Salaires                   vision
                                 Retour Score PrŽ
Natalia             2    1408    positif 0,98     +
Elise               1    1294    négatif 0,13     -
Jose                0    1810    positif 0,97     +
Jean                5    1800    positif 0,96     +
StŽphanie           1    1770    négatif 0,09     -                              prévision
Constance           2    1550    positif 0,95     +                              +        -
Tiphaine            2    1561    négatif 0,06     -
Nicolas                          positif 0,94     +                       +     12       3                  15
                                                             réel
                    1    1561
Paul RenŽ
Juliette
                    0
                    1
                         1660
                         1408
                                 positif 0,92
                                 positif 0,15
                                                  +
                                                  -
                                                                          -      2       8                  10
Elizabeth           0    1402    négatif 0,91     +                                14       11              25
Indre               1      862   positif  0,9     +
Maria               1    1914    positif 0,87     +
Mathieu             1    2324    négatif 0,2      -
ThimotŽ e           0      862   positif 0,19     -
Sandra              0      892   positif 0,05     -      Taux de bien classés            80%     (12+8)/25
Eleni               1    2214    négatif 0,03     -      Ventes                          80%     (12+3)/15
Cyndi               1    2021    négatif 0,01     -
Barthelemy          2    1425    positif 0,86     +
Marcela             0    1863    négatif 0,08     -
Adriana             2    1318    négatif 0,84     +
Marie               1    1800    négatif 0,1      -
Louis               0      981   positif 0,82     +
Delphine            5    2900    positif 0,81     +
Guillaume           1    5400    positif 0,79     +




                                                                                                 Sommaire
                                  Pour évaluer la qualité du ciblage : la courbe
                                  ROC (Receiver Operating Characteristics)



                                                           % cible   %+
Noms           Enfants Salaires   Retour                        e        s
                                            Score PrŽision cumulŽ retrouvŽ
                                                    v
                                                                              120
Natalia              2    1408    positif   0,98     +           4     6,67
Jose                 0    1810    positif   0,97     +           8    13,33
                                  positif   0,96     +          12    20,00   100
Jean                 5    1800
Constance            2    1550    positif   0,95     +          16    26,67
Nicolas              1    1561    positif   0,94     +          20    33,33    80
Paul RenŽ            0    1660    positif   0,92     +          24    40,00
Elizabeth            0    1402    négatif   0,91     +          28    40,00    60
Indre                1     862    positif    0,9     +          32    46,67
Maria                1    1914    positif   0,87     +          36    53,33
                                                                               40
Barthelemy           2    1425    positif   0,86     +          40    60,00                                             % cible cumulée
Adriana              2    1318    négatif   0,84     +          44    60,00                                             % + retrouvés
                                                                               20
Louis                0     981    positif   0,82     +          48    66,67
Delphine             5    2900    positif   0,81     +          52    73,33
Guillaume            1    5400    positif   0,79     +          56    80,00    0

Mathieu              1    2324    négatif    0,2      -         60    80,00




                                                                                    12


                                                                                         20


                                                                                              28


                                                                                                   36


                                                                                                        44


                                                                                                             52


                                                                                                                  60


                                                                                                                       68


                                                                                                                            76


                                                                                                                                 84


                                                                                                                                        92
                                                                                4




                                                                                                                                               0
                                                                                                                                             10
ThimotŽ e            0     862    positif   0,19      -         64    86,67
Juliette             1    1408    positif   0,15      -         68    93,33
                                  négatif   0,13      -         72    93,33
Elise
Marie
                     1
                     1
                          1294
                          1800    négatif    0,1      -         76    93,33
                                                                                    Sur la bissectrice : je touche 20% des
  p
StŽhanie             1    1770    négatif   0,09      -         80    93,33         acheteurs du produit en ciblant 20% de ma
Marcela
Tiphaine
                     0
                     2
                          1863
                          1561
                                  négatif
                                  négatif
                                            0,08
                                            0,06
                                                      -
                                                      -
                                                                84
                                                                88
                                                                      93,33
                                                                      93,33
                                                                                    base.
Sandra               0     892    positif   0,05      -         92   100,00
Eleni                1    2214    négatif   0,03      -         96   100,00
                                                                                    Sur ROC : je touche 36% des acheteurs du
Cyndi                1    2021    négatif   0,01      -       100    100,00
                                                                                    produit en ciblant 20% de mes clients.
25 adresses
15 retours positifs
                                                                                                                                      Sommaire
                                120


                                100


                                 80


                                 60


                                 40
                                                                          % cible cumulée
                                                                          % + retrouvés
                                 20


                                  0
                                  4




                                                                                                 0
                                      12

                                           20

                                                28

                                                     36

                                                          44

                                                               52

                                                                    60

                                                                         68

                                                                              76

                                                                                   84

                                                                                          92

                                                                                               10
Objectif : toucher 4.000 clients intéressés dans une BDD clients de 100.000 où taux de
retour au hasard est habituellement de 5%

Au hasard : envoyer à 80% de la BDD = 80.000 mailings
Scoring : taux de retour de 9% => possibilité d’envoyer à 44.400 pour obtenir le même
résultat => économie de 35.600 mailings X coûts fixes par mailing

                                                                                          Sommaire
                           Illustration Logistique
    Ln(p/(1-p)) où p=%acheteurs dans le segment

Régression Logistique (exemple simplifié)
                                                                                                                  X1               ^Y
                        Non                          Effectifs
 Genre (X1) Acheteurs acheteurs       Effectifs         %      % Acheteurs       p/(1-p)    ln[p/(1-p)]           -0,296           -0,346                           52
Femme (0)          58        61               119       67,2%      48,74%             0,951       -0,05           -1                -0,05            0,49       -35,81
Homme (1)          20        38                 58      32,8%      34,48%             0,526       -0,64            1                -0,64            0,34       -16,23
                   78        99               177                  44,07%      0,55353902

                Acheteurs                % acheteurs                                                      % réel et prévu




                                                                                      Prévu
                                                                               100%
 Genre (X1)   réel          prévu        réel         prévu      Chi2           90%
Femme (0)            58          58       48,74% 48,74%                 0,00    80%
Homme (1)            20          20       34,48% 34,48%                 0,00    70%
                     78          78       44,07% 44,07%                 0,00    60%
                                     Chi2 critique à 5%                 9,49    50%
                          le modèle peut être accepté                           40%
                                                                                30%
Exp(b) =       0,7440                                                           20%
                                                                                10%                                                                Réel
                                                                                 0%




                                                                                                                                                         100%
                                                                                              10%

                                                                                                    20%

                                                                                                          30%

                                                                                                                40%

                                                                                                                       50%

                                                                                                                             60%

                                                                                                                                   70%

                                                                                                                                             80%

                                                                                                                                                   90%
                                                                                       0%




                                                                                                                                        28               Sommaire

								
To top