CRISTANTE Jérôme
LMI5
Analyse et fouille de données
Projet « Protéomique »
Université Nancy 1 – Faculté des Sciences et Techniques Année Universitaire 2008/2009
Introduction :
Le but du projet « Protéomique » est de proposer une méthode d’apprentissage
permettant soit de découvrir la structure secondaire à partir de la structure primaire, soit
d’améliorer la structure secondaire prédite par les M-SVM. J’ai travaillé sur cette deuxième
proposition.
Mon fichier de données a été partagé en mettant aléatoirement la moitié des données
dans l’ensemble d’apprentissage et l’autre moitié dans celui de test. J’ai donc ainsi deux
fichiers de données.
J’ai essayé d’améliorer la structure secondaire des protéines prédite par M-SVM à
partir de plusieurs méthodes. Tout d’abord en travaillant sur les valeurs estimées, un triplet de
nombre pour chaque acide aminé. Ma structure secondaire obtenue est déduite de la position
la moins élevée de ce triplet. J’ai obtenu des résultats assez faible : 17% de ressemblance avec
les vraies structures secondaires.
J’ai ensuite calculer la valeur absolue de ces triplets et déduit deux nouvelles structures
secondaire en prenant le max puis le min de ces triplets. J’ai obtenu respectivement 40% et
26% de ressemblance.
Ces valeurs étant assez faible, j’ai décidé de partir sur une méthode de lissage des
éléments de la structure secondaire prédite par la méthode M-SVM. C’est-à-dire repérer les
éléments isolés et les remplacer soit par la l’élément suivant. J’ai obtenu une efficacité de
59,9%. Ces valeurs me semblant satisfaisante, j’ai donc travaillé en remplaçant les éléments
isolés par leur élément suivant et trouvé 60,5% de ressemblance avec les données de test.
Description des données :
Le fichier initiale comporte 150 protéines. J’ai décidé de les partager équitablement
donc de mettre 50% dans l’ensemble d’apprentissage et donc 50% dans l’ensemble de test.
Ces protéines sont partagées aléatoirement. Pour cela je crée une liste dans laquelle je mets au
hasard le numéro de tous les protéines. Puis à partir de celle liste je prend un certain
pourcentage (en l’occurrence 50%), récupère toutes leurs données dans le fichier de données
et les mets dans un fichier d’apprentissage. Je fais de même avec le reste de la liste pour créer
un fichier de test.
Pour pouvoir travailler sur les triplets et la structure secondaire prédite par M-SVM,
j’ai organisé les protéines dans un dictionnaire. Ainsi je peux accéder facilement à chacune de
leurs informations et les valeurs estimées sont directement classés en triplet.
Certaines données ont été recodées, par exemple j’ai calculé la valeur absolue des
valeurs de chaque triplet. J’ai fait disparaître les lettres isolées de la structure secondaire
prédite par M-SVM en les remplaçant par l’élément suivant.
A partir de ces nouvelles données j’ai pu effectué plusieurs mesures pour évaluer
l’amélioration de la prédiction.
Description des méthodes utilisées :
Ma première méthode consistait à travailler sur les valeurs estimées selon la méthode
M-SVM. Actuellement la structure secondaire est déduite en prenant la plus grande valeur de
chaque triplet. En partant de ce principe j’ai essayé d’améliorer cette structure en prenant la
plus petite valeur de chaque triplet.
N’ayant pas de résultats satisfaisant, j’ai recodé les valeurs de chaque triplet en
calculant leur valeur absolue puis en prenant à nouveau la plus grande valeur. J’ai ainsi
obtenu de nouveaux résultats et j’ai testé aussi avec la plus petite valeur.
N’étant pas satisfait de ces méthodes, car les mesures de qualité ne montrer pas
d’améliorations, j’ai décidé de partir directement de la structure secondaire prédite par la
méthode de M-SVM. J’ai « lissé » cette chaine en remplaçant chaque lettre isolée par celle qui
la suit. Puis j’ai essayé cette même méthode en remplaçant par la lettre qui précède.
Description des valeurs obtenues :
Pour chacune des méthodes, je calcule le pourcentage d’éléments, de la chaîne
obtenue, identiques à ceux de la structure secondaire observée, pour chacune des protéines de
l’ensemble de l’apprentissage. Puis je fais une moyenne des ces pourcentages pour évaluer
l’amélioration de prédiction qui en résulte. Ainsi avec cette comparaison je peux tester
l’amélioration de mes méthodes.
Si le pourcentage obtenu semble prouver une améliorer j’effectue, pour cette méthode,
les mêmes calcules sur l’ensemble de test.
Pour chacune des méthodes j’ai effectué des statistiques sur tous ces pourcentages,
c’est-à-dire que je classe le pourcentage obtenu pour chaque protéine en tranche. Ainsi on
peut s’apercevoir et comparer l’efficacité des mes méthodes à là méthode M-SVM.
Avant tout, j’ai calculé l’efficacité de la méthode M-SVM et je trouve une moyenne de
59% d’efficacité. Voici les pourcentages obtenues sur l’ensemble d’apprentissage :
Pourcentage d'efficacité Nombre de protéines Nombre de protéines (%)
[0 - 20] 0 0
]20 - 40] 5 6
]40 - 60] 32 42
]60 - 80] 36 48
]80 - 100] 2 2
Et ceux obtenues sur l’ensemble de test :
Pourcentage d'efficacité Nombre de protéines Nombre de protéines (%)
[0 - 20] 0 0
]20 - 40] 5 6
]40 - 60] 30 40
]60 - 80] 37 49
]80 - 100] 3 4
Je peux ainsi comparer ces valeurs à celles que je trouve avec mes différentes valeurs
pour évaluer l ‘amélioration de prédiction.
1) Minimum de chaque triplet :
Cette méthode consiste donc à prendre le minimum de chaque triplet et construire une
chaine avec les éléments correspondants.
J’obtiens une efficacité de 17,4 %, ce qui est très faible.
Pourcentage d'efficacité Nombre de protéines Nombre de protéines (%)
[0 - 20] 45 60
]20 - 40] 28 37
]40 - 60] 2 2
]60 - 80] 0 0
]80 - 100] 0 0
Doc 1. Comparaison de l’efficacité de la méthode des minimums avec M-SVM
N’ayant pas de résultats satisfaisant, je n’ai pas essayé la méthode sur l’ensemble de
test.
2) Minimum de la valeur absolue de chaque triplet :
Cette méthode consiste donc à prendre le minimum de la valeur absolue de chaque
triplet et construire une chaine avec les éléments correspondants.
J’obtiens une efficacité de 26,2 %, ce qui est très faible.
Pourcentage d'efficacité Nombre de protéines Nombre de protéines (%)
[0 - 20] 10 13
]20 - 40] 64 85
]40 - 60] 1 1
]60 - 80] 0 0
]80 - 100] 0 0
Doc 2. Comparaison de l’efficacité de la méthode des minimums des valeurs absolues avec M-SVM
N’ayant pas de résultats satisfaisant, je n’ai pas essayé la méthode sur l’ensemble de
test.
3) Maximum de la valeur absolue de chaque triplet :
Cette méthode consiste donc à prendre le maximum de la valeur absolue de chaque
triplet et construire une chaine avec les éléments correspondants.
J’obtiens une efficacité de 40,3 %, ce qui faible.
Pourcentage d'efficacité Nombre de protéines Nombre de protéines (%)
[0 - 20] 0 0
]20 - 40] 34 45
]40 - 60] 41 54
]60 - 80] 0 0
]80 - 100] 0 0
Doc 3. Comparaison de l’efficacité de la méthode des maximums des valeurs absolues avec M-SVM
N’ayant pas de résultats satisfaisant, je n’ai pas essayé la méthode sur l’ensemble de
test.
4) Lissage de la structure secondaire prédite par M-SVM :
Cette méthode consiste donc à faire disparaître les lettres isolées de la structure
secondaire prédite par M-SVM en remplaçant chaque lettre isolée par celle qui suit. On
obtient ainsi une nouvelle chaine.
J’obtiens une efficacité de 59,9 %, ce qui est supérieur au pourcentage d’efficacité de
la méthode M-SVM.
Pourcentage d'efficacité Nombre de protéines Nombre de protéines (%)
[0 - 20] 0 0
]20 - 40] 5 6
]40 - 60] 30 40
]60 - 80] 38 50
]80 - 100] 2 2
Doc 4. Comparaison de l’efficacité de la méthode de lissage sur l’ensemble d’apprentissage
On remarque une légère augmentation de l’efficacité de la méthode, ce qui n’est pas
négligeable. J’ai donc essayé cette méthode sur l’ensemble de test.
Voici donc les résultats que j’ai trouvé sur l’ensemble de test :
Pourcentage d'efficacité Nombre de protéines Nombre de protéines (%)
[0 - 20] 0 0
]20 - 40] 5 6
]40 - 60] 29 38
]60 - 80] 37 49
]80 - 100] 4 5
Doc 5. Comparaison de l’efficacité de la méthode de lissage sur l’ensemble de test
Une efficacité de 60,5% est obtenue, soit 1,5% de mieux que la méthode M-SVM. On
peut remarquer sur cette histogramme qu’il y’a une net amélioration de l’efficacité car la
méthode obtient plus de pourcentage supérieur à 80%.
Bilan :
Après avoir essayé plusieurs méthodes, la dernière semble concluante. En effet
remplacer les lettres isolées, de la structure secondaire obtenue avec la méthode M-SVM, par
celle qui la suite améliore la prédiction.
Efficace sur l’ensemble d’apprentissage et sur l’ensemble de test, j’obtient une
amélioration de prédiction d’environ 1,5%.