Embed
Email

rapport

Document Sample

Categories
Tags
Stats
views:
0
posted:
11/27/2011
language:
French
pages:
11
CRISTANTE Jérôme

LMI5









Analyse et fouille de données

Projet « Protéomique »









Université Nancy 1 – Faculté des Sciences et Techniques Année Universitaire 2008/2009

Introduction :





Le but du projet « Protéomique » est de proposer une méthode d’apprentissage

permettant soit de découvrir la structure secondaire à partir de la structure primaire, soit

d’améliorer la structure secondaire prédite par les M-SVM. J’ai travaillé sur cette deuxième

proposition.

Mon fichier de données a été partagé en mettant aléatoirement la moitié des données

dans l’ensemble d’apprentissage et l’autre moitié dans celui de test. J’ai donc ainsi deux

fichiers de données.

J’ai essayé d’améliorer la structure secondaire des protéines prédite par M-SVM à

partir de plusieurs méthodes. Tout d’abord en travaillant sur les valeurs estimées, un triplet de

nombre pour chaque acide aminé. Ma structure secondaire obtenue est déduite de la position

la moins élevée de ce triplet. J’ai obtenu des résultats assez faible : 17% de ressemblance avec

les vraies structures secondaires.

J’ai ensuite calculer la valeur absolue de ces triplets et déduit deux nouvelles structures

secondaire en prenant le max puis le min de ces triplets. J’ai obtenu respectivement 40% et

26% de ressemblance.

Ces valeurs étant assez faible, j’ai décidé de partir sur une méthode de lissage des

éléments de la structure secondaire prédite par la méthode M-SVM. C’est-à-dire repérer les

éléments isolés et les remplacer soit par la l’élément suivant. J’ai obtenu une efficacité de

59,9%. Ces valeurs me semblant satisfaisante, j’ai donc travaillé en remplaçant les éléments

isolés par leur élément suivant et trouvé 60,5% de ressemblance avec les données de test.

Description des données :





Le fichier initiale comporte 150 protéines. J’ai décidé de les partager équitablement

donc de mettre 50% dans l’ensemble d’apprentissage et donc 50% dans l’ensemble de test.

Ces protéines sont partagées aléatoirement. Pour cela je crée une liste dans laquelle je mets au

hasard le numéro de tous les protéines. Puis à partir de celle liste je prend un certain

pourcentage (en l’occurrence 50%), récupère toutes leurs données dans le fichier de données

et les mets dans un fichier d’apprentissage. Je fais de même avec le reste de la liste pour créer

un fichier de test.





Pour pouvoir travailler sur les triplets et la structure secondaire prédite par M-SVM,

j’ai organisé les protéines dans un dictionnaire. Ainsi je peux accéder facilement à chacune de

leurs informations et les valeurs estimées sont directement classés en triplet.





Certaines données ont été recodées, par exemple j’ai calculé la valeur absolue des

valeurs de chaque triplet. J’ai fait disparaître les lettres isolées de la structure secondaire

prédite par M-SVM en les remplaçant par l’élément suivant.

A partir de ces nouvelles données j’ai pu effectué plusieurs mesures pour évaluer

l’amélioration de la prédiction.

Description des méthodes utilisées :





Ma première méthode consistait à travailler sur les valeurs estimées selon la méthode

M-SVM. Actuellement la structure secondaire est déduite en prenant la plus grande valeur de

chaque triplet. En partant de ce principe j’ai essayé d’améliorer cette structure en prenant la

plus petite valeur de chaque triplet.

N’ayant pas de résultats satisfaisant, j’ai recodé les valeurs de chaque triplet en

calculant leur valeur absolue puis en prenant à nouveau la plus grande valeur. J’ai ainsi

obtenu de nouveaux résultats et j’ai testé aussi avec la plus petite valeur.









N’étant pas satisfait de ces méthodes, car les mesures de qualité ne montrer pas

d’améliorations, j’ai décidé de partir directement de la structure secondaire prédite par la

méthode de M-SVM. J’ai « lissé » cette chaine en remplaçant chaque lettre isolée par celle qui

la suit. Puis j’ai essayé cette même méthode en remplaçant par la lettre qui précède.

Description des valeurs obtenues :





Pour chacune des méthodes, je calcule le pourcentage d’éléments, de la chaîne

obtenue, identiques à ceux de la structure secondaire observée, pour chacune des protéines de

l’ensemble de l’apprentissage. Puis je fais une moyenne des ces pourcentages pour évaluer

l’amélioration de prédiction qui en résulte. Ainsi avec cette comparaison je peux tester

l’amélioration de mes méthodes.

Si le pourcentage obtenu semble prouver une améliorer j’effectue, pour cette méthode,

les mêmes calcules sur l’ensemble de test.

Pour chacune des méthodes j’ai effectué des statistiques sur tous ces pourcentages,

c’est-à-dire que je classe le pourcentage obtenu pour chaque protéine en tranche. Ainsi on

peut s’apercevoir et comparer l’efficacité des mes méthodes à là méthode M-SVM.





Avant tout, j’ai calculé l’efficacité de la méthode M-SVM et je trouve une moyenne de

59% d’efficacité. Voici les pourcentages obtenues sur l’ensemble d’apprentissage :



Pourcentage d'efficacité Nombre de protéines Nombre de protéines (%)

[0 - 20] 0 0

]20 - 40] 5 6

]40 - 60] 32 42

]60 - 80] 36 48

]80 - 100] 2 2





Et ceux obtenues sur l’ensemble de test :



Pourcentage d'efficacité Nombre de protéines Nombre de protéines (%)

[0 - 20] 0 0

]20 - 40] 5 6

]40 - 60] 30 40

]60 - 80] 37 49

]80 - 100] 3 4



Je peux ainsi comparer ces valeurs à celles que je trouve avec mes différentes valeurs

pour évaluer l ‘amélioration de prédiction.

1) Minimum de chaque triplet :





Cette méthode consiste donc à prendre le minimum de chaque triplet et construire une

chaine avec les éléments correspondants.

J’obtiens une efficacité de 17,4 %, ce qui est très faible.







Pourcentage d'efficacité Nombre de protéines Nombre de protéines (%)

[0 - 20] 45 60

]20 - 40] 28 37

]40 - 60] 2 2

]60 - 80] 0 0

]80 - 100] 0 0









Doc 1. Comparaison de l’efficacité de la méthode des minimums avec M-SVM





N’ayant pas de résultats satisfaisant, je n’ai pas essayé la méthode sur l’ensemble de

test.

2) Minimum de la valeur absolue de chaque triplet :





Cette méthode consiste donc à prendre le minimum de la valeur absolue de chaque

triplet et construire une chaine avec les éléments correspondants.

J’obtiens une efficacité de 26,2 %, ce qui est très faible.







Pourcentage d'efficacité Nombre de protéines Nombre de protéines (%)

[0 - 20] 10 13

]20 - 40] 64 85

]40 - 60] 1 1

]60 - 80] 0 0

]80 - 100] 0 0









Doc 2. Comparaison de l’efficacité de la méthode des minimums des valeurs absolues avec M-SVM









N’ayant pas de résultats satisfaisant, je n’ai pas essayé la méthode sur l’ensemble de

test.

3) Maximum de la valeur absolue de chaque triplet :





Cette méthode consiste donc à prendre le maximum de la valeur absolue de chaque

triplet et construire une chaine avec les éléments correspondants.

J’obtiens une efficacité de 40,3 %, ce qui faible.





Pourcentage d'efficacité Nombre de protéines Nombre de protéines (%)

[0 - 20] 0 0

]20 - 40] 34 45

]40 - 60] 41 54

]60 - 80] 0 0

]80 - 100] 0 0









Doc 3. Comparaison de l’efficacité de la méthode des maximums des valeurs absolues avec M-SVM









N’ayant pas de résultats satisfaisant, je n’ai pas essayé la méthode sur l’ensemble de

test.

4) Lissage de la structure secondaire prédite par M-SVM :





Cette méthode consiste donc à faire disparaître les lettres isolées de la structure

secondaire prédite par M-SVM en remplaçant chaque lettre isolée par celle qui suit. On

obtient ainsi une nouvelle chaine.

J’obtiens une efficacité de 59,9 %, ce qui est supérieur au pourcentage d’efficacité de

la méthode M-SVM.





Pourcentage d'efficacité Nombre de protéines Nombre de protéines (%)

[0 - 20] 0 0

]20 - 40] 5 6

]40 - 60] 30 40

]60 - 80] 38 50

]80 - 100] 2 2









Doc 4. Comparaison de l’efficacité de la méthode de lissage sur l’ensemble d’apprentissage





On remarque une légère augmentation de l’efficacité de la méthode, ce qui n’est pas

négligeable. J’ai donc essayé cette méthode sur l’ensemble de test.

Voici donc les résultats que j’ai trouvé sur l’ensemble de test :



Pourcentage d'efficacité Nombre de protéines Nombre de protéines (%)

[0 - 20] 0 0

]20 - 40] 5 6

]40 - 60] 29 38

]60 - 80] 37 49

]80 - 100] 4 5









Doc 5. Comparaison de l’efficacité de la méthode de lissage sur l’ensemble de test





Une efficacité de 60,5% est obtenue, soit 1,5% de mieux que la méthode M-SVM. On

peut remarquer sur cette histogramme qu’il y’a une net amélioration de l’efficacité car la

méthode obtient plus de pourcentage supérieur à 80%.

Bilan :



Après avoir essayé plusieurs méthodes, la dernière semble concluante. En effet

remplacer les lettres isolées, de la structure secondaire obtenue avec la méthode M-SVM, par

celle qui la suite améliore la prédiction.

Efficace sur l’ensemble d’apprentissage et sur l’ensemble de test, j’obtient une

amélioration de prédiction d’environ 1,5%.



Related docs
Other docs by Stariya Js @ B...
How we become literate
Views: 0  |  Downloads: 0
15189
Views: 0  |  Downloads: 0
Enrollment Agreement
Views: 0  |  Downloads: 0
seddc 061009 pm
Views: 0  |  Downloads: 0
Juvanec-KamenNaKamen-eng
Views: 0  |  Downloads: 0
Syllabus Macro Fall 10
Views: 0  |  Downloads: 0
23401
Views: 0  |  Downloads: 0
9-11-RPH-stonefabrication-ord-memo-agss
Views: 0  |  Downloads: 0
Junior_Pre_season_Soccer_League_application
Views: 0  |  Downloads: 0
guide_to_moodle_quizzes
Views: 0  |  Downloads: 0
By registering with docstoc.com you agree to our
privacy policy

You are almost ready to download!

You are almost ready to download!