Allineamento di due sequenze

Document Sample
Allineamento di due sequenze Powered By Docstoc
					                   Allineamento di due
                         sequenze




22 febbraio 2012                         1
  Allineare due sequenze (proteine o
             acidi nucleici)
 • Cosa vuol dire allineare due sequenze?
                 seq1: TCATG
                 seq2: CATTG




                   TCAT-G   4 caratteri uguali
                            1 inserzione/delezione
                   .CATTG
22 febbraio 2012                                 2
  Cosa vuol dire allineare due sequenze?

 • scrivere due sequenze orizzontalmente in modo
   da avere il maggior numero di simboli identici o
   simili in registro verticale anche introducendo
   intervalli (gaps – inserzioni/delezioni – indels)




22 febbraio 2012                                       3
               Due tipi di allineamento

 • globale: vengono allineate le intere
   sequenze dall’N- al C-terminale

 • locale: vengono allineate solo le zone con
   la più alta densità di somiglianza
   generando uno o più suballineamenti




22 febbraio 2012                                4
22 febbraio 2012   5
       LGPSSKQTGKGS–SRIWDN
       LN- ITK SAGKGAIMRLGDA



        -------TGKG--------
        -------AGKG--------




22 febbraio 2012               6
            Significato dell’allineamento

 • L’allineamento tra due sequenze biologiche
   è utile per scoprire informazione
   funzionale, strutturale ed evolutiva




22 febbraio 2012                                7
                   Metodi di allineamento

 • Analisi della matrice a punti (dot matrix)
 • programmazione dinamica (dynamic
   programming)
 • metodo delle n-ple (Fasta, Blast)




22 febbraio 2012                                8
           Metodo della matrice a punti

 • proposto da Gibbs and McIntyre (1970)

 • consente di evidenziare ripetizioni dirette o
   inverse nelle sequenze

 • prevedere regioni complementari nell’RNA
   che possano potenzialmente formare
   strutture secondarie

22 febbraio 2012                                   9
           Metodo della matrice a punti

  • esempi di programmi che lo codificano:

        • COMPARE e DOTPLOT nel pacchetto GCG

        • DOTTER
          (http://www.cgr.ki.se/cgr/groups/sonnham
          mer/Dotter.html




22 febbraio 2012                                     10
22 febbraio 2012   11
           Metodo della matrice a punti

 • il maggiore vantaggio di questa tecnica
   consiste nel dare tutte le possibili
   corrispondenze di simboli tra due
   sequenze




22 febbraio 2012                             12
22 febbraio 2012   13
22 febbraio 2012   14
               Programmazione dinamica

 • Fornisce l’allineamento ottimale tra due
   sequenze
 • semplici variazioni dell’algoritmo
   producono allineamento globali o locali
 • l’allineamento calcolato dipende dalla
   scelta di alcuni parametri




22 febbraio 2012                              15
          Needleman & Wunsch (1970)

 • Allineamento globale

 • Punteggio (odds score) di un allineamento
   sequenza 1      M - N A L S D R T
   sequenza 2      M G S D R T T E T
   punteggio       6-12 1 0-3 1 0-1 3 = -5




22 febbraio 2012                               16
• Punteggio di un allineamento di due sequenze:


∑i,j = Nij • s(ai,bj) – ∑kWk-gap • α(k)


• Somiglianza globale:


S(a,b) = maxallineamento   {∑i,j   = Nij • s(ai,bj) – ∑kWk-gap • α(k)   }



 22 febbraio 2012                                                           17
22 febbraio 2012   18
22 febbraio 2012   19
22 febbraio 2012   20
22 febbraio 2012   21
22 febbraio 2012   22
22 febbraio 2012   23
22 febbraio 2012   24
per due sequenze a e b

Sij = max { Si-1,j-1 + s(aibj),
                       max (Si-x,j – wx)   x1
                       max (Si,j-y – wy)   y1
                   }

Sij = punteggio alla posizione i della sequenza a e
posizione j nella sequenza b
s(aibj) = punteggio dell’allineamento dei caratteri in i e j
wx = penalizzazione per un intervallo di lunghezza x in a
wy = penalizzazione per un intervallo di lunghezza y in b
22 febbraio 2012                                            25
                                      Si-x,j - wx




                   Si-1,j-1
  Si, j-y- wy      + s(ai,bj)

                                Sij


22 febbraio 2012                                    26
                   Esempio di allineamento

 • Sequenza 1 : MNALSDRT
 • Sequenza 2 : MGSDRTTET

 • Funzione di penalizzazione delle
   inserzioni/delezioni

             W = –12 –4 (x – 1)

 • Matrice di punteggio PAM 250
22 febbraio 2012                             27
                   Figura protetta da copyright




22 febbraio 2012                                  28
sequenza 1         M - N A L S D R T
sequenza 2         M G S D R T T E T
punteggio          6-12 1 0-3 1 0-1 3 = -5


sequenza 1         M N - A L S D R T
sequenza 2         M G S D R T T E T
punteggio          6-12 1 0-3 1 0-1 3 = -5


sequenza 1         M N A L S D R T - - -
sequenza 2         - - M G S D R T T E T
punteggio          0 0-1-4 2 4 6 3 0 0 0 = 10


22 febbraio 2012                                29
           Versioni evolute dell’algoritm

 • Gotoh (1982)
 • Myers & Miller (1988)




22 febbraio 2012                            30
   La verità: allineamento strutturale di sequenze


                                T         E             F
                                    D               A



                            T            K              F

                                    D           S




                                        TDEAF
                                        TDKSF

22 febbraio 2012                                            31
              Smith & Waterman (1981)

   • Allineamento locale
         • Il sistema di punteggio deve includere valori
           negativi per amminoacidi diversi
         • quando il valore della matrice diventa
           negativo, allora viene fissato a 0
         • l’allineamento viene prodotto a partire dalla
           casella che contiene il valore massimo
           attraverso un retropercorso che si ferma ad
           una casella con valore 0

22 febbraio 2012                                           32
          Hij = max { Hi–1,j–1 + s(aibj),
                     max (Hi–x,j –wx) x  1
                   max (Hi,j–y–wy) y  1
                   0
                   }

22 febbraio 2012                              33
                   Figura protetta da copyright




22 febbraio 2012                                  34
       L’allineamento dipende dal punteggio
       assegnato alle coppie di amminoacidi
      (matrici di punteggio) e dalla funzione di
              penalizzazione degli indels




22 febbraio 2012                                   35
                   Matrici di punteggio

 • Matrici di sostituzione amminoacidica
   ovvero Tavole di confronto tra simboli
 • Esistono tavole per il confronto tra
   proteine e tra acidi nucleici
 • Sono state pubblicate moltissime matrici
   basate su modelli diversi



22 febbraio 2012                              36
22 febbraio 2012   37
            Matrici di M. Dayhoff (1978)

 • Percentuale di mutazioni accettate (PAM)

 • Questa famiglia di matrici è basata sulla
   probabilità di sostituzione, durante
   l’evoluzione, di un amminoacido con un
   altro in sequenze proteiche omologhe

 • Ciascuna matrice misura i cambiamenti
   attesi per un dato periodo evolutivo
22 febbraio 2012                               38
                   Matrici PAM

 • Secondo questo modello, le sostituzioni
   amminoacidiche osservate lungo un certo
   periodo di tempo, possono essere
   estrapolate per periodi più lunghi

 • Nel calcolo delle matrici PAM, si assume
   che il cambiamento ad un certo sito sia
   indipendente da precedenti eventi
   mutazionali nello stesso sito (processo di
   Markov)

22 febbraio 2012                                39
                   Calcolo di matrici PAM

 • Basato su 1572 mutazioni in 71 gruppi di
   sequenze simili almeno all’85%
 • Le mutazioni non alterano
   significativamente la funzione delle
   proteine (mutazioni accettate)
 • Le sequenze simili vengono organizzate in
   alberi filogenetici dai quali vengono
   desunte le mutazioni


22 febbraio 2012                               40
               Specie A     A W T V A S A V R T S I
               Specie B     A Y T V A A A V R T S I
               Specie C     A W T V A A A V L T S I


                   A             B          C



                             W Y


                          L R




22 febbraio 2012                                      41
                   Calcolo di matrici PAM

 • pi = ai/atot         frequenza dell’amminoacido i


 • fij = n(aiaj)       numero di mutazioni aiaj


 • fi = ∑j≠i fij        numero di mutazioni di ai


 • f = ∑i fi            numero totale di mutazioni



22 febbraio 2012                                       42
                   Calcolo di matrici PAM

 • Si definisca la scala come il tempo evolutivo
   necessario per incorporare 1 amminoacido mutato
   su 100:
                          1 PAM

 • La mutabilità relativa di ai è:



                        mi = fi /100∙f pi

22 febbraio 2012                                     43
                   Calcolo di matrici PAM

 • Se mi è la probabilità di mutazione di ai , allora

                         Mii = 1 – mi
      è la probabilità di conservazione di ai


 • La probabilità della mutazione        aiaj è
                        Mij = (fij / fi) mi

22 febbraio 2012                                        44
                   Calcolo di matrici PAM

 • La matrice Mij ottenuta è una matrice di
   transizione
 • In generale, per avere le probabilità per k
   intervalli evolutivi:
                             Mijk
 • una delle matrici più utilizzate è PAM250


22 febbraio 2012                                 45
22 febbraio 2012   46
                   Calcolo di matrici PAM

 • La matrice PAM viene trasformata nella matrice
   MDM (mutation data matrix) che contiene le
   frequenze relative di mutazione:

                            Mij /pj
 • L’uso negli allineamenti è più semplice se si
   considerano i logaritmi (log odds)

                      sij = log10(Mij /pj)
22 febbraio 2012                                    47
                   Calcolo di matrici PAM

 • Per rendere la matrice simmetrica


                    sij = sji = (sij + sji) /2




22 febbraio 2012                                 48
22 febbraio 2012   49
22 febbraio 2012   50
   Matrice BLOSUM (Henikoff & Henikoff,
                 1992)

 • Blocks Amino Acid Substitution Matrices =
   BLOSUM
 • Basata sulle sostituzioni amminoacidiche
   osservate in ~2000 blocchi conservati di
   sequenze.
 • Questi blocchi sono stati estratti da una
   banca dati di 500 famiglie di proteine
 • Sono contati gli scambi amminoacidici
   osservati in ciascuna colonna
22 febbraio 2012                               51
   Esempio di calcolo di matrice BLOSUM
      .    .       .   A   .   .   .   • 9Ae1S
      .    .       .   A   .   .   .   • 36 AA (fAA) e 9 AS
      .    .       .   A   .   .   .     (fAS)
      .    .       .   A   .   .   .   • 210 possibili coppie di
                                         amminoacidi
      .    .       .   S   .   .   .   • La frequenza di AA è
      .    .       .   A   .   .   .     qAA = fAA/(fAA + fAS) = 0.8
      .    .       .   A   .   .   .   • La frequenza di AS è
                                         qAS = fAS/(fAA + fAS) = 0.2
      .    .       .   A   .   .   .
      .    .       .   A   .   .   .
      .    .
22 febbraio 2012
                   .   A   .   .   .                                   52
   Esempio di calcolo di matrice BLOSUM

 • La frequenza attesa che A sia coinvolta in
   una coppia di mutazioni è pA = (qAA + qAS/2) =
   0.9
 • La frequenza attesa che S sia coinvolta in
   una coppia di mutazioni è pS = (qAS/2) = 0.1
 • La frequenza attesa di una coppia AA è eAA
   = pA2 = 0.81
 • La frequenza attesa di una coppia AS è eAS
   = 2 pA pS = 0.18
22 febbraio 2012                                    53
   Esempio di calcolo di matrice BLOSUM

 • Il valore per la coppia AA nella matrice è
   qAA/eAA = 0,99 e per AS è qAS/eAS = 1.11
 • I valori sono convertiti in bits:
                sAA = log2(qAA/eAA) = -0.04
                 sAS = log2(qAS/eAS) = 0,30




22 febbraio 2012                                54
              Calcolo di matrice BLOSUM

 • Per bilanciare il sovracampionamento di
   residui provenienti da sequenze molto
   simili, le sequenze più simili di una certa
   soglia (per esempio 60% identità) sono
   raggruppate e gli scambi amminoacidici
   interni al gruppo vengono mediati. La
   matrice risultante si chiama BLOSUM60

 • La matrice più utilizzata è la BLOSUM62

22 febbraio 2012                                 55
         Entropia relativa della Matrice

                      H = ∑i=1,20 ∑j=1,i qij ∙ sij

                   sij = punteggio della coppia i,j in bits
                       qij= probabilità della coppia i,j


      In generale, a parità di fattori, maggiore è questo valore,
          maggiore è la capacità della matrice di discriminare
                   allineamenti reali da quelli casuali

22 febbraio 2012                                                    56
                   Matrici di punteggio

 • Sono state proposte moltissime matrici di
   punteggio

 • PET91
 • Gonnet92
 • ………




22 febbraio 2012                               57
          Penalizzazioni degli indels
 •   Generalmente si usano funzioni del tipo “lineare”



                            wx = gx

 •   o, più frequentemente, di tipo “affine”

                          wx = g + rx
                               oppure

                      wx = g + r(x—1)
        dove g è il punteggio di penalizzazione per l’apertura, r
        per l’elongazione e x la lunghezza dell’indel
22 febbraio 2012                                                    58
                   Penalizzazioni degli indels

 • I parametri delle funzioni di penalizzazione
   degli indels sono calibrati sulla matrice di
   punteggio
 • In genere i parametri vengono consigliati
   dal programma di allineamento




22 febbraio 2012                                  59
    Misura della significatività statistica di
               un allineamento
 • Importante per valutare la significatività di un
   allineamento soprattutto nelle ricerche in banche
   di dati

 • La significatività misura la probabilità che il
   punteggio ottenuto con sequenze casuali ecceda
   la media della distribuzione della stessa quantità
   del punteggio ottenuto con sequenze reali

 • La distribuzione esatta e generale dei punteggi
   non è nota, per cui si utilizzano approssimazioni

22 febbraio 2012                                        60
    Misura della significatività statistica di
               un allineamento
 • Un metodo consiste nel confrontare un gran numero di
   sequenze generate dal rimescolamento casuale delle due
   sequenze originali e stimare la media e deviazione standard
   dei punteggi ottenuti:




                        S−μ
                   Z=
                         σ

 • si assume che la distribuzione dei punteggi sia normale
22 febbraio 2012                                                 61
  Misura della significatività statistica di
             un allineamento
• La distribuzione per gli allineamenti locali senza
  indels è stata invece analizzata (Karlin and
  Altschul, 1990):

   date due sequenze casuali di lunghezza n e m, il miglior
   allineamento locale senza indels è centrato intorno al valore



                      E(S) =
                               ln(Kmn)
                                  λ

      dove λ=loge(1/p) e K è funzione della distribuzione di
      amminoacidi nel campione di dati. “p” è la probabilità di
      osservare un certo appaiamento
22 febbraio 2012                                                   62
22 febbraio 2012   63
    Misura della significatività statistica di
               un allineamento

 • Il numero di regioni allineate il cui
   punteggio eccede S può essere stimato
   dalla distribuzione di Poisson:


                   P(S>x) ≈ 1 – exp(−Kmne-λx)

 • Distribuzione del valore estremo (di Gumbel)



22 febbraio 2012                                  64
    Misura della significatività statistica di
               un allineamento
 • Il punteggio S che misura la somiglianza locale di
   due sequenze casuali di lunghezza n e m si
   distribuisce secondo la distribuzione del valore
   estremo (di Gumbel)


                    Yev = exp[−x−e-x]

                   P(S ≥ x) = 1 – exp[– e –x]


22 febbraio 2012                                        65
22 febbraio 2012   66
                   Distribuzione di Gumbel

                     P(S>x) ≈ 1 – exp(−e-λ(x-u))
                           ∑ pipjes λ = 1
                                   ij




                          u = (ln Kmn)/λ

                    P(S>x) ≈ 1 – exp(−Kmne-λx)

22 febbraio 2012                                   67
    Misura della significatività statistica di
               un allineamento

 • Per x grande,



                   Prob(S ≥ x) ≈ Kmne−λx

 • Per normalizzazione:   S’ = λS – ln Kmn


                      Prob(S’ ≥ x) ≈ e−x
22 febbraio 2012                                 68
    Misura della significatività statistica di
               un allineamento

 • Un allineamento con punteggio S ha un p-
   value di
                   p = Kmne−λS

      cioè una probabilità p che sia casuale



22 febbraio 2012                                 69
  Significatività dei confronti di sequenza
             in una banca di dati
 • Nel caso di confronti multipli tra una sequenza
   con D sequenze, come quelle in una banca di
   dati:
       • Definiamo p-match un allineamento tra due sequenze
         con punteggio ≥ S. Allora:

                   P = Prob(almeno un p-match) = 1 – e−Dp
                              e per Dp < 0,1

                                  P ≈ Dp

22 febbraio 2012                                              70
  Significatività dei confronti di sequenza
             in una banca di dati
 • Se nella banca dati ci sono N amminoacidi si può dimostrare
   che


                      P ≈ KNne−λS
      allora il numero atteso di segmenti allineati con punteggio ≥
      S (e-value) diventa:


                       E ≈ KNne−λS
      un valore ragionevole di E è compreso tra 0.1 e 0.001


22 febbraio 2012                                                      71
     Statistica per allineamenti con indels

 • La teoria per gli allineamenti locali con indels non
   è stata sviluppata, ma dati empirici suggeriscono
   che la distribuzione dei punteggi possa essere
   simile a quella degli allineamenti locali senza
   indels.




22 febbraio 2012                                          72
22 febbraio 2012   73

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:12
posted:2/23/2012
language:Galician
pages:73