Principali Database biologici by AaronMoule

VIEWS: 559 PAGES: 44

									                     Principali Database biologici
Acidi nucleici:
    -Sequenze DNA genomico                                   La maggior quantità di dati biologici
                                                             presenti nei database è rappresentata
    -Sequenze di trascritti (mRNA)                               da sequenze di acidi nucleici

    -Sequenze EST (corte sequenze di trascritti)
 Proteine:
      -Sequenze delle proteine ottenute in modo diretto
      (degradazione di Edman)
      -Sequenze proteiche ricavate dalle sequenze
      nucleotidiche (traduzione)
      -Studi di espressione proteica (gel bidimensionale e
      spettrometria di massa)
      -Cristallografia e determinazione delle strutture
      secondarie e terziarie


Noi ci occuperemo soprattutto delle sequenze nucleotidiche ed in
parte delle sequenze proteiche
                                                                                                     1
                     Sequenze di acidi nucleici
Alla fine degli anni 70’ Maxam-Gilbert e Sanger hanno ideato due differenti tecniche per il
sequenziamento del DNA basato sulla sintesi del DNA in vitro in presenza di opportuni
terminatori marcati.
Le sequenze che si ricavano hanno quindi la direzione 5’  3’ (domanda: lo stampo per
la sintesi che direzione avrà ?)
Oggi sono disponibili delle nuovissime tecniche con le quali è possibile ottenere più di mezzo milione di sequenze
in un singolo esperimento (queste nuove tecniche produrranno una nuova rivoluzione nella ricerca genomica)




ATTENZIONE: Con le attuali tecniche di sequenziamento si ottengono solo corte sequenze
(inferiori a 1000 bp): all’aumentare della lunghezza si perde in risoluzione ed in qualità. Le basi
non risolte vengono indicate con ‘n’
                                                                                                               2
Esempio: Le sequenze lunghe hanno una scarsa qualità al 3’
>CF5530xx.0
Ggagcccggacgtccaagagatgtcttctgggagccactgggcaattgccagggctccaggaagggctctggctcaggt
Tgcagacagctgagaaaagatggccctgtcagccaccctctctcagtctgaaacatccaacatccccagaaggcttagc
-----------------ecc. ecc. ----------------------
Tgaagtagaggggccttcaaactactttatactagtgatagtttgagttaggtaagcatnttaaagctgnntggtgat
Aaagaaggcagcttangattctgtggttgggaaacaagtgtagtccgcttccccttttttangaaagccctgttaaaa
tangctnatttgnnaacat




                                                                      Cromatogrammi
                                                                      della sequenza




   Se si vogliono conoscere lunghe sequenze di DNA, è necessario sequenziare
   frammenti del DNA e poi assemblare le corte sequenze in modo che si
   sovrappongano tra loro
                                                         Sequenze parziali

                                                            Sequenza assemblata
                                                                                       3
Sequenze di DNA
Il DNA genomico viene frammentato e poi amplificato con tecniche di biologia
molecolare (es. inserimento dei frammenti all’interno di cloni batterici che replicandosi
riproducono anche il DNA esogeno). I differenti frammenti vengono poi sequenziati.
Solo con l’assemblaggio delle sequenze ottenute da questi frammenti si ottengono le
lunghe sequenze di DNA presenti nei database.
(Ricordate che, se nei DB trovate record contenenti lunghi sequenze (maggiori di un
migliaio di basi) , queste sicuramente sono il frutto di un assemblaggio di corte sequenze.)

Sequenze di mRNA
L’mRNA (meno stabile del DNA) deve essere preventivamente trasformato in cDNA (da
una molecola di mRNA si ottiene prima una copia complementare di DNA (per questo
si chiama cDNA) a singolo filamento che poi viene resa a doppia elica. Si procede poi
come per il DNA genomico

Nota: l’insieme dei batteri contenenti gli inserti di DNA viene detto ‘libreria di DNA’ (o
libreria di cDNA)


                                                                                               4
Perché si sequenzia anche l’mRNA (non è sufficiente conoscere solo le sequenze
di DNA) ?
-Per individuare i geni negli eucariti superiori (solo il 3% del genoma è codificante). Questo
permette anche di studiare le sequenze fiancheggianti e quindi le regolazioni della trascrizione.
- Per conoscere (tradurre la sequenza nucleotidica in sequenza proteica) e studiare la relativa
proteina.
- Per conoscere varianti (splicing alternativi) dello stesso gene e quindi probabili funzioni
differenti
- Per conoscere l’espressione genica: individuare quando (sviluppo o momento particolare),
dove (quale tessuto) un gene viene espresso



     L’insieme degli mRNA messaggeri (trascritti) espressi in un organismo
     viene definito trascrittoma




                                                                                                  5
                        Sequenze EST (Expressed Sequence Tag)
Per individuare un trascritto non serve conoscere tutta la sua sequenza, ma è sufficiente
identificarne una parte.
 Da questo presupposto sono stati sviluppati progetti di sequenziamento di corte sequenze di
cDNA chiamate EST (Expressed Sequence Tag) che hanno permesso di tracciare
numerosi profili trascrizionali (espressione genica di un particolare tessuto o in un
particolare momento o in presenza di una particolare malattia genetica).
Attualmente nei database esistono più di 30 milioni di sequenze di EST di cui circa 8 milioni
relative a Homo sapiens (human) e più di 4 milioni relative a topo



              5’UTR              Seq. codificante               3’UTR        polyA
                      ATG                                 TAA           AAAAAAAAA



              EST 5’                                        EST 3’




                                                                                            6
    I database primari
Cosa sono i database primari?
Sono i contenitori di tutte le sequenze prodotte
nel mondo e rese disponibili alla comunità
scientifica.
Memorizzano essenzialmente le sequenze e poche
altra informazioni generiche correlate (laboratorio
dove è avvenuto il sequenziamento, data, specie,
descrizione …)

 EMBL datalibrary             Europa
 GenBank                      USA
 DDBJ                         Giappone



     I tre database si aggiornano quotidianamente scambiandosi i dati ricevuti
     durante la giornata, in modo che sia sufficiente interrogare solo uno dei tre.


                                                                                      7
EBI European Bioinformatics Institute
(Hinxton – Cambridge, UK)   http://www.ebi.ac.uk/embl/




                                                         8
NCBI
http://www.ncbi.nih.gov/Genbank/index.html




                                             9
DDBJ




       http://www.ddbj.nig.ac.jp/   10
Banche Dati proteiche
Un secondo grande aggregato di banche dati è quello per le sequenze proteiche, le quali
possono essere ottenute in seguito a:
   determinazione diretta della sequenza proteica
 traduzione di sequenze nucleotidiche per le quali sia stata individuata o predetta la
funzione di gene codificante la proteina
Queste banche dati sono:
 SWISS-PROT banca dati di riferimento (protein knowledgebase) sviluppata a Ginevra.
Contiene informazioni accuratamente annotate, spesso a mano. Cross-link con altre banche
dati (Pfam ,PRINTS, ProDom, SMART, PROSITE, ecc)  http://au.expasy.org/sprot/
 TrEMBL (TRanslated EMBL) risultato della traduzione automatica in aminoacidi di tutte le
sequenze annotate nella banca dati EMBL come codificanti proteine; supplemento a SWISS-
PROT.  http://www.expasy.uniprot.org/
PIR (Protein Information Resource, Georgetown University); soprattutto indirizzato a definire
gli standard di annotazione, con ridondanza minima (produces a non-redundant annotated
protein sequence database).  http://pir.georgetown.edu/

                                                                                           11
Swiss-Prot   http://au.expasy.org/sprot/




                                           12
Banche Dati derivate

Le banche dati primarie contengono tutte le sequenze conosciute, di tutti gli
organismi, genomiche di mRNA ecc., per rendere organica la ricerca sono state
costruite delle banche dati derivate che raggruppano solo dati relativi a specifici
argomenti.

Esempi:
- Database sequenze genomiche: GDB (uomo) , MGI (topo), SGD (lievito)
- Database di geni e trascritti: UniGene, LocusLink, dbEST, ecc.
- Inoltre database dei fattori di trascrizione, dbSNP (di polimorfismi) e molti altri.

Esistono poi dei database integrati che raggruppano i dati provenienti da differenti
database fornendo informazioni particolareggiate di argomenti specifici



Allegato alla prima esercitazione troverete un elenco (non completo) di
questi database


                                                                                         13
                     Sistemi di interrogazione alle banche dati
                               (sistemi di "retrieval“)
Esistono dei sistemi integrati che permettono di interrogare, attraverso il web, in
modo semplice ed intuitivo le banche dati biologiche. I tre sistemi principali
sono:
 ENTREZ → associato a GENBANK

 SRS          → associato a EMBL
 DBGET         → associato a DDBJ
I sistemi integrati forniscono una interfaccia WEB omogenea a tutti i database
gestiti dal sistema.

                                        2
         FORM DI           1
          QUERY                                                  DB1
                                    SISTEMA
                                  INTEGRATO            3
                                                                …
        PAGINA DI
        RISPOSTA           5            4                       DBn
      PC UTENTE RETE           COMPUTER „SERVER“ REMOTO
                                                                                14
SRS è un sistema aperto, può essere installato su
calcolatori differenti (server) e può integrare
banche dati strutturate su altri server SRS o altre
banche dati previa strutturazione o indicizzazione
nel sistema SRS.
http://srs.ebi.ac.uk/




Come SRS, anche ENTREZ è un sistema
disponibile via web per la ricerca e l’estrazione dei
dati da banche dati di sequenze nucleotidiche,
proteiche, dalla banca dati bibliografica
MEDLINE, dalla banca dati delle malattie
mendeliane OMIM, e da ogni banca dati
sviluppata dall’NCBI.
  E’ un sistema chiuso e non è possibile
ottenere il software che gestisce il sistema.
http://www.ncbi.nlm.nih.gov/Entrez/index.html

                                                        15
Esistono molti tipi di siti e/o database biologici, in questo corso ci soffermeremo solo
su alcuni




Qui sono riportati i link di Entrez (NCBI) , all’EBI esistono siti corrispondenti
                                                                                           16
Qui invece sono riportati i link presenti all’ABI con EB-eye la semplice interfaccia grafica




  All’EBI è comunque possibile accedere direttamente al sistema SRS per
  formulare query complesse




                                                                                        17
Nome ufficiale del gene


Particolari Codici che indicano
la provenienza




                             18
ID
XX
     MMAJ3854    standard; mRNA; MUS; 949 BP.                       Esempio di ENTRY EMBL:
AC   AJ223854;
XX                                                               Each line begins with a two-character line type
SV   AJ223854.1                                                  code. This code is always followed by three blanks,
XX
DT   02-MAY-1998 (Rel. 55, Created)                              so that the actual information in each line begins in
DT   17-MAR-2001 (Rel. 67, Last updated, Version 2)              character position 6.
XX
DE   Mus musculus telethonin complete cDNA                       Alcuni codici di linea:
XX
KW   telethonin.                                                 ID identificatore della entry; tipo di molecola;
XX                                                               divisione tassonomica; lunghezza bp (non è stabile)
OS   Mus musculus (house mouse)
OC                                                               AC accession number (identifica univocamente il
     Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;
OC   Eutheria; Euarchontoglires; Glires; Rodentia; Sciurognathi; record)
                                                                  Muroidea;
OC   Muridae; Murinae; Mus.
XX                                                               SV Versione della entry
RN   [1]                                                         DT data di creazione della entry
RP   1-949
RA   Ievolella C.;                                               DE Descrizione della entry
RT   ;
RL   Submitted (10-FEB-1998) to the EMBL/GenBank/DDBJ databases.
                                                                 OS nome della specie
RL                                                               OC classificazione tassonomica
     Ievolella C., CRIBI Biotechnology Centre, Universita' di Padova, viale
RL   G.Colombo 3, 35121, ITALY.
XX                                                               RN, RA, RT, RL informazioni bibliografiche
RN   [2]
RX   DOI; 10.1038/72822
RX   PUBMED; 10655062.
RA   Moreira E.S., Wiltshire T.J., Faulkner G., Nilforoushan A., Vainzof M.,
RA   Suzuki O.T., Valle G., Reeves R., Zatz M., Passos-Bueno M.R., Jenne D.E.;
RT   "Limb-girdle muscular dystrophy type 2G is caused by mutations in the gene
RT   encoding the sarcomeric protein telethonin";
RL   Nat. Genet. 24(2):163-166(2000).
XX
RN   [3]
RX   DOI; 10.1016/S0014-5793(97)01108-3
RX   PUBMED; 9350988.
RA   Valle G., Faulkner G.P., Deantoni A., Pacchioni B., Pallavicini A.,
RA   Pandolfo D., Tiso N., Toppo S., Trevisan S., Lanfranchi G.;
RT   "Telethonin, a novel sarcomeric protein of heart and skeletal muscle.";
RL   FEBS Lett. 415(2):163-168(1997).
XX
FH   Key              Location/Qualifiers
FH                                                                                                             19
FT   source          1..949
FT
FT
                     /db_xref="taxon:10090"
                     /mol_type="mRNA"
                                                                     Continua dalla pagina precedente
FT                   /organism="Mus musculus"
FT                   /tissue_type="Diaphram muscle"                  FT (Feature Table) Regioni o siti della
FT                   /tissue_lib="Stratagene cDNA library Uni-ZAP tm XR Vector"
FT   5'UTR           1..36                                           sequenza considerati interessanti ed
FT                   /experiment="experimental evidence, no additional details
FT                   recorded"                                       eventuale link (cross referencing) con altri
FT
FT
     polyA_site
     CDS
                     928
                     37..540
                                                                     database
FT                   /codon_start=1
FT                   /db_xref="MGI:1330233"                          Righe di CROSS-REFERENCING
FT                   /db_xref="UniProtKB/Swiss-Prot:O70548"
FT                   /product="telethonin"
FT                   /function="sarcomeric protein"
FT                   /experiment="experimental evidence, no additional details
FT                   recorded"
FT                   /protein_id="CAA11585.1"
                                                                     /translation sequenza aminoacidica
FT                   /translation="MATSELSCQVSEENQERREAFWAEWKDLTLSTRPEEGCSLHEEDT
FT                   QRHETYHRQGQCQAVVQRSPWLVMRLGILGRGLQEYQLPYQRVLPLPIFTPTKVGASKE
FT                   EREETPIQLRELLALETALGGQCVERQDVAEITKQLPPVVPVSKPGPLRRTLSRSMSQE
FT                   AQRG"
FT   3'UTR           541..949                                        SQ sequenza nucleotidica
FT                   /experiment="experimental evidence, no additional details
FT                   recorded"
XX
SQ   Sequence 949 BP; 215 A; 250 C; 331 G; 153 T; 0 other;
     aggagcagga catagcagag ggagcaatca gaaatcatgg ccacttcaga   gctgagctgc       60
     caagtgtctg aggagaacca ggaacgcagg gaagccttct gggctgagtg   gaaagacctg      120
     actctgtcta cccggccgga agagggatgc tccttgcacg aggaggatac   acagaggcat      180
     gagacctacc accggcaggg acagtgtcag gcggtggtac agcgctcacc   atggctggtg      240
     atgcgcctgg gtatcctcgg ccgtgggcta caggaatacc agctgccgta   ccagcgggtg      300
     ctgcccctac ccatcttcac gcccaccaag gtgggggcct ccaaggagga   gcgcgaggag      360
     acccccatcc agcttcggga gctgctggcc ctggagacgg ccctgggcgg   ccagtgcgtg      420
     gagcgccagg acgtggctga gatcacaaag cagcttcccc ctgtggtgcc   agtcagcaaa      480
     cccgggcccc tgcgccgtac cctgtctcga tccatgtctc aggaagctca   gagaggctga      540
     gatggactgt gtgactcaga ctccactgtg tctgtctcag gctaggcact   tcctggctag      600
     gacaatggag gagagctgct ggcagtggct gctttgtagt ttgcccagag   gtgggagcta      660
     tgggaggagg gagcccgagg ccaggatgcc taggtgtcct gagtccccac   agggaaggga      720
     gcgaggatgg cgggcactag gagtggagag ctgagcaccc tcagccccag   aagaagagac      780
     aagagatcct ggtgagagga gaggcccctg ggaatggcct gctcgggaac   agatggacta      840
     ggagaaggat gtgcaacgct ctggaaagga gggggatgtg aagagggtgg   aagtgggcag      900
     gcccccagca ccctctggta gcactgcaat aaatgctcag ccatgttca                    949

     Per saperne di più sulle strutture di linea (etichette dei campi):                                     20
     http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html#2
LOCUS        MMAJ3854                 949 bp    mRNA    linear   ROD 19-MAR-2001
DEFINITION   Mus musculus telethonin complete cDNA.            Esempio di ENTRY NCBI
ACCESSION    AJ223854
VERSION      AJ223854.1 GI:3115294                             (nucleotide)
KEYWORDS     telethonin.
SOURCE       Mus musculus (house mouse)                        Corrispondenze con EMBL:
  ORGANISM   Mus musculus                                      LOCUS = ID
             Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
                                                               DEFINITION = DE
             Mammalia; Eutheria; Euarchontoglires; Glires; Rodentia;
             Sciurognathi; Muroidea; Muridae; Murinae; Mus.    ACCESSION = AC
REFERENCE    1                                                 VERSION = SV
  AUTHORS    Valle,G., Faulkner,G., De Antoni,A., Pacchioni,B., Pallavicini,A.,
                                                               REFERENCE = RN, RA, RT, RL
             Pandolfo,D., Tiso,N., Toppo,S., Trevisan,S. and Lanfranchi,G.
  TITLE                                                        SOURCE e ORGANISM = OS e OC
             Telethonin, a novel sarcomeric protein of heart and skeletal muscle
  JOURNAL    FEBS Lett. 415 (2), 163-168 (1997)
   PUBMED    9350988
REFERENCE    2
  AUTHORS    Moreira,E.S., Wiltshire,T.J., Faulkner,G., Nilforoushan,A.,
             Vainzof,M., Suzuki,O.T., Valle,G., Reeves,R., Zatz,M.,
             Passos-Bueno,M.R. and Jenne,D.E.
  TITLE      Limb-girdle muscular dystrophy type 2G is caused by mutations in
             the gene encoding the sarcomeric protein telethonin
  JOURNAL    Nat. Genet. 24 (2), 163-166 (2000)
   PUBMED    10655062
REFERENCE    3 (bases 1 to 949)
  AUTHORS    Ievolella,C.
  TITLE      Direct Submission
  JOURNAL    Submitted (10-FEB-1998) Ievolella C., CRIBI Biotechnology Centre,
             Universita' di Padova, viale G.Colombo 3, 35121, ITALY



                                                                                       21
                                                 Continua Esempio di ENTRY NCBI
                                                 FEATURES = FT
                                                 ORIGIN = SQ




                                     Struttura delle FEATURES o FT (Feature Table)
                                     (Regioni o siti della sequenza considerati interessanti):
                                     Possono essere riportate più regioni particolari. Ognuna
                                     è caratterizzata dalla definizione (es. source, gene,
                                     5’UTR ecc.) seguita dalla localizzazione (location) punto
                                     di inizio e di fine della regione, seguite da una o più
                                     righe che iniziano con ‘/’ e che riportano note
                                     caratteristiche di tale regione (Qualifiers).




Per saperne di più:   http://www.ncbi.nih.gov/Sequin/sequin.hlp.html#Top                   22
Se nella sequenza esistono regioni geniche, allora vengono riportati anche dati
    relativi al ‘gene’, alle regioni codificanti (CDS) e alla sequenza proteica

                           La regione della sequenza identificata come gene (inizio- fine)
                                      (in questo caso corrisponde alla sequenza completa)




                                                   CDS (coding sequence):
                                       la sequenza codificante inizia in 15 e finisce in 518



                                                                     GENE ONTOLOGY
                                                                http://www.geneontology.org/



                                          Link al DB delle proteine

                                         Link ad OMIM (database di malattie genetiche

                                                                             Sequenza Proteina

                                                                                            23
Altri dettagli delle ‘Features’
                      Source: in un record può essere riportata una lunga
                      sequenza. E’ possibile scrivere delle annotazioni a parti
                      specifiche della sequenza facendo riferimento alla
                      localizzazione seguita da una o più righe che iniziano con ‘/’
                      con riportate particolari annotazioni specifiche.

                                                5’ UTR: Qui è riporta (se si
                                                conosce) la localizzazione della
                                                sequenza NON codificante posta
                                                a monte dell’mRNA. In questo
                                                caso 1-36

                                       CDS (coding sequence):
                           la sequenza codificante inizia in 37e finisce in 540




                                                 3’ UTR: Qui è riporta (se si
                                                 conosce) la localizzazione della
                                                 sequenza NON codificante posta
                                                 a valle dell’mRNA

                                                                              24
IL FORMATO “FASTA”
    Spesso i programmi che effettuano analisi bioinformatiche sulle sequenze richiedono
     che esse vengano date come input in questo formato particolare:
    FASTA è un formato per la descrizione di una sequenza “grezza”. Consiste
     essenzialmente in una parte iniziale di intestazione, di solito limitata a una linea di
     testo, e da una o più linee che riportano una sequenza di DNA o di amminoacidi
     usando l’alfabeto standard. Ecco un esempio:
                                     Riga di intestazione

 >37463.f1 g83244 telethonin ecc. Interruzione di riga
 ACGTGACTGCTACGTACGGGCGTTACGACTGCTACGACGCATGCTATGTC
 GTAGCAGCCGTGTACACGTGTTTATTCGTAGGGCTTCTA

‘>’ Simbolo d’inizio della                 Sequenza
riga di intestazione



 L’intestazione (la prima riga del file precedente) `e riconoscibile perchè ha inizio con il
 simbolo ‘>’.
 Il testo che segue tale simbolo nella stessa riga può essere strutturato liberamente: di
 solito, la prima cosa che si trova scritta `e un accession number, ossia l’identificatore della
 sequenza che ne permette il reperimento
                                                                                                   25
                      SEQUENZA
Per recuperare la sequenza nucleotidica in formato FASTA




                                                           26
     Database ‘NON RIDONDANTI’ : RefSeq, UniGene, Gene


Come già detto: nei database primari sono inserite tutte le sequenze conosciute ottenute
sperimentalmente e/o ricostruite.
La stessa regione genomica o lo stesso trascritto possono essere stati sequenziati più volte.
Quindi ci aspettiamo, in molti casi, che la stessa sequenza sia presente più volte.
Per evitare problemi di ridondanza sono stati creati dei database ‘semplificati’ senza ripetizioni
di informazioni. In particolare:
In RefSeq sono rappresentate, in modo non ridondante, tutte le sequenze genomiche,
sequenze di mRNA e di proteine.
In UniGene Sono rappresentate in modo non ridondante , le sequenze ottenute dal
sequenziamento dei trascritti (mRNA)
Gene: è un sottoinsieme di RefSeq con rappresentate solo le sequenze geniche.




                                                                                            27
The Reference Sequence (RefSeq) collection aims to provide a comprehensive, integrated,
non-redundant set of sequences, including genomic DNA, transcript (RNA), and protein
products. RefSeq is a baseline for medical, functional, and diversity studies; they provide a
stable reference for genome annotation, gene identification and characterization, mutation
and polymorphism analysis, expression studies, and comparative analyses
RefSeq are derived from GenBank records but differ in that each RefSeq is a synthesis of
information, not an archived unit of primary research data. Similar to a review article in
the literature, a RefSeq represents the consolidation of information by a particular group
at a particular time.




UniGene: An Organized View of the Transcriptome.
Each UniGene entry is a set of transcript sequences that appear to come from the same
transcription locus (gene or expressed pseudogene), together with information on
protein similarities, gene expression, cDNA clone reagents, and genomic location.
                                                                                           28
 Entrez Gene (www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene)
Entrez Gene is NCBI's database for gene-specific information. It does not include all known or
predicted genes; instead Entrez Gene focuses on the genomes that have been completely sequenced,
that have an active research community to contribute gene-specific information, or that are scheduled
for intense sequence analysis. The content of Entrez Gene represents the result of curation and
automated integration of data from NCBI's Reference Sequence project (RefSeq)




                                                                                                   29
                                                                     Le frecce indicano il
                                                                     senso della trascrizione

Importante  osservare il senso della trascrizione: un gene può essere codificato
dal filamento ‘senso’ (detto anche ‘+’ o ‘forward’) o dal filamento antisenso (detto      30
anche ‘-’ o reward)
Vengono riportate 4 isoforme (varianti dello stesso gene),
dovute a splicing alternativo dello stesso gene
Osservate gli introni e gli esoni, le regioni codificanti e le regioni
UTR



               Esoni: sono rappresentati dalle linee più spesse




        Introni: sono rappresentati dalle linee più sottili




                                                                         31
32
Scegliendo  si ottiene …    33
CONSERVED DOMAINS




                    34
Query (Sequenza) in Swiss-Prot http://us.expasy.org/sprot/
Siamo interessati a conoscere la sequenza proteica codificata dal gene
“telethonin”, una proteina coinvolta nello sviluppo del muscolo




                                                                         35
                    SEQUENZA
Anche in SWISS-PROT possiamo ottenere la sequenza; per
         esempio vogliamo la sequenza proteica




                                                         36
                              Domini proteici
  Molte proteine, specialmente quelle di grandi dimensioni, sono formate da più
  parti funzionali organizzate in strutture tridimensionali distinte che vengono
  chiamate ‘domini proteici’.

  Esempio: alcuni fattori di trascrizione hanno due domini, uno in grado legarsi con
  una particolare sequenza di DNA, l’altro in grado di attivare la trascrizione.

          Fattore di          activation             Complesso della
          trascrizione        domain                 trascrizione
         DNA binding domain
                                                                       DNA

                              Seq. DNA
                              promotore

Altro esempio: Proteine (Zasp, ALP, CLP, ecc.) contenenti domini PDZ e LIM. Questi
domini possono interagire e legare altre proteine




Proteine formate da più di un dominio si sono probabilmente evolute per fusione
di geni che contenevano tali domini e questo è stato un fattore importante             37
nell’evoluzione.
nell’evoluzione
          Esempi: Domini LIM associati ad altri domini
    (Sono riportate solo alcune strutture proteiche contenenti il LIM domain)




PFAM: http://pfam.sanger.ac.uk , PROSITE: http://www.expasy.org/prosite ,
SMART: http://smart.embl.de/ , InterPro: http://www.ebi.ac.uk/interpro/

            sono database contenenti domini funzionali delle proteine
                                                                                38
Esempio di ricerca in Pfam: ricerca dei
domini presenti nella proteina ZASP

                                                                                                                Scegliendo PDZ si
                                                                                                                ottengono le relative
                                                                                                                informazioni




     Possono essere visualizzati le
     principali architetture proteiche che
     possiedono domini PDZ
                                                                                       . . . . . . Ecc. ecc. ecc. ecc. . . . .




                                                                                                         Possono essere visualizzati
                                                                                                         anche gli allineamenti dei
                                                                                                         domini nelle differenti
                                                                                                         proteine

                                                                                                                                 39
                                             . . . . . . Ecc. ecc. ecc. ecc. . . . .
Purtroppo non esiste un modo univoco per indicare un gene (esempio potete trovare scritto
 ‘subunit 4’ o ‘subunit iv’ (nella prima esercitazione affronterete questo problema)), anche i
geni che io ho chiamato telethonin o zasp possono essere scritti in modi differenti (tcap ,
LDB3) . Questo crea confusione e non facilita la ricerca informatica
The Human Genome Organisation (HUGO) (è una organizzazione scientifica
internazionale che promuove e sostiene le collaborazioni internazionali nella genetica
umana) ha istituito un comitato allo scopo di dare un unico nome significativo a tutti i geni
umani. Con questo intento è stato costruito il database HGNC (HUGO Gene
Nomenclature Committee)




                                                                                          40
Oltre che esistere differenti nomi per lo stesso gene/proteina, possono esistere o essere adottati anche
differenti modi per descrivere le loro funzioni e le loro localizzazioni.
A volte è corretto assegnare differenti funzioni ad una molecola biologica (spesso una proteina svolge più di
una funzione), per non generare confusioni è però necessario usare una terminologia univoca per ogni
funzione.
Per questo motivo è stato fondato il database GeneOntology che fornisce una definizione precisa del ruolo
svolto dalle singole proteine tramite un vocabolario (delle ontologie) che consenta di definire in modo corretto
e non arbitrario il o i processi biologici cui una proteina partecipa, la/e sue funzioni molecolari e la/e sue
localizzazioni cellulare.
Troverete spesso link con la sigla ‘GO’ questi rimandano al database della gene ontology
                                                                                                          41
Mutazioni (alterazioni della sequenza nucleotidica di un gene) possono riflettersi in alterazioni
della funzionalità della proteina da esso codificata. Questo mutazioni possono causare le
cosiddette malattie genetiche.

Esempio: una mutazione a carico del gene della β globina fa sì che una particolare base del gene
venga sostituita con un’altra, ciò altera il codone e nella proteina ciò si riflette nella sostituzione
di un glutamato con una valina e in una ridotta funzionalità della proteina che causa una
malattia genetica detta anemia a cellule falciformi (anemia falciforme).



                                         Il database OMIM cataloga le malattie
                                         genetiche, fornisce descrizioni
                                         particolareggiate delle malattie e delle
                                         possibili cause (mutazioni).




                                                                                                  42
     Database di malattie genetiche (umane)
                                                                              Anche qui
                                                                              possiamo
                                                                              fare ricerche
                                                                              complesse




Esempio di una query (telethonin): da notare l’estensiva descrizione di quanto noto sulla/e
malattia/e determinate da mutazioni a carico del gene in esame                              43
44

								
To top