Corso di Laurea Specialistica in
Biotecnologie Mediche e Medicina Molecolare
Bioinformatica ed Analisi Funzionale del
Genoma
Dott.ssa Monica Santamaria
Istituto Tecnologie Biomediche del CNR, via Amendola 122/D (4° piano)
Contatti: monica.santamaria@ba.itb.cnr.it
Tel: 0805929675
1
L’avvento dell’era Genomica
Gli enormi sviluppi delle tecniche di indagine bio-molecolare rendono oggi
possibile acquisire le informazioni relative al flusso dell’informazione genetica a
ritmi fino a poco fa inimmaginabili (es. determinazione delle sequenze di DNA,
studio del profilo di trascrizione, determinazione della struttura delle proteine,
ecc.)
Questo ha prodotto un drastico cambio di prospettiva e di orizzonti nella ricerca
biologica:
Dal G E N E al G E N O M A
Genoma: 1920 Hans Winkler, Botanico Il complesso delle unità
Genomica: 1979 Victor McKusic, Genetista elementari di un dato sistema
(es. rizoma)
2
La Biologia “OMICA”
•GENOMICA
geni e sequenze regolatorie
•TRASCRITTOMICA
RNA ed espressione genica
•PROTEOMICA
Proteine
• M ETAB O LO M I CA
metaboliti e vie metaboliche
• FARMACO GEN OMICA
relazione tra genoma e risposta ai farmaci
• FISIOMOMICA
Fisiologia dell’intero organismo
3
La Genomica
Genomica Strutturale. Studio della Genomica Funzionale. Studio delle
struttura del genoma, identificazione di funzioni dei geni, delle loro
geni e dei loro prodotti di espressione, interazioni (pathways metabolici)
di elementi regolatori ed altre entità e dei meccanismi che ne regolano
informazionali. l’espressione.
4
La Genomica Comparata
Stele di Rosetta (British
Museum)
Gli studi di Genomica Strutturale e Funzionale traggono grande vantaggio
dall’analisi comparativa dei genomi e dei loro prodotti di espressione. Il confronto
di entità “omologhe” ci aiuta ad interpretare l’informazione genica.
5
La Genomica Comparata
“Nothing in Biology makes sense
except in the light of evolution”
Theodosius Grigorevich Dobzhansky
(1900 - 1975)
La conservazione ci permette di osservare gli effetti dell’evoluzione. Ciò che è
conservato, ovvero preservato nel corso dell’evoluzione, è molto probabile che
abbia una precisa funzione biologica. La conservazione può essere a livello della
sequenza (nucleotidica o proteica), della struttura, dell’espressione, ecc.
Analogamente, possiamo attribuire una medesima funzione a geni (o altre entità
biologiche) che risultino simili e conservate nel corso dell’evoluzione.
6
La Bioinformatica
La necessità di gestire ed interpretare grandi quantità di informazioni genetiche ha
richiesto lo sviluppo di adeguati strumenti informatici (banche dati, algoritmi e
software per l’analisi delle sequenze).
E’ nata così la Bioinformatica, una nuova disciplina che si pone l’obiettivo di
sviluppare e applicare strumenti adeguati per l’immagazzinamento, l’interrogazione e
l’analisi dei dati biologici (sequenze di DNA e proteine, profili di espressione,
interazioni strutturali, dati metabolici, letteratura scientifica, ecc.) che oggi vengono
prodotti a ritmi sempre più elevati.
7
L’Era Genomica
Il 1995, data della pubblicazione del prima
genoma procariotico (Haemophilus
influenzae) segna l’inizio dell’era genomica.
A partire da quella data molti altri genomi
procariotici ed eucariotici sono stati
sequenziati. Al 13 ottobre 2010 nella risorsa
dell’NCBI sono disponibili circa 800 genomi
procariotici completi e 36 genomi eucariotici
completi.
8
Da: Binnewies et et al. (Funct. Integr. Genomics 6: 165-185, 2006)
I Genomi dei Procarioti
I procarioti sono organismi unicellulari
microscopici che vivono in una grande
varietà di ambienti (suolo, acque, altri
organismi). Anche se oggi sono note circa
4,000 specie si stima che questo numero sia
compreso in realtà tra 400,000 e 4,000,000.
La definizione di “specie” nel caso dei batteri
è piuttosto arbitraria e normalmente si basa
su una serie di caratteri morfologici,
biochimici e molecolari (es. 16S rRNA). La
classificazione e la nomenclatura
attualmente in uso è accessibile presso il
sito LBSN (www.bacterio.cict.fr/) (vedi anche
Da: Ciccarelli et al. (Science 311: 1283-1287)
GENOMI 2, pp 56-57).
La classificazione molecolare suddivide i
procarioti in due domini: Batteri e Tree of Life
Archebatteri, che con gli Eucarioti formano
i tre rami principali dell’Albero delle Vita
(Tree of Life).
9
Tree of Life
Gli Archea presentano una serie di caratteristiche e proprietà che li differenziano
sostanzialmente dagli Eubacteria: 1) le proteine “informazionali” (cioè quelle implicate in replicazione,
trascrizione e traduzione) sono più simili alle controparti eucariotiche che a quelle eubatteriche; 2)
posseggono proteine simili a istoni per l’impacchettamento del DNA; 3) differente struttura del promotore
(TATA box a -30 rispetto al TSS come negli eucarioti , mentre negli eubatteri il TATA box è a -10); 4) RNA
polimerasi simile in struttura a RNA pol II eucariotica; 5) la traduzione inizia per Met (formil-Met nei eubatteri);
6) alcuni geni per tRNA e rRNA possono contenere introni 10
La cellula procariotica
Le dimensioni della cellula procariotica sono circa 1/10 di quelle eucariotiche (E. coli, 1-2 m).
Dato che le dimensioni del genoma sono circa 1000 volte maggiori di quelle della cellula (E.coli,
1,6 mm), anche per i procarioti è necessario un sistema per compattare il DNA: 1) le poliammine
(spermina, spermidina) cariche positivamente che si associano al DNA e schermano le cariche
negative dei gruppi fosfato del DNA; 2) Il DNA è associato a numerose proteine di piccole
dimensioni che favoriscono il ripiegamento del DNA in una struttura più compatta (la più
abbondante è l’ H-NS, una proteina dimerica di 15,6 KDa (circa 20.000 molecole di H-NS per
cellula, il che corrisponde all’associazione di un dimero ogni 400bp del DNA); 3)
Superavvolgimento del DNA.
Eukaryote Il core proteico è costituito da: DNA
girasi; DNA topoisomerasi; almeno 4
tipi di proteine di impacchettamento
10 (la più abbondante è l’ HU: ~60,000
molecole, forma un tetramero intorno
al quale sono avvolte circa 60 bp di
prokaryote DNA). Le proteine HU non sono
presenti negli Archeobatteri, 11 che
hanno proteine più simili agli istoni.
I Genomi dei Procarioti: Struttura
I genomi procariotici sono generalmente costituiti da un singolo cromosoma di forma
circolare. In molte specie sono presenti anche piccoli DNA circolari extra-
cromosomici, codificanti per geni addizionali.
Vi sono anche alcuni casi di genomi di forma lineare:
Borrelia burgdorferi: genoma lineare con “telomeri” costituiti da forcine chiuse covalentemente
Streptomyces: cambiamenti naturali da forma circolare a lineare e viceversa
Il DNA extracromosomico può essere costituito da plasmidi lineari o circolari:
Deinococcus radiodurans: 2 cromosomi circolari (Tot 3 Mb) + 1 megaplasmide + 1
plasmide (Tot 0.2 Mb)
Borrelia burgdorferi: 1 cromosoma lineare (Tot 0.9 Mb) + 21 plasmidi circolari e lineari (Tot
0.61 Mb)
Vibrio cholerae: 2 molecole circolare (2.94 + 1.07)
12
I Genomi dei Procarioti: Dimensione
I genomi eubatterici mostrano una notevole variabilità nelle dimensioni, normalmente
correlate al loro stile di vita (da 160 kb nel batterio endosimbionte Carsonella ruddii a 9,7
Mp in Rhodococcus sp.) .
Simbionti intracellulari
obbligati, patogeni
Da: Binnewies et et al. (Funct. (specializzati): genomi
Integr. Genomics 6: 165-185,
2006)
piccoli (media 1 Mb), molto
stabili, con riarrangiamenti
(i genomi di archebatteri
genomici e innovazioni
hanno dimensioni geniche scarse o nulle.
costanti e comprese tra
1,5 e 2,5 kb.
Batteri a vita libera
(generalisti): genomi grandi
(media 2-4 Mb),
riarrangiamenti genomici
frequenti, alto grado di
variabilità nel contenuto
genico sia a livello inter- che
intra-specie, maggior
contenuto di repeat.
I genomi archebatterici hanno dimensioni poco variabili e generalmente 13
comprese tra 1.5 e 2.5 Mbp.
Plasticità del Genoma Batterico
I genomi procariotici mostrano una elevata “plasticità” nel senso che all’interno di una
stessa specie è conservata solo una parte del genoma (endogenoma), mentre la
parte restante è estremamente variabile da ceppo a ceppo.
Elementi mobili
Gene replacement
Simple repeats
Endogenoma: 1, 2
Plasmidi: H, F
Fagi e Profagi: B, D, E, G
14
Isole di patogenicità: A, C
Da Casjens et al. 1998 Annu Rev Genet 32:339-377
Meccanismi di Flusso Genico nei procarioti
Vi sono tre meccanismi principali attraverso cui i geni possono trasferirsi da una
specie batterica all’altra:
1) Coniugazione (a seguito di un contatto fisico tra due batteri del materiale genetico
viene trasferito da un donatore a un ricevente); 2) Trasduzione (trasferimento di
materiale genetico da un fago (donatore); 3) Trasformazione (la cellula ricevente
assume materiale genetico dall’ambiente). Questi meccanismi vengono comunemente
definiti di “trasferimento genico laterale” (LGT).
Gli LGT posono essere
dedotti sulla base di più
osservazioni indipendenti,
come:
• dati filogenetici (es.
discrepanze tra alberi
evolutivi costruiti da geni
diversi) ;
• pattern di utilizzo dei
codoni atipico ;
• patogenicità ceppo-
specifica.
15
I Genomi dei Procarioti: Dimensione
Si osserva una marcata eterogeneità delle dimensioni anche nell’ambito di una
stessa specie. Ad esempio, i 20 genomi di E.coli sinora sequenziati hanno
dimensioni comprese tra 4,6 e 5,5 Mb.
Confronto tra E.coli
O157:H7 e i genomi di
altri 4 ceppi di E.coli. Il
ceppo patogeno O157
ha 1,34 Mb specifiche
per fattori di virulenza,
assenti nel ceppo di
laboratorio K12, che a
sua volta contiene 0,53
Mb assenti nel ceppo
O157.
16
Da: Binnewies et et al. (Funct. Integr. Genomics 6: 165-185, 2006)
Isole di Patogenicità nei genomi procariotici
Regioni del genoma richieste per la virulenza, ristrette a
organismi patogeni e acquisite essenzialmente per LGT.
Sono una classe di elementi mobili, acquisiti mediante
trasferimento orizzontale, caratterizzate da:
• cluster di geni presenti in alcuni ceppi e non in altri
(instabilità genetica)
• prossimità a loci per tRNA
• contenuto in G+C atipico
Sono state individuate anche in funghi parassiti e una
“isola di simbiosi” è stata identificata nel genoma di un
insetto endosimbionte !! 17
I Genomi dei Procarioti: Contenuto genico
I genomi dei procarioti hanno una densità genica molto elevata. In
media, i geni codificanti proteine occupano l’85% del genoma. Inoltre, i
geni procariotici non sono interrotti da introni e sono organizzati in unità
trascrizionali policistroncihe (operoni).
Il numero di geni, così come le dimensioni del genoma, riflette lo stile di
vita del batterio. I parassiti specializzati (es. Mycoplasma) hanno circa
500-600 geni, mentre i batteri generalisti hanno un numero di geni molto
maggiore, tipicamente compreso tra 4,000 e 5,000. Gli Archea hanno un
18
numero di geni compreso tra 1,700 e 2,900.
I Genomi dei Procarioti: Dimensioni dei geni
La lunghezza media di una proteina in E. coli K12, normalmente
compresa tra 100 e 400 aa, è pari a circa 300 aa.
Proteine annotate
Proteine standard (Swissprot)
Proteine “orfane”
da: DNA Research 11, 219–231 (2004)
19
I Genomi dei Procarioti: Organizzazione genica
L’elevata plasticità dei genomi procariotici si riflette nel fatto che l’ordine
dei geni lungo il genoma è poco conservato tra specie e raggruppamenti
tasonomici differenti. Pertanto, gruppi di geni contigui e contenuti in uno
stesso operone in un genoma possono essere dispersi in un altro
genoma.
Ad una frazione cospicua dei geni individuati nei diversi genomi
completamente sequenziati, compresa tra il 30 ed il 40%, non è stato
possibile attribuire alcuna funzione.
Alcuni di questi geni che sono ristretti ad una ola specie o ad un ristretto
raggruppamento tassonomico, vengono definiti geni “orfani”
E’ anche possibile che alcuni geni siano stati erroneamente annotati,
mentre altri non siano stati ancora identificati (ORF corte).
20
I Genomi dei Procarioti: Composizione in basi
La composizione in basi dei genomi procariotici è molto variabile,
compresa tra il 25% e il 75%. E’ stato inoltre osservato che la
composizione in basi non è omogenea lungo il genoma (formazione di
compartimenti, LGT, inserimento di elementi mobili).
21
I Genomi dei Procarioti: Asimmetria Composizionale
I genomi procariotici mostrano normalmente una marcata simmetria
composizionale (C=G; A=T su una stessa strand). L’asimmetria
composizonale si calcola con la seguente formula:
ATskew = A - T GCskew = G - C
A+T G+C
I valori osservati di ATskew e GCskew sono
tipicamente <0,01. E’ possibile tuttavia osservare
specifici tratti del genoma con marcata asimmetria
composizionale. In particolare, nei genomi
procariotici con una singola origine di replicazione,
si osserva una transizione del “segno” dello skew
in corrispondenza dell’origine (e della
Borrelia burgdoferi
terminazione) della replicazione. Questo è
probabilmente dovuto ad una differente efficienza
dei sistemi di riparazione tra la leading e la lagging
strand.
(Saccone & Pesole, 2004)
22
I Genomi dei Procarioti: Uso del Codice Genetico
I Codoni sinonimi non sono usati in modo omogeneo. E’ possibile misurare
quanto l’utilizzo dei codoni (Codon Usage) si discosta da un utilizzo
omogeneo.
• Costrizioni composizionali (es genoma di
Campylobacter ha GC di 30,4% e tende a
preferire codoni con A/T finale)
• Selezione a livello di traduzione (in E. coli
a altri batteri i codoni adoperati da geni
altamente espressi, come quelli codificanti
per proteine ribosomiali o proteine coinvolte
in importanti vie biosintetiche, sono correlati
ai codoni ottimali per la traduzione, predetti
sulla base della abbondanza relativa di tRNA
isoaccettori)
23
I Genomi dei Procarioti: sncRNA
Anche nei procarioti (come negli eucarioti) sono stati scoperti numerosi
piccoli RNA non codificanti proteine che svolgono importanti funzioni
regolatorie (small noncoding RNAs, sncRNAs) appaiandosi per
complementarietà a diversi mRNA bersaglio. L’interazione tra sncRNA e
mRNA è favorita da una chaperonina (Hfq in E. coli).
Gli sncRNA vengono prodotti a
partire da promotori canonici e
normalmente mostrano una
elevata propensione a formare
strutture secondarie complesse.
Senza subire alcun
processamento essi si legano
alla chaperonina, e quindi si
appaiano per complementarietà
all’mRNA bersaglio (anch’esso
legato alla chaperonina).
24
I Genomi dei Procarioti: sncRNA
L’appaiamento con l’mRNA target coinvolge generalmente l’estremità 5’ del
trascritto in prossimità del codone di inizio. L’effetto di questo appaiamento
è: 1) l’inibizione della traduzione; 2) la degradazione dell’mRNA; 3)
l’attivazione della traduzione; e 4) la stabilizzazione dell’mRNA.
25
Da: Gottesman, Trends in Genetics 21: 399-404, 2005
I Genomi dei Procarioti: Regioni non-geniche
Le regioni non-geniche dei genomi procariotici (in media circa il 15%)
contengono geni per RNA non codificanti proteine (molti dei quali tuttora
ignoti) ed elementi ripetuti, costituiti prevalentemente da elementi mobili
(MGE, mobile genetic element) in grado di spostarsi sia all’interno di uno
stesso genoma che tra genomi differenti. Gli MGE comprendono plasmidi,
fagi, trasposoni, elementi IS, ecc.
IS Insertion Sequence
transposase (replic o conserv)
IS Resistenza-antib IS Trasposone composito
(conserv)
trans resolv Tn3
(replic)
Trasposizione replicativa: nuova copia dell’elemento donatore in una
differente posizione
Trasposizione conservativa: escissione e reintegrazione in un nuovo sito
26
Applicazioni della Genomica Microbica
1 Identificazione delle differenze essenziali tra batteri patogeni e non
patogeni, e tra fattori di virulenza e fattori di colonizzazione.
2 Sviluppo della “Reverse Vaccinology”
Identificazione
Test di immunogenicità
“bioinformatica” di
Genoma e identificazione di
proteine secrete o
antigeni protettivi
extracellulari
Esempi: Neisseria meningidites (serovar B); Streptococcus pneumoniae;
Bacillus anthracis; etc. (cfr. Mora et al. Curr. Op. Microbiol. 2006, 9:532-36)
L’esteso livello di variazione intra-specifica rende l’analisi di un singolo genoma insufficiente alla
realizzazione di un vaccino “universale”. E’ necessario quindi integrare dati di genomi diversi per
determinare la combinazione di antigeni ottimale per la specifica struttura della popolazione del patogeno
considerato. 27
Il Progetto “Microbioma”
I microrganismi che vivono nell’uomo (microbiota) superano il numero di
cellule somatiche di un ordine di grandezza (ca. 1015). Essi suppliscono
proprietà fisiologiche e metaboliche che l’organismo non possiede in
proprio (es. capacità digestive, detossificazione, sviluppo ed attività del
sistema immunitario, etc.).
Ad esempio, è stato osservato che l’obesità può essere correlata ad una
particolare composizione del microbiota.
Vedi: Nature. 2006 Dec 21;444(7122):1027-31.
Il programma “Human Microbiome Project” si propone appunto di far luce
sulle caratteristiche e proprietà della componente microbica dell’uomo e
di come questo contribuisca ai normali processi fisiologici e nella
predisposizione alle malattie.
28
vedi: Turnbaugh et al. Nature, vol 449: 804-810, 2007
Le Banche Dati di Genomi Microbici
http://www.cbs.dtu.dk/services/GenomeAtlas/
29
Le Banche Dati di Genomi Microbici
723 Total Genomes
659 Complete, 64 Incomplete, 0 Eukarya, 48 Archaea, 672 Bacteria, 3 Viruses
http://cmr.tigr.org/tigr-scripts/CMR/CmrHomePage.cgi 30
Metagenomics:
concept and objectives
The main concept of Metagenomics is that each
environment can be considered as a single genomic
entity which is called metagenome.
Theoretically, a metagenome includes the genetic
information belonging to all the living organisms in a
selected environment even if it is possible to focus the
attention on particular taxonomic classes.
Metagenomics:
Concept and objectives
• Many pivotal culture-independent metagenomic studies
have been performed to unravel the biodiversity of
microbial communities.
• The knowdledge of their genetic diversity, population
structure, relationships and ecological roles can be
strongly enlarged.
• Nucleic acids from a defined habitat are directly isolated,
a DNA library including all the genomes of the resident
living population is created and analysed, often using
targeted or random sequencing, both for taxonomical
composition and gene functions.
Metagenomics:
data production and analysis
Enhanced high-throughput sequencing technologies and
bioinformatics capabilities allow to extract the maximum amount of
information from the huge quantity of metadata which could be produced by
the large-scale analysis of a natural or artificial environment.
454 pyrosequencing system: more than 1 million high-quality reads per run;
Specialized resources able to storage the molecular metadata and integrate
them with geographical, chemical and physical information:
CAMERA
IMG/M
MICROBIS
Micro-Mar
advanced bioinformatic analysis tools: a robust software engineering is needed
to generate novel analysis tools able to cluster, compare and characterize the
metagenome sequences.This bioinformatic advancement is essential due to the
fundamental differences between classical genomic and metagenomic data.
Metagenomics:
bioinformatic analysis
• Analysis goals:
Gene Calling (or Gene Prediction): protein or RNA
coding sequences are identified in a metagenomic
dataset.
Phylogenetic analysis: the taxonomic composition of the
sample is investigated.
CAMERA
Community Cyberinfrastructure for Advanced
Marine Microbial Ecology Research and Analysis
Aims
providing a rich, distinctive data
repository and a bioinformatics tools
resource for metagenomics.
making accessible raw environmental
sequence data, associated metadata
(location, date, and time of collection; the
chemical and physical conditions where
the sample was taken and a measure of
its living environment), pre-computed
search results, and high-performance
computational resources.
http://camera.calit2.net/
MEGAN - Metagenome Analysis Software
Main concept
The taxonomical content of such a
metagenomic sample is estimated by a
multiple comparison against DNA and
protein sequence databases of known
sequences.
MEGAN (“MEtaGenome ANalyzer”) is a
new computer program that allows
analysis of large metagenomic datasets. In
a preprocessing step, the set of DNA
reads (or contigs) is compared against
databases of known sequences using
BLAST or another comparison tool.
MEGAN can then be used to compute and
interactively explore the taxonomical
content of the dataset, employing the
NCBI taxonomy to summarize and order
the results.
To learn more…
• MEGAN 1.0 was published in: D.H. Huson, A.F. Auch, Ji Qi and
S.C. Schuster, MEGAN Analysis of Metagenomic Data, Genome
Research. 17:377-386, 2007.
• An example of the application of MEGAN can be found in: H. N.
Poinar, C. Schwarz, Ji Qi, B. Shapiro, R. D. E. MacPhee, B.
Buigues, A. Tikhonov, D. H. Huson, L. P. Tomsho, A. Auch, M.
Rampp, W. Miller, S. C. Schuster, Metagenomics to Paleogenomics:
Large-Scale Sequencing of Mammoth DNA, Science 311:392-394,
2006, where we used an early version of our software to analyze the
taxonomical content of a collection of DNA reads sampled from a
mammoth.
• An example of using MEGAN to analyze RNA sequences from soild
can be found here: T. Urich A. Lanzén, Ji Qi, D.H. Huson, C.
Schleper and Stephan C. Schuster, Simultaneous Assessment of
Soil Microbial Community Structure and Function through Analysis
of the Meta-Transcriptome, PLoS ONE 3(6): e2527
doi:10.1371/journal.pone.0002527.