# PowerPoint Presentation - CBCB - University of Maryland by dffhrtcv3

VIEWS: 1 PAGES: 30

• pg 1
```									1
Genome sequence assembly
Assembly concepts and methods

Mihai Pop
Center for Bioinformatics and Computational Biology
University of Maryland

2
Building a library

• Break DNA into random fragments (8-10x coverage)

Actual situation

3
Building a library

• Break DNA into random fragments (8-10x coverage)
• Sequence the ends of the fragments
– Amplify the fragments in a vector
– Sequence 800-1000 (500-700) bases at each end of the fragment

4
Assembling the fragments

5
Forward-reverse constraints
•   The sequenced ends are facing towards each other
•   The distance between the two fragments is known
(within certain experimental error)
Insert
F              R
I             II

R               F

I                  II

R     F
Clone
II                 I

F     R
6
Building Scaffolds

•   Break DNA into random fragments (8-10x coverage)
•   Sequence the ends of the fragments
•   Assemble the sequenced ends
•   Build scaffolds

7
Assembly gaps
Physical gaps

Sequencing gaps

sequencing gap - we know the order and orientation of the contigs and have at
least one clone spanning the gap
spanning the gap

8
Unifying view of assembly

Assembly

Scaffolding

9
Shotgun sequencing statistics

10
Typical contig coverage

Imagine raindrops on a sidewalk
11
Lander-Waterman statistics
T = minimum detectable overlap
G = genome size
c = coverage (NL / G)
σ = 1 – T/L

E(#islands) = Ne-cσ
E(island size) = L((ecσ – 1) / c + 1 – σ)
contig = island with 2 or more reads
12
Example
Genome size: 1 Mbp Read Length: 600   Detectable overlap: 40

c   N      #islands #contigs bases not in bases not in
1    1,667      655     614           698      367,806

3    5,000     304        250            121          49,787

5    8,334       78        57              20          6,735

8   13,334        7         5               1             335

13
Experimental data
X
# ctgs   % > 2X    avg ctg size (L-W)    max ctg size   # ORFs
coverage
1      284        54         1,234 (1,138)         3,337           526

3      597        67         1,794 (4,429)         9,589      1,092

5      548        79       2,495 (21,791)         17,977      1,398

8      495        85      3,294 (302,545)         64,307      1,762

complete        1       100               1.26 M         1.26 M      1,329

Caveat: numbers based on artificially chopping up
the genome of Wolbachia pipientis dMel

14
coverage
4 kbp

1 kbp

Clone (insert) coverage = 16

2X coverage in BAC-ends implies 100x coverage by BACs
(1 BAC clone = approx. 100kbp)
15
• Overlap-layout-consensus
– greedy (TIGR Assembler, phrap, CAP3...)
– graph-based (Celera Assembler, Arachne)

• Eulerian path (especially useful for short

16
TIGR Assembler/phrap
Greedy
•   Build a rough map of fragment
overlaps
•   Pick the largest scoring overlap
•   Merge the two fragments
•   Repeat until no more merges can
be done

17
Overlap-layout-consensus
1                         4                       7
2                    5                           8
3                   6                           9

1        2        3        4       5           6       7           8       9

ACCTGA
1
ACCTGA
1        2        3                   1           2       3
2
3       AGCTGA
ACCAGA
2        3                       1               3                   1
1                                                                                         3

2                               2

18
Paths through graphs and
assembly
• Hamiltonian circuit: visit each node (city)
exactly once, returning to the start

Genome

19
Implementation details

20
Overlap between two sequences
overlap (19 bases)    overhang (6 bases)
…AGCCTAGACCTACAGGATGCGCGGACACGTAG
CCAGGAC
CAGTACTTGGATGCGCTGACACGTAGCTTATCCGGT…
overhang          % identity = 18/19 % = 94.7%
overlap - region of similarity between regions
overhang - un-aligned ends of the sequences

The assembler screens merges based on:
• length of overlap
• % identity in overlap region
• maximum overhang size.

21
All pairs alignment
• Needed by the assembler
• Try all pairs – must consider ~ n2 pairs
• Smarter solution: only n x coverage (e.g. 8) pairs
are possible
– Build a table of k-mers contained in sequences (single
pass through the genome)
– Generate the pairs from k-mer table (single pass
through k-mer table)
k-mer

22
23
REPEATS

24
RptA                     RptB
3                    6                   9                 12
2                   5                    8                11
1               4                    7                   10                  13

4           6       8
2                                       10
12
1
13
3                                    11
5           7       9
25
Non-repetitive overlap graph
4                   6,10
2                  8
12

1
13
3
5,9       7          11

26
Handling repeats
1. Repeat detection
–   pre-assembly: find fragments that belong to repeats
•   statistically (most existing assemblers)
–   during assembly: detect "tangles" indicative of
repeats (Pevzner, Tang, Waterman 2001)
–   post-assembly: find repetitive regions and potential
mis-assemblies.
•   "unhappy" mate-pairs (too close, too far, mis-oriented)
2. Repeat resolution
–   find DNA fragments belonging to the repeat
–   determine correct tiling across the repeat
27
Statistical repeat detection
Significant deviations from average coverage flagged as repeats.
- frequent k-mers are ignored
- “arrival” rate of reads in contigs compared with theoretical value
(e.g., 800 bp reads & 8x coverage - reads "arrive" every 100 bp)

Problem 1: assumption of uniform distribution of fragments - leads to
false positives
non-random libraries
poor clonability regions

Problem 2: repeats with low copy number are missed - leads to false
negatives

28
Mis-assembled repeats
collapsed tandem              excision

rearrangement

29
SASA repeat (4776 AA, 14Kb)
from Streptococcus pneumoniae
MTETVEDKVSHSITGLDILKGIVAAGAVISGTVATQTKVFTNESAVLEKTVEKTDALATNDTVVLGTISTSNSASSTSLSASESASTSASESASTSASTSASTSASESASTSASTSISASSTVVGSQTAAAT
EATAKKVEEDRKKPASDYVASVTNVNLQSYAKRRKRSVDSIEQLLASIKNAAVFSGNTIVNGAPAINASLNIAKSETKVYTGEGVDSVYRVPIYYKLKVTNDGSKLTFTYTVTYVNPKTNDLGNISSMRPGY
SIYNSGTSTQTMLTLGSDLGKPSGVKNYITDKNGRQVLSYNTSTMTTQGSGYTWGNGAQMNGFFAKKGYGLTSSWTVPITGTDTSFTFTPYAARTDRIGINYFNGGGKVVESSTTSQSLSQSKSLSVSASQS
ASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASGS
ASTSTSASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSAS
VSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASAS
TSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSAS
ASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTS
ASESASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASAS
TSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSAS
ASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASAS
TSASASASISASESASTSASASASTSASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSAS
ASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASAS
TSASASASTSASESASTSASASASTSASASASTSASASASTSASASASASTSASASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTS
ASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESAS
TSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSAS
ESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTS
ASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASES
ASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSAS
ASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASESASTSASASAS
TSASASASTSASASASTSASASASASTSASASASTSASASASTSASASASISASESASTSASASASASTSASASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASAS
TSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASTSASESASTSASASASTSASASAS
TSASASASTSASESASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASGSASTSTSASASTSASASASTSAS
ASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTS
ASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASES
ASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSAS
ESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESAS
TSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASAS
ASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTS
ASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASAS
ASTSASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTS
ASASASTSASASASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASAS
ASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSAS
ESASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASAS
TSASASASTSASASASISASESASTSASASASTSASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSAS
ASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSVSNSANHSNSQVGNTSGSTGKSQKELPNTGTESSIGSV
LLGVLAAVTGIGLVAKRRKRDEEE
30

```
To top