FusionSeq - Gerstein Lab by waishengda

VIEWS: 0 PAGES: 63

									Computa(onal	
  Methodologies	
  For	
  Transcript
Analysis	
  in	
  the	
  Age	
  of	
  Next-­‐Genera(on	
  DNA
                          Sequencing

                                  Lukas	
  Habegger
             Computa)onal	
  Biology	
  &	
  Bioinforma)cs,	
  Yale	
  University
                                 February	
  22,	
  2012




                                                                                    1
                                     Outline

• Introduc2on
   – Transcript	
  analysis
   – Next-­‐genera)on	
  DNA	
  sequencing

• So4ware	
  and	
  analysis
   – Variant	
  Annota)on	
  Tool	
  (VAT)
   – RSEQtools
   – FusionSeq
   – DupSeq
   – Transcriptome	
  analysis	
  of	
  embryonic	
  stem	
  cells	
  undergoing	
  neural
     differen)a)on

• Conclusions	
  and	
  future	
  direc2ons

                                                                                         2
Part	
  One
Introduc2on



              3
                                                Transcript	
  analysis

•   Transcriptome:	
  the	
  complete	
  set	
  of	
  transcripts	
  in	
  a	
  cell	
  and
    their	
  corresponding	
  abundance	
  for	
  a	
  given	
  sample

•   Aims	
  of	
  transcript	
  analysis:
     – Catalog	
  all	
  species	
  of	
  transcripts
     – Determine	
  the	
  transcrip)onal	
  structure	
  of	
  genes
     – Quan)fy	
  the	
  expression	
  levels	
  of	
  transcript	
  isoforms
     – Determine	
  the	
  effects	
  of	
  variants	
  on	
  the	
  coding
          poten)al	
  of	
  transcripts

•   Deciphering	
  the	
  transcriptome	
  is	
  essen)al	
  to:
     – Interpret	
  the	
  role	
  of	
  func)onal	
  elements	
  of	
  the	
  genome
     – Unravel	
  the	
  molecular	
  cons)tuents	
  of	
  a	
  cell
     – Understand	
  development	
  and	
  disease


                                                                                              Adapted	
  from	
  NHGRI

                                                                                                                         4
Transcript	
  analysis	
  has	
  been	
  revolu)onized	
  by
      next-­‐genera)on	
  DNA	
  sequencing

•   New	
  technology	
  with	
  many
    applica)ons,	
  including:
     – Transcriptome	
  profiling	
  (RNA-­‐Seq)
     – Whole	
  genome	
  sequencing	
  (e.g.
        personal	
  genomes)

•   Presents	
  many	
  bioinforma)cs
    challenges,	
  such	
  as	
  the	
  needs	
  for:
     – efficient	
  data	
  storage	
  and	
  retrieval
     – new	
  computa)onal	
  methodologies
        to	
  analyze	
  the	
  data
     – efficient	
  algorithms
                                                        Snyder	
  et	
  al.,	
  Genes	
  and	
  Development	
  (2010)


                                                                                                                        5
                                A	
  typical	
  RNA-­‐Seq	
  experiment
                                                                                            mRNA
                                                                                                            • RNA-­‐Seq	
  offers	
  many
Library                                                                                                       advantages	
  over	
  previous
prepara2on             RNA	
  fragments                                                     cDNA              methods
                                                                                   EST	
  library	
  with
                                                                                   adapters                    – Single-­‐base	
  resolu)on
                                                                           Short	
  sequence
                                                                                                               – Larger	
  dynamic	
  range
Sequencing                                                                 reads
                                                                                                               – Iden)fy	
  alterna)vely
                                                       Reference	
  sequence
                                                                                                                 spliced	
  transcripts
                                                                    Coding	
  sequence
Read
mapping                                                                                                     • Novel	
  applica)ons
                                                                       Mapped	
  sequence
                                                                       reads                                   – Iden)fica)on	
  of	
  fusion
Downstream
                                                                                                                 transcripts
analysis



          Adapted	
  from	
  Wang	
  et	
  al.,	
  Nature	
  Reviews	
  Gene5cs	
  (2010)
                                                                                                                                               6
                                         Key	
  steps	
  of	
  RNA-­‐Seq	
  analysis

•       Read	
  Mapping                                                                                                                                                                 Signal	
  track
                                                                                                                                                                                        of	
  mapped
        (TopHat,	
  MapSplice)                                                                                                                                                          reads


•        Expression	
  analysis                                                                                                                                                         Chromosome

          – Gene	
  quan)fica)on                                                                                                                                                          Transcribed
                                                                                                                                                                                         regions
          – Isoform	
  quan)fica)on
             (Cufflinks,	
  IQSeq)
                                                                                                                                                                                        Splice
                                                                                                                                                                                        junc2ons
•       Differen)al	
  expression
        (DegSeq,	
  CuffDiff,	
  edgeR)

•       Transcript	
  reconstruc)on                                                                                                                                                     Assembled
        (Cufflinks,	
  Scripture,                                                                                                                                                         transcripts
        TransABySS)

                                                                                      Adapted	
  from	
  Cloonan	
  et	
  al.,	
  Genome	
  Biology	
  (2008)


Trapnell,	
  et	
  al.	
  Nature	
  Biotechnology	
  (2010)   Guhman,	
  et	
  al.	
  Nature	
  Biotechnology	
  (2010)            Trapnell,	
  et	
  al.	
  Bioinforma5cs	
  (2008)
Briol,	
  et	
  al.	
  Bioinforma5cs	
  (2009)                Wang,	
  et	
  al.	
  Bioinforma5cs	
  (2009)                        Robinson,	
  et	
  al.	
  Bioinforma5cs	
  (2010)
                                                                                                                                                                                                  7
Du,	
  et	
  al.	
  PLoS	
  One	
  (2012)                     Zebrino,	
  et	
  al.	
  Genome	
  Research	
  (2008)                Wang,	
  et	
  al.	
  Nucleic	
  Acids	
  Research	
  (2010)
         Personal	
  genomes	
  &	
  varia)on


          • Sequencing	
  studies	
  of	
  personal	
  genomes	
  have	
  revealed	
  many	
  variants
             – The	
  1000	
  Genomes	
  Project

          • Types	
  of	
  variants:
             – Single	
  Nucleo)de	
  Polymorphisms	
  (SNPs):	
  ~3M
             – Small	
  inser)ons	
  and	
  dele)ons	
  (Indels):	
  ~350,000
             – Structural	
  Variants	
  (SVs):	
  ~2,500
                 • Inser)ons	
  /	
  Dele)ons
                 • Inversions	
  /	
  Transloca)ons

          • What	
  is	
  the	
  func)onal	
  impact	
  of	
  these	
  variants	
  on	
  transcripts?

                                                                                                        8
The	
  1000	
  Genomes	
  Project	
  Consor)um,	
  Nature	
  (2010)
Part	
  Two
Variant	
  Annota2on	
  Tool	
  (VAT)


Habegger	
  L*,	
  Balasubramanian	
  S*,	
  Chen	
  DZ*,	
  Khurana	
  E,	
  Sboner	
  A,	
  Harmanci	
  A,	
  Rozowsky	
  J,	
  Snyder	
  M,	
  Gerstein	
  MB.	
  VAT:	
  A
computa)onal	
  framework	
  to	
  func)onally	
  annotate	
  variants	
  in	
  personal	
  genomes	
  within	
  a	
  cloud-­‐compu)ng	
  environment.	
  Bioinforma(cs
(submihed)
                                                                                                                                                                                 9
              Mo)va)on	
  for	
  implemen)ng	
  VAT

• A	
  large	
  number	
  of	
  personal	
  genomes	
  have	
  been	
  sequenced	
  using
  next-­‐genera)on	
  DNA	
  sequencing	
  technologies	
  (e.g.	
  1000	
  Genomes
  Project)
   – Types	
  of	
  variants	
  (SNPs	
  /	
  Indels	
  /	
  SVs)

• Key	
  ques)on:	
  	
  What	
  are	
  the	
  func)onal	
  impacts	
  of	
  these	
  variants	
  on
  transcripts?

• Challenges:
   – Func)onal	
  annota)on	
  of	
  variants	
  is	
  non-­‐trivial
   – Posi)oning	
  the	
  sorware	
  rela)ve	
  to	
  the	
  data



                                                                                                       10
Func)onal	
  annota)on	
  of	
  variants	
  is
              non-­‐trivial




           Provide	
  visualiza)ons	
  to	
  summarize	
  the
                func)onal	
  impact	
  of	
  variants

                                                                                                              11
      Habegger	
  L*,	
  Balasubramanian	
  S*,	
  Chen	
  DZ*,	
  et	
  al.	
  Bioinforma5cs	
  (submihed)
  Posi)oning	
  the	
  sorware	
  rela)ve	
  to	
  the	
  data

• Quan)ty	
  of	
  data	
  generated	
  by	
  sequencing	
  experiments	
  con)nues	
  to
  grow	
  rapidly

• The	
  posi)oning	
  of	
  the	
  sorware	
  rela)ve	
  to	
  the	
  data	
  becomes	
  more
  important
   – Transferring	
  large	
  files	
  is	
  )me	
  consuming	
  (limited	
  bandwidth)
   – Duplicate	
  copies	
  of	
  files

• VAT	
  is	
  provided	
  as	
  a	
  virtual	
  machine	
  that	
  can	
  be	
  run	
  in	
  a	
  cloud-­‐
  compu)ng	
  environment
   – Scalability
   – Unlimited	
  storage	
  space
   – Ease	
  of	
  sorware	
  packaging	
  and	
  distribu)on

                                                                                                              12
Schema)c	
  representa)on	
  of	
  VAT




                                                                                                            13
    Habegger	
  L*,	
  Balasubramanian	
  S*,	
  Chen	
  DZ*,	
  et	
  al.	
  Bioinforma5cs	
  (submihed)
Example:	
  Gene	
  summary	
  table




                                                                                                           14
   Habegger	
  L*,	
  Balasubramanian	
  S*,	
  Chen	
  DZ*,	
  et	
  al.	
  Bioinforma5cs	
  (submihed)
Example:	
  Gene	
  summary	
  table




                                                                                                           15
   Habegger	
  L*,	
  Balasubramanian	
  S*,	
  Chen	
  DZ*,	
  et	
  al.	
  Bioinforma5cs	
  (submihed)
Example:	
  Gene-­‐specific	
  view




                                                                                                          16
  Habegger	
  L*,	
  Balasubramanian	
  S*,	
  Chen	
  DZ*,	
  et	
  al.	
  Bioinforma5cs	
  (submihed)
Example:	
  Gene-­‐specific	
  view




                                                                                                          17
  Habegger	
  L*,	
  Balasubramanian	
  S*,	
  Chen	
  DZ*,	
  et	
  al.	
  Bioinforma5cs	
  (submihed)
Part	
  Three
RSEQtools


Habegger	
  L*,	
  Sboner	
  A*,	
  Gianoulis	
  TA,	
  Rozowsky	
  J,	
  Agarwal	
  A,	
  Snyder	
  M,	
  Gerstein	
  M.	
  RSEQtools:	
  a	
  modular	
  framework	
  to	
  analyze	
  RNA-­‐
Seq	
  data	
  using	
  compact,	
  anonymized	
  data	
  summaries.	
  Bioinforma(cs	
  2011	
  Jan;27(2):281-­‐283.
                                                                                                                                                                                                  18
      Mo)va)on	
  for	
  implemen)ng	
  RSEQtools

•   Func)onal	
  genomics	
  has	
  given	
  rise	
  to	
  large	
  amounts	
  of	
  data
     – Data	
  sets	
  are	
  increasingly	
  difficult	
  to	
  handle

•   Sequence	
  informa)on	
  from	
  an	
  individual	
  poten)ally	
  contains	
  sufficient
    informa)on	
  to	
  iden)fy	
  and	
  gene)cally	
  characterize	
  that	
  person

•   Devised	
  the	
  Mapped	
  Read	
  Format	
  (MRF)
     – Compact	
  format	
  for	
  represen)ng	
  read	
  alignments
     – Enables	
  the	
  anonymiza)on	
  of	
  confiden)al	
  sequence	
  informa)on

•   Developed	
  a	
  set	
  of	
  tools	
  (RSEQtools)	
  that	
  use	
  this	
  format	
  to	
  perform	
  common
    RNA-­‐Seq	
  analyses
     – Build	
  customizable	
  RNA-­‐Seq	
  workflows


                                                                                                                19
                  Privacy	
  Considera)ons

• On	
  one	
  hand:               • On	
  other	
  hand:
  Reads	
  have	
  variant           High-­‐level	
  summaries	
  are
  informa)on	
  in	
  most           used	
  for	
  most	
  analyses
  func)onal	
  regions               (80%)	
  and	
  do	
  not	
  involve
  (a	
  deeply	
  sequenced          variant	
  informa)on
  RNA-­‐Seq	
  experiment	
  is       – Helpful	
  to	
  make	
  this
  essen)ally	
  equivalent	
  to         freely	
  available
  an	
  exome	
  sequencing
  study)



                                                                        20
           Anonymiza)on	
  of	
  confiden)al	
  sequence
                      informa)on




                                                                Mapping	
  coordinates                                          Reads	
  (linked	
  via	
  ID,	
  10X	
  larger
                                                                without	
  variants	
  (MRF)                                     than	
  mapping	
  coordinates)




                                                                                                                                                                                  21
Greenbaum,	
  et	
  al.	
  PLoS	
  Computa5onal	
  Biology	
  (2011)               Habegger	
  L*,	
  Sboner	
  A*,	
  et	
  al.	
  Bioinforma5cs	
  (2011)
MRF                                                                            chr2:+:601:630:1:30,chr2:+:921:940:31:50

Examples                                                                                  TS        TE                  TS   TE

                                                                                                                                                     Reference

ELAND	
  Export	
  file:                                                AlignmentBlock 1                                           AlignmentBlock 2
	
  -­‐	
  Uncompressed	
  file	
  size:	
  ∼4	
  GB
	
  -­‐	
  Total	
  number	
  of	
  reads:	
  ∼20M
	
  -­‐	
  Number	
  of	
  mapped	
  reads:	
  ∼12M                                                                                     Splice junction Read
                                                                                                              QS QE/QS QE
MRF	
  file	
  (significantly	
  smaller):
	
  -­‐	
  Uncompressed	
  file	
  size:	
  ∼400	
  MB                       Legend: TS = TargetStart, TE = TargetEnd, QS = QueryStart, QE = QueryEnd
	
  -­‐	
  Compressed	
  with	
  gzip:	
  ∼130	
  MB

BAM	
  file
	
  -­‐	
  File	
  size:	
  ∼1.2	
  GB

MRF	
  vs.	
  BAM	
  file	
  size:                                               chr9:+:431:480:1:50|chr9:+:945:994:1:50
∼	
  10x	
  Compression
                                                                                    TS         TE                       TS         TE

                                                                                                                                                 Reference

Reference-­‐based                                           AlignmentBlock 1                                                       AlignmentBlock 2
compression	
  (i.e.	
  CRAM)	
  is
similar	
  but	
  it	
  stores	
  actual                                                                                                  Paired-end Read
variant	
  beyond	
  just                                                                  QS            QE        QS        QE
posi)on	
  of	
  alignment	
  block
                                                                           Legend: TS = TargetStart, TE = TargetEnd, QS = QueryStart, QE = QueryEnd


Habegger	
  L*,	
  Sboner	
  A*,	
  et	
  al.	
  Bioinforma5cs	
  (2011)
                                                                                                                                                            22
Fritz	
  MHY,	
  et	
  al.	
  Genome	
  Research	
  (2011)
Schema)c	
  representa)on	
  of	
  RSEQtools




                                                                                        23
             Habegger	
  L*,	
  Sboner	
  A*,	
  et	
  al.	
  Bioinforma5cs	
  (2011)
Part	
  Four
FusionSeq


Sboner	
  A*,	
  Habegger	
  L*,	
  Pflueger	
  D,	
  Terry	
  S,	
  Chen	
  DZ,	
  Rozowsky	
  JS,	
  Tewari	
  AK,	
  Kitabayashi	
  N,	
  Moss	
  BJ,	
  Chee	
  MS,	
  Demichelis	
  F,	
  Rubin	
  MA,
Gerstein	
  MB.	
  FusionSeq:	
  a	
  modular	
  framework	
  for	
  finding	
  gene	
  fusions	
  by	
  analyzing	
  paired-­‐end	
  RNA-­‐sequencing	
  data.	
  Genome	
  Biology
2010;11(10):R104.
                                                                                                                                                                                                             24
         Mo)va)on	
  for	
  implemen)ng	
  FusionSeq
• Gene	
  fusions	
  oren	
  reflect	
  genomic	
  rearrangements
      – Dele)on	
  or	
  transloca)on
• Fusion	
  genes	
  are	
  known	
  to	
  play	
  a	
  role	
  in	
  cancer
      – BCR-­‐ABL1	
  (chronic	
  myelogenous	
  leukemia;	
  reciprocal	
  transloca)on	
  between
        chromosome	
  9	
  and	
  22)
• Implemented	
  FusionSeq	
  to	
  iden)fy	
  instances	
  of	
  gene	
  fusions	
  in	
  eight
  prostate	
  cancer	
  samples
      – FusionSeq	
  exploits	
  the	
  connec)vity	
  informa)on	
  provided	
  by	
  paired-­‐end	
  RNA-­‐
        Seq	
  reads




                          ERG                                                          ERG
                                                                                    TMPRSS2
                     TMPRSS2


                                                                                                        25
                                      Adapted	
  from	
  Tomlins	
  et	
  al.	
  Science	
  (2005)
Overview	
  of
FusionSeq

    Fusion
   Detec2on




   Filtra2on
   Cascade




    Junc2on
   Iden2fier




                                                                               26
Sboner	
  A*,	
  Habegger	
  L*,	
  et	
  al.	
  Genome	
  Biology	
  (2010)
Overview	
  of
FusionSeq

    Fusion
   Detec2on




   Filtra2on
   Cascade




    Junc2on
   Iden2fier




                                                                               27
Sboner	
  A*,	
  Habegger	
  L*,	
  et	
  al.	
  Genome	
  Biology	
  (2010)
Overview	
  of
FusionSeq

    Fusion
   Detec2on




   Filtra2on
   Cascade




    Junc2on
   Iden2fier




                                                                               28
Sboner	
  A*,	
  Habegger	
  L*,	
  et	
  al.	
  Genome	
  Biology	
  (2010)
Overview	
  of
FusionSeq

    Fusion
   Detec2on




   Filtra2on
   Cascade




    Junc2on
   Iden2fier




                                                                               29
Sboner	
  A*,	
  Habegger	
  L*,	
  et	
  al.	
  Genome	
  Biology	
  (2010)
Overview	
  of
FusionSeq

    Fusion
   Detec2on




   Filtra2on
   Cascade




    Junc2on
   Iden2fier




                                                                               30
Sboner	
  A*,	
  Habegger	
  L*,	
  et	
  al.	
  Genome	
  Biology	
  (2010)
Overview	
  of
FusionSeq

    Fusion
   Detec2on




   Filtra2on
   Cascade




    Junc2on
   Iden2fier




                                                                               31
Sboner	
  A*,	
  Habegger	
  L*,	
  et	
  al.	
  Genome	
  Biology	
  (2010)
Overview	
  of
FusionSeq

    Fusion
   Detec2on




   Filtra2on
   Cascade




    Junc2on
   Iden2fier




                                                                               32
Sboner	
  A*,	
  Habegger	
  L*,	
  et	
  al.	
  Genome	
  Biology	
  (2010)
                   Using	
  the	
  insert-­‐size	
  principle	
  for	
  removing
                                      spurious	
  fusions



                                                                                                  Paired-­‐end	
  read
                                                                                                    mapping	
  for
                                                                                                iden)fying	
  structural
                                                                                                      variants




            • Insert-­‐size	
  analysis	
  has	
  been	
  used	
  extensively	
  to	
  iden)fy	
  structural
              variants	
  in	
  the	
  context	
  of	
  whole	
  genome	
  sequencing

            • Addi)onal	
  layers	
  of	
  complexity	
  in	
  RNA-­‐Seq	
  analysis
                                                                                                                 33
Figures	
  adapted	
  from	
  Korbel	
  et	
  al.	
  Science	
  (2007)
           Layers	
  of	
  complexity	
  involved	
  when	
  using	
  insert-­‐
                     size	
  analysis	
  at	
  the	
  transcript	
  level




                                                                               34
Sboner	
  A*,	
  Habegger	
  L*,	
  et	
  al.	
  Genome	
  Biology	
  (2010)
                  Adap)ng	
  the	
  insert-­‐size	
  analysis	
  concept	
  to
                            remove	
  spurious	
  fusions




                                                                                 35
Sboner	
  A*,	
  Habegger	
  L*,	
  et	
  al.	
  Genome	
  Biology	
  (2010)
      FusionSeq
       Results

      TMPRSS2:	
  encodes	
  a	
  protein
      that	
  belongs	
  to	
  the	
  serine
      protease	
  family


      ERG:	
  member	
  of	
  the
      erythroblast	
  transforma)on-­‐
      specific	
  (ETS)	
  family	
  of
      transcrip)ons	
  factors




Sboner	
  A*,	
  Habegger	
  L*,	
  et	
  al.	
  Genome	
  Biology	
  (2010)


                                                          36
Part	
  Five
DupSeq


Habegger	
  L*,	
  Clarke	
  D*,	
  Harmanci	
  AO*,	
  et	
  al.	
  DupSeq:	
  a	
  computa)onal	
  framework	
  for	
  assessing	
  the	
  transcrip)onal	
  ac)vity	
  of	
  highly
similar	
  genomic	
  sequences	
  (in	
  prepara)on).
                                                                                                                                                                                         37
          Mo)va)on	
  for	
  implemen)ng	
  DupSeq

•   A	
  key	
  objec)ve	
  in	
  genomics	
  is	
  to	
  accurately	
  measure	
  the	
  levels	
  of
    transcrip)on	
  of	
  any	
  given	
  region	
  in	
  the	
  genome

•   Many	
  genomic	
  regions	
  share	
  high	
  levels	
  of	
  sequence	
  similarity
     – Pseudogenes
     – Paralogs
     – Transposable-­‐elements

•   Challenge:	
  discriminate	
  between	
  true	
  transcrip)on	
  and	
  ar)facts
     – Spill-­‐over	
  effects	
  from	
  the	
  expression	
  of	
  highly	
  transcribed	
  region

•   DupSeq	
  evaluates	
  the	
  signal	
  paherns	
  of	
  mapped	
  RNA-­‐Seq	
  reads	
  for	
  similar
    regions	
  across	
  mul)ple	
  samples
     – Visualiza)on	
  of	
  the	
  results
                                                                                                              38
Sequencing	
  errors	
  give	
  rise	
  to	
  mapping	
  ar)facts




              Read	
  alignment	
  parameters:	
  zero	
  mismatches	
  &	
  unique	
  alignment
                                                                                                                 39
                       Habegger	
  L*,	
  Clarke	
  D*,	
  Harmanci	
  AO*,	
  et	
  al.	
  (in	
  prepara)on)
DupSeq:	
  Evalua)on	
  of	
  expression	
  paherns	
  for
  similar	
  regions	
  across	
  mul)ple	
  samples




                                                                                                          40
                Habegger	
  L*,	
  Clarke	
  D*,	
  Harmanci	
  AO*,	
  et	
  al.	
  (in	
  prepara)on)
Schema)c	
  representa)on	
  of	
  DupSeq




                                                                                                   41
         Habegger	
  L*,	
  Clarke	
  D*,	
  Harmanci	
  AO*,	
  et	
  al.	
  (in	
  prepara)on)
Case	
  1:	
  Applica)on	
  of	
  DupSeq	
  in	
  the	
  context
               of	
  C.	
  elegans	
  pseudogenes



                                                                          Total	
  number	
  of	
  pseudogenes:	
  1198


                                                                          Number	
  of	
  pseudogenes	
  with
                                                                          evidence	
  of	
  transcrip)on:	
  323


                                                                          Number	
  of	
  pseudogenes	
  that	
  are
                                                                          independently	
  transcribed	
  from	
  the
                                                                          parent	
  gene	
  (ruling	
  out	
  mapping
                                                                          ar)facts):	
  194




                                                                                                               42
                       Gerstein	
  M,	
  et	
  al.	
  Science	
  (2010)
Case	
  2:	
  Applica)on	
  of	
  DupSeq	
  in	
  the	
  context
                of	
  human	
  pseudogenes




                                 Mapping	
  ar2fact
                                                                                    43
                       Pei	
  B,	
  et	
  al.	
  Genome	
  Research	
  (submihed)
Case	
  2:	
  Applica)on	
  of	
  DupSeq	
  in	
  the	
  context
                of	
  human	
  pseudogenes




                         Transcribed	
  pseudogene
                                                                                    44
                       Pei	
  B,	
  et	
  al.	
  Genome	
  Research	
  (submihed)
Part	
  Six
Transcriptome	
  analysis	
  of	
  embryonic	
  stem	
  cells
undergoing	
  neural	
  differen2a2on

Wu	
  JQ*,	
  Habegger	
  L*,	
  Noisa	
  P,	
  Szekely	
  A,	
  Qiu	
  C,	
  Hutchison	
  S,	
  Raha	
  D,	
  Egholm	
  M,	
  Lin	
  H,	
  Weissman	
  S,	
  Cui	
  W,	
  Gerstein	
  M,	
  Snyder	
  M.
Dynamic	
  transcriptomes	
  during	
  neural	
  differen)a)on	
  of	
  human	
  embryonic	
  stem	
  cells	
  revealed	
  by	
  short,	
  long,	
  and	
  paired-­‐end	
  sequencing.
PNAS	
  2010	
  Mar;107(11):5254-­‐5259.
                                                                                                                                                                                                            45
                                Objec)ve

• Inves)gate	
  the	
  transcriptome	
  dynamics	
  that	
  occur	
  during
  the	
  differen)a)on	
  of	
  human	
  embryonic	
  stem	
  cells	
  into
  the	
  neural	
  lineage
   – hESCs	
  ⇒	
  N1	
  ⇒	
  N2	
  ⇒	
  N3

• Combine	
  the	
  strength	
  of	
  several	
  next-­‐genera)on
  sequencing	
  technologies
   – Short	
  Illumina	
  reads	
  (single-­‐	
  and	
  paired-­‐end)
   – Long	
  454	
  reads

                                                                          46
                             Transcript	
  characteriza)on	
  by	
  RNA-­‐Seq




        Mapped
        Reads




                                                                                47
Wu	
  J*,	
  Habegger	
  L*,	
  et	
  al.	
  PNAS	
  (2010)
                                                              Splicing	
  analysis


                                                                                     Iden)fica)on	
  of
                                                                                     differen)ally	
  expressed
                                                                                     transcript	
  isoforms

                                                                                     NCAM1:	
  neural	
  cell	
  adhesion
                                                                                     molecule	
  1;	
  involved	
  in	
  the
                                                                                     development	
  of	
  the	
  nervous
                                                                                     system




                                                                                     Isoform	
  specifica5on:
                                                                                     Splicing	
  isoform
                                                                                     diversity	
  decreases	
  as
                                                                                     human	
  embryonic	
  stem
                                                                                     cells	
  differen)ate	
  into
                                                                                     neural	
  cells




                                                                                                                   48
Wu	
  J*,	
  Habegger	
  L*,	
  et	
  al.	
  PNAS	
  (2010)
Part	
  Seven
Conclusions	
  and	
  future	
  direc2ons



                                            49
                                       Conclusions

•   Transcript	
  analysis	
  has	
  been	
  revolu)onized	
  by	
  next-­‐genera)on	
  sequencing
     – Deploying	
  RNA-­‐Seq	
  for	
  transcriptome	
  analysis
     – Assessing	
  the	
  effects	
  of	
  variants	
  in	
  personal	
  genomes	
  on	
  transcripts

•   Novel	
  computa)onal	
  methodologies	
  have	
  enabled	
  these	
  analyses
     – Developing	
  efficient	
  algorithms	
  for	
  analyzing	
  large	
  volumes	
  of	
  data
     – Posi)oning	
  sorware	
  with	
  the	
  data	
  in	
  a	
  cloud-­‐compu)ng	
  environment

•   Presented	
  four	
  computa)onal	
  frameworks	
  for	
  transcript	
  analysis
     – VAT:	
  annota)on	
  of	
  variants
     – RSEQtools:	
  MRF	
  and	
  RNA-­‐Seq	
  workflows
     – FusionSeq:	
  iden)fica)on	
  of	
  fusion	
  transcripts
     – DupSeq:	
  transcrip)onal	
  analysis	
  of	
  highly	
  similar	
  sequences

                                                                                                        50
                                        Future	
  direc)ons
                                                       (DupSeq)

•   Implement	
  enhanced	
  sta)s)cal	
  methodologies	
  to	
  beher	
  discriminate	
  between
    true	
  transcrip)on	
  and	
  mapping	
  ar)facts
     – Decompose	
  matrix	
  (expression	
  signals	
  across	
  mul)ple	
  samples)	
  using
         Principal	
  Component	
  Analysis
              • One	
  principal	
  component	
  ⇒	
  likely	
  a	
  mapping	
  ar)fact
              • More	
  than	
  one	
  principal	
  component	
  ⇒	
  likely	
  independent	
  transcrip)on

•   Assess	
  other	
  genomic	
  elements	
  with	
  high	
  sequence	
  similarity
     – Paralogs
     – Ambiguous,	
  unannotated	
  transcribed	
  regions

•   Set	
  up	
  a	
  web	
  service	
  to	
  provide	
  a	
  readout	
  about	
  transcrip)onal	
  ac)vity	
  for	
  a	
  set
    of	
  specified	
  genomic	
  regions


                                                                                                                          51
                        Addi)onal	
  projects	
  and	
  collabora)ons

The	
  1000	
  Genomes	
  Project
	
  -­‐	
  The	
  1000	
  Genomes	
  Project	
  Consor)um.	
  A	
  map	
  of	
  human	
  genome	
  varia)on	
  from	
  popula)on-­‐scale	
  sequencing.	
  Nature	
  (2010).
	
  -­‐	
  MacArthur	
  DG,	
  et	
  al.	
  A	
  systema)c	
  survey	
  of	
  loss-­‐of-­‐func)on	
  variants	
  in	
  human	
  protein-­‐coding	
  genes.	
  Science	
  (2012).
	
  -­‐	
  Balasubramanian	
  S,	
  et	
  al.	
  Gene	
  inac)va)on	
  and	
  its	
  implica)ons	
  for	
  annota)on	
  in	
  the	
  era	
  of	
  personal	
  genomics.	
  Genes	
  &	
  Development	
  (2011).
	
  -­‐	
  Khurana	
  E,	
  et	
  al.	
  Comparing	
  selec)ve	
  pressure	
  at	
  protein-­‐coding	
  sites	
  across	
  broad	
  evolu)onary	
  )me-­‐scales.	
  (in	
  prepara)on).


The	
  ENCODE	
  /	
  modENCODE	
  Consor2um	
  Project
	
  -­‐	
  Gerstein	
  MB,	
  et	
  al.	
  Integra)ve	
  Analysis	
  of	
  the	
  Caenorhabdi)s	
  elegans	
  Genome	
  by	
  the	
  modENCODE	
  Project.	
  Science	
  (2010).
	
  -­‐	
  The	
  ENCODE	
  Project	
  Consor)um.	
  A	
  User’s	
  Guide	
  to	
  the	
  Encyclopedia	
  of	
  DNA	
  Elements	
  (ENCODE).	
  PLoS	
  Biology	
  (2011).
	
  -­‐	
  Pei	
  B,	
  et	
  al.	
  The	
  GENCODE	
  Pseudogene	
  Resource:	
  Integra)on	
  of	
  Func)onal	
  Genomics	
  Evidence	
  Allows	
  Comprehensive	
  Annota)on	
  of	
  Par)al
	
  	
  	
  	
  Ac)vity.	
  Genome	
  Research	
  (submihed).
	
  -­‐	
  The	
  ENCODE	
  Project	
  Consor)um.	
  An	
  Integrated	
  Encyclopedia	
  of	
  DNA	
  Elements	
  in	
  the	
  Human	
  Genome.	
  Nature	
  (submihed).
	
  -­‐	
  Agarwal	
  A,	
  et	
  al.	
  Comparison	
  and	
  calibra)on	
  of	
  transcriptome	
  data	
  from	
  RNA-­‐Seq	
  and	
  )ling	
  arrays.	
  BMC	
  Genomics	
  (2010).
	
  -­‐	
  Du	
  J,	
  et	
  al.	
  IQSeq:	
  Integrated	
  Isoform	
  Quan)fica)on	
  Analysis	
  Based	
  on	
  Next-­‐Genera)on	
  Sequencing.	
  PLoS	
  ONE	
  (2012).

Collabora2ons
	
  -­‐	
  Lam	
  HYK,	
  et	
  al.	
  Performance	
  comparison	
  of	
  whole-­‐genome	
  sequencing	
  plaworms.	
  Nature	
  Biotechnology	
  (2012).
	
  -­‐	
  Chen	
  R,	
  et	
  al.	
  Personal	
  Omics	
  Profiling	
  Reveals	
  Dynamic	
  Molecular	
  and	
  Medical	
  Phenotypes.	
  Cell	
  (in	
  press).
	
  -­‐	
  Kasowski	
  M,	
  et	
  al.	
  Varia)on	
  in	
  Transcrip)on	
  Factor	
  Binding	
  Among	
  Humans.	
  Science	
  (2010).
	
  -­‐	
  Berger	
  MF,	
  et	
  al.	
  The	
  genomic	
  complexity	
  of	
  primary	
  human	
  prostate	
  cancer.	
  Nature	
  (2011).
	
  -­‐	
  Pflueger	
  D,	
  et	
  al.	
  Discovery	
  of	
  non-­‐ETS	
  gene	
  fusions	
  in	
  human	
  prostate	
  cancer	
  using	
  next-­‐genera)on	
  RNA	
  sequencing.	
  Genome	
  Research	
  (2011).




                                                                                                                                                                                                   52
                                         Acknowledgements
Gerstein	
  Lab	
  (Yale)                  Snyder	
  Lab	
  (Stanford)      Collaborators
	
  -­‐	
  Mark	
  Gerstein                	
  -­‐	
  Michael	
  Snyder     	
  -­‐	
  Mark	
  Rubin
	
  -­‐	
  Joel	
  Rozowsky                	
  -­‐	
  Jiaqian	
  Wu         	
  -­‐	
  Francesca	
  Demichelis
	
  -­‐	
  Suganthi	
  Balasubramanian     	
  -­‐	
  Maya	
  Kasowski      	
  -­‐	
  Dorothee	
  Pflueger
	
  -­‐	
  Raymond	
  Auerbach             	
  -­‐	
  Fabian	
  Grubert     	
  -­‐	
  Rachel	
  Harte
	
  -­‐	
  Pedro	
  Alves                                                   	
  -­‐	
  Jennifer	
  Harrow
	
  -­‐	
  Declan	
  Clarke                Disserta2on	
  commi^ee          	
  -­‐	
  Adam	
  Frankish
	
  -­‐	
  Arif	
  Harmanci                	
  -­‐	
  Hongyu	
  Zhao        	
  -­‐	
  Chris	
  Tyler-­‐Smith
	
  -­‐	
  David	
  Chen                   	
  -­‐	
  Sherman	
  Weissman   	
  -­‐	
  Daniel	
  MacArthur
	
  -­‐	
  Ekta	
  Khurana
	
  -­‐	
  Alexej	
  Abyzov                Former	
  lab	
  members         CBB
	
  -­‐	
  Roger	
  Alexander              	
  -­‐	
  Andrea	
  Sboner      	
  -­‐	
  Lisa	
  Sobel
	
  -­‐	
  Baikang	
  Pei                  	
  -­‐	
  Jiang	
  Du           	
  -­‐	
  Taiwo	
  Togun
	
  -­‐	
  Cris)na	
  Sisu                 	
  -­‐	
  Hugo	
  Lam
	
  -­‐	
  Jing	
  Leng                    	
  -­‐	
  Ashish	
  Agarwal
	
  -­‐	
  Rob	
  Kitchen                  	
  -­‐	
  David	
  Koppstein
	
  -­‐	
  Rebecca	
  Robiloho             	
  -­‐	
  Jan	
  Korbel
	
  -­‐	
  Mihali	
  Felipe                	
  -­‐	
  Tara	
  Gianoulis
	
  -­‐	
  Anne	
  Nicotra
                                                                                                        53
	
  -­‐	
  Gerstein	
  lab
Special	
  thanks	
  to	
  my	
  family!




                                           54
Special	
  thanks	
  to	
  my	
  parents	
  and	
  siblings!




                                                               55
Special	
  thanks	
  to	
  my	
  lovely	
  wife,	
  Sarah!




                                                             56
57
Appendix



           58
TMPRSS2-­‐ERG:	
  Valida)on	
  of	
  a	
  minor
            breakpoint




                                                                                           59
            Sboner	
  A*,	
  Habegger	
  L*,	
  et	
  al.	
  Genome	
  Biology	
  (2010)
   Ability	
  to	
  detect	
  gene	
  fusions	
  as	
  func)on	
  of
                       sequencing	
  depth




                                                                               60
Sboner	
  A*,	
  Habegger	
  L*,	
  et	
  al.	
  Genome	
  Biology	
  (2010)
Filtra)on	
  cascade:	
  Removal	
  of	
  spurious	
  fusions




                                                                                61
 Sboner	
  A*,	
  Habegger	
  L*,	
  et	
  al.	
  Genome	
  Biology	
  (2010)
                             Scoring	
  of	
  the	
  fusion	
  candidates
•      Fusion	
  candidates	
  are	
  scored	
  to	
  priori)ze	
  their	
  experimental	
  valida)on

•      Suppor)ve	
  PE	
  Reads	
  (SPER)
        – Number	
  of	
  inter-­‐transcript	
  reads	
  normalized	
  by	
  total	
  number	
  of	
  mapped	
  reads

•      Difference	
  between	
  the	
  observed	
  and	
  analy)cally	
  expected	
  SPER	
  (DASPER)




•      Ra)o	
  of	
  SPER	
  (RESPER)

                                                                               where M is the total number of fusion candidates




                                                                                                                                  62
Sboner	
  A*,	
  Habegger	
  L*,	
  et	
  al.	
  Genome	
  Biology	
  (2010)
                                    Summary	
  of	
  mapped	
  RNA-­‐Seq	
  reads




                                                                                    63
Wu	
  J*,	
  Habegger	
  L*,	
  et	
  al.	
  PNAS	
  (2010)

								
To top