自适应确定摘要长度

Document Sample
自适应确定摘要长度 Powered By Docstoc
					       41             3˘                                            …˘ ¸ª »œ — ¿ º •¢ „                                                Vol141 ,No13
     2004 ˜Œ 3 ´                  J OU RNAL OF COM PU TER RESEARCH AND D EV ELOPM EN T                                                  Mar1 2004




˚˚ƒ¨•¶¤““‡⁄¶¨



        ”       ¨´‰
˝ı‰¤»Æ ¡¡ œ¸•¢ ¡¡
( ‚·'·§…˘¸ª»œº—¯ˇ¢……˚ıˇ ¡¡ ¡¡
                         ˇ”£                             200433)
( wangjh888 @citiz1 net )


        “
     “ ¡¡ ¡¡     ¸¯—¯ˇ¢……˚ı˜•¢„”˝—¯ˇ¢`¿˜·`¿¶                              ,Ƈ`¸”¶¶fl““˜¸ª•¤               1       ∏       √ ∂◊       • √
                                                                                                                                   ,¶…—»‚„†˝‹
          ¡¡ ““˜‡⁄¶¨ø—Ł˚´ˇ¨‚ł¶¤
     ˜ˇˇ ¡“““                                           1      ≈∂ ,˚…˚˜˙Ø¿˚˙      ,¸¯—¯ˇ¢ø–˜†»˝‹         ,‚ˆ—¯ˇ¢ø–¸ø”‹˜—¯ˇ¢`¿†˚˙†»˝‹
     ˜ 1                   ≠≈           ¬•× ≥                   ±      √    …
                                                                    ,†»†œœ—¯ˇ¢¨           ,˝“˙‚ø—¯ˇ¢ø–                  ,¶fl‹¨•¶¤º‚ˆø–—¯ˇ¢
     `¿ˇ˚˚ƒ˜‰Æ„ß““‡⁄¶¨                  1       × ,Ƈ`¸»˚˚ƒ†»˝‹ø–˜ ¡¢
                                                                    ¶fl‹¨•¶¤““‡⁄¶¨˜¸ª•¤                                  ,·ø–—›—‰¥‰ł
     ‡Ø¨¡‡˘¸ø”‹˜¸ø—                             ,—'˜…fl”ˇ„„‡`¸‚ˆ—¯ˇ¢ø–˜¸…ˇº                               1   ≈ ,‚ø ˜˚`¿¨•¶¤““
     ˜‡⁄¶¨      ,…¨¨«ˆ•·‡`¸—¯ˇ¢ø–˜˜¨                           ,†»»Æ†œœ—¯ˇ¢¨         1       ,»„Ƈ`¸—´˜»¥˜£—˝               ,˚„ˆ‚ˆ˜£—˝¿˚„˙—
     ·˚˜‰Æ„߉ˇ˛“…¨•             ,†¢¿——§‰˛‹             ,·¶ł·•ø¶¨…ı““‡⁄¶¨¨•¶¤¸ª•¤—˜…˘¸ª`¿                     1

     ≠¬… ×             ∂ ∏      ;»¥         ;““‡⁄¶¨     ; N2gram

     —˝…•¤•”¯ ¡¡             TP391



Determining the Length of Textual Summarization Adaptively

WAN G Jian2Hui , HU Yun2Fa , and L I Rong2L u
( Depart ment of Com puti ng and Inf orm ation Technology , Fudan U niversity , S hanghai 200433)


     Abstract ¡¡ Wit h t he continuing growt h of t he information and t he information technology , many algorit hms
     of automatically summarising text s are put forward , all of which need to predetermine t he lengt h of summa2
     rization1 But t he number of subtopics in one document is different f rom t hat in ot hers1 In order to express
     one document at lengt h wit hout any information redundance , a new algorit hm to determine t he lengt h of
     summarization adaptively and automatically is offered1 Furt hermore , a new module of mut ual dependence is
     brought out 1 By using t he new algorit hm and t he new module , t he lengt h of summarization can be deter2
     mined adaptively to different text s , t he dimension of t he vector space can be reduced , t he computational
     complexity can decline , and t he precision of summarization can be increased1

     Key words ¡¡ automatic summarization ; mut ual dependence ; lengt h of summarization ; N 2gram


                                                                                     ¶fl˛˜““·                 [1 ]
                                                                                                                     ,Ƈ`¸”¶““•‰•¤            1∏
1 ¡¡¡¡¡¡                                             • • × √                     •√ ,»˚˙»ø ‰˜•‰
                                                                                  3
                                                        [ 2 ,3 ]                            [ 4 ,5 ]
                                                     •¤          ,»˚˙»ø˝‡…˘˜•‰•¤                     ,»„—»˚˙˙
     ˆ¿¶…—·`¿—¯ˇ¢˜¿ˇ        ,˛“`¸Æ‚—§´˚     ,¶˛˜     `‰˜¨”ˇ           [ 6 ,7 ]
                                                                              1
‰ł——““˜“˙¨˘¨˙—            1    ≠      ∂          … •               ∏           √ ∂◊     ∂ ∏           • • √
                                                                                                     ,·¶˚¶…˚˙†
∏ ,˝¿¿¸ ¡¢˙Ƹ`¸‰›˛˜               ,¶ł˛—º¨¥˝¤¶`       ˆ“˜•‰•¤                                   ¡¡ ““
                                                                            ,¶ł˙¶…—»‚„†˝‹˜ˇˇ ¡“““
¨«˛˜ ,·¶ł‰…`¸–ƒ„˜˚–…”˝«`ƒ          1        ≈        ˜‡⁄¶¨ø—Ł˚´ˇ¨‚ł¶¤               1 ≈∂ ,˚…˚˜˙Ø¿˚˙         ,¸¯—¯
          •   ∏ 20 ˚…˝ 50 ˜Œ·œ L uhn ¿“˚…—¿
              ,                                      ˇ¢ø–˜†»˝‹              ,‚ˆ—¯ˇ¢ø–¸ø”‹˜—¯ˇ¢`¿†˚˙†»

¡¡˚‚¨˘          :2002 - 12 - 03 ;—»¨˘        :2003 - 06 - 11
¡¡ »ø‰ˇ˜¿       :„œ…¨»¿˘§»ø‰ˇ˜¿               (60173027)
¡¡


           © 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
   400                                                            …˘ ¸ª »œ — ¿ º •¢ „                                                                                  2004 ˜Œ


     1             ≠≈                      ¬•× ≥           ±                              √
                                                                                     ¶fl‹¨•¶¤““‡⁄¶¨˜—¿—˛·…ß—–¤                                                       ,˛˜ˇ      [ 11 ]
      ,†»†œœ—¯ˇ¢¨                       ,˝“˙‚ø —¯ˇ¢ø                                 »´`—`¸““‡⁄¶¨º““‰Æ„ß—˜˜„ˇ                                                                ,«˚˙
– ,¶fl‹¨•¶¤‰Æ„ß““˜‡⁄¶¨                         1     × ,–˛˜Æ‡`¸                       †¢ˆ»—‚ł‡¨•¶¤…““‡⁄¶¨˜¸ª•¤                                         1∂ ±                              ≥
»¶fl‹¨•¶¤““‡⁄¶¨˜¸ª•¤                           ,· ø–—›—                                 ∂        •∂ ∏                           ≥⁄∂                •
                                                                                                                                            ,· ø–—›—‰¥
‰¥‰ł‡Ø¨¡‡˘¸ø”‹˜¸ø—                                    ,—'                            ‰ł‡Ø¨¡‡˘¸ø”‹˜¸ø—                                               ,‚ø
˜…fl”ˇ„„‡`¸‚ˆ—¯ˇ¢ø–˜ ¸…ˇº                   ≈ , ‚ø           1                        ˜˚`¿¨•¶¤““˜‡⁄¶¨                         1     ,˛“`¸…ı ““‡⁄¶¨
˜˚`¿¨•¶¤““˜‡⁄¶¨                   1      ,˛“`¸…ı                                     ¨•¶¤¸ª•¤—˜…˘¸ª`¿                     ,†ˆ–˛˜Æ‡˜»¥ ˜£—˝
““‡⁄¶¨¨•¶¤¸ª•¤—˜…˘¸ª`¿          ,–˛˜Æ‡`¸—´˜»¥                                        ¶›˛˜‰ł——⁄·ƒ                        ,‰ˇ˛“…¨•¶ł——§‰˛‹         ,˚„”—ł
˜£—˝        ,‰«˘ˆ˙—·˚     ,¿‰ˇ˛“…¨•¶ł——§‰                                            ¸ª•¤˜…˘¸ª`¿·˛“…ı                       1
˛‹ ,†¢˚„”—ł¸ª•¤˜…˘¸ª`¿·•ø¶¨…ı         1
      ±            ≠≠ : 2 ‰‰«–˛˜¸ø˚„⁄º„œ                                                »
                                                                                     3 ¡¡ ¥˜£—˝
˜˝˝‹„⁄‰ł——–¨‰ˇ ¡¢ •˛        ,†¢´˚–˛˜„⁄˜··
—´ª ;       3 ‰— ,Ƈ—´˜»¥ ˜£—˝            ; 4 ‰†ß                                             ˙—·˚˚˙¶fl““„⁄—»‚‰ˇ˛““˜†‰Ł                                                              1
˚˚˚ƒø–˜““‡⁄¶¨¶fl¨•¶¤¸ª•¤                        ;                                             ≠   ×       ≠                                  … •
                                                                                                                                        ,˝‹˚– ,…ı”—ł„⁄˜
5 ‰‰«–˛˜Æ‡˜»¥˜£—˝”˝¶fl““‡⁄¶¨¨•¶¤                                                      …˘¸ª`¿ ,–˛˜Æ‡`¸»¥˜£—˝                                     ,‰«˘º                N 2gram ˇ
¸ª•¤ƒˆ—˛˜˛˜““                            ,†¢¶—˜‰ł——˘„                   ;”           ‰Æ”ˇ·›—‰¥‰ł˙—·˚ 1               1 •¶fl¨•¶¤
                                                                                                                       (
˚˙‰Æ´…‰æ”˜„⁄                        1       ≠                           ,»¡ ≠ √      ““‡⁄¶¨˜¸ª•¤ ) ˜†‰Ł 1 — ,‰«ˇŒˇ‚ˆŁ˚–˛˜Æ‡
ˆ`¸—˛˜˛˜˛“ƒˆ˚˜`ˇ                                        ,«˚˙–˛˜¸øÆ                   ˜˙—·˚¸ª•¤ 1             ≈∞     1    ≤
‡˜ “ “ ‡⁄ ¶¨ ¶fl ¨• ¶¤ ¸ª •¤ ¶ ˘ ¸ß † ˝‹ ø                                                 ∂  ∑1 ≈∞
                                                                                             1        ( mut ual dependence , MD) 1 ∂
˚˚ˆ 1                                                                                    ∑ ÷±   ƒ√ ƒ √ …         ≈∞
                                                                                          M D (ƒ ,ƒ˙ ) = [ F ( s ) ¡` L - F (ƒ ) ¡` F (ƒ˙ ) ] ¡`
   –
2 ¡¡ ˛˜„⁄ºˇ„„⁄                                                                                                                                   1/ L
                                                                                                                                                        2
                                                                                                                 F ( s ) ¡` L
                                                                                                        log                                                 ,                   ( 1)
                                                                                                             F( ƒ ) ¡` F (ƒ˙ )
         ˙—·˚˚˙ ¶fl““—¿` ‰ˇ˛“ “˜—¿˜                                                   ˘—        ,F (ƒ ) ”˝ F (ƒ˙ ) ˚˙`‰‚–`¿‡ˇ˜˘´˚                                            , F ( s)
¨ 1          ×        • • × √                   •√      ,»˚˙»ø˝‡ ◊
                                                             ×                       ˚˙`‰‚–`¿„†ˇ˜˘´˚                           , L ˚˙ø–‡⁄¶¨                     1
…˘˜•‰•¤ ,»˚˙»ø ˜•‰•¤                   1∏    √√•     [ 8¡« 10 ]
                                                                                                   ±       M D ˜£—˝ƒˆ¶fl““˚–                                     , ¸ø——'˘
• ÷        ±,»ø˝‡…˘˜•‰•¤        ,†»ˆ‰¤`¢    ,·                                       ´˚ø·—Ł“““˜˛˜—–‰»æˆ                                            1∏
¶łº`˛„      ,«˚˙«¶¨˝       ;»ø˜•‰•¤…¨•—                                                     :˚ˇ¨       ,†»—Ł“§‡                      ;˘·˛      ,¸ø˙—‡˜·˚–‰·
‚ ,«˚˙—Ł“‰¤`¢        ,˙º`ˇ„          1∂   ±                                          ‚ˆ˛˜               ,˚„ˆ“˚¶–·‚……¨•                            ;                 , ¥˘“
∏      ≥⁄∂  ∂ •∂          • √
                          ,Ƈ`¸»ø»¥ ˜˙—                                              ˛˜˜—¯ˇ¢`¿˚˙—ˇ˜                            ,¸ø          ,˙—ˆ˜·˚˜˚`¿†
·˚¸ª•¤       ,†ˆ`¸–˛˜Æ‡˜»¥ ˜£—˝                                 ,º    N 2gram
                                                                                     ˚˙—ˇ˜              ,·¶ł–£⁄ˇ`¿¿…˜˛‹˚†»»Æ„‚                                                      1
ˇ‰Æ”ˇ ,‰ł——›—‰¥‰ł ˙—·˚        1                        ◊∂        √                                                        √
                                                                                                                      • , —Ł“                 M D ˜¨¡ •¶˛§                      , ¨•
×     • ,–˛˜Æ‡˜˙—·˚¸ª•¤    :˘»                         ,‰ˇ˛“…¨•¶ł—                   ¶¤ˇ„†˛˚                 ,˛“·¸ ,¨º¶¤                11
—§‰˛‹ ,˚„”—ł¸ª•¤˜…˘¸ª`¿ˆ·`¿…ı                                    ,˙˛                          ∂         11 ≈∞                           √ 1 •∂ ÷ ± ƒ√ ƒ
—º¨˛”˛”˝`•ø–˜§‡             ;˘¶                         ,‰« N 2gram ”˝                                                                 1
–˛˜Æ‡˜»¥˜£—˝ˇ‰Æ”ˇ                               ,‰ł——›—‰¥‰ł˜
                                                                                     √ … ≈∞                                     √[ 0•∂ ¡` log L ) , ˘— L ˚˙
                                                                                                                                     ,
                                                                                                                                       4
˙—·˚ ,…¨˝`¸`…˚ł                         ,‰ˇ·Æ‚`¸˙—·˚˜…                               ø–‡⁄¶¨            1
¨•— 1                                                                                         √⁄       1
         ∏             •            ∂ ∏                                  ∫      ≈÷       √¬ √⁄                       ≈∞          1 ∫    ±                           ÷ ± ƒ√
                  1        ,¨ˇ¸ø˚           ,¶˜¶fl““•‰                                ƒ √ …                                   ±
                                                                                                                      ∂ ,¸ˆ˙fi…˜»¥„`“——¡                                ,†˝
•¤— ,¶…—»‚„†˝‹˜ˇˇ ¡“““
                   ¡¡ ““˜‡⁄¶¨ø—Ł˚´                                                   ˚˙»¥                  M D —¡        ,¸ø        , –`‰‚–`¿                   ƒ ”˝ ƒ˙ fi…

ˇ¨‚ł¶¤ 1          ∫∂ ,˛“`¸˜„»¨«ˆ •·‡—¯ˇ¢ø–˜¸ø                                        ˝Œ¨«¶`¢˚–               , ¸ˆ˙fi…˜»¥ ¨¡ˆˇ´ˇ                                             1÷
—˜¨                    ,†»†œœ—¯ˇ¢¨        ,˝“˙‚ø                                     ÷                     , ·¸ ˚–    , `‰ ‚ – `¿           ƒ ”˝ ƒ˙ ‡ ˇ ˜ ‚¯ ´˚

—¯ˇ¢ø–           ,¶fl‹¨•¶¤‰Æ„ß““˜‡⁄¶¨            1                       °„
                                                                        ,               p (ƒ ) , p (ƒ˙ ) º˘„†ˇ˜‚¯´˚                          p (ƒ ,ƒ˙ ) = p ( s ) fi…

         © 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
    ¡¡ 3 ˘                                                   ˝ı‰¤»Æ¨    :˚˚ƒ¨•¶¤““‡⁄¶¨                                                                                                401


                                                                                                            ,`‰‚–`¿                  ƒ ”˝ ƒ˙ fi…»¥˜¨¡•¶

               p (ƒ ,ƒ˙ ) = p ( s ) = p (ƒ ) ¡` p (ƒ˙ ) ,               ( 2)                         1
                                                                                 ˛§˛“ [ 0 ,            ¡`log L ) 1                                                                    √⁄± 1
…·                                                                                                   4
               F ( s ) / L = ( F (ƒ ) / L ) ¡` ( F (ƒ˙ ) / L ) ,                                        ∂ 1 ”˝ø–‡⁄¶¨                                       L , ˝¿—º¶
                                                                                 —¨•¶¤»¥˜ˇ‰†˛˚                                                   ƒ   1 ”˝ˇ´‰†˛˚                  ƒ 21           ≈∞
ˆ
                  F ( s ) ¡` L - F (ƒ ) ¡` F (ƒ˙ ) = 0 ,                                                              ƒ    1 ”˝ˇ´‰†˛˚                    ƒ 2 ˜¨•¶¤              , ¶˙—
˙                                                                                ·˚˜…¨•—”˝‰˛‹˜—§„ß—»¶¤˜ˇ                                                                1
       { F ( s ) / L } / { ( F (ƒ ) / L ) ¡` ( F (ƒ˙ ) / L ) } = 1 ,
¸ø                                                                                   ¶fl¨•¶¤““‡⁄¶¨
                                                                                  4 ¡¡
    M D (ƒ ,ƒ˙ ) min      = [ F ( s ) ¡` L - F (ƒ ) ¡` F (ƒ˙ ) ] ¡`
                                       1/ L
                                               2                                           ¶fl¨•¶¤““‡⁄¶¨˜¸ª•¤—                                                  , ‰«ˆ‰»—'‚¯
                     F ( s ) ¡` L
             log                                   = 0 ¡` log1 = 01              ˜”˝•ß”¯                  ,·¸‚ł‡—'‚¯˜˜¶¤”˝•ß”¯¸ˆ                                                            ,
                 F (ƒ ) ¡` F (ƒ˙ )
                        ×
                     , ⁄ˆ»¥ ˜ˇˇ                      1   ∫        ±    ÷ ±       ”—ł„⁄—‰«ˆ—'‚¯˜”˝•ß”¯                                                          ,†»¸ˆ                 1
ƒ√           ƒ √ …                                                                         ∂          ∑1
                                                                                                      2           ∂ ° ≠                          …°                         1               ∫
                                                  ±
                                     ◊≈∞ , ¸ˆ˙fi…˜»¥„`“—
                                                                                                                                                                    d
·     ,†˝˚˙»¥                     MD ·        , ¸ø , –`‰‚–`¿      ƒ                 ∏…                             d ,ø–•†…˜˙ł˛“                                  ¡˙ [ 0 , D i ] ,·
                                                                                                                                                                i =1
”˝ ƒ˙ fi…˝Œ¨«ˇ»¥˚–                       , ¸ˆ˙fi…˜»¥¨¡ˆ
                                                                                  D k / ƒ˛ ( ß˚             ƒ˛ > 0) ˜…‚‰«ˇ`¿¿…˜ˆ¿»˛‹                                                     k (1
ˇˇ             1÷       ÷          ,·¸˚– ,`‰‚–`¿       ƒ ”˝ ƒ˙ ‡ˇ
                                                                                  ¡ k ¡ d ) •‚‡                       ƒ˛ ¨•             , ß‚ˇ`¿¿…–»•‚‡
˜‚¯´˚           p (ƒ ) , p (ƒ˙ ) º˘„†ˇ˜‚¯´˚                    p (ƒ ,ƒ˙ ) =                                                                  d

    p ( s ) fi…˜„ˇ˛“                                                              ƒ˛ d‚—¡¥“                  1         Cou nt ( ¡˙ [ x i , x i ]) ˛“˝¶
                                                                                                                                                     1     2
                                                                                                                                                                                                d
                                                                                                                                         i =1

               p (ƒ ,ƒ˙ ) = p ( s ) = p (ƒ ) = p (ƒ˙ ) ,                ( 3)                                               d
                                                                                                                                         1       2
                                                                                 ˛‹ˇ`¿¿…˙ł                                ¡˙ [ x i , x i ]˜˜ø–˚                              , ¨¡…˘˚
…·                                                                                                                        i =1
                                                                                                                                                                             d
                 F ( s ) / L = F (ƒ ) / L = F (ƒ˙ ) / L ,
                                                                                 ˇ´ˇ˛“                    ƒ˜1 ∂            ∑                                    …                     [ D∫i ,
                                                                                                                                                                                         L
ˆ                                                                                                                                                                           i =1


             F ( s ) ¡` L - ( F (ƒ ) / L ) ¡` ( F (ƒ˙ ) / L ) =                   D U ]˛“ d ˛‹ˇ`¿¿…ˇ˜»‚˝¶‰„ª˙ł
                                                                                    i                                                                                        :
                                                                                                                                                                                 d
                                                  2
                       F (ƒ ) / L - ( F (ƒ ) / L ) ,                                           ¢ ¶¨˛˜
                                                                                                                                                                       L
                                                                                                                                 x = ( x 1 , x 2 , ¡› , x d ) ¡˚ ¡˙ [ D i ,
                                                                                                                                                                             i =1
˙
                                                                                                                                             d

    { F ( s) / L } / { ( F (ƒ ) / L ) ¡` ( F (ƒ˙ ) / L ) } = L / F (ƒ ) ,
                                                                                    U
                                                                                  D i - D i / ƒ˛ ] ,— Cou nt ( ¡˙ [ x i , x i + D i / ƒ˛ ]) ¡ ƒ˜ ;
                                                                                                                                         i =1
¸ø                                                                                                                                                  L
                                                                                               ¢¶                x = ( x 1 , x 2 , ¡› , x d ) ¡˚ [ D i - 2 D i / ƒ˛ ,
    M D (ƒ ,ƒ˙ ) min = [ F ( s ) ¡` L - F (ƒ ) ¡` F (ƒ˙ ) ] ¡`                                                            d

                                    1/ L
                                           2                                      DL - D i / ƒ˛ ] ¡⁄
                                                                                   i                                      ¡˙            [ DL , D U ] ( 1 ¡ i ¡ d ) , —
                                                                                                                                           j     j
              F ( s ) ¡` L                                                                                       ( j = 1) & ( j ¡ i)
    ¡¡log                                      = [ F ( s) / L -
          F (ƒ ) ¡` F (ƒ˙ )                                                                           d

                                                                                  Cou nt ( ¡˙ [ x i , x i + D i / ƒ˛ ]) < ƒ˜ ;
    ¡¡ ( F (ƒ ) / L ) ¡` ( F (ƒ˙ ) / L ) ] ¡` log{ { F ( s ) / L } /                                 i =1
                                                                                                                                                    U     U
                                                                                               ¢¶                x = ( x 1 , x 2 , ¡› , x d ) ¡˚ [ D i , D i + D i /
    ¡¡{ ( F (ƒ ) / L ) ¡` ( F (ƒ˙ ) / L ) } } = [ F (ƒ ) / L -                                        d

    ¡¡ ( F (ƒ ) / L ) 2 ] ¡` log{ L / F (ƒ ) } 1                                 ƒ˛ ] ¡⁄            ¡˙            [ D L , D U ] ( 1 ¡ i ¡ d ) , — Cou nt
                                                                                                                      j     j
                                                                                           ( j = 1) & ( j ¡ i)
      ƒ = F (ƒ ) / L ,                                                                     d

                                                                                  ( [ ¡˙            x i , x i + D i / ƒ˛ ]) < ƒ˜1
                                                                                         i =1
                                  2
       M D (ƒ ,ƒ˙ ) max = [ƒ` - ƒ` ] ¡` log{ L / F (ƒ ) } =                                         ¬
                                                                                                ◊ ƒ , ¶¤                   Di
                                                                                                                                 L
                                                                                                                                     ˛“˝¶ ‰„ª˙ł ˇ`¿˛‹                                    i ˇ
              1         1 2                                                      ˜ˇ´‰               , ¶¤          Di  U
                                                                                                                                                                                     i ˇ˜
       ¡¡ [     - (ƒ` -   ) ] ¡` log{ L / F (ƒ ) } <                                                                       ˛“˝¶ ‰„ª˙ł ˇ`¿˛‹
              4         2
                                                                                 ˇ‰ 1
          1
       ¡¡   ¡` log{ L / F (ƒ ) } 1                                                         ∂ ∑1 √ 1 ≈
                                                                                             3                                                           ∏              √        …                   ≈
          4
                                                     1                                         ≥, ¶¤»‚“ª˛“»‚                                                                1 …× ≈
              F (ƒ ) ¡ 1 ,¸ø      M D (ƒ ,ƒ˙ ) max < 4 ¡`log L 1                         ∏ √               √                                     ≠≠≥            ÷             ∏1   √                 …

             © 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
      402                                                                                       …˘ ¸ª »œ — ¿ º •¢ „                                                                                                                       2004 ˜Œ


                     41 ∏                       1
                                              ≥⁄∂                   √ ∂◊                   ∂ ∏                              • , • √ ‚ø˚`¿·¨•¶¤““‡⁄¶¨                                                                       1          ,×
                                                                                                                                                                                                                                       ¨”˛‚—§
· ¶˚¶…˚˙†ˆ“˜•‰•¤                                                    1                                             •                      ±
                                                                                                                                         ƨ¡‡›˛˜˜                                                  ,‰«˚˙¸ª•¤˜„…                       1
      ,¶¤““‡⁄¶¨˛“‚ˆ““¸ø”‹˜˚`¿                                                                                     ,¶ł†»                      ∂    ∑1
                                                                                                                                                  5                            √               1
                                                                                                                                                                                            •√ … ∫                     ∏… , ¨»‚
                                                                                                                                                                                                                            √
˚˙˚          1                                                                                                                                 `‹—ł˙—¡˜¿…˙ł
                                                                                                                                         ¸ø—˜ ¡¢                                                                                      ,‡˘˛“‚ˆ
                 ×                  ≠∂ ∏                                ׃                                                 ∏                ≠
                                                                                                                                         ˜•†…                          1
         ∂…                             •√√¬                    , ¸ø         °, –˛˜†ˆ—´˜ ¡¢ø
                                                                                          »                                                          ±                 • ,»‚˜¸ø—¨„ß
                                                                                                                                                                          √                                                                     k ˛‹
–˛˜Æ‡˜                            M D ˜£—˝˜˙—·˚¸ª•¤                                    , `ƒ˙˙—·˚…                                        ˇ`¿¿…ˇ•†…˚˙…fl—˜                                                      , ˜˙ˆ·˘                 k - 1 ˛‹ˇ
    ——§‰˛‹
¨• ¡¢                       ,·¶łÆ‚““·ƒ˜˚–¿—§´˚”˝““                                                                                       `¿¿…ˇ˜•†…†˚˙…fl—˜                                                      1
‰Æ„ߘ—˜ 1                                                                                                                                            ∂             ∑1
                                                                                                                                                                   6           √            •√ …                       ∞1             ∫      ∏…
         ∂                              N 2gram •‰•¤˙—·˚ , ¨¥ ‰ˇ‚˘
                                                                                                                                                                                                                   d

                                                                                                                                                             d ,ø–•†…˜˙ł˛“                                      ¡˙ [ 0 , D i ] , ·           D k / ƒ˛
”˝‰ˇ˝˘˜·˚                     , †¢ „                                 1 , ˇß‡¨ ·˚                          , ˆ‰·˚                                                                                                i =1


…fl U ( x ) = { x | x ¡˚ U j2gram , 1 ¡ j ¡ n} ( U j2gram ˚˙›                                                                              ( ß˚           ƒ˛ > 0) ˜…‚‰«ˇ`¿¿…˜ˆ¿»˛‹                                                     k (1 ¡ k ¡

˛˜—‡⁄¶¨˛“                   j ˜·˚           , n ˛“ N 2gram ˜··˚‡⁄                                                 , ˛“                    d) •‚‡                   ƒ˛ ¨•           1∂                                          ∏ , q (1 ¡ p ¡
                                                                                                                                                                                                                               p
                                                                                                                                                                                                    p
—˛˜·˚˜˘‰ø‡⁄¶¨˛“                                             1183        [ 12 ]
                                                                                 , ¸ø »ª¨¡                                 n =            d , 1 ¡ q ¡ d ) ,¨¡ D p = ¡˙ [ D ip , D ip ]˛“»
                                                                                                                                                                                                                   L           U

4) 1             M D ˜£—˝·¯—¶ˇ                                  U ( x ) —·˚fi…˜»¥„                                                                                                                  i =1
                                                                                                                                                                                                                                q
`“— ,ˇ¨·                  n2gram ·˚¿“˚…·ƒ                                 ,¨»”·ƒ                     ( n - 1) -                                  p ˛‹ˇ`¿¿…ˇ˜•†…                                               , D q = ¡˙ [ D L , D U ]
                                                                                                                                                                                                                             iq    iq

                                                                             1 2gram1                         ׃ i2
                                                                                                                                                                                                                               i =1
gram ,›—‰¥‰ł ,…—ł·ƒ                                             , –‰
                                                                                                                                         ˛“‚ˆ                                 q ˛‹ˇ`¿¿…ˇ˜•†…                                          , ¨¡…˘˚ˇ´
gram ·˚˚– , j2gram ( 0 < j < i ) ˜·˚››„…ı                                                                                  ,·
                                                                                                                                         ˇ˛“               ƒ˜ 1
¶ł…ı…˘¸ª`¿                    ,†¢˙˚„ˆ”ˆ˙—·˚‚˛“«¨•                                                         1
                                                                                                                                                         ± p ¡ q ˚– ,¨„ß
         ≠       ∫ 11             ≥                     1
                                                       ◊×                              ÷ 2gram ˇ
                                                                                       N                                        ti
                                                                                                                                                      ¢¶ ¨˛ ˜                                x = ( x 1 , x 2 , ¡› , x q ) ¡˚ D q , —
”˝    t j ,´œª         ti = tj        ˙      score ( t i ) = score ( t j ) ,                                  ti      ”˝        tj                                 q

——»‚˚˙¨˜                                    , »—Ł¨¡                  t i 1 score ( ¡⁄) –˚¶                                  N2            Cou nt ( ¡˙ [ x i , x i + D i / ƒ˛ ]) ¡ ƒ˜ ;
                                                                                                                                                              i =1
gram ˇ˜˘•                        ,»ª¨¡‚ˆ                        N 2gram ˇ‡ˇ˜˘´˚                                            1                                                                                   L
                                                                                                                                                      ¢¶                    x = ( x 1 , x 2 , ¡› , x q ) ¡˚ [ D iq - 2 D i / ƒ˛ ,
         ∂           i2gram ·˚                   xi   ¡˚    U ( x ) ( 2 ¡ i ¡ n ) , ‰«˘•                                                                                             q
                                                                                                                                            L                                                             L            U
‚‡‡⁄¶¨˛“                    j ( 1 ¡ j < i ) ˜·˚
                                                                          j
                                                                        x i ”˝‡⁄¶¨˛“                     k( i - j ¡                       D iq - D i / ƒ˛ ]¡⁄                       ¡˙             [ D jq , D jq ] ( 1 ¡ i ¡ q ) , —
                                                                                                                                                                            ( j = 1 ) & ( j ¡ i)

                          x k1              ≠ x ji                                    xk
                                                                                                                                                                   q
k < i ) ˜·˚                 i                              ¡˚   U ( x) ˙               i    ¡˚       U ( x ) ,ƒ                 1
                                                                                                                                          Cou nt ( ¡˙ [ x i , x i + D i / ƒ˛ ]) < ƒ˜ ;
”˝    ƒ 2 ˛“¶¤                              1 ‚ł¶¤˜                  M D ˇ‰”˝ˇ´‰                                  ,                                           i =1
                                                                                                                                                                                                               U      U
˚‰       ( 1) …˘¸ª M D (                     j
                                            xi   ,
                                                       k
                                                      xi )      ,†¢¨ˇ´·ƒ                             :                                                ¢¶                    x = ( x 1 , x 2 , ¡› , x q ) ¡˚ [ D iq , D iq + D i /
                                                                                                                                                               q
                                             j         k                                    j                 k
         ¢¨„ß                M D ( x i , x i ) > ƒ 1 , ‰«                                  xi       ”˝     xi         ˜˘                 ƒ˛ ] ¡⁄                                L       U
                                                                                                                                                                             [ D jq , D jq ] ( 1 ¡ i ¡ q ) , — Cou nt
                                                                                                                                                             ¡˙
                                                                                                                                                     ( j = 1 ) & ( j ¡ i)
´˚…ı¨¥        xi     ˜˘´˚               ;                                                                                                        q

         ¢¨„ß                M D ( x ji , x k ) < ƒ
                                            i                           2 , ‰«         xi       ·         U ( x) —                        ( ¡˙ [ x i , x i + D i / ƒ˛ ]) < ƒ˜1
                                                                                                                                             i =1
‡        ;                                                                                                                                           ±¬
                                     j     k
         ¢¨„ß                M D ( x i , x i ) ‰Ø ƒ                          1 ¡« ƒ 2 fi…                  ,˛‹‡                                             ∂                                x = ( x 1 , x 2 , ¡› , x p ) ¡˚ D p , —
U ( x ) †»– 1                                                                                                                                                      p

                     ,‡             U ( x ) —‰ˇ‚˘”˝‰ˇ˝˘˜·˚                                                        , ˆ‰                    Cou nt ( ¡˙ [ x i , x i + D i / ƒ˛ ]) ¡ ƒ˜ ;
                                                                                                                                                              i =1

›˛˜——·˚˜·˚…fl                                               U ( x)1                                                                                    ¢¶
                                                                                                                                                                                                               L
                                                                                                                                                                            x = ( x 1 , x 2 , ¡› , x p ) ¡˚ [ D i p - 2 D i / ƒ˛ ,
         ±                                  ×                   •                                         , ”ˆ                                                                        p
                                                                                                                                            L                                                             L            U
˜ƒˆ—¿¿·‰                                               , ˛‹˚¿‰‰›—˛‹˚˜                                                                     D ip - D i / ƒ˛ ] ¡⁄                      ¡˙             [ D jp , D jp ] ( 1 ¡ i ¡ p ) , —
                                                                                                                                                                             ( j = 1) & ( j ¡ i)

415 % ,·¶ł¿·•ø¶¨Æ‚““·ƒ˜˚–¿—§´˚”˝                                                                                                                                   p

                                                                                                                                          Cou nt ( ¡˙ [ x i , x i + D i / ƒ˛ ]) < ƒ˜ ;
““‰Æ„ߘ—˜                           1                                                                                                                         i =1

         ±                    ≥              ∏                      ≥⁄∂           ∂        •∂                      •                 ≈           ∫ ¢¶                                                           U     U
                                                                                                                                                                            x = ( x 1 , x 2 , ¡› , x p ) ¡˚ [ D ip , D ip + D i /
     ∏… ,‰«›˛˜˜ ø–•¯‰ˇ˚˙—·˚¸ª•¤ˆ                                                                                                                               q
                                                                                                                                                                                 L      U
                                                                                                                                         ƒ˛ ] ¡⁄             ¡˙               [ D jp , D jp ] ( 1 ¡ i ¡ p ) , — Cou nt
‰˜·˚¸ø„„‡˜ˇ`¿¿…                                                      ,ƨ¡‡›˛˜˜                                                   ,                   ( j = 1) & ( j ¡ i)



         © 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
¡¡ 3 ˘                                                                          ˝ı‰¤»Æ¨             :˚˚ƒ¨•¶¤““‡⁄¶¨                                                                               403

       p
                                                                                                                  1                      ◊
                                                                                                                                   ≈× ¶…—Ł“‰ł——·`¿ ·œ˙˚`†˜¸
                                                                                                                                     ,
( ¡˙ [ x i , x i + D i / ƒ˛ ]) < ƒ˜1
      i =1                                                                                                     ¸ª 1∂           ,  EM —˜ M ¸¸ª—    ,…·`¿˜ˇ`¿¸
                 ∫≥ ÷                   √           d ˛‹ˇ`¿¿…ˇ˜•†… —                                           ¸ª 1            ,‰Æ”ˇ    EM ˜•‰•¤—§´˚«˝     1∂ ±
¥—               1                                                                                                  •            ≈            …       ÷×     ∂ ( d ¡⁄√≈
                                                                                                                                                                      n)
             ∂               21       √        •√ … ∞ 1           ≠ ≈÷                             √           ( d ˛“ˇ`¿¿…˜˛‹˚                          , n ˛“ø–˚               ) ,†ˆ–˛˜Æ‡
                                             …
                                          •√ k ( 2 ¡ k ¡ d , d ˛“ˇ`¿¿…˜˛‹                                      ˜˙—·˚¸ª•¤¿·•ø¶¨…ı—¡                                    d , ¶ł˙–˛˜Æ‡˜¸ª
˚ ) ˛‹ˇ`¿¿…ˇ˜»‚˝¶‰„ª˙ł˜                                                                ,˜˙ˆ·˘†                 •¤ 1 —¸ø…˜¶…˚˙–¨‰ˇ¸¸ª                                   , —§´˚‰ˇ‚ 1                      ,–
ƒ‚ˆ•†…                            k - 1 ˛‹ˇ`¿¿…ˇ˜»‚˝¶‰„ª                                                       ˛˜•¯˘œ          C ø‰Æ”ˇ                        EM ˜•‰•¤ , ¶ł†ˆ–˛˜Æ
˙ł˜        1                                                                                                   ‡˜˛‹›—‰¥‰ł˙‰˝¶‰„ª˙ł˜¸ª•¤                                                         1                   ∑
           √⁄            1                                                                                               ∂       •∂ ∏                   ≥⁄∂                 •
                                                                                                                                                                            :
                 ∫           ∂              ≈        ÷ ∂             , ˘ ˇ`¿¿…                                          ¸ª•¤    11         ∂       •∂ ∏                 ≥⁄∂                   •
                                                                                                                                                                                         ( ˛‹Æ¨¡
˜•†…˙ł˚˙—ˇ˜                                          1      ∫∂                                         •√ …•¤ ) 1
                                                                                                                                                                                   ; n2gram ˜
                         d
                                                                                                                                : » ˘“ · Æ ¨¡ “ “ ˜ ˛˜                                                          n
           ∫                     [ 0 , D i ]1                        ∫           ∏…                k (1 ≈
                     i =1                                                                                            ; M D ˜ˇ‰           ƒ    1 ”˝ˇ´‰          ƒ 2 ;˝¶…˘˚ˇ´ˇ                        ƒ˜ ;·˚
 ¡ k ¡ d ) ,·                      D k / ƒ˛ ˜…‚•‚‡                                                                                                ƒ˜ 2 1
                                                                         ƒ˛ ¨•         , ß‚ˇ                   ˘˜ˇ‰             ƒ˜1   ”˝ˇ´‰

`¿¿…–»•‚‡                               ƒ˛ d ‚—¡¥“             1                                                               ≥ : ““˜‡⁄¶¨                        L num ; ›˛˜—·˚˜˘
                     k ˛‹ˇ`¿¿…                       , »‚ ˜¸ø— ˇ                                               ´˚–       W ”˝›˛˜——·˚˜…fl”ˇ                                       U1
`¿ ,•†…»‚˝¶‰„ª˙ł˜                                                  ,‚˝¶‰„ª˙ł˚˙                                             √ 11 ≈∞              N 2gram ›—‰¥‰ł˙—·˚                                              :
»—'`‹»˘˜—¡¥“؇˜`“”ˇ˙ł                                                                 1÷           ∂       ∑            ( 1) I = 1 ; / 3 I ˚˙˛˜—˜¶`¨¡˛–Œ         3/
2 ,·ƒ—'—¡¥“—˜ ˚ø· …˘˚ˇ´ˇ                                                                                                ( 2) ¶`¨¡›˛˜—˛–Œ         I ·ƒ˜   W ord ( I ) ;
ƒ˜ , ˚ø–•†…ˆ…fl˙ł                                         , ˜˙ˆ·—'—¡¥“ˆ¿»ˇ                                               ( 3) ¯—¶ˇ W ord ( I ) ˚˙•æ˚˙——§˜                                   , ˚˙ , “
`¿˛‹ˇ˜˝¶†˚˙ø–•†…ˆ…fl˙ł                                                      1               ∏                   ∞
                                                                                                               †‰Ł 1        ( 4) †‰;•æ    I = I + 1 ,“†‰Ł 1           ( 2) †‰ ;
                                             ≈
                                            ,˜˙ˆ·        ,¸ˆ˙ˇ`¿˛‹ˇ˜˝¶†                                             ( 4) ˘´˚–          W —†Ø        W ord ( I ) , ¨·        , ‰«
ƒ‚ˆ˚˙`‹‰»˘˜                                     1           k - 1 ‚ˇ`¿˛‹ˇ`‹—ł˜                                  W ord ( I ) ˜˘´˚       1 , ·»    W ; •æ ,          W —‰¤»
˝¶ˆ…fl˙ł                          , ‰»Ø‡              k - 1 ˛‹¿…˙ł                      , ˘˜˜—¡                 ‚—´…˙´… ,„…·˚˛“          W ord ( I ) ,˘´˚˛“         1;
¥“–¨»¨«†¿¶…˚˙˝¶ˆ…fl˙ł                                                 , ˙`‹—ł•†…            1       ∫∂ ,                 ( 5) For J = 2 To n
‚˜¸ø—ˇ`¿                                                             k - 1 ˛‹ˇ`¿¿…                                                · ›˛˜—`‹—ł¶`¨¡·˛–Œ–˙˛»ˆ¿“˚…
ˇ˜˝¶                      ,–¨»†•†…»‚ø–•†…ˇ¶–¨‰ˇ…fl                                                                                      ˜‡⁄¶¨˛“            J ˜·˚        S t ri ng ( I , J ) ;
—˜˝‹»‚˙ł˜                                   ,…· ,‚˜¸ø—ˇ`¿                                                                         ¯—¶ˇ S t ring ( I , J ) ˚˙•æ˚˙»‚——§˜·˚                                    ,
•†…˝‹»‚                              k - 1 ˛‹˜˝¶‰„ª˙ł˜                            1                                                ¡¡
                                                                                                                                    ¨         S t ri ng ( I , J ) ˚˙»‚——§˜·˚                     ,
                             11      ∂ ° ≠                                 ∞1      ≈           ±       k                                   ˘´˚–           W —†Ø                 S t ri ng ( I , J ) ,
( 2 ¡ k ¡ d ) ˛‹ˇ`¿¿…ˇ˜˝¶‰„ª˙ł˚`¿                                                                  , †»                            ¡¡¡¡¨        „ß·            , ‰« S t ri ng ( I , J ) ˜˘´˚
˘                            k - 1 ˛‹ˇ`¿¿…ˇ˜˝¶‰„ª˙ł˚`¿                                                 1                                               1 ,·»          W;
             ÷               ∂       2 ”˝˝˘´             1 , ¿ ˇ¨·               1 ˛‹ˇ`¿ ¿                                         ¡¡¡¡
                                                                                                                                      •æ            ,          W —‰¤»‚—´…˙´…                     , „…
…¿“˚…˝¶‰„ª˙ł                                         , ¨»”                 2 ˛‹ˇ`¿¿…                                                            ·˚˛“      S t ri ng ( I , J ) ,˘´˚˛“                  1;
—                    ,›—‰¥‰ł , …—ł·ƒ                               , –‰        d ˛‹ˇ`¿ ¿                                           ¡¡
                                                                                                                                    ¨         S t ri ng ( I , J ) †»˚˙»‚——§˜·˚                          ,
…1               i ˛‹ˇ`¿¿…—˝¶‰„ª˙ł˚–                                                       , »¿…´˙                                         ˝¸‡·¸›»•               ;
·ƒ             i - 1 ˛‹˝¶‰„ª˙ł˜˜ø–                                        ,†»¿…´˙˘¸ß˜ø                                          Next J ;
– ,·¶ł…ı…˘¸ª`¿                                  , Æ‚¸ª•¤˜˚–¿—§´˚                         1±                ≥            ( 6) ˛–Œ˚˙•æ›‰˛˜…˛††¿                                    , ˚˙ , “†‰Ł                    1
∏              ≈             •          √            1           •                                                   ( 7 ) †‰;•æ         I = I + 1 ,“†‰Ł                1         ( 2 ) †‰;
                     ≠               C ø‰Æ”ˇ                          EM ˜•‰•¤ , †¿                                     ( 7) ‰«‰ˇ˝˘             ( < ƒ˜2 ) ”˝‰ˇ‚˘                ( > ƒ˜1 ) ˜·˚·…fl
»æˆ““˜‡⁄¶¨                                  1              , C ø ‰Æ”ˇ                          EM ˜            ”ˇ W —¨¥‡               ,ˆ‰        U;
•‰•¤…˘¸ª‚· ¶¨«‚                                  , —Ł“‰«ø–ˇ¨ ‡                             n        (n                  ( 8) For I = n To 2 Step - 1
˛“ø–˚                    ) ,‡                   n / 2          , ¡› , ‡            2       ,‡          1                          Do

               © 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
    404                                                                   …˘ ¸ª »œ — ¿ º •¢ „                                                                                      2004 ˜Œ


                               U —¨¡‡»‚—˛··ƒ ˜                                  I2gram                    √⁄          1           ≈              ≠≠                    ∑                    ,∏ √
                                                                                                                                                                                             ˛˜
                               ·˚ , ‡¢˚•‰‡…fl”ˇ                      U —˜·˚            , ‚ø     ´˜»Æ•·‚·–˚˜„»”›‚˙˛˜——˜¸…ˇº˜‚
                                     U —˜˘´˚”˝˚‰                  ( 1) …˘¸ª»¥                             ,ˆ¿»»¶…˚˙˛“`¸§‡»‚¶ł·                                                              ,¸ø
                               MD ;                                                            ——'„„‡`¸ß‚˛˜´˜¸…ˇº                                                              1 ∂ √ ≥√
                    ¡¡ if M D > ƒ         1   t hen                                                  ≈÷           √                                              √ …
                                                                                                                                                             , ¸ˆ˙¸ø“–·˜
                    ¡¡¡¡‰« U —؇‚ˆ·˚˜·˚˜˘´˚…ı¨¥                                                ˚˙˝‹»‚                                ,¶ł¸ˆ˙ˆ·˚ˇ–¨»ˇ»´                                       ,¸ø
                                    ‚ˆ I2gram ·˚˜˘´˚                 ;                         ¸ˆ˙¿…ˇ˜•†…–¨»·ƒ˝‹»‚˝¶‰„ª˙ł
                    ¡¡ else if M D < ƒ            2   t hen                                    ˜ 1                    ,˜                D ˛‹ˇ`¿¿…ˇ˜»‚˝¶‰„ª
                    ¡¡¡¡ ·…fl”ˇ            U —‡–˙˜                           I2gram ·˚ ;        ˙ł ,¶ƒ¯ˇ`¿¿…ˇ•·‡˝‹»‚ ˜»
                    ¡¡ end if                                                                  ¸ø„„‡˜»‚                                      ,…·˜                D ˛‹ˇ`¿¿…ˇ˜
                   Until U —˜¸ø—                      I2gram ·˚ø·ƒ˝Œ‡                    ;     »‚˝¶‰„ª˙ł                             , ¶ƒ¯»‚                        1 ∂ ° ≠
          ¡¡¡¡ Next I ;                                                                                           L num˝˚˙›˛˜—˜˚`¿                                   1×     ÷ ∂ °
        ( 9) ‰«‰ˇ˝˘                 ( < ƒ˜2 ) ”˝‰ˇ‚˘            ( > ƒ˜1 ) ˜·˚·…fl                    ≠                      ≥             ≈                   ≠≈× ± ÷    ∂ ° ≠ ,
”ˇ U —‡                ;                                                                       †·œ–`¸›˛˜—º·¸˝¶‰„ª˙łˇ¶ƒ˜˜
        ( 10) †ˆ„                    1 ·˛‰˛‹           1                                       ˜¨         1            ∏L num ı˙¡”ˆ•·‡›˛˜¨«†¿                               L num ‚
            √ 21           °        ∏          ≥⁄∂
                                                :                                              ˜¨˜                              ,·›˛˜—Øfl˘·                           ,œ‡˜““˜„»
        ( 1) »ø·˚…fl                  U —˜·˚‰¤`¢ˇ`¿¿…                                V;         ¨«ˆ•·‡›˛˜˜¨                                   ,˙˛˜¨¨                   1
        ( 2) ˇ`¿¿…˜˛‹˚                          D = –˙·˚…fl                  U —˜·˚
˚       ;                                                                                         ƒˆ…‰Æ„ߢ„
                                                                                               5 ¡¡
        ( 3) ¨¡ k = 1 ;/ 3 k ˚˙ˇ`¿¿…˜˛‹˚                                        3/
        ( 4) ‰«›˛˜—˜ˇ                             k ˛‹¿…˝¶                      ;                         ‰«–˛˜Æ‡˜““‡⁄¶¨ ¶fl¨•¶¤¸ª•¤”˝                                                       MD
        ( 5) ‚ø¶¤                   2 —˜ı… ¢¢¢                       , ˙ˆ›˛˜                   ˜£—˝ƒˆ—˛˜““                                   , ¨¡ˆ`¸`¨¸´œ ˜‰Æ„ß                         1
k ˛‹¿…ˇ˜˝¶‰„ª˙ł                                   , ‰«˝¶‰„ª˙ł˜˚`¿                                       , ¿…†»ˇ´                M D ˜£—˝ 1                    M D ˜£—˝‰Æ”ˇN 2gram
…˙¨º L num ,†¢ˆ‰›˛˜—˝¶¸ø—                                           k ˛‹¿…˝¶                   ˜˙—·˚¸ª•¤                   ( …߸ª•¤ 1 —†‰Ł 1) ,¶ 2001 ˜Œ1 ´                                     26
‰„ª˙ł˜˜˜…fl”ˇ                                   Vk;                                                          ¡
                                                                                               ¨¨¸ˆæ¨–¤ˇ»˘“˛“¶»…«ˇ˚‰·‰ł—»“
        ( 6) k = k + 1 ;                                                                         ˜˛˜´˙—·˚
                                                                                               •¡•                               1       ≠        , ˇß‡`¸·`¿˛ ˜·˚                                ,
        ( 7) ‚ø¶¤                   2 —˜ı… ¢¢¢                     , ˙ˆ        Vk-    1—       ¨¥`¸»—'¶““‡⁄¶¨¨•¶¤¸ª•¤˜—˜ˆ»—ˇ˜
˜                k ˛‹¿…ˇ˜˝¶‰„ª˙ł                                     , ‰«˝¶‰„ª                 ·˚ ,‰«·˚˜˚`¿ ‡ı                                        ( »ˆ       N 2gram ˙—·˚ˆ‰                  )
˙ł˜˚`¿…˙¨º                 L num ,†¢ˆ‰›˛˜—˝¶¸ø—                                      k ˛‹      ˜        5737 ‚ , ‰`                  259 ‚ , —·˚…·˚˜–¨
¿…˝¶‰„ª˙ł˜˜˜…fl”ˇ                                                Vk;                            ›·˜                     11 %Æ‚‰`¸                 84 % ,˛‹˚‰‰`¸›—˛‹˚
        ( 8) if k = D t hen “ˇ´»†‰                         ;                                   ˜        415 % ,·¶ł·•ø¶¨‰˝`¸ˇ`¿¿…˛‹˚                                                , …ı`¸
                else “†‰Ł 2                   ( 6 ) †‰;                                        …˘¸ª`¿ ,·¶ł——§Æ‚`¸““·ƒ˜˚–¿—§´˚”˝
                end if                                                                         ““‰Æ„ߘ—˜                          1
        ( 9) ˚‡““˜‡⁄¶¨                                 L num1                                              …                              1 •˜——§—”˝ ¨•—                           , –˛˜·
                                 ° ƒ           …°         ≠         ≠         ± , ˇ¨· ≈
                                                                              √              × 2001 ˜Œ¨¸ˆæ¨–¤—                            , ¡‡         100 ˘“›…ˆ ˛˜´                  , ˘—
——¸ª•¤ 1 ˜†‰Ł                   1 ,‰ł——˙—·˚, ˛“”—ł·ƒÆ„'‰ˇ˛“                                    ›˛˜—˜˚`¿º—ˇƒ˚`¿˜˛˜´
…¨•˜˚—             1        ≈        √×               1•˜†‰Ł             2 , ¨•¶¤““            ˘“˚…ß–                  11        ≈ , •–‚¶¤““‡⁄¶¨˛“                           4 ,5 ,6 ,7 ,
‡⁄¶¨ 1                                                                                         8 ,¶›˛˜‰ł——““                       1         ∏                             • ±                       ∂ ∂
     ∂          31             • 1 ˜¨•—            1           • 1 ¸ø»æˆ˜                                     ≠                ° ,¶ł˙     ,¿˜‡ˇ—¯ˇ¢¨                         ,¸ø       ,†¢†»
““‡⁄¶¨           L num ˚˙““˜…‡⁄¶¨                              , …··        D ˛‹ˇ`¿            ˜˘˝ß¸ø—‚¶¤““‡⁄¶¨˛“                                            k ˜““         , ‰«˚
¿…ˇ˜             L num ‚˝¶ ‰„ª˙ł•–œ‡»ı˜„»•·                                                    ˛“ k ˜˛˜´¨«ˆ•·‡‡·                                       , ˙˛—¯ˇ¢¨              1             ,
‡‚ˆ˝¶‰„ª˙ł˜¨˜                                     , ‰«          L num ı·›                      ˆ–˛˜Æ‡˜¸ª•¤                               1 ¨•¶¤›˛˜““˜‡⁄¶¨                          , ˆˆ‰
˛˜—Øfl˘·                    ,œ‡˜““˜„»¨«ˆ•·‡›˛˜˜                                                 ˜““‡⁄¶¨¶›˛˜‰ł——““                                         1             ×                         ∏
¨ ,˙˛˜¨¨                        1                                                                                              ± ,†Ø¿·‰Æ„ß““¸øˇ˜ º›

          © 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
¡¡ 3 ˘                                                                       ˝ı‰¤»Æ¨                 :˚˚ƒ¨•¶¤““‡⁄¶¨                                                                             405


                                                       , ·¸·¿…†¸ª•¤                       1 ˜—                  ¡¡¡¡–                2 — , —…»`— ¡““¡¨«ˆ•·‡›˛˜
                                                                                                                                                  ¡ ¡“
˜ 1            ≠       ± 2 ¸ø˚ 1                                                                                     ,˛—¯ˇ¢¨¡–                ,˚˙‚             100 ˘“˛˜´—            ,˙¡”ˆ–»““

           ± 1 ¡¡ ø¡
                ¸              100 ˘“˛˜´—˚`¿º˘“˚•†…                                                            ‰Æ„ߨ••·‡‡·˜˛˜´˘“˚                                     , …·—ˇƒ˘“˚˜“

                   ˛˜´˚`¿                  /‚             ˇƒ˜˛˜´˘“˚                / ˘“
                                                                                                               “ ,¨«ˆ˙˛—¯ˇ¢¨ •·‡‡¨˝‹˘“˚˛˜´—˜

                               4                                        18
                                                                                                                             ;            ¡¡¡–¨›˛˜
                                                                                                                                     2 `—¡“““                                       2 ‚»ˇ             ¡–,

                               5                                        21
                                                                                                               ˚˙‚           100 ˘“˛˜´—                   , ‰Æ„ß““—•·‡‡·˜
                                                                                                               ˚–¨›˛˜—˚                                         2 ‚»ˇ˜““˚                         , …·
                               6                                        20
                                                                                                               —ˇƒ˘“˚˜““                         , ˆ»—¨«ˆ•·‡¨˝‹˘“˚˛˜´—
                               7                                        19
                                                                                                               ˜                  ,¶ł˚˙–¨ˇƒ˛˜´                      2 ‚»ˇ˜                              ;
                               8                                        22
                                                                                                               ˘¸ß`—˜·¸˝˘                                  1

                                                                                   ± 2 ¡¡
                                                                                        ““‰Æ„ߺ›˛˜˜–¨‰ˇ                                                                       ˘“˚
                                                                                                                   †˚–Œ…
                             ““‡⁄¶¨                  –¨›˛˜                       –¨›˛˜                      ¨«ˆ•·‡›˛˜                        –¨›˛˜                  –¨›˛˜
                                                        2 ‚»ˇ                             1‚                       ,˛—¯ˇ¢¨                    ¶       1‚            ¶ 2 ‚»ˇ
                                   4                          66                          21                            13                            0                      0
                                   5                          44                          34                            15                            7                      0
                                   6                          28                          36                            18                           13                      5
                                   7                           5                          29                            16                           26                   24
                                   8                           1                          23                            15                           31                   30
                        ¸ª•¤           1 ¨•¶¤                  3                          12                            71                           10                      4


¡¡¡¡ “`¸‚…–„¸ˆ‰Æ„ß—˜
   ˛                                                                    , –˛˜¨º”Œ„                                               ± 2 ”˝˝… 1 ¿¿·‡                   ,‚¶¤‡⁄¶¨˜˙Ø¿ˇ´                       ,
†Ø¨«´˚”˝”Œ„†Ø…´˚…                                  F      1                                                    ‡⁄¶¨¨¡        6 ˚– ,““‰Æ„ß—˜‰ˇ˘¸ß¶¤‡⁄““‰Æ„ߘ
           ∂     ∑1
                  7             ≠                                   ≠             1
                                                                              …F …° ∏                          —˜“”ˆ              , ˚˙º˛˜ˇ                 [ 11 ]˜‰Æ„ߡ»´˜                   1
               ≠ ≥⁄ ∂               × √              P1            ≠             RATS =                         [ 11 ]¶¶¤—˝ ¡¢
                                                                                                                             ›˛˜‡⁄¶¨•¶˛§˚ˇ˜»¯œ˛˜‰ł
      p                                                                                        p
                                                                                                               ——““ ,—¿†»˝‹““‡⁄¶¨º‰Æ„ß—˜˜„ˇ                                                      ,‰Æ„ß
( ¡˘           ai / ( ai + ci ) ) / p , ”Œ„†Ø…´˚                        PATS = ( ¡˘                  ai /
    i =1                                                                                  i =1                 ˚˙““‡⁄¶¨¨¡                5 ”˝ 6 ˚– ,—˜¯˘¸ß‡⁄¶¨˜““                                      1
( ai + bi ) ) / p , ˘—                     ai   ˛“¨•““‡⁄¶¨˛“                               i ˜˛˜                         ,˛˜ˇ        [ 11 ]†‡—¨ˇ           ,…¨•““˜‡⁄¶¨˚˙—¯
˚          , ( a i + ci ) ˚˙““‡⁄¶¨ƒ–˛“                                  i ˜˛˜ ˚                    , ( ai      ˇ¢ø–˜—¯ˇ¢`¿”˝ø–—˝˜†»˝‹¶ł–»fl˜                                                 1
+ bi ) ˚˙““‰Æ„߇⁄¶¨˛“                                i ˜˛˜˚            1 F ¶¤˛“                                                   ,–         2 ”˝˝… 1 ¿¿·‡                 ,†ˆ–˛˜Æ‡˜
                    F = 2 PA TS ¡⁄ R A TS/ ( PA TS                    + R A TS) 1                   ( 4)
                                                                                                               ¸ª•¤      1 ˇ¨¨•¶¤““‡⁄¶¨                     , ““         , F‚               , ““‰Æ
¡¡¡¡
   ”ˇˇ˚”Œ„†Ø¨«´˚”˝”Œ„†Ø…´˚                                                         , ˆ‰ˇƒ                      „ß«¨•              ,˙—¯ˇ¢¨¶¨—¡                      1∏                 ∫ , ¸ª•¤ 1 ‚ø
˜     F            ,¨˝… 1 ¸ø˚ 1                … — ,ł–Œ˛“‚¶¤†»˝‹˜
                                                1                                                              ø–˜—¯ˇ¢`¿                                  , ˚˚ƒ— ¶fl‡Ø¨¡‡ˇƒ˚
““‡⁄¶¨”˝¸ª•¤                                          ““˜˙Ø¿
                                          1 ¨•¶¤‡⁄¶¨ ¡¢                                        ,”Æł
                                                                                                               `¿˜                     ,•´¨¸˜ˇ„·—˛‡““                                ,¸ø˜„»‚
–Œ˛“ˇƒ˙Ø¿ˇ´˜                               F     1                                                             …¨••·‡›˛˜˜˜¨                                1


                                                                                                                  ‰
                                                                                                               6 ¡¡ Æ´…‰æ”˜„⁄

                                                                                                                         ¶˜¶fl““•‰•¤—                                    , ·¶˚¶…˚˙†ˆ“
                                                                                                               ˜•‰•¤                                ¡ ¡ ““˜‡⁄
                                                                                                                                  ,¶ł˙¶…—»‚„†˝‹˜ˇˇ ¡“““
                                                                                                               ¶¨ø—Ł˚´ˇ¨‚ł¶¤                 1                     ≠≈                  ¬•× ≥                ±
                                                                                                                                 √            ,†»†œœ—¯ˇ¢¨                        ,–˛˜Æ‡`¸»
                                                                                                               ¶fl‹¨•¶¤““‡⁄¶¨˜¸ª•¤                                  , ‚ˆ¸ª•¤˜„»‚ø
                      ˝…       ¶
                            1 ¡¡ ¤‡⁄º¶¤‡⁄““‡⁄¶¨º                             F                                 ø–—¯ˇ¢`¿˜†»˝‹                     , · ø–—›—‰¥‰ł‡Ø¨¡

           © 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
    406                                                  …˘ ¸ª »œ — ¿ º •¢ „                                                                   2004 ˜Œ


                                      , ‚ø ˜˚`¿¨•                                 7    S Teufel et al 1 Sentence extraction as a classification task1 The

¶¤¶ƒø–˜““‡⁄¶¨                              1    ƒ                           ≠ ±            97/    97
                                                                                       ACL¡fl EACL¡fl Workshop on Intelligent Text Summarization
                                                                                       Workshop , Madrid , Spain , 1997
    ,‚ˆ¸ª•¤˚fi•——§¶ł˙‰ˇ˛“…¨•                     1
                                                                                  8    X Huang et al 1 A probabilistic approach to Chinese information re2
             ,˛“`¸…ı““‡⁄¶¨¨•¶¤¸ª•¤—˜…˘¸ª`¿                              ,              trieval : Theory and experiments1 The BCSIRSG , Cambridge ,
–˛˜Æ‡`¸—´˜»¥ ˜£—˝                        , †¢‚ł‡»¥ ˜¨¡                                 England , 2000

•¶˛§ 1       ∏                   √
                             , ‰«˘ˆ˙—·˚             , ¿‰ˇ˛“…¨•                    9    Fuchun Peng , Dale Schuurmans1 Self2supervised Chinese word
                                                                                       segmentation1 In : IDA2001 , L NCS 2189 , Lisbon , Portugal ,
¶ł——§‰˛‹            ,˚„”—ł¸ª•¤˜…˘¸ª`¿·•ø¶¨…ı                       ,·
                                                                                       2001
¶ł——§Æ‚`¸““·ƒ˜˚–¿—§´˚”˝““‰Æ„ߘ
                                                                                  10   Kenji Ono et al 1 Abstract generation based on rhetorical structure
—˜ 1                                                                                   extraction1 The Int¡fl Conf on Computational Linguistics , Kyoto ,
                                                                                                           l
          ± ≈
            ,—¯ˇ¢·ƒ—¿`——”¶„⁄“                                           ,              Japan , 1994
‰æ”˜„⁄—                , ˛ˆ˙˚ˇ¨˙Æ‚ ƨ¡«                                           11   Jade Goldstein et al 1 Summarizing text documents : Sentence se2
                                                                                       lection and evaluation metrics1 The SI GIR , Berkeley , CA , 1999
¶¨˜—´¸ª•¤        , Æ‚““‡⁄¶¨¨•¶¤¸ª•¤˜«¶¨                                 1
                                                                                  12   `ı·¨   1         ׃             √×        •√× ≠ •∂…°        1 •
                                                                                                                                               ∂ •√× ±± •
    2 , ˙¨•¶¤““‡⁄¶¨¶fl¨•¶¤¸ª•¤—¸ø—Ł†˛˚
                                                                                          : ˙»“·§‡                , 1994
…˜¸ª•¤             1                                                                   (Liu Yuan et al 1 The Modern Criterion and Met hods to Segment
                                                                                       Chinese in Information Retrieval (in Chinese) 1 Beijing : Tsinghua
                                  …                                                    University Press , 1994)


1    P H L uhn1 Automatic creation of literature abstracts1 IBM Jour2                                   ¡¡¡¡ ˝ı‰¤»Æ ¡¡ ˜— ,1972 ˜Œœ ,†'˚¿—¿œ               ,
     nal , 1958 , 2 (4) : 159¡« 165                                                                     “ — ¿ •‰ ˇ ˛“ ¨» ·ƒ º “ ˚¶
2    B Baldwin et al 1 Dynamic coreference2based summarization1 The                                     „⁄‡ 1
     3rd Conf on Empirical Met hods in Natural Language , Granada ,
     Spain , 19981 http :/ / citeseer1nj1nec. com/ baldwin98dynamic.
     ht ml
3    D Radev , K Mc Keown1 Generating natural language summaries                                                       •       ,1940 ˜Œœ ,‰˚    ,†'˚¿œ
     from multiple online source1 Computational Linguistics , 1998 , 24
                                                                                                        …˚ƒ , “ — ¿ •‰ ˇ ˛“ ˚ „⁄ ‡ º “ ˚¶
     (3) : 469¡« 500
                                                                                                        „⁄‡ 1
4    J G Carbonell et al 1 The use of MMR and diversity2based rerank2
     ing for reordering documents and producing summaries1 The SI2
     GIR298 ,Melbourne , Australia , 1998
5    Strzalkowski et al 1 A robust practical text summarization system1
     The Intelligent Text Summarization Workshop , Stanford , CA ,                                                             ,1976 ˜Œœ ,†'˚¿—¿œ          ,
     1998                                                                                               “ — ¿ •‰ ˇ ˛“ ¨¸ „⁄ ˙ ˜ ”˝ ¨»
6    R Barzilay et al 1 Using lexical chains for text summarization1 The                                ·ƒ    1
         97/    97
     ACL¡fl EACL¡fl Workshop on Intelligent Text Summarization
     Workshop , Madrid , Spain , 1997




       © 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.

				
DOCUMENT INFO
Shared By:
Stats:
views:22
posted:3/19/2010
language:
pages:8
Description: 自动文摘技术 方法 探讨 自动文本摘要方法