; Development of Chinese News Essay Scoring System
Documents
Resources
Learning Center
Upload
Plans & pricing Sign in
Sign Out

Development of Chinese News Essay Scoring System

VIEWS: 8 PAGES: 27

  • pg 1
									Development of Chinese News Essay
         Scoring System
       大專生參與國科會專題研究計畫
    國科會99年度補助私立大學校院發展研發計畫
      行政院國家科學委員會專題研究計畫
       教育部大專畢業生創業服務計畫
          碩士投稿論文專題研究
           Date: 2010.10.13
           Caesar Yu-Chieh Wu
Readings
 中文寫作多面向評分系統
 Multi-face automated Chinese essay scoring
    system
   2008.06 交大資工-葉啟祥
 中文作文寫作輔助系統
   2008.06 交大資工-余思翰
 基於貝氏機器學習法之中文自動作文評分系統
   2006.06 交大資工-林信宏
Introduction
 Listening, speaking, writing, and reading are four
  important metrics of linguistic learning
 Scoring essays usually requires lots of human efforts
    Nondeterministic and not uniform to every input essay


 Automatic essay scoring aims to understand the input
  text and label the article with predefined levels

 English AES has been investigated over the past decade
   GMAT employed the e-rater
 However there is no public Chinese essay scoring system
Related Works (English)
 PEG system (Page, 1996, 2003)
   Does not adopt any NLP (Natural language processing)
    technique
   Use the following clues to grade an article
     # of words, punctuations, adjective words
     Multivariate regression analysis to compute the final score


 IEA (Laundauer, 1997)
   Apply LSA (latent semantic analysis)
   Grammar style and mechanics were also included
Related Works (Chinese)
 中文的部分:
   基於貝氏機器學習法之中文自動作文評分系統 (林信宏, 2006)
   中文自動作文修詞評分系統設計(張佑銘, 2005)
   自動建構中文作文評分系統 (蔡沛言, 2005)
   ……


 Surface pattern-based
    # of words, idioms, proverb, topics
    and trained with the same topic text
 Machine learning-based
    Bayesian and SVM
 Unsupervised
    Find the common words, co-evaluated
 Merely find the overall score of the input text
Methodology (Framework)
          模組1
Methodology (Modules 1)
 斷詞實例
   電子^計算機                        vs. 電子計算機
   國家^政治                         vs. 國^家政^治

  研究^生命^起源                       vs. 研究生^命^起源
  颱風^眼看著^就要^來了                   vs. 颱風眼^看著^就要^來了

 輔助經驗法則
   長詞優先
   平均詞長
   機率模型
   e.g., HMM (hidden Markov model)
Methodology (Framework)

 模組2
   Methodology (Modules 2)
 Using HowNet to convert terms into concept
   福特、裕隆、BMW  汽車
   銘傳、輔大、淡江  大學
   …….


 大家的動作由緩慢轉變成快速
 人+功能詞+做+功能詞
   +慢+成為+快
Methodology (Modules 2)
 Structural feature extraction
   Enumerate all possible bigrams




   (K1,K3), (K1,K1), (K1, K4), (K2,K3), (K2,K1), (K2, K4)
Methodology (Framework)


 模組3
Methodology (Modules 3)
 Similarity
   Numerical measure of how alike two data objects are.
   Is higher when objects are more alike.
   Often falls in the range [0,1]
Methodology (Framework)




 模組4
Methodology (Modules 4)
Methodology (Framework)
                          模組5
Methodology (Modules 5)
Experiments
 三所國二生之國文作文
  689 essay articles with 2~3 human evaluators
  1,2,3,4,5,6 score level
Results
Comparison to ML-based
methods
Learning curve
Conclusion
 A training data-free approach is presented
 94.2% accuracy
 Multi-model and multi-feature got the optimal solution


 Typos is an important research issue
    Our Image
諷邵曉鈴引發公憤 余天認錯 胡:朋友重於政治
中國時報【盧金足、馮惠宜/台中報導】
民進黨立委余天諷刺台中市長胡志強的健康,還波及妻子邵曉鈴而引發公憤後,昨天余
                                          5W1H: 50
天打電話又送花給胡致歉,卡片上寫著「友情永不渝」。胡志強則回應,朋友之間不必
道歉,政治是一時,友誼才是永遠,不計較也不介意,仍把余天當好朋友;胡志強還說,   可信度: 90
健康並沒有成為其施政障礙,如果有人只能咬這些問題或其他個人因素,就表示他的政
績真的不錯。                                    新穎度: 70
 余天此番言論及引發的負面效應,讓自家黨主席蔡英文趕緊交代黨祕書長吳乃仁出面
滅火,要求余天出面道歉。隨後,余天就在黨內壓力下出面認錯。
聽到姊姊邵曉鈴遭余天指稱「少一隻手、頭腦不清楚」,署立台中醫院院長邵國寧難掩
                                          文法: 90
不捨地說,大姐很豁達,心情不會受影響,「邵曉鈴少了一隻手,卻多了一雙快樂的翅
膀,天天都很快樂。」                                錯字數: 0
 余天前天為民進黨議員王岳彬競選總部站台時,以胡志強和妻子健康當箭靶說,「胡
志強也中風過,腳又一跛一跛的,我覺得他本身也不太愛選,以朋友立場看他這樣選,    新聞長度: 80
也覺得可憐,也捨不得,應該回家照顧太太」,還表示「為了助選,邵曉鈴搞到只剩一
隻手、頭腦也不清楚」,此番言論引發藍綠陣營不滿,身障和婦女團體也同聲譴責。
 胡志強還緩頰說,余天是好人,但不太會講話,偶而講錯話,不要太計較,好人也可    新聞價值: 50
能會講錯話,但一定會被他太太李亞萍修理。這件事他刻意隱瞞,不讓太太邵曉鈴知道,
因為朋友講錯話,不該再去渲染、傷害太太。                      主題: 人物
 胡志強還幽默地說,他周日一天連跑十七場行程,體力健康都OK,「我只是不能當
芭蕾舞星,因為我穿了絲襪後,腿真的有點粗,我不知道我的健康還有什麼問題?」     新聞類別: 政治
至於前總統李登輝來台中市參加活動,也說出「有人已經中風,卻不想下來」的話,胡
志強表示,李前總統年紀大了,況且還是他的老長官,更不會計較。
 胡志強說,余天和李亞萍都打電話給他,強調不是惡意,向他說對不起,胡安慰他朋    政治立場: 未表示
友間不必道歉,還虧他「你這樣子講,回家一定會被李亞萍K,我很了解你,你不是惡
意要傷害我,那就沒事了。」余天坦承「我已經被K了一整夜了」。            政黨曝光度: 藍 < 綠
Assignment
 The goal is to help to write news reports
 For each learner, please find at least three news articles
  of the following five categories
   Excellent (80-100), Good (60-80), Mid (40-60), Poor
    (20-40), Very poor (0-20)
 And try to list the reason and your criteria. For example
   客觀性
   來源正確性
   完整性 (5W1H)
   易讀性
   顯著性
   新穎性
   錯別字 <using tag>
   An example
袒護菊網軍 Ptt兩站長辭職
「Ptt實業坊」BBS網站捲進五都選戰爭議。遭踢爆為陳菊網軍的網友「bennon」在發表「楊秋興
說謊抓到了」文章後,帳號無端消失;網友追查後,站方才承認是應「bennon」要求刪除,網友      客觀性: 80
認為站方處理違反站規,痛批「政治黑手伸進台大校園」。
由於楊秋興曾揚言對bennon提告,刪除帳號資料可能使楊秋興難以進行後續司法訴追作為,電信
警察也可能難以查到被告資料,網友質疑Ptt管理人員為陳菊陣營護航。                  完整性: 80
「睡菊」風暴後,楊秋興表示,九月十九日凡那比颱風當天除證婚外,他都在應變中心坐鎮;
「bennon」於九月二十九日在Ptt八卦版撰文,第一句話就是「楊秋興說謊,抓到了」,指控楊秋
興當天上午在跑選舉行程。
                                                   易讀性: 70
這篇文章後來被引用放在網路上,楊秋興氣得說要提告;但十月一日有網友在Ptt上發現,bennon
的帳號已不存在,「查無此ID」。                                   顯著性: 90
網友在Ptt提出質疑,站方四日回應,表示因發現bennon重複註冊多個帳號,才刪除;不過網友進
一步質疑,違反站規刪除的帳號,都會公告,刪除bennon帳號卻無聲無息,不合情理。
昨天凌晨案情急轉直下,站方發表聲明,承認是「法務站長」Saxon濫用站長職權,應bennon請求
                                                   新穎性: 80
後,越權刪除帳號;站方因此將Saxon解除站長職務,另外一名法務也「引咎辭職」。
但整起事件並未打住,網友在網路人肉搜索bennon的真實身分,發現他可能是台大前學生會長、      新聞長度: 60
並掛名「陳菊競選辦公室秘書」,幫陳菊青年軍上課的高閔琳。
消息一出,有網友痛批「政治黑手伸進台大校園」、「陳菊競選辦公室秘書致電,站務越權砍帳         新聞價值: 40
號」、「黨工這招很難看」。
不過也有網友認為,可能是站方單純受人情拜託才刪帳號,未必是政治因素。
新聞檔案/批踢踢實業坊                                        主題: 人物
一九九五年由當時就讀台大資訊工程系大二學生杜奕瑾創站,目前有超過兩萬個各式主題討論看
板,總計有超過一百五十萬名網友註冊,尖峰時間可容納超過十五萬名使用者同時在線,為全台         新聞類別: 政治
使用人數最多的網路討論平台,討論議題或張貼內容也經常變成新聞話題,相關服務目前由台灣
大學電子佈告欄系統研究社維護運作。(曾懿晴)                             政黨曝光度: 藍 < 綠
       An example
<標題> 綠公布蔡民調領先朱0.4% 藍諷吹口哨壯膽 </標題>

國民黨文傳會主委<Blue>蘇俊賓</Blue>表示,民進黨發布的最新民調數據,明顯與媒體民調數字有相當大的落差,
痛批這樣的做法是在企圖影響選情、操弄民調,還諷刺根本是「半夜吹口哨」壯膽。此外,
立委<Blue>邱毅</Blue>也在談話節目中大動作呼籲,<Blue>泛藍</Blue>選民千萬要出來投票。

根據<Green>民進黨</Green>11日公布「新北市長選情民調」顯示,<Green>蔡英文</Green>的支持度為43.5%,首度超越國民黨
新北市長參選人
<Blue>朱立倫</Blue>的43.1%,結果發現和先前《聯合報》、《蘋果日報》和TVBS民調中,<Green>蔡英文</Green>落後對手逾
10%有相當大的落差。

另外,評估二位候選人對基層的拜訪接觸度,受訪者回答<Green>蔡英文</Green>有到住家附近的比例為20.2%,但<Blue>朱立倫
</Blue>為16.9%。
民調中心主任<Green>陳俊麟</Green>認為,這個民調結果,讓所謂<Green>蔡英文</Green>不跑基層的謠言不攻自破。

針對五都民調指<Blue>朱立倫</Blue>與<Green>蔡英文</Green>差距縮小,國民黨立委<Blue>邱毅</Blue>在政論節目中,
激動的呼籲泛藍選民一定要出面投票,千萬不要認為前陣子媒體公布的民調顯示,<Blue>朱立倫</Blue>大幅贏<Green>蔡英文
</Green>就因此輕忽。
他還直言「你的投票決定朱立倫的成敗」。

<Blue>蘇俊賓</Blue>則強調,國民黨也在做民調,但國民黨的民調是作為內部的參考,非外部的宣傳,因為國民黨不會像民進
黨那樣利用民調作為
「半夜吹口哨」壯膽或宣傳的工具,當一個政黨的民調和「絕大部分的民調機構所做的民調有天差地遠的差距」時,
多數民意都會看得很清楚這樣的手法,也會唾棄這樣的作法。

對於民進黨公布新北市長選情最新民調,指<Green>蔡英文</Green>以0.4個百分點領先<Blue>朱立倫</Blue>,
<Blue>蘇俊賓</Blue>指出,新北市選情在這幾天沒有發生重大變化,民進黨卻突然提出一份與其他民調機構先前的結果截然不
同,
甚至還有「小數點」的民調結果,實在令人感到突兀,民調的操作莫此為甚。
     Job assignment
People          Agenda               Current Status        This Week
院長                        Project Manager
毓傑       Research &                                   Implement Chinese NER
         Development                                  system
         Implementation
                                                      Read essay scoring system
         NSC Proposal
士庭       NSC Proposal             Request to Pr. Wu
         (Control undergraduates) Find papers
         Help to dev. System
瑜咺       NSC Proposal             Find papers
         (Quality assurance)
         Help to dev. System
大四       NSC Proposal             Collect news data
         Help to dev. System
大三       NSC Proposal             Collect news data
         Help to dev. System

								
To top
;