How to construct a corpus

W
Document Sample
scope of work template
							建设自己的田野语料库
(Construct your own field
corpus)
  -- Make your own corpus and make
  the corpus your own

                 李文中
定义:田野语料库

 教师在语言教学和学习环境中,为观察和
  描述具体现象和难题,并通过行动研究寻
  求解决难题方案和途径而建设的小型语料
  库
 田野语料库是一种专用语料库
准备阶段: 确定设计原则
  --with reference to J.
Sinclair
    确定样本的语言取向
        教学设计、难题解决、教学话语分析、评价
    确定抽样标准
        文本模式
            口语
            笔语
            电子
        文本来源
            教材、讲义、课堂英语、其它材料
            学生语言输出:作业、写作、日记、论文等
准备阶段: 确定设计原则
   文本域:学术的、非学术的
   语言类型:教学输入、教师语言、学习者语言

   文本产生位置:校园、远程等

   文本产生日期
准备阶段: 确定设计原则

   确定样本的性质和维度
     按交际功能选择内容
     尽可能具有代表性

     针对研究目的设计语料库的结构

     语料库结构标准应简洁、独立、具有区分性

     分离文本信息与文本本身

     收集完整文本
设计阶段: 文本分类及标注方案

     Without metadata, corpus
    linguistics would be virtually
    impossible (Burnard, 2004).
   确定文本分类标准
       外部标准
         语料库识别信息:名称、生产者、发行者、建库
          日期等
         语料库派生信息:语料来源、语料状态、语料目
          标
设计阶段: 文本分类及标注方案

   内部标准
     主题(topic)
     样式(style):正式程度、准备、交际分组、
      交际方向
   文本结构信息
     标题
     段落
     句子
     其它元素 (See demo: EAGLES)
设计阶段: 文本分类及标注方案

   确定标注方案和标记语言
     标注的定义
     分类信息及结构信息的编码

     制定码集(tagset)

     选择标记语言:Html, XML (see sample
      Tempest; BNC files)
     观察与评价:CLEC的头部信息及错误附码
其它原则

 一个文件一篇文本
 文件夹结构反映文本分类信息
 建立语料库档案(documentation)
 手工附码与机助附码:a demo
执行阶段: 收集文本的工作流程

   抽样范围和方法
     样本数量和覆盖面
     随机抽样
     样本的平衡

   文本录入及整理
     工具:电子文本拷贝、扫描与识别、人工录入
     文本整理
     文本校对
     标注信息插入:批量/人工
执行阶段: 收集文本的工作流程

 团队的分工与管理
 工作计划
 实施
完成阶段:应用与开发

 开源语料库
 新语料的补充
 应用研究
 软件开发及应用
 资源共享

						
Related docs