Docstoc

Archiving the Web why bother in Chinese

Document Sample
Archiving the Web  why bother  in Chinese Powered By Docstoc
					网络数据存档的存在问题
B.Kahle
2000.3
原始出处:http://www.vala.org.au/hans0602.ppt

bluerye(DXY)译

网络数据存档的存在问题
• “网络站点无论队一个机构的数字资产,还 是对于一个国家的信息和文化遗传都起着 越来越重要的作用”(JISC 2002.4) • “许多历史上的信息,生来就是数字化的。 这点不同于早期的电视,因为它并没有记 录。”(Brewster Kahle 2002.3)

网络存档的存在问题
• • • • 澳大利亚 美国 北欧国家:丹麦 芬兰 瑞典 其他国家:英国 法国 日本

• 国际网络数据的存档库 例如:“wayback Machine”

三个会议
• 数据储存图书馆的未来
达姆施塔特[德国] 2001.9

• 国际数据网络存档大会
东京 2002.1

• DPC论坛:网络数据存档
伦敦 2002.3

会议网站
• http://www.bnf.fr/pages/infopro/dliECDL2001.htm • http://www.ndl.go.jp/enews/sympoeng.html • http://www.jisc.ac.uk/dner/preservation/webforum.html

存在问题
• • • • • • 储存数字化信息的合法性? 版权? 是否允许访问和对公众开放? 选择一部分还是全部储存? 多长时间更新介质?何时更新? 如何在多变的网络中获得信息?

技术上面临的挑战
• • • • • 嵌入的外部链接和可执行程序 不变的名称和数据标识 复制控制 内容随时间的变化 表层网页和深层网页

澳大利亚(潘多拉档案库)
• • • • NLA:http://www.nla.gov.au/pandora 仍没有合法地位 储存公有的出版物 选择性储存
( 澳大利亚电子刊物,组织化站点, 政府出版物,短期资源)

• 允许公众访问
-NDB条款

澳大利亚(潘多拉档案库)
• ~1700个标题(2001.11)
增长率:每月40站点 重新整理:每月35站点

• ADRI(澳大利亚数字资源确认)
独特的确认方法 自身处理系统

美国(雅典娜议档案库)-议会图书馆
• • • • • 将互联网资源制图,可视化档案库 可通过网页访问资源 版权的合法性正在论证阶段 选择性收录 对公众公开

LC/IA 领航计划-“Election 2000”
• 将网上和议会资源库共享 • 目标:
图书馆:选择收集和分类站点;建造原型访问站点 网络档案库:在整理和归档站点的过程中学习经验

• 800多个站点(在这些站点中包括150多个 选择后的站点和主要) • 数据量有2-3万亿字节 • 每日归档(2000.8~2001.1)

丹麦
• 皇家图书馆,哥本哈根 • 出版物的储存有一定法律权限
非动态的静态出版物-有限的站点

• 只允许皇家图书馆,国立图书馆和大学图 书馆访问 • 只归档静态站点(专论和过刊) • 奥尔胡斯会在每天夜里为国立和大学图书 馆提供镜像站点

丹麦(统计数字)
• 9000 网络出版物 (2001.6) -31%为专论,69%为过刊 -67.5%来自公共部门和图书馆,32.5%来 自私立部门 • 工作人员中有0.5是技术人员,0.8是图书 管理员

瑞典皇家图书馆
• 每年若干次对本国站点进行扫描
-不选择,收录一切 -包括所有网页,所有电子刊物,所有新闻 -包括.se-,.com,.org,.net在内的所有使用瑞 典地址和电话号码的网站。 -只归档但不允许访问。

瑞典 软件
• 使用Whois软件鉴定本国的站点 • 使用COMBINE Robot软件收录站点
-自动从超链接中收集文章 -同时收录图片和声音文件 -全自动化无需人为帮助

瑞典档案库(Kulturarw3)
• http://www.kb.se/kw3 • 所有资源都作为一个多部分的MIME一个元 数据储存在一个文件里面 • 文件命名:33个字符以及记录时间 • 截至到2001.9:从97000个网络服务器中活 得110,000,000文件,总计3000G字节 的数据量 • 储存在磁盘和碟片中,用分等储存管理 (HSM)管理文件

瑞典档案库(Kulturarw3)
• 直到2002.7,只有部分法定权限(一些固定
的网络文件)

• 2001.12,数据核查联合会的确认计划被认 为违法。于是改计划被叫停了。 • 2002.7,修改后的瑞典版权法,给予了瑞 典皇家图书馆以收集本国网站和公开档案 库的合法地位

芬兰 国际图书馆
• 使用了和瑞典类似的方案,最初只是负责 本国范围之内。 • 具有收集数据资源的合法性和版权 • 使用芬兰的来自NEDLIB的软件收集数据。 • 档案元数据 • 使用MD5校验和的方法控制复制,这种方 法较为权威而且具有唯一的认证码 • 配合时间标识作为一种挽救措施

芬兰-现行的数据收集情况
• 2001-2002年度的数据采集
-始于2001.8止于2002.4 -从29,000,000个URL中收集了9,400,000个 文件 -压缩后的文件总计340G字节 -储存在国际超级计算中心提供的介质上 -硬件:SunE450服务器

芬兰-现行的数据收集情况
• 项目的经验:“NEDLIB数据收集系统可 以除了任何网络空间(美国除外),配合 完备的硬件,提供了足够的储存空间”
(Juha Haleka,“Finish Team”项目的主持人)

北欧网络档案库
• 北欧国际图书馆联合计划 • 不取决于数据是用哪个软件收集的
-NEDLIB(芬兰 挪威 丹麦) -COMBINE(瑞典)

• 选择挪威的搜索引擎(FAST) • 软件:
-从100种不同MIME转换称HTML格式 -识别大部分欧洲语言

• 预算:260,000欧元(AUS$ 475,000)

相同的网页(表层)
芬兰 丹麦

1.500,000 HTML 1000,000 GIF 550,000 JPEG 36,500 PDF 11,800 plain text 6,000 word 5,300 JAVA etc

59.3%-Text/HTML 37.9%-Image(GIF, JPEG,PNG) 1.7%-PDF 1.1%-其他格式

英国
• 英国图书馆 -“Domain.uk” 计划(始于2002)
• • • • • 选择了100个英国站点 给备选的站点发现以活得批准 每3个星期重新访问 使用“Bluesquirrel Web whacker”软件 定期检查链接、变化和丢失

-有意图提高规模(2004 竞标)

英国
• UKOLN 研究计划
-“uk.domain”估计大小应该有3,000,000个站 点,24,000,000左右的网页。

• Wellcome Library和JISC正致力于寻找解决 网络数据存档的出路。
-医学网站 -2002.3提供咨询,2002.10 完成数据 -2002.8 初步报告,最后报告会散布在整体里。

德国
• 档案库(德国藏书) -收集目标资料的经验 -两次不完全的快速扫描(2000.12,2000.2)

法国
• 档案库(法国藏书) • 2001:进行了两次小规模尝试,收集了16,000左 右的音乐、视频等多媒体站点。 -结果并不是令人满意
• 一些非预期的特点 • 过大的站点

-正计划用两种不同的机器进行一次新的更为可行 的研究。 -2001.6修改了允许储存的法律,但是扔未获得国 会通过。

日本
• • • • 国家议会图书馆 WARP(Web Archiving Program) 初步是实行选择性获得数据 日本版权法有了一些大的变化,有可能获 准进行一些更加深入的数据收集工作。

国际档案库
• 1996年由Brewster Kahle以卖出WAIS获得 的15,000,000美元建立国际档案库。 • 非营利组织
-发起者包括:AT&T实验室,Compaq,Xerox PARC,Quantum DLT,国家科学基金

1996年后开始归档网页,包括1903-1973 的电影资料

国际档案库
• • • • 每两个月完全扫描一次 机器排除,一些新闻、个人、照片。 完全拷贝了亚历山大港的档案库 在不同的洲复制。“复制是最好的保存方 法” • 版权?“也许这严重的侵害了合法的版权”
(Lawrence Lessig,斯坦福的IP法和互联网空间专家)

国际档案库(“wayback machine”)
• • • • • • • • http://www.archive.org 以收集和归档国际互联网公共网页为目标 包括大部分的图像数据 2001.10发部 对公众完全开放 每天2万用户,每秒200人 不提供文本搜索,只由URL搜索 资金支持情况?-未知

结论
• “我们在这里不是为了触探法律。我们要创 造一个我们想要生活的世界。一个没有图 书馆的世界就是一个没有记忆的世界,这 是将是一场悲剧。”(B.Kahle,2001.10) • “在互联网上,谁都可以成为一个出版者, 现在我们这个图书馆就可以做这样的事 情。” (B.Kahle,2002.5)


				
DOCUMENT INFO
Shared By:
Categories:
Stats:
views:47
posted:4/16/2008
language:English
pages:31