Hướng dẫn sử dụng Thư viện số Greenstone

					THƯ VIỆN SỐ GREENSTONE
HƯỚNG DẪN CÀI ĐẶT
Greenstone là một bộ phần mềm giúp xây dựng và phân loại các tập hợp Thư viện số. Nó
đưa ra một cách tiếp cận mới trong việc tổ chức và xuất bản thông tin trên Internet hoặc
trên CD-ROM. Greenstone là kết quả của dự án Thư viện số tại trường đại học Waikato,
NewZealand (New Zealand Digital Library Project), đã được triễn khai và phân phối với
sự hợp tác của hai tổ chức UNESCO và Human Info NGO. Greenstone là một phần mềm
nguồn mở có sẵn tại địa chỉ http://greenstone.com , trong mục GNU General Public
License.
Chúng tôi đảm bảo rằng phần mềm này đáp ứng tốt nhu cầu của bạn. Nếu có bất kì vấn
đề nào liên quan đến phần mềm này xin trình bày tại greenstone@cs.waikato.ac.nz
THÔNG TIN HƯỚNG DẪN
Tài liệu này giải thích cách cài đặt phần mềm Greenstone để chạy có trên máy của bạn.
nó cũng chỉ cách bạn lấy được các phần mềm có liên quan khác sẵn có trên - the Apache
Webserver and Perl. Thủ tục cài đặt này cũng tương đối đơn giản.
Phần mềm này chạy trên các hệ điều hành khác nhau và trên các cấu hình máy khác nhau.
Vì vậy có thể sẽ gặp phải một số vần đề ảnh hưởng tới (Hoặc có thể ảnh hưởng) thủ tục
cài đặt. Phần một để cập đến một số vấn đề bạn cần quan tâm đến khi cài đặt phần mềm
này.
Phần 2 mô tả chi tiết thủ tục cài đặt cho mọi phiên bản khác nhau; bạn chỉ cần đọc những
có liên quan đến hệ điều hành của bạn. Phần 3 mô tả cách trình bày bộ sưu tập bao gồm
cả việc phân phối. Phần 4 giải thích cách cài đặt các webservers thông dụng, Apache và
Microsoft PWS/IIS, để làm việc với Greenstone.
Phần 5 miêu tả cách lựa chọn các hệ điều hành khác nhau để cài đặt phần mềm
Greenstone, và Phần 6 chỉ cách cá nhân hoá trang chủ khi cài đặt phần mềm này vào hệ
thống của bạn .
Các tập tài liệu trong Bộ phần mềm Greenstone
Bộ phần mềm này bao gồm 4 tập tài liệu:
• Hướng dẫn cài đặt
• Hướng dẫn sử dụng
• Hướng dẫn phát triển
• Từ tài liệu bằng giấy đưa lên mạng.
Những thành viên tham gia dự án phần mềm Greenstone
Phần mềm này là sự đóng góp của nhiều người trong đó Rodger McNab và Stefan
Boddie là hai người đóng góp chính trong việc xây dựng và phát triển phần mềm
này. Ngoài ra còn có sự đóng góp của các tác giả sau: David Bainbridge, George
Buchanan, Hong chen, Elke Duncker, Carl Gutwin, Geoff Holmes, John
McPherson, Craig Nevill-Manning, Gordon Paynter, Bernhard Pfahringe, Todd
Reed, Bill Rogers và Stuart Yeates. Những thành viên khác trong dự án Thư viện
số tham gia phần Thiết kế hệ thống là: Mark Apperley, Sally Jo Cunningham,
Steve Jones, Te Taka Keegan, Michel Loots, Malika Mahoui và Lloyd Smith.
Chúng tôi cũng chân thành cảm ơn những đơn vị đã tham gia khâu đóng gói cũng
như phân phối bộ phần mềm này: MG, GDBM, WGET, WV, PDF2HTML,
PERL. MỤC LỤC
THƯ VIỆN SỐ GREENSTONE .................................................. ...................................1
HƯỚNG DẪN CÀI ĐẶT............................................... .................................................. .1
Ian H. Witten and Stefan Boddie............................................ .........................................1
Khoa công nghệ thông tin............................................... .................................................. ..1
THÔNG TIN HƯỚNG DẪN............................................... .............................................2
Các tập tài liệu trong Bộ phần mềm Greenstone .................................................. .........2
Những thành viên tham gia dự án phần mềm Greenstone ...........................................2
1. Các phiên bản của Greenstone........................................ ............................................4
2. Thủ tục cài đặt............................................... .................................................. ............6
2.1. Windows........................................... .................................................. ................6
2.2. Unix.............................................. .................................................. .....................9
2.3. Cách tìm hiểu phần mềm Greenstone........................................ .......................11
2.4. Kiểm tra và xử lý sự cố................................................ .....................................12
2.5. Tìm hiểu rõ hơn............................................... .................................................. 14
3. Bộ sưu tập Greenstone........................................ .................................................. ....14
4. Cài đặt Webserver......................................... .................................................. ..........16
4.1. Web server Apache............................................ ...............................................16
4.2. Webservers PWS và IIS............................................... .....................................18
5. Cấu hình trang web của bạn............................................... .......................................20
5.1. Cho phép chỉnh sửa thuộc tính tập tin............................................... ...............20
5.2. Tập tin cấu hình gsdlsite.cfg...................................... .......................................20
6. Cài đặt Greenstone cho riêng bạn............................................... ..............................22
6.1. Ví dụ................................................ .................................................. ................22
6.2. Cách thức hoạt động của Greenstone........................................ ........................24
6.3. Gửi lại một địa chỉ (URL) đến Greenstone........................................ ...............24

1. Các phiên bản của Greenstone
Phần mềm này chạy trên các hệ điều hành khác nhau và trên các cấu hình máy khác nhau.
Như bảng tóm tắt ở hình 1

Hình 1: Các chọn lựa khác nhau giữa các phiên bản Greenstone cho Windows và Linux
Có một số vần đề ảnh hưởng (hoặc có thể ảnh hưởng) tới quá trình cài đặt. Bạn cần quan
đến những câu hỏi sau khi cài đặt phần mềm này:
• Bạn đang sử dụng hệ điều hành nào, Windows hay Unix?
• Nếu là Windows thì đang sử dụng phiên bản nào 3.1 hay 3.11 hay phiên bản gần
đây? Mặc dù bạn có thể trình bày bộ sưu tập trên các máy sử dụng các phiên bản
3.1/3.11 và phục vụ các máy khác cùng mạng nhưng bạn không thể xây dựng
được bộ sưu tập mới. Để cài đặt đầy đủ phần mềm Greenstone, bạn phải sử dụng
các hệ điều hành : Windows 95/98/Me, và NT/2000.
• Nếu là hệ điều hành Unix, bạn đang sử dụng Linux hay một phiên bản khác của
Unix? Đối với Linux, việc cài đặt thông qua một tập tin binary xảy ra rất dễ dàng.
Với các phiên bản khác của Unix bạn sẽ phải cài luôn mã nguồn rồi dịch chương
trình. Có thể bạn còn phải cài đặt thêm một phần mềm nào đó vào máy.
Phiên bản binaries
sẳn có đầy đủ
Unix
Windows or Unix?
Window
95/98/me NT/2000 3.x
Khác
Chỉ người QT mạng mới
có thể cài đặt phần mềm
Phiên bản
sẳn có đầy đủ
Phiên bản sẳn
có đầy đủ
Kiểm tra mã nguồn
Binaries sẳn có
Phiên bản sẳn
có đầy đủ
Mã nguồn
được kiểm tra
Phiên bản sẳn
có đầy đủ
Sun Solaris or
Macintosh OS/X
Không cần login
dười dạng “root”
Phiên bản sẳn
có đầy đủ
Linux
Không
được KT
Chỉ phục vụ bộ sưu
tập nhưng không
được xây dựng mới • Nếu là Windows NT/2000 hay Unix, bạn có thể sử dụng với tư cách là
“Người
quản trị” hệ thống hay “root” ? Có thể bạn phải chỉnh lại phần webserver cho
thích hợp với Greenstone.
• Bạn có cần thiết phải cài mả nguồn hay không? Nếu bạn đang sử dụng Windows
hay Linux bạn chỉ cần cài đặt binaries. Nhưng cũng có thể bạn muốn cài luôn mã
nguồn thì nó ở trong mục Greenstone distribution.
• Bạn có muốn xây dựng bộ sưu tập mới không? Nếu có bạn cần phải có Perl có sẵn
miễn phí cho cả hai hệ điều hành Windows lẫn Unix.
• Máy đang chạy của bạn có phải dùng webserver hay không? Phần mềm
Greenstone có sẵn một Windows webserver? Tuy nhiên nếu bạn có thể chạy
webserver sẵn có của bạn nếu muốn. Đối với hệ điều hành Unix bạn cần phải
chạy một webserver.
• Bạn có muốn biết cách cấu hình lại webserver của mình không? Nếu bạn không
dùng webserver của Greenstone, bạn sẽ phải cấu hình lại máy đôi chút để máy
nhận dạng được Greenstone 2. Thủ tục cài đặt
Các phiên bản của Greenstone đều có sẵn trên cả hệ điều hành Windows và Unix, dưới
dạng binaries và mã nguồn. Giao diện người dùng Greenstone sử dụng trình duyệt Web:
Netscape Navigator hay Internet Explorer (phiên bản 4.0 hoặc mới hơn trong cả hai
trường hợp) đều thích hợp, Các phiên bản Windows của Netscape được cung cấp trên
CDROM.
2.1. Windows
Nếu bạn đang dùng Unix, hãy bỏ qua phần đầu của phần 2.2. Còn nếu sử dụng Windows
và muốn đơn giản thì việc cài đặt cũng tương đối dễ dàng, xem thủ tục “Cài đặt đơn
Giản” kế tiếp. Hệ thống Greenstone chiếm khoảng 40Mb dung lượng ổ cứng.
Nếu bạn chọn hệ điều hành nào khác có chế độ cài đặt mặc định, bạn sẽ phải quyết định
nên cài mã nhị phân (binary code) hay mã nguồn. Trong trường hợp còn do dự thì nên
chọn mã nhị phân (binary code). Thủ tục cài đặt giống như hai trường hợp trên. Phần tiếp
theo sẽ cho biết nhiều hơn các cách chọn lựa sao cho phù hợp.
Khi đã hoàn thành phần cài đặt bạn nên chuyển qua phần 2.3
Cách cài đặt đơn giản
Để cài đặt phiên bản Windows từ CD-ROM, hãy để đĩa vào ổ CD-ROM (D . Nếu thủ tục
cài đặt không được bắt đầu trong vòng 20 giây, click vào menu start, chọn Run và gõ
đường dẫn D:\setup.exe, “D” là ký tự để nhận biết ổ CD-ROM của bạn. Đối với
Windows 3.1, chọn Run từ “File manager” và gõ D:\Windows\win3.1\setup.exe. Cách cài
đặt đơn giản nhất là chấp nhận các chế độ theo mặc định đưa ra khi cài đặt bằng cách
click vào nút Next. Đó là tất cả những gì bạn cần làm để cài đặt Greenstone trong thư
mục C:\Program Files\gsdl.

Hình 2:
Trang chủ Greenstone
của bạn

Khi quá trình cài đặt hoàn thành, để khởi động hệ thống thư viện số, click vào nút start,
mở thanh thực đơn chương trình (Program menu), và chọn mục Greenstone Digital
Library (Thư viện số Greenstone), sau đó xuất hiện hộp hội thoại: chỉ cần click vào Enter
Library (Truy cập vào Thư viện số). Nó tự khởi động trình duyệt Web và load (tải) trang
chủ Greenstone nhìn giống như ở hình 2. Bạn truy cập vào bộ sưu tập mẫu Greenstone
bằng cách click vào biểu tượng của nó.
Binaries cho Windows
Có loại tập tin binaries dành cho Windows trên đĩa CD-ROM: Thư viện nội bộ (the Local
Library) và Thư viện Web (the Web Library). Chương trình cài đặt mặc định sử dụng
Local Library. Các bạn nên sử dụng phiên bản này. Cài đặt Web Library phức tạp hơn
nhiều và chỉ thật sự cần thiết khi bạn đã chạy một web server và muốn sử dụng nó để
chạy chương trình Greenstone. Với cái tên nghe như rất đơn giản nhưng Local Library lại
là một hệ thống web hoàn chỉnh.
Thư viện địa phương (Local Library)
Nó cho phép Windows chuẩn bị cho việc xây dựng các bộ sưu tập Greenstone. Bộ sưu
tập mẫu sẽ được tự động cài đặt vào máy của bạn, bạn cũng có thể cài bộ sưu tập khác
như ở hình 2.
CD-ROM (Phần 3). Phần mềm Thư viện cục bộ (The Local Library) được sử dụng dưới
dạng đĩa CD-ROM được sản xuất bởi hệ thống Thư viện số Greenstone. Thư viện cục bộ
được dự định để dùng cho các máy tính hoạt động độc lập hoặc các máy mà không cài
phần mềm webserver. Nó chứa một built-in webserver nhỏ để các máy khác trong cùng
mạng cũng có thể truy cập vào mạng. (Tuy nhiên webserver có cấu hình giới hạn).
Thư viện cục bộ tự động nhận biết xem máy của bạn đã cài các phần mềm về mạng chưa
hay có được kết nối Internet không. Nó có khã năng hoạt động chính xác trong từng
trường hợp này. Tuy nhiên, có thể xảy ra hai những vấn đề sau:
• Tự kết nối mạng bằng điện thoại một cách không mong muốn
• Phần mềm chạy có lỗi bởi vì phần mềm cài đặt bị sai.
Một phiên bản hạn chế của Thư viện cục bộ được cung cấp để sử dụng cho những trường
hợp này. Phiên bản hạn chế này chỉ làm việc với Netscape (Không phải Internet
Explorer). Khi bạn kích hoạt phiên bản Thư viện cục bộ của Greenstone, hộp hội thoại sẽ
có một nút cho phép bạn chuyển sang bảng hạn chế. Nếu không gặp các trường hợp trên,
bạn nên sử dụng phiên bản chuẩn.
Thư viện Web (Web Library)
Nó cho phép bất cứ một máy tính nào có khả năng này với một webserver chuẩn bị cho
việc xây dựng bộ sưu tập Greenstone. Giống như Thư viện cục bộ nói trên, bộ sưu tập
mẫu Greenstone sẽ được cài đặt tự động. Bạn cũng có thể cài đặt bộ sưu tập khác trên
CD-ROM (xem phần 3).
Thư viện Web khác với Thư viện cục bộ bởi vì nó được viết để dùng cho các máy tính đã
có sẵn webserver.
Để chạy Thư viện Web bạn cũng cần phải có
• Phần mềm Webserver, có thể là Apache
• The Collector. Phần này có trong cả Thư viện cục bộ và Thư viện số Web, cho
phép bạn tùy ý xây dựng các dữ liệu. ( Bạn sẽ không dùng được chức năng
Collector trên máy tính dùng hệ điều hành Windows 3.1/3.11)
Cấu hình Windows webserver (Chỉ dùng phiên bản Thư viện cục bộ)
Một thuận tiện của phiên bản Thư viện cục bộ của Greenstone dó là nó không yêu cầu
cấu hình đặc biệt nào. Tuy nhiên Đối với Thư viện Web, bạn sẽ phải làm một số điều
chỉnh trong phần cài đặt của webserver.
Nếu bạn đã cài webserver rồi bạn phải thay đổi cấu hình một chút cho khi cài đặt
Greenstone. Tập tin install sẽ hướng dẫn bạn làm với Apache server—xem phần 4.2 để
biết thêm các chỉ dẫn webserver PWS và IIS. Bạn nhờ người quản trị hệ thống chỉ dẫn
cách cấu hình lại webserver đang sử dụng – chúng có thể hiểu được chỉ dẫn được in từ
install script.
Nếu bạn chưa cài webserver, bạn sẽ phải cài thêm. Sau đó phải cấu hình lại cho thích
hợp. Xem phần 4 để thấy rõ các phần cài đặt webserver có liên quan đến Greenstone , và
cách chỉnh sửa. Bạn chỉ cần thêm vài dòng trong tập tin cấu hình mà thôi
Nguồn Windows
Mã nguồn Greenstone chiếm 50 MB của đĩa cứng, nhưng cần tới khoảng 90MB để dịch
chương trình. Để dịch chương trình nguồn trên hệ điều hành windows bạn cần phải. • Chương
trình dịch của Microsoft Visual C++. (Chúng tôi đang sửa chữa một số
vấn đề nhỏ trong việc dịch Greenstone trên các bản Windows khác của GNU
GCC).
(Bạn không cần GDBM, cơ sở quản lí dữ liệu Gnu, bởi vì nó có sẵn trong
Greenstone rồi).
Bạn không thể dịch chương trình Greenstone trên máy sử dụng hệ điều hành
Windows 3.1/3.11.
Trong trường hợp bạn dịch lại chương trình Greenstone và mong muốn sử dụng
bản dịch lại để tạo CD-ROM, lưu ý rằng mã chương trình được tạo ra từ phiên bản
mới của compiler Visual C++ không chạy trên hệ điều hành Windows 3.1/3.11, mặc
dù chạy tốt với hệ điều hành Windows (có phiên bản 95,98, Me, NT, 2000). Nếu
bạn muốn CD-ROM của bạn hoạt động trên các máy sử dụng hệ điều hành của các
phiên bản trước đó, bạn sẽ phải cần một chương trình dịch khác. Hơn thế nữa,
chương trình Greenstone sử dụng STL, thư viện mẫu chuẩn C++, và thỉnh thoảng
mặc dù các chương trình dịch này chạy cùng với STL, phiên bản được cung cấp
không luôn hoạt động chính xác. Do đó để dịch lại chương trình dùng cho các hệ
diều hành cũ của Windows, bạn cần phải có
• The Microsoft Visual C++, Version 4.0 or 4.2.
• Một phiên bản mở rộng của STL, thư viện mẫu chuẩn C++. STL được đi kèm
với Greenstone để có thể sử dụng các phiên bản dịch này.
Lưu ý rằng chương trình cài đặt chương trình Windows không biên dịch Greenstone
cho bạn nếu bạn chọn cài đặt mã nguồn. Các bạn xem tập tin install.exe
(C:\Program Files\gsdl bằng mặt định) tham khảo các hướng dẫn cho từng platform
và compiler
2.2. Unix
Phần này viết cho người sử dụng Unix. (Người dùng Windows nên bỏ qua phần này để
chuyển qua phần 2.3). Bạn cần chọn xem bạn sẽ cài đặt mã nhị phân hay mã nguồn. Mã
nhị phân chiếm khoảng 50 Mb dung lượng đĩa cứng, mã nguồn yêu cầu khoảng 160 Mb
để dịch chương trình.
Unix binary
Mã nhị phân yêu cầu loại bản Linux x86-based Intel mà bao gồm hổ trợ ELF binary.
Những phân loại khác đáp ứng được yêu cầu như sau:
RedHat 5.1
SuSE Linux 6.1
Debian 2.1
Slackware 4.0
Các phiên bản gần đây của Linux cũng sử dụng được.
Bạn cần có một webserver: Chúng tôi đề nghị nên dùng Apache. Chúng tôi cũng khuyên
bạn nên cài webserver trước khi cài Greenstone – Điều này sẽ giúp cho bạn thuận tiện
hơn trong việc trả lời các câu hỏi trong quá trình cài đặt Greenstone. Nếu bạn muốn xây
dựng một bộ sưu tập Thư viện số mới, bạn cũng sẽ cần đến Perl, nếu như bạn chưa cài nó
vào hệ thống của bạn. Để kiểm tra, mở một cửa sổ, gõ perl –v, và xem có xuất hiện số
phiên bản của Perl hay không. Trong hầu hết các phiên bản của Linux, Perl được cài đặt
mặc định.
Unix nguồn
Mã nguồn Unix cũng giống như với Windows. Nó được dịch và được kiểm tra trên Linux
Solaris, and Macintosh OS/X; các phiên bản khác của unix cũng vậy
Để dịch mã nguồn Greenstone trên Unix, bạn cần
• GCC, trình biên dịch Gnu C++
• GDBM, quản lí cơ sở dữ liệu Gnu
Để chạy phần mềm Greenstone, bạn cần một Web server và Perl, được đề cập bên trên ở
phần Unix binaries.
Cài đặt Unix
Để cài đặt phiên bản Unix từ CD-ROM, để CD-ROM vào ổ đĩa và gõ
- mount /cdrom: Đặt đĩa CD-Rom vào thiết bị ( Lệnh này có thể khác với mỗi hệ
thống khác nhau, ví dụ trên OS/X bạn cd to the /Volumes directory và sau đó liệt
kê thư mục con trong CD-ROM).
- cd /cdrom: chuyển lên thư mục ở cấp cao nhất của CD-ROM
- cd Unix: thay đổi thư mục đến chổ Unix install script resides
- sh Install.sh: bắt đầu thủ tục cài đặt (một explicit sh được dùng bởi vì nhiều
chương trình cài đặt ngăn cấm cài đặt trực tiếp từ CD-ROM).
Lệnh cuối cùng bắt đầu với một hộp hội thoại yêu cầu thông tin cần thiết để cài đặt
Greenstone vào hệ thống của bạn, và đưa ra những tin phản hồi cần thiết trong lúc cài đặt.
Thủ tục cài đặt đầu tiên được bắt đầu bằng việc yêu cầu bạn chỉ đường dẫn để cài đặt thư
mục Greenstone. Tập tin đầu tiên được đặt vào là chương trình hủy cài đặt (“uninstall”)
sẽ xóa sạch các thành phần chương trình cài đặt nếu xảy ra trục trặc và cài đặt phải kết
thúc sớm. Kế đến bạn chọn nên cài binaries hay mã nguồn.
Bạn sẽ gặp một số câu hỏi về việc cài đặt Webserver. Bạn cần có một thư mục cgi chạy
chương trình được ( thường gọi là “cgi-bin”); bạn cũng có thể tạo một thư mục mới hay
sử dụng thư mục đã có. Nếu bạn tạo một thư mục mới, bạn sẽ cần phải nhập vào những
thông tin này trong tập tin cấu hình của webserver.
Trong cả hai trường hợp trên bạn cần phải nhập vào địa chỉ web của thư mục cgi. Hộp
hội thọai xuất hiện khi cài đặt chương trình sẽ hướng dẫn bạn thông qua các lựa chọn.
Cần phải cài đặt tính bảo mật các tập tin vào một số thư mục một cách chính xác.Màn
hình sẽ gợi ý cho bạn những thông tin cần thiết. Cuối cùng, bạn được gợi ý đặt mật khẩu
cho “Người quản trị mạng” (admin)
Theo mặc định, tất cả các phần mềm Greenstone được cài đặt trong thư mục
/usr/local/gsdl nếu là người sử dụng root đang tiến hành việc cài đặt, hoặc trong thư mục
~/gsdl đối với những trường hợp khác (“~” là thư mục gốc của người sử dụng)
Cài đặt binaries mất chỉ vài phút, đủ thời gian để bạn trả lời các câu hỏi. Nếu bạn muốn
cài luôn mã nguồn, việc cài đặt script sẽ biên dịch nó và mất từ 10 phút đến một giờ, còn
tùy thuộc vào tốc độ máy của bạn.
Để hủy việc cài đặt phần mềm, đánh vào:
- cd ~/gsdl hay /usr/local/gsdl nếu là người dùng gốc đã cài đặt Greenstone
- sh Uninstall.sh
Trong suốt quá trình cài đặt bạn sẽ được yêu cầu có muốn cài đặt bộ sưu tập nào không.
Bộ sưu tập mẫu Greenstone sẽ được cài đặt tự động, các bộ sưu tập khác trên CD-ROM
được miêu tả ở phần 3
Cấu hình Unix webserver
Nếu bạn đã cài webserver rồi, có một số thay đổi nhỏ sẽ được làm với cấu hình của
webserver để quá trình cài đặt Greenstone hoạt động. Tập tin install sẽ nói kĩ hơn về việc
này. Bạn nhờ người quản trị viên hệ thống để giúp bạn cấu hình lại webserver vì họ có
thể hiểu được những dòng xuất ra từ tập tin install. Để cho tiện, những dòng này sẽ được
viết vào tập tin được gọi là INSTALL_RECORD trong thư mục mà bạn cài đặt
Greenstone
Nếu bạn không có sẵn Greenstone, bạn sẽ phải cài đặt một cái. Phần phụ lục sẽ hướng
dẫn bạn về Apache. Sau đó bạn sẽ phải cấu hình nó cho thích hợp. Phần 4 sẽ cho bản chi
tiết về các phần cài đặt của Apache webserver có liên quan đến Greenstone cũng như
phải sửa phần cấu hình như thế nào. Nó chỉ gồm vài dòng trong file cấu hình
Bạn không cần phải là “root” mới cài đặt được. Tuy nhiên khi bạn tiến hành cấu hình một
Apache server đã tồn tại, bạn cần phải là root – tất cả tùy thuộc vào cách cài đặt Apache.
Nếu bạn tự cài đặt Apache, bạn có thể làm được mà không cần quyền “root”. Nếu bạn
không có sự hợp tác với quản trị viên hệ thống, bạn vẫn có thể luôn cài được một Apache
webserver thứ hai vào máy của bạn – ngay cả khi đã tồn tại sẵn một webserver Apache
2.3. Cách tìm hiểu phần mềm Greenstone
Thư viện cục bộ (Đối với Windows)
Nếu bạn đang sử dụng Thư viện cục bộ, bạn chạy chương trình từ menu start. Tự động
mở ra hộp hội thoại bắt đầu bằng trình duyệt web và tải trang chủ Thư viện số
Greenstone. Bộ sưu tập mẫu Greenstone sẽ được truy cập từ trang này. Hộp hội thoại có
chứa một biểu tượng menu File cho phép bạn thay đổi mặc định trình duyệt web được sử
dụng bằng chương trình Greenstone. Ngoại trừ khi bạn đang dùng Windows 2000, bạn
nên sử dụng Internet Explorer; các trường hợp khác có thể sử dụng Internet Explorer hay
Netscape.
Thư viện Web (Windows và Unix)
Nếu bạn đang sử dụng Thư viện cục bộ, sau khi đã cài đặt phần mềm và cấu hình
webserver, bạn hãy sử dụng địa chỉ này (ULR) để nhập vào mạng Greenstone
http://localhost/gsdl/cgi-bin/library
Từ trang này, bạn có thể truy cập bộ sưu tập mẫu Greenstone
Chức năng collector
Một liên kết với Collector được cung cấp trang chủ bộ Thư viện số
Quản trị mạng
Một liên kết đến trang Administration được cung cấp trên trang chủ Thư viện số. Người
dùng “administrator” được gọi là admin, với một mật khẩu được bạn chọn trong quá trình
cài đặt. Quản trị viên được phân quyền được thêm người dùng mới và xây dựng các bộ
sưu tập mới.
muagi.vn Chủ đề tương tự
Gửi chủ đề mới, file đính kèm
Tiểu luận: Khảo sát đặc điểm Du lịch Văn Miếu Quốc Tử Giám
Quan điểm đường lối của Đảng, chính sách của Nhà nước về công tác thư viện
Tài liệu hướng dẫn sử dụng MS Paint
Hướng dẫn sử dụng Shoutbox
   Trả lời với trích dẫn


28-04-2010, 04:29 PM #2
huyenmy251
Xem hồ sơ
Xem tất cả bài gửi
Tin nhắn
Xem Entry
   Thành viên
Ngày tham gia
Apr 2010
Bài gửi
37
Đã cảm ơn
12
Được cảm ơn 3 lần trong 3 bài

2.4. Kiểm tra và xử lý sự cố
Để kiểm tra Thư viện Greenstone, mở trình duyệt web tại trang chủ Thư viện Greenstone
và bộ sưu tập mẫu explore hay bất cứ bộ sưu tập nào khác mà bạn cài đặt. Đừng lo - bạn
chẳng thể làm hỏng thứ gì đâư. Bạn cứ nhấp chuột tùy ý vào bất cứ hình nào nhấp chuột
được trên màn hình. Nếu bạn giữ chuột đứng yên lên một hình, trong hầu hết các trình
duyệt web đều sẽ xuất hiện một ghi chú báo cho bạn biết chuyện gì sẽ xảy ra khi bạn
nhấp chuột vào. Hãy thử di! Hãy chọn các từ đại loại như “the” và “and” để tìm kiếm – sẽ
có một số kết quã hiển thị, và chẳng cái gì hỏng cả. Để biết thêm thông tin chi tiết, xem
phần hướng dẫn sử dụng (Greenstone Digital Library User’s Guide).
Thử nghiệm chức năng collector
Chức năng collector cho phép bạn xây dựng một bộ sưu tập có chứa các dữ liệu mà bạn
muốn. Để kiểm tra điều này, bạn sử dụng chức năng Collector để tạo ra bộ sưu tập mới.
Khi bạn mở ra trang dữ liệu nguồn, hãy chỉ rõ một thư mục có chứa vài trang web. Nếu
muốn bạn có thể lấy các tập tin từ Thư viện Greenstone trên CD-ROM trên hệ điều hành
Windows, nếu CD-ROM thì ở trong ổ D:, chỉ rõ đường dẫn file://D:/collect/dlpeople
Đối với hệ điều hành unix, trước tiên để đĩa CD-ROM vào ổ đĩa và sau đó chỉ rõ đường
dẫn:
file:///cdrom/collect/dlpeople
Thư mục này có chứa trang chủ các thành viên phát triển dự án Thư viện số New Zealand
để bạn thử. Hãy kiểm tra từ lúc bạn tiến hành xây dựng bộ sưu tập đến lúc công việc xây
dựng hoàn thành một cách chính xác, sau đó nhìn vào trang chủ Greenstone xem bộ sưu
tập mới. Để xem chi tiết hơn, nó nằm ở phần Hướng dẫn sử dụng Thư viện số
Greenstone, phần 3.
Sữa lỗi




Thư viện nội bộ
(chỉ dùng WINDOWS)




Thư viện trên mạng
diện rộng (Web)
(WINDOWS và UNIX)

CẢ HAI PHIÊN BẢN




Vấn đề Thử làm theo
Khi bắt đầu sử dụng Greenstone,
máy tính yêu cầu bạn kết nối
Internet
Thông thường bạn chỉ cần nhấn nút
Cancel trong hộp hội thoại.
Khi khởi động Greenstone, máy
tính vẫn yêu cầu bạn kết nối
Internet
chọn “Restricted version” khi bạn chạy
chương trình Greenstone. Phiên bản
này chỉ làm việc với Netscape.

Khi bạn truy cập vào địa chỉ của
thư mục Thư viện số, máy tính
không tìm thấy trang đó.
Kiểm tra cài đặt Internet Proxy và tắt
proxies (sử dụng Edit preferences trên
Netscape hoặc Internet options trên
Explorer).
Collector làm việc rất chậm Bạn có dùng Netscape trên hệ điều
hành Windows 2000 không? Nếu vậy,
hãy sử dụng Internet Explorer vì
Windows 2000 có thể không thích hợp
với Netscape.
Khi bạn khởi động Apache, nó
tự động thoát ra ngay lập tức

Thêm một file hướng dẫn ServerName
ocalhost vào tập tin cấu hình Apache
(Xem phần 4.1)
Khi bạn nhấp chuột vào nút tìm
kiếm vào thư viện số, nó trình
bày một tập tin nhị phân vô
nghĩa.
Kiểm tra phần ScriptAlias trong tập tin
cấu hình Apache, và chắc chắn rằng nó
hiện ra trước phần Alias (xem phần
hướng dẫn 4.2 và 4.3)
Bạn truy cập được trang chủ
Greenstone (Hình 2), nhưng biểu
tượng Demo collection lại không
xuất hiện.
Chạy chương trình library (Trong mục
cgi-bin) từ cửa sổ DOS để đọc các
thông tin giúp bạn định vị lỗi
Vấn đề
Thử làm
Trình duyệt web của bạn
không tìm thấy tập tin
main.cfg.
Kiểm tra các tập tin và đặt thuộc tính có thể đọc .
Nếu bạn đang sử dụng Thư viện Web, thử chạy
chương trình library bằng dòng lệnh. Nếu chạy tốt,
thì khả năng là do các tập tin được đặt thuộc tính
không phù hợp (Xem phần 5.1). Nếu cũng không
phải thì có thể do tập tin gsdlhom bị đặt sai vị trí
trong tập tin cấu hình. Xem phần 5.2.
Gặp rắc rối với chức năng
collector.
Đọc Thư viện số Greenstone, Hướng dẫn sử dụng,
Phần 3.
Bạn đã thêm một người
dùng mới, nhưng người
đó lại không đăng nhập
được
Kiểm tra trong thư mục C:\Program Files\gsdl\etc,
có chứa các tập tin có thuộc tính cho phép ghi (
xem phần 5.1).

2.5. Tìm hiểu rõ hơn
Để tìm hiểu nhiều hơn về phần cài đặt Greenstone, hãy tham khảo phần Hướng dẫn phát
triển Thư viện số Greenstone (Greenstone Digital Library Developer’s Guide). Nó bao
gồm chi tiết phần cấu trúc thư mục được tạo ra, và thông tin về cách cấu hình trang
Greenstone của bạn.


3. Bộ sưu tập Greenstone
Nhiều bộ sưu tập Greenstone có sẵn trên CD-ROM. Nếu bạn truy cập internet, bạn
có thể tải về những bộ sưu tập khác ở dạng đã xây dựng hoặc chưa xây dựng, từ trang
web dự án Thư viện số New Zealand (nzdl.org).
Bộ sưu tập mẫu Greenstone là một phần nhỏ của bộ sưu tập được xây dựng kĩ lữơng để
minh họa các khả năng trình duyệt đa dạng của Greenstone (miễn là các metadata thích
hợp đều sẵn có). Các bộ sưu tập khác minh họa các khả năng khác nhau của Greenstone;
bạn có thể thêm các đặt tính này vào bộ sưu tập của mình bằng cách sử dụng chức năng
collector để sao chép. Dung lượng cần thiết của đĩa cứng cho mỗi bộ sưu tập được trình
bày phía dưới.
demo Greenstone Demo (7 Mb):
Một tập nhỏ của Thư viện phát triển. Nếu như bạn chép lại bộ sưu tập này, chỉ khi các tập
tin mới của bạn cung cấp thông tin các metadata phù hợp, bạn mới có thể sử dụng toàn bộ
các tính năng của nó
chinese Chinese demo (1 Mb):
Một bộ sưu tập mẫu Văn học cổ điển Trung Quốc. Bạn cần phải thay đổi thuộc tính bộ
sưu tập của mình (Thuộc tính trình bày) sang tiếng Trung Quốc.
gsarch Greenstone archives (1 Mb):
Một bản lưu trữ các email của Greenstone trình bày cách sử dụng phần mềm để tìm kiếm
và trình duyệt các địa chỉ E-mail. (bộ sưu tập này bao gồm các địa chỉ E-mail mã hóa
MIME, các tập tin này không đựơc xử lí tốt bằng plugin mặc dù trên lí thuyết là được).
dls Development Library subset (150 Mb):
Giống như bộ sưu tập mẫu Greenstone, đây là một tập con của Thư viện Humanity
Development Library – nhưng lớn hơn. Nó chứa khoảng 250 ấn phẩm – sách, báo cáo, và
tạp chí – trong nhiều phần vấn đề khác nhau trong lĩnh vực này. Giống như bộ sưu tập
mẫu, bạn chỉ nên dùng nó khi biết rõ về lọai metadata cần được cung cấp để sử dụng nó
wordpdf MSWord và PDF demo (3 Mb):
Nó chứa một bộ sưu tập nhỏ bằng văn bản được viết bởi nhiều thành viên khác nhau của
dự án NZDL, ở cả hai dạng Word và PDF. Tài liệu gốc cũng được cung cấp để xem. Các
bản HTML được dùng để đánh chỉ mục nội dung (full-text indexing), vì những khó khăn
trong việc chuyển đổi sang HTML, các văn bản này trình bày không được đẹp. Bộ sưu
tập mẫu Greenstone được tự động đính kèm vào khi cài đặt phần mềm. Hộp hội thoại
xuất hiện khi tiến hành cài đặt sẽ yêu cầu bạn có chọn đính kèm thêm các bộ sưu tập khác
không.
Bộ sưu tập tiếng Trung Quốc hoạt động với phiên bản mới gần đây của Internet Explorer
(Phiên bản 5 hoặc hơn nữa), miễn là bạn phải tải về bảng ký tự Trung Quốc (Nếu bạn
không làm việc này, Explorer sẽ nhắc bạn). Nó có thể được dùng trên Unix với Netscape
(Phiên bản 4.5 hoặc hơn nữa). Nếu bạn muốn sử dụng Netscape dưới hệ điều hành
Windows, bạn sẽ phải tải về phần tiếng Trung Quốc như NJStar Communicator, và có thể
bạn sẽ phải tạo bộ sưu tập Greenstone sử dụng mã khác (trên menu thuộc tính, đừng chọn
chọn UTF-8 như mặc dịnh mà hãy chọn GBK).
Để nhập tiếng Trung Quốc bạn có thể sử dụng NJStar Communicator trên hệ điều hành
Windows hay CXterm trên Unix (sao/dán các ký tự tiếng Trung Quốc vào hộp tìm kiếm
—chúng không được hiển thị đúng vẫn dùng được khi tìm kiếm). 4. Cài đặt Webserver
Trong phần này chúng ta miêu tả cách cài đặt webserver của bạn để hoạt động với
Greenstone. Lưu ý rằng việc cài đặt không cần thiết khi bạn sử dụng Thư viện cục bộ
Windows, bởi vì phần mềm này tự hoạt động mà không yêu cầu cần phải cài đặt
webserver.
Chúng ta bàn về Apache webserver sẵn có cho cả hai hệ điều hành Windows và Unix và
Microsoft’s Personal Web Server (PWS) và Internet Information Services (IIS)
webserver.
PWS là một chuẩn Microsoft server cho Windows 95/98; IIS là chuẩn webserver cho
Windows 2000 và sắp tới là Windows XP; Windows NT cũng có thể được dùng. Phần
mô tả Apache dùng được với cả Thư viện web Windows và các phiên bản của Unix (mặc
dù chúng ta sử dụng thuật ngữ và tên đường dẫn theo kiểu Windows); phần PWS/IIS chỉ
dùng được cho Thư viện web Windows.
Khi bạn đã cài đặt webserver, bước tiếp theo là cài đặt Greenstone. Cứ cho rằng bạn sẽ
chọn các mặc định trong mỗi giai đoạn cài đặt bằng cách nhấp chuột vào nút Next. Kết
quả là thư mục có đường dẫn sau C:\Program Files\gsdlI được tạo ra và binary Thư viện
web được lưu trữ ở đây cùng với một số tập tin hổ trợ.
Tất cả các webserver đều sử dụng một URL là “localhost” để chỉ rõ máy mà webserver
đang chạy trên đó. Vì vậy khi bạn cài đặt một webserver, bạn có thể có được trang tài liệu
HTML của mình bằng cách gõ vào địa chỉ sau: http://localhost trên trang trình duyệt.
Nếu máy của bạn có một tên domain cài đặt sẵn, bạn hãy dùng tên này để thay thế cho
localhost. Vì thế trên máy có cài phần mềm Thư viện số Greenstone, http://nzdl.org và
http://localhost là như nhau. Nếu bạn gõ vào http://nzdl.org trên máy của bạn, bạn sẽ
nhận được webserver của Thư viện số Greenstone, còn ngược lại nếu bạn gõ vào
http://localhost bạn sẽ nhận được trang webserver của chính máy mình.
4.1. Web server Apache
Webserver Apache thường được cài đặt trong C:\Program Files\Apache
Group\Apache và được cấu hình để thư mục cgi-bin ở trong thư mục phụ \cgi-bin và gốc
tài liệu là thư mục phụ \htdocs. Nó được cấu hình lại bằng việc chỉnh sửa tập tin cấu hình
trong C:\Program Files\Apache Group\Apache\conf\httpd.conf. Đây là tập tin văn bản:
hoàn toàn dễ đọc để xem cách mọi thứ được cài đặt
Tùy thuộc vào cách phần mềm mạng được cài đặt như thế nào của máy bạn, bạn có thể
phải thêm vào dòng này vào tập tin cấu hình httpd.conf Apache
ServerName localhost
Nếu không có dòng này, hệ thống sẽ cố gắng tìm tên của mạng. Tuy nhiên, một số phiên
bản của Windows có thể gặp trục trặc trong việc này. Trong trường hợp này Apache sẽ
thoát ra ngay lập tức sau khi bạn khởi động nó. Apache xuất hiện thông báo lỗi, nhưng lại
đột ngột bị xoá đi và do đó có thể bạn sẽ không đọc được.
Cài đặt thư mục cgi-bin Greenstone
Cgi-bin là một thư mục mà webserver xử lý các tài liệu như các chương trình chạy đựơc.
Phần directive ScriptAlias của Apache được dùng để tạo ra thư mục cgi-bin. Lưu ý rằng
phần directive nàycó thể tạo ra bất cứ thư mục vào thành một thư mục cgi-bin – Ngược
lại, nếu như ScriptAlias không được dùng thì cgi-bin chỉ là một thư mục bình thừơng
Khi được cài đặt, Apache có một thư mục trong cgi-bin trong C:\Program
Files\Apache Group\Apache\cgi-bin. Điều này với địa chỉ http://localhost/cgi-bin/hello,
thì webserver sẽ chạy một tập tin hello trong thư mục bên trên.
Webserve cần chạy một chương trình Greenstone gọi là “library.exe”, sau đó tìm đọc
trong tập tin cấu hình trang Thư viện Greenstone hoặc là tập tin “gsdlsite.cfg” trong
cùng một thư mục.
Cách tốt nhất để sắp xếp lại các tập tin này là dùng directive ScriptAlias của Apache để
tạo ra một thư mục cgi-bin mới. Đây là một đoạn lấy ra từ tập tin cấu hình httpd.conf của
Apache để thêm vào thư mục C:\Program Files\gsdl\cgi-bin vào
ScriptAlias /gsdl/cgi-bin/ "C:/Program Files/gsdl/cgi-bin/"
<Directory C:/Program Files/gsdl/cgi-bin>
Options None
AllowOverride None
</Directory>
(Kưu ý tập tin cấu hình của Apache dùng // thay cho \\ của Windows)
Nghĩa là bất cứ URL nào dạng: http://localhost/gsdl/cgi-bin sẽ được tìm kiếm trong thư
mục C:\Program Files\gsdl\cgi-bin. Ví dụ xuất hiện với địa chỉ sau:
http://localhost/gsdl/cgi-bin/hello, web server sẽ cố lấy lại tập tin trong đường dẫn
C:\Program Files\gsdl\cgi-bin\hello.html. Tuy nhiên địa chỉ http://localhost/cgi-bin/hello
sẽ đựơc tìm trong thư mục htdocs thông thường đối với tập tin C:\Program Files\Apache
Group\Apache\cgibin\hello.html như trước vậy
Thư mục tài liệu gốc
Thư mục gốc của tài liệu là thư mục gốc của webserver. Sau khi được cài đặt, Apache có
một tài liệu gốc ở C:\Program Files\Apache Group\Apache\htdocs.
Alias /gsdl/ "C:/Program Files/gsdl/"
<Directory C:/Program Files/gsdl>
Options Indexes MultiViews FollowSymLinks
AllowOverride None
Order allow,deny
Allow from all
</Directory>
Điều này có nghĩa là bất cứ URL nào có phù hợp với với đối số đầu tiên của Alias (gsdl)
đều được tìm kiếm như các tập tin chì ra bởi đối số thứ hai. Trong các trường hợp khác,
URL có dạng http://localhost/gsdl/ ... sẽ được tìm trong thư mục C:\Program Files\gsdl.
Ví dụ, với địa chỉ sau: http://localhost/gsdl/hello.html, webserver sẽ thử lấy lại tập tin ở
C:\Program Files\gsdl\hello.html. Tuy nhiên URL http://localhost/hello.html sẽ tìm trong thư mục
bình thường htdocs tập tin C:\Program Files\Apache
Group\Apache\htdocs\hello.html như trứơc vậy
Bạn hãy nhớ phải thêm directive Alias vào directive ScriptAlias. Chỉ cho Apache đến
alias /gsdl trước /gsdl/cgi-bin sẽ tìm URL /gsdl/cgi-bin/library dùng Alias chứ không
phải ScriptAlias, và nó sẽ coi như là một yêu cầu cho một tài liệu hơn là kết quả của một
chương trình thi hành. Kết quả sẽ là tập tin chương trình binary được trình bày như là một
trang trong trình duyệt web thay vì thực thi nó.
Bảo mật
Bạn nên biết rằng nếu các phiên bản của Thư viện Greenstone được cài đặt như chỉ dẫn
phía trên, bất cứ ai cũng có thể tải các tập tin trong cấu trúc thư mục gdsl. Nó bao gồm
các tập tin chỉ mục và tài liệu nguồn của bất cứ bộ sưu tập bạn đã tạo, cơ sở dữ liệu người
dùng, logs sử dụng, v.v…
Nếu bạn quan tâm đến điều này, bạn có thể dễ dàng cấu hình lại webserver để tăng cường
bảo mật. Đối với webserver Apache, bạn hãy đặt các dòng sau trong tập tin cấu hình thay
cho những dòng được đề cập ở phần trước.
Alias /gsdl/ "C:/Program Files/gsdl/"
<Directory "C:/Program Files/gsdl">
Order allow,deny
Deny from all
<FilesMatch
"\.(gif|jpe?g|png|css|mov|mpeg|ps|pdf|doc|rtf|jar| class)$">
Order allow,deny
Allow from all
</FilesMatch>
</Directory>
Điều này có nghĩa chỉ những tập tin mà phần đuôi phù hợp với các điều kiện trong dòng
FilesMatch mới có thể được tải về.
4.2. Webservers PWS và IIS
Mặc dù cả PWS và IIS đều không được cài đặt bằng mặc định trên hệ điều hành
Windows, chúng dễ dàng được cài đặt bằng cách dùng “Add/Remove programs” trong
Control Panel. Nếu chúng không trên dĩa CD-ROM Windows của bạn, bạn sẽ phải tải
chúng về từ trang web của microsoft (www.microsoft.com)
Thủ tục cài đặt Greenstone tên PWS and IIS là như nhau. Hãy khởi động Personal Web
Manager và thực hiện các thao tác sau:
1. Chọn mục Advanced mở ra màn hình Advanced Options.
2. chọn Home và click Add. Điền vào các trường như sau:
Trường thư mục(Directory): C:\Program Files\gsdl
Trường Alias: gsdl
Cho phép truy cập: chỉ đọc
Cho phép sử dụng: không
Click OK Phần này làm cho các tập tin Greenstone có thể truy cập đến webserver.
3. Quay trở lại mục Advanced Options, chọn gsdl và click Add. Điền vào các trường sau:
Trường thư mục(Directory): C:\Program Files\gsdl\cgi-bin
Trường Alias: cgi-bin
Cho phép truy cập: không
Cho phép sử dụng: Execute
Click OK
Cho phép chương trình library.exe Greenstone được điều khiển bởi webserver .
4. Đi đến địa chỉ http://localhost/gsdl/cgi-bin/library.exe.
Lưu ý: bạn cần phải chỉ ra tập tin mở rộng .exe với PWS và IIS. 5. Cấu hình trang web của bạn
Để Greenstone hoạt động được, thuộc tính của một số tập tin phải được cài đặt thích hợp.
Mỗi trang web của Greenstone lại có thêm một tập tin cấu hình riêng. Tùy theo những lựa
chọn của bạn, thủ tục cài đặt sẽ tạo các tập tin cấu hình chung; tuy nhiên phần nội dung
có thể được biến đổi cho phù hợp với các tình huống khác nhau. Phần này giải thích cả
hai vấn đề sau đây.
   Trả lời với trích dẫn


28-04-2010, 04:30 PM #3
huyenmy251
Xem hồ sơ
Xem tất cả bài gửi
Tin nhắn
Xem Entry
   Thành viên
Ngày tham gia
Apr 2010
Bài gửi
37
Đã cảm ơn
12
Được cảm ơn 3 lần trong 3 bài

5.1. Cho phép chỉnh sửa thuộc tính tập tin
Phần này không thích hợp cho Windows 95/98, bởi vì hệ điều hành này không nhận biết
được người sở hữu tập tin.
Trên Windows NT, 2000 và Unix, cgi scripts không chạy trên các người sử dụng (user)
bình thường, bởi vì các user này không được nhận biết thông qua web, thay vào đó chúng
chạy như một user được khởi động trong chương trình webserver (Trên hệ điều hành
Windows), hoặc như là một user đặc biệt (Thông thường được gọi là nobody trên hệ điều
hành Unix). Chính vì thế tất cả các tập tin và thư mục trong C:\Program Files\gsdl cần
phải có khả năng đọc được (hoặc tối thiểu phải đọc được bởi user cgi-script, có thể là
“nobody”).
Để kiểm tra xem các tập tin có được cài đặt đúng hay không, bạn hãy chạy chương trình
library.exe từ dòng lệnh. Nếu các tập tin được đặt đúng vị trí nhưng dung thuộc tính, nó
sẽ chạy được bằng dòng lệnh – nghĩa là khi bạn chứ không phải một trình duyệt web –
tức là user “nobody” thực hiện nó. Một việc kiểm tra khác là log in vào mạng dưới dạng
một user khác để xem các thuộc tính của tập tin dứơi tài khoản chính thức của bạn
Để hoạt động thông qua web browser, tất cả các thư mục phải có khả năng đọcThư mục
C:\Program Files\gsdl\etc và tất cả phần nội dung cũng phải có khả năng ghi. Đây là thư
mục trong chương trình Thư viện số viết cho usage log, lỗi (error) và log và initialization
logs, và các cơ sở dữ liệu người dùng khác nhau. Nếu bạn không muốn tạo ra thư mục có
khả năng ghi này, bạn có thể đặt thuộc tính cho phép các tập tin errout.txt, initout.txt,
key.db, users.db, history.db và usage.txt được bởi người sử dụng cgi.
Nếu thuộc tính này không được đặt một cách chính xác cho C:\Program Files\gsdl\etc,
việc xác nhận người dùng (user) và tìm kiếm quá trình có thể sẽ không hoạt động, và có
thể cũng không tạo được usage log (usage.txt).
5.2. Tập tin cấu hình gsdlsite.cfg
Thủ tục cài đặt tạo ra tập tin cấu hình trang web Greenstone tổng quát dựa trên các lựa
chọn của bạn. Thủ tục cài đặt tập tin này vào địa chỉ sau:
C:\Program Files\gsdl\cgi-bin\gsdlsite.cfg có nội dung là
Bạn có thể hiệu chỉnh quá trình cài đặt bằng việc chỉnh sửa tập tin này, mặc dù có thể
không cần thiết phải làm như vậy
Dòng gsdlhome chỉ đường dẫn vào thư mục C:\Program Files\gsdl.
httpprefix là địa chỉ web của thư mục mà Greenstone được cài đặt trong đó. Trước đây
chúng ta đã giải thích làm cách nào để tạo ra một alias để URL có dạng
http://localhost/gsdl/ ... được tìm trong thư mục C:\Program Files\gsdl .
Đặt thêm dòng httpprefix /gsdl vào tập tin cấu hình the gsdlsites sẽ thiết lập một quy ước
giống như vậy cho phần mềm Greenstone.
httpimg là địa chỉ web trong thư mục C:\Program Files\gsdl\images có chứa tất cả các
tậo tin hình ảnh dạng gif được dùng trong giao diện. Theo bất cứ chuẩn cài đặt trong
Greenstone , nó sẽ là httpprefix/images, và dòng bên trên tập tin được giữ nguyên.
gwcgi là địa chỉ web của chương trình Thư viện cgi. Hầu hết các chương trình trình duyệt
không cần đến nó, do đó cứ để nguyên nó ở dạng không dùng đến. Đừng dùng nó nếu
bạn không biết rõ, nếu không bạn có thể gặp rắc rối đấy
maxrequests chỉ được dùng trong các phiên bản của Greenstone mà đã được biên dịch với
“fast-cgi”. Chuẩn binary không có trong lựa chọn này bởi vì các webserver được cấu hình
để hổ trợ cho nó. Fastcgi làm cho cgi chạy nhanh hơn bằng cách giữ tập tin chủ trong bộ
nhớ giữa các lần chạy chứ không tải lên từ đĩa CD mỗi khi một trang web được dùng từ
phần mềm Greenstone. Khuyết điểm của nó là lượng bộ nhớ được sử dụng, nếu giữ
chương trình lâu trong bộ nhớ thì rất tốn bộ nhớ.
Một khi trang maxrequests được tạo ra, chương trình cgi thoát ra, bằng cách đó giải
phóng được một ít bộ nhớ. Để thực hiện yêu cầu tiếp theo đối với trang web, chương
trình cgi lại được đọc từ đĩa CD, và một chu trình mới bắt đầu. Hầu hết các quá trình cài
đặt đều dùng chuẩn cgi protocol, có nghĩa là maxrequests được bỏ qua một cách an toàn. 6. Cài
đặt Greenstone cho riêng bạn
Có khả năng điều đầu tiên bạn muốn làm sau khi cài đặt và chạy Greenstone là cá nhân
hoá trang chủ của nó. Tập tin tạo ra trang chủ Greenstone được gọi là home.dm. và ở trên
một thư mục con macros của thư mục chính trong Greenstone mà bạn cài đặt.
(Mặc định cho hệ điều hành Windows là C:\Program Files\gsdl.). Đây là tập tin văn bản
thuần túy mà bạn sẽ phải chỉnh sửa để tạo ra trang chủ mới. Thay vì chỉnh sửa, ta nên tạo
ra một tập tin mới gọi là yourhome.dm. Nó tương tự như home.dm nhưng sẽ định nghĩa
“packagehome” (cái mà sẽ thực sự làm việc này) bằng một cách khác.
Khi bạn tạo ra trang chủ mới, sẽ có một số hướng liên kết đến các trang của Thư viện số
để bạn có thể tìm kiếm và trình duyệt bộ sưu tập trên hệ thống của bạn. Giải pháp mà
Greenstone sử dụng là “macros”. Đó là lý do tại sao tập tin được gọi là “.dm” chứ không
là “.html”- đó là tập tin “macros” chứ không phải là tập tin HTML thông thường. Nhưng
đừng lo lắng: các tập tin “macros” về cơ bản chỉ là HTML, được để thêm một số tập tin
ẩn được giải thích dưới đây. Ngôn ngữ macro có đặc tính mạnh, và chỉ là một phần nhỏ
của các phần được mô tả dưới đây – xem chi tiết phần Hướng dẫn phát triển Thư viện số
Greenstone (Greenstone Digital Library Developer’s Guide).
6.1. Ví dụ
Hình 3 trình bày một ví dụ của trang chủ Thư viện mới. Mỗi liên kết “click here” dẫn
bạn đến các đặc tính tương ứng của Greenstone. Trang này được tạo ra bởi tập tin được
gọi là yourhome.dm trình bày ở hình 4.
Bạn có thể dùng hình 4 như là mẫu để tạo ra trang chủ Greenstone của riêng bạn. Về cơ
bản nó định nghĩa một macro được gọi là content. Bên trong dấu ngoặc {} là HTML
thông thường. Bạn có thể thêm vào phần nội dung cùng với bất kỳ câu lệnh định dạng
HTML nào để cho vào những nội dung mà bạn muốn hiển thị trên trang màn hình. Nội
dung chỉ là HTML thông thường; nếu muốn bạn có thể cho vào cả các hyperlink và sử
dụng tất cả các đặc tính khác của HTML. Để tạo ra trang chủ mới liên kết với các trang
khác của Thư viện số, bạn cần phải sử dụng một magic spell phù hợp. Trong ngôn ngữ
macro này,




Hình 3:
Trang chủ
Greenstone của bạn


Hình 4:
Tập tin yourhome.dm
dùng để tạo ra hình 3
package home
_content_ {
<h2>Your own Greenstone home page</h2>
<ul>
<table>
<tr valign=top><td>Search page for the demo collection<br></td>
<td><a href="_httpquery_&c=demo">Click here</a></td></tr>
<tr><td>"About" page for the demo collection</td>
<td><a href="_httppageabout_&c=demo">Click here</a></td></tr>
<tr><td>Preferences page for the demo collection</td>
<td><a href="_httppagepref_&c=demo">Click here</a></td></tr>
<tr><td>Home page</td>
<td><a href="_httppagehome_">Click here</a></td></tr>
<tr><td>Help page</td>
<td><a href="_httppagehelp_">Click here</a></td></tr>
<tr><td>Administration page</td>
<td><a href="_httppagestatus_">Click here</a></td></tr>
<tr><td>The Collector</td>
<td><a href="_httppagecollector_">Click here</a></td></tr>
</table>
</ul>
}
# if you hate the squirly green bar down the left-hand side of the
# page, uncomment these lines:
# _header_ {
# } Magic spells là các từ được gạch dưới bên cạnh. Bạn có thể thấy trong hình 4. Ví
dụ_httppagehome_ sẽ dẫn bạn đến trang chủ, _httppagehelp sẽ dẫn bạn đến trang trợ giúp
(help) v.v.. Trong một số trường hợp bạn cần có cả tên bộ sưu tập. Ví dụ
_httpquery_&c=demo chỉ rõ trang tìm kiếm đối với bộ sưu tập mẫu, đối với cả bộ sưu tập
khác mà bạn muốn thay thế bộ sưu tập mẫu bằng một tên thích hợp.
Định nghĩa của một macro được là _content_ là tập tin thuần HTML. Bất cứ mã HTML
chuẩn nào đều có thể được thay thế trong một định nghĩa macro. Tuy nhiên các ký tự đặc
biệt ‘{‘, ‘}’, ‘\’, và ‘_’ phải được thoát ra bằng dấu gạch chéo ngược để ngăn cản chúng
được tiến hành bởi chương trình dịch macro. Lưu ý rằng định nghĩa _content_ macro
không chứa bất cứ header hay footer HTML nào. Nếu bạn muốn thay đổi header hay
footer của trang chủ, bạn nên định nghĩa _header_ và/hay _footer_ macros, thêm chúng
vào tập tin yourhome.dm theo dạng
_macroname_ {
...
}
Ví dụ: thanh màu xanh phía dưới bên trái của trang Greenstone được định nghĩa trong
_header_ macro, và sẽ mất đi nếu macro bằng null (rỗng), xem ở cuối hình 4.
6.2. Cách thức hoạt động của Greenstone
Bạn phải thông báo cho Greenstone về trang chủ mới yourhome.dm. Hệ thống đọc trong
tập tin macro mà được chỉ định trong tập tin cấu hình chính main.cfg, vì vậy nếu bạn tạo
ra một trang chủ mới, bạn phải đặt nó ở đây. Nếu trùng tên thì sẽ sử dụng cái được định
nghĩa sau cùng
Vì thế để tạo ra phần mềm Greenstone, ta sử dụng trang chủ trong hình 3 thay vì trang
mặc định, trước tiên bạn hãy để tập tin yourhome.dm ở hình 4 vào thư mục macros. Sau
đó chỉnh sửa tập tin cấu hình main.cfg để thay tập tin home.dm bằng tập tin yourhome.dm
trong danh mục các tập tin macro được tải về tại startup.
6.3. Gửi lại một địa chỉ (URL) đến Greenstone
Bạn có thể sẽ muốn chuyển một địa chỉ thuận tiện hơn đến chương trình cgi Greenstone.
Ví dụ, trên hệ thống của bạn địa chỉ (URL) http://nzdl.org (viết gọn của
http://nzdl.org/index.html) được chuyển đến địa chỉ http://nzdl.org/cgi-bin/library.
webserver Apache thực hiện việc này bằng directive Redirect. Cùng với các directive
khác, nó được đưa vào tập tin cấu hình C:\Program Files\Apache
Group\Apache\conf\httpd.conf. Để gởi lại địa chỉ (URL) http://www.yourserver.com đến
địa chỉ http://www.yourserver.com/cgi-bin/library
Đặt dòng này vào tập tin httpd.conf: Redirect /index.html
http://www.yourserver.com/cgi-bin/library.
Kế đến bạn sẽ trực tiếp điều khiển hệ thống Thư viện số từ địa chỉ
http://www.yourserver.com. Nếu bạn muốn thay bằng địa chỉ như
http://www.yourserver.com/greenstone sẽ được gởi lại địa chỉ đến
http://www.yourserver.com/cgi-bin/library, có trong tập tin httpd.conf file
Nếu máy tính của bạn không có tên domain http://www.yourserver.com. Thay vào đó nếu
bạn muốn một địa chỉ (URL) như sau: http://www.yourserver.com/greenstone được gởi
lại đến địa chỉ http://www.yourserver.com/cgi-bin/library, có trong tập tin httpd.conf, chỉ
cần thay thế www.yourserver.com bằng localhost ở các dòng phía trên. Thời gian trình
duyệt web là như nhau trên cùng một máy đối với webserver – mà chắc rằng nếu máy của
bạn không có một tên domain – tên này có cùng ảnh hưởng như với redirections ở trên.
Thay vì để những chỉ dẫn vào trong tập tin httpd.conf, bạn có thể để chúng vào tập tin
được gọi là .htaccess trong thư mục gốc tài liệu của máy chủ (server). Trên thực tế việc
làm này mang đến cho chúng ta hai thuận lợi. Trước nhất là bất cứ thay đổi nào đối với
tập tin .htaccess sẽ gây hiệu quả tức thì, trong khi chúng ta phải khởi động lại webserver
Apache để xem hiệu quả do việc thay đổi tập tin httpd.conf. Thứ hai là, trên hệ điều hành
Unix bạn thường phải truy cập bằng tên người dùng “root” để chỉnh sửa tập tin httpd.conf
trong khi bạn không chỉnh sửa tập tin .htaccess.
(Tài liệu cung cấo bởi thầy Đỗ Quang Vinh )
   Trả lời với trích dẫn


28-04-2010, 04:33 PM #4
huyenmy251
Xem hồ sơ
Xem tất cả bài gửi
Tin nhắn
Xem Entry
   Thành viên
Ngày tham gia
Apr 2010
Bài gửi
37
Đã cảm ơn
12
Được cảm ơn 3 lần trong 3 bài
   Thư viện số Greenstone - Từ giấy đến bộ sưu tập <Bài gửi của thuhuyen>
THƯ VIỆN SỐ GREENSTONE
TỪ GIẤY ĐẾN BỘ SƯU TẬP
Giáo sư Michel Loots, Dan Camarzan and Ian H.Witten
Human Info NGO, Belgium
Simple Words, Romania
Trường Đại học Waikato, New Zealand



Greenstone là một bộ phần mềm giúp xây dựng và phân loại các tập hợp thư
viện số. Nó đưa ra một cách tiếp cận mới trong việc tổ chức và xuất bản
thông tin trên Internet hoặc trên CD-ROM. Greenstone là kết quả của dự án
thư viện số tại trường đại học Waikato, NewZealand (New Zealand Digital
Library Project), đã được triễn khai và phân phối với sự hợp tác của hai tổ
chức UNESCO và Human Info NGO. Greenstone là một phần mềm nguồn
mở có sẵn tại địa chỉ http://greenstone.com , trong mục GNU General Public
License.
Chúng tôi đảm bảo rằng phần mềm này đáp ứng tốt nhu cầu của bạn. Nếu có
bất kì vấn đề nào liên quan đến phần mềm này xin trình bày tại
greenstone@cs.waikato.ac.nz
Greenstone gsdl-2.39 Tháng 3 năm
2003 Nội dung tập tài liệu
Tài liệu này mô tả cách tạo bộ sưu tập CD-ROM từ các tài liệu giấy. Nó
miêu tả đầy đủ các thủ tục và nhu cầu tài chính cần thiết liên quan đến việc
quét và quá trình nhận dạng ký tự, vì vậy phần nội dung phải được định dạng
đúng để ứng dụng được phần mềm Greenstone. Nó cũng miêu tả cách sử
dụng chức năng tổ chức bộ sưu tập, nói đơn giản là “Organizer”, để tạo ra và
chỉnh sửa nguyên liệu liên quan đến bộ sưu tập. Đây là phần mềm sẳn có,
được phân phối dưới tên gọi Greenstone chạy trên hệ điều hành Windows.
Chúng tôi cố gắng làm cho đơn giản đi nhằm giúp bạn đọc dễ hiểu và khi
dụng phần mềm này. Khi nhắc đến một thương hiệu hay sản phẩm nào hoàn
toàn là nhằm mục đích minh họa và không cũng phải chúng tôi khẳng định
sản phẩm đó tốt hơn hoặc quan tâm nhiều hơn một sản phẩm nào khác.
Các tập tài liệu trong Bộ phần mềm Greenstone
Bộ phần mềm này bao gồm 4 tập tài liệu:
• Hướng dẫn cài đặt
• Hướng dẫn sử dụng
• Hướng dẫn phát triển
• Từ tài liệu bằng giấy đưa lên mạng.
Những thành viên tham gia dự án phần mềm Greenstone
Quá trình scanning, Organizer và các quá trình khác có liên quan đến việc
tạo ra các bộ sưu tập từ sự cộng tác phi lợi nhuận, được phát triển bởi Giáo
sư Michel Loots, MD, Human Info NGO và HumanityCD, Dan Camarzan of
Simple Words, và các nhóm cộng tác viên ở Brasov, Romania.
Phần mềm này là sự đóng góp của nhiều người trong đó Rodger McNab và
Stefan Boddie là hai người đóng góp chính trong việc xây dựng và phát triển
phần mềm này. Ngoài ra còn có sự đóng góp của các tác giả sau: David
Bainbridge, George Buchanan, Hong chen, Elke Duncker, Carl Gutwin,
Geoff Holmes, John McPherson, Craig Nevill-Manning, Gordon Paynter,
Bernhard Pfahringe, Todd Reed, Bill Rogers và Stuart Yeates. Những thành
viên khác trong dự án Thư viện số tham gia phần Thiết kế hệ thống là: Mark
Apperley, Sally Jo Cunningham, Steve Jones, Te Taka Keegan, Michel
Loots, Malika Mahoui và Lloyd Smith. Chúng tôi cũng chân thành cảm ơn những đơn vị đã tham
gia khâu đóng gói
cũng như phân phối bộ phần mềm này: MG, GDBM, WGET, WV,
PDF2HTML, PERL. MỤC LỤC
Nội Dung Tài Liệu
1 GIỚI THIỆU
2 MÁY QUÉT VÀ QUÉT DỮ LIỆU
2.1 Máy quét
Các máy quét hình phẳng giá thấp
Máy quét cấp thấp có ngăn để giấy
Các máy quét màu
Các máy quét 2 mặt chuyên nghiệp
Các chương trình quét
2.2 Chuẩn bị các tài liệu
2.3 Tiến trình quét
Quản lý chất lượng
Qui định tên tập tin
2.4 Hiệu suất và các tài nguyên
Chi phí quét
3 OCR: NHẬN DẠNG KÍ TỰ
3.1 Tiến trình nhận dạng kí tự
Quản lý chất lượng
Bảng
Hình ảnh
Các tài liệu chuyên ngành
3.2 Hiệu năng và các tài nguyên
Intensive OCR
Hiệu năng của quá trình OCR
3.3 Các hình thức khác trong tiến trình nhận dạng kí tự:
Tự đánh máy
Các tập tin hình ảnh
3.4 Kết hợp giữa việc quét và nhận dạng kí tự
4 BA VÍ DỤ: TỪ 1000 ĐẾN 100,0000 TRANG
4.1 Tập hợp nhỏ: 500-1000 trang
4.2 Toàn bộ tài liệu từ một tổ chức: 5000 trang
4.3 Thư viện nhỏ: 100,000 trang
5 TẠO RA MỘT BỘ SƯU TẬP ĐIỆN TỬ
5.1 Các phương pháp xây dựng tập hợp
5.2 Công cụ tổ chức
Cài đặt và sử dụng Organizer
Mô hình tài liệu
Tìm hiểu chức năng tổ chức
5.3 Các file tài liệu đính kèm
1. Giới thiệu
Mục tiêu của phần mềm thư viện số Greenstone là nhằm giúp cho các tổ
chức như các trường đại học, các tổ chức Liên hiệp quốc, các tổ chức phi
chính phủ, phi lợi nhuận và các chính phủ trong việc tạo ra các loại thông tin
có thể được phân phối trực tuyến hoặc trên các CD-ROM.
Các bước cài đặt cơ bản:
i. Chọn các tài liệu muốn thêm vào
ii. Thiết đặt quyền hạn, bản quyền cho việc sử dụng các tài liệu này trong
thư viện số.
iii. Dùng máy quét và ORC để chuyển thể các tài liệu giấy tờ thành dạng
kỹ thuật số
iv. Chuyển đổi các tài liệu này thành một định dạng (có thể tích hợp giữa
văn bản và hình) mà phần mềm Greenstone hiểu được (tốt nhất là HTML,
các tài liệu soạn bởi Microsoft Word, riêng một số định dạng khác cũng có
thể được chấp nhận nhờ vào plug-in nhưng với mức độ chính xác khác nhau
(xem phần hướng dẫn người sử dụng của Greenstone để biết thêm thông tin )
v. Đặt tên cho các chương, các đoạn và hình ảnh cho tài liệu.
vi. Sắp xếp các bộ sưu tập này thành thư viện số có cấu trúc tối ưu hóa.
vii. Xây dựng thư viện số bằng phần mềm Greenstone.
viii. Xuất bản tập hợp này thành CD-ROM và/hay phân phối trên Internet.
Để tạo ra một thư viện số, các văn bản phải ở dạng kỹ thuật số. Nếu tài liệu
là sách, bản tin hoặc các tài liệu giấy tờ khác thì chúng cần phải được quét
(scan) để chuyển thành dạng máy tính hiểu được (bước iii). Thông thường
công việc này được thực hiện nhờ vào bộ nhận dạng kí tự ORC, nhưng thỉnh
thoảng vẫn dùng đánh máy. Tiến trình này được trình bày trong các chương
2 đến 4 của phần hướng dẫn sử dụng.
Bước v. cho phép người đọc chọn và xem các phần khác nhau trong văn bản
một cách độc lập trong thư viện số. Còn bước vi. gán các thuộc tính cho các
tài liệu chẳng hạn như loại chủ đề, các từ khóa, các dữ liệu thư mục giúp sắp
thứ tự và tìm kiếm trong thư viện. Những bước này được mô tả trong
chương 5 với những hướng dẫn chi tiết về chương trình Organizer đi kèm
trong bộ phần mềm Greenstone.
Tài liệu hướng dẫn này giới thiệu nhiều vấn đề ảnh hưởng đến quá trình biên
tập tạo ra thư viện số từ tài liệu, văn bản giấy. Trước bắt đầu, bạn nên quan
tâm đến những câu hỏi dưới đây: • Mục tiêu thư viện số của bạn là gì?
• Nhóm đối tượng mà bạn quan tâm?
• Nhóm đối tượng này có qui mô như thế nào: địa phương, khu vực hay
toàn cầu?
• Số lượng tài liệu bạn muốn có trong thư viện số ?
• Tổng cộng bao nhiêu trang?
• Có bao nhiêu tài liệu là hình ảnh đồ họa?
• Tài liệu có cần thiết được chia thành các phần được tra cứu bởi một số
ít người đọc và các phần được tham khảo một cách phổ biến?
• Các tài liệu đã ở sẵn dạng kỹ thuật số chưa?
• Nếu vậy, chúng ở dạng nào ? (Xin lưu ý các tập tin dạng PDF sẽ
không được xem chuyển đổi tự động sang dạng văn bản kỹ thuật số,
vì các trang trong tập tin thường chỉ là hình ảnh.)
• Bản quyền của tài liệu là gì?
• Ai sở hữu bản quyền?
• Có những tổ chức nào khác có cùng nhóm đối tượng không?
• Bạn có sẵn sàng hợp tác với những tổ chức khác không?
• Ngân quỹ bạn dành cho toàn bộ dự án thư viện số là bao nhiêu?
• Bao nhiêu nhân lực bạn dành cho việc biên tập tài liệu, quét tài liệu và
lập trình ?
• Cần bao nhiêu máy tính cho dự án?
• Bao nhiêu đĩa CD-ROM bạn muốn phát hành?
• Chúng miễn phí hay để bán?

2. MÁY QUÉT VÀ QUÉT TÀI LIỆU
Bước đầu tiên khi chuyển các tài liệu giấy tờ thành một tập hợp thư viện số
là có hình ảnh các trang tài liệu ở dạng kỹ thuật số. Khâu kế tiếp là nhận
dạng kí tự bằng quang học (OCR) và khâu này cần các hình ảnh tài liệu rõ
ràng và có chất lượng cao. Giai đoạn số hóa đòi hỏi máy quét phải làm việc
được ở độ phân giải 300 dpi. Hầu hết các công việc quét được thực hiện theo
dạng trắng đen, nhưng đối với các tài liệu dùng màu sắc thì cần phải quét với
một máy quét màu. Thông thường bìa sách sử dụng màu và sẽ được quét
như là một hình ảnh màu.
2.1 Máy quét
Các máy quét rất đa dạng về giá cả, hình dạng và kích thước. Chúng có giá
từ 100USD cho các máy quét hình phẳng cho đến 50000USD cho các máy
quét công nghiệp cở lớn của các nhà sản xuất như Bell & Howell. Rất nhiều
website cung cấp đa dạng máy quét. Để tìm những website này, bạn chỉ cần
dùng từ khóa “scanners” vào Google, Altavista hoặc Yahoo.
Kết quả của một trang tài liệu được quét là một tập tin máy tính mà thông
thường ở định dạng TIFF hoặc Bitmap. Định dạng nén TIFF phiên bản 4 là
dạng tốt nhất. Trung bình một trang được nén và được chuyển thành định
dạng này chỉ chiếm khoảng 50Kb, trong khi ở định dạng Bitmap không nén
sẽ là 2Mb.
Các máy quét hình phẳng giá thấp
Các loại máy quét hình phẳng là rẻ nhất và được sử dụng nhiều nhất. Thuộc
nhiều hãng khác nhau: HP, Agfa, Acer v.v.., giá cả từ 100USD đến
300USD. Chúng đều có thể quét hình trắng đen hay màu. Do chi phí thấp
nên có thể trang bị cho mỗi máy tính một máy quét riêng.
Điểm bất lợi của những máy in này là cho ra những hình ảnh của trang tài
liệu ở mức trung bình, tỉ lệ quét thấp, không bền trong những môi trường ẩm
thấp và khá dễ hư. Chúng ta phải quét từng trang một. Mỗi trang phải được
định vị cẩn thận theo lề bảng quét. Hiệu suất của những máy in này kém.
Mặc dù các nhà sản xuất khẳng định rằng mỗi trang tài liệu có thể được quét
trong vòng chưa tới một phút nhưng thực tế cho thấy rằng khó có thể thể đạt
tới mức 12 trang mỗi tiếng. Tiến trình quét thường làm ì ạch máy tính gắn
kết. Do vậy những máy in này chỉ hữu dụng cho các công việc nhỏ (số lượng
trang cần quét ít- từ 200 đến 400 trang một tháng một cách thừơng xuyên)
hoặc các công việc xảy ra một lần từ 1000 đến 2000 trang

Máy quét cấp thấp có ngăn để giấy
Các máy quét này thường có giá từ 500USD cho đến 1200USD. Có thể quét
từ 10 đến 50 trang tài liệu một lần. Vì vậy người điều khiển không cần có
mặt liên tục tại máy quét. Điều này sẽ làm gia tăng số lượng trang đến 150-
200 trang/ngày. Những loại máy in này có tuổi thọ cao hơn, thường thì
khoảng từ 30000 đến 50000 trang. Điểm bất lợi của chúng là tại một thời điểm chỉ quét một mặt
tài liệu – ngăn
để các trang tài liệu phải được đảo lại để quét mặt sau của tài liệu. Và điều
này có thể gây ra vấn đề bởi vì ngăn để giấy rất thường gặp trục trặc và đôi
lúc làm kẹt giấy.
Những loại này hữu ích cho công việc quét từ 1500 đến 3000 trang/tháng.
Các máy quét màu
Để quét hình màu thì nhất thiết ta phải có máy quét màu. Nhưng nói chung,
chưa đến 5% các ấn phẩm chứa màu cộng với bìa tài liệu. Vì vậy một máy
quét hình phẳng giá thành thấp như kể trên là thường là đáp ứng được nhu
cầu. Chúng ta nên chọn máy quét có độ phân giải lên đến 600dpi.
Các máy quét 2 mặt chuyên nghiệp
Các máy quét chuyên nghiệp là các máy tốt và đáng tin cậy, có khả năng xử
lý một số lượng lớn trang tài liệu- từ 2000 đến 10000 trang/ngày. Chúng có
hệ thống khay để giấy tự động, xử lý các nhóm gồm từ 50 đến 200 trang.
Các máy quét tốt nhất và nhanh nhất thuộc dạng này có thể quét cả 2 mặt tài
liệu cùng lúc.
Các máy quét này yêu cầu máy tính kết nối với nó phải mạnh và có dung
lượng ổ cứng ít nhất là 10 -20Gb, giá từ 5000 – 50000USD. Chẳng hạn như:
máy quét Cannon DR-6020 giá khoảng 5000USD, có thể quét 2 mặt tài lịêu,
2000 trang/ngày và tuổi thọ từ 600000 – 800000 trang. Các máy quét nhãn
hiệu Bell&Howell và Fujitsu, giá từ 10000 – 50000USD, có tuổi thọ đến
hàng triệu trang.
Các máy quét phích nhỏ có giá từ 15000USD đối với loại bán tự động cho
đến 80000USD đối với loại tự động hoàn toàn.
Các chương trình quét
Mỗi máy quét đều có phần mềm riêng được cài đặt trên máy tính để điều
khiển máy quét. Một số máy quét có card được cài đặt vào máy tính để tăng
tốc độ quét.
2.2 Chuẩn bị các tài liệu
Trước khi được quét, tài liệu phải được chuẩn bị tốt. Tài liệu phải sạch, khô
ráo, các ghim kẹp tài liệu được tháo rời, và các trang được xếp thẳng
Gáy sách nên được gở bỏ. Các cuốn sách của thư viện thông thường được
đóng lại, khi đó bạn nên cẩn thận khi gở bỏ gáy sách để dể dàng khi đóng
sách lại.
Nếu như chỉ có ít tài liệu thì việc cắt gáy sách có thể được thực hiện bằng
tay thông qua một cây thước và bộ cắt. Còn nếu có nhiều tài liệu thì nên
dùng các máy cắt bằng tay đặc biệt.
Đối với số lượng lớn – hơn 20 tài liệu thì chúng tôi khuyến cáo nên yêu cầu
thợ in hoặc chủ tiệm photo sử dụng máy cắt chuyên dụng của họ, đừng quên
gở bỏ các ghim kẹp kim loại vì chúng có thể gây hư hại máy cắt.
2.3 Tiến trình quét
Nhờ vào phần mềm đi kém với máy quét, một bức ảnh tài liệu kĩ thuật số sẽ
được quét và chuyển thể thành hình ảnh định dạng Bitmap hoặc TIFF.
Những tập tin hình này sẽ được lưu trữ trên ổ cứng với các tên chuẩn, và tiến
trình nhận dạng kí tự sẽ được kích hoạt ngay khi một số tài liệu được quét.
Công việc này có thể thực hiện bởi ngừơi quét tài liệu hoặc người khác.
Thông thường ta cần độ phân giải khi quét vào khoảng 300dpi , mặc dù đôi
lúc 200dpi cũng chấp nhận được.
Quản lý chất lượng
Mục tiêu cuối cùng của giai đoạn quét hoặc là nhận dạng kí tự trong trang để
có được các bản tài liệu ở dạng văn bản hoặc HTML, hoặc là để tạo ra các
tập tin ảnh tốt, chẳng hạn như: các tập tin ảnh PDF. Trong cả 2 trường hợp
thì chất lượng của các ảnh là rất quan trọng. Nếu như chất lượng ảnh thấp thì
các tập tin ảnh không đẹp và tốn nhiều bộ nhớ hơn. Chất lượng ảnh đặc biệt
ảnh hưởng đến tiến trình nhận dạng kí tự: với chất lượng thấp, hiệu suất
giảm đến 40%. Thông thường quá trình nhận dạng kí tự chiếm hơn 90%
tổng chi phí, vì vậy chất lượng quét có thể ảnh hưởng đến chi phí.
Chất lượng của tập tin TIFF có thể được nâng cao bằng cách điều chỉnh tiến
trình quét cho mỗi loại tài liệu thông qua việc sử dụng các tuỳ chọn được
cung cấp bởi phần mềm quét. Loại tài liệu khá rõ ràng sẽ cần các tuỳ chọn sáng hơn, nghĩa là độ
tương phản phải được điều chỉnh phụ thuộc vào chất
lượng bản in và …
Đầu tiên chia thành từng nhóm có chất lượng in và giấy tương tự nhau. Tiến
hành kiểm tra OCR trên một trang đơn giản của nhóm đầu tiên để lựa chọn
các chuẩn tốt nhất. Sau đó quét tất cả các trang còn lại trong nhóm này trước
khi xử lý đến nhóm khác.
Qui định tên tập tin
Mỗi cuốn sách hay mỗi tài liệu có một số hoặc mã duy nhất, con số này sẽ
trở thành tên của thư mục chứa tất cả các hình ảnh TIFF trong tài liệu. Tuỳ
theo hệ điều hành máy tính (DOS, Windows, UNIX, LINUX, …), các tên
này dài từ 8 – 128 kí tự. Chúng ta chỉ giới thiệu đến tên tài liệu từ 8 -16 kí
tự. 5 kí tự đầu tiên xác định tài liệu, 3 kí tự còn lại xác định các loại tài liệu.
Ví dụ: u1748e12.tif xác định tập tin TIFF trong trang 12 của cuốn sách được
viết bằng tiếng Anh có mã số là u7548.
Chỉ định một thư mục trên ổ cứng cho các công việc quét, sau đó tạo thư
mục con cho mỗi công việc này. Bên trong thư mục con này tạo thư mục con
tương ứng cho mỗi phần. Ví dụ: thư mục u7548e sẽ chứa toàn bộ các tập tin
hình ảnh TIFF, bao gồm các ảnh màu.
2.4 Hiệu suất và các tài nguyên
Bạn không nên đánh giá thấp tầm quan trọng của công việc quét tài liệu và
đặc biệt là tiến trình nhận dạng kí tự. Chúng ta nên xem tiến trình quét và
nhận dạng kí tự là 2 tiến trình riêng biệt. Chúng ta nên căn cứ trên cả 2
phương diện kinh tế và thực tế để đưa ra sự lựa chọn tối ưu.
Một số quan điểm cần xem xét là việc đầu từ vào các máy quét và máy tính;
không gian và tài nguyên con người; huấn luyện nhân lực; chi phí lương; số
lượng trang khởi đầu và tổng số trang quét; thời hạn; và tài liệu có được xuất
khẩu sang các đối tác khác không.
Chi phí quét
Việc đầu tư vào các trang thiết bị quét và tự thực hiện công đoạn quét tài
liệu hay để đối tác khác thực hiện quét tài liệu là một quyết định quan trọng.
• Áp lực thời gian của công việc quét tài liệu
• Tổng số trang cần quét
• Chi phí lương phải trả cho người thực hiện công đoạn quét.
Những người thực hiện công việc quét phải năng nỗ, lành nghề và có tinh
thần trách nhiệm cao.
Thông thường chi phí quét tài liệu của một công ty chuyên nghiệp là
0.06USD/page. Chi phí này có thể phải được cộng thêm vào chi phí vận
chuyển 0.03USD/page từ quốc gia đang phát triển đến quốc gia phát triển
hay 0.015USD/page cho chi phí vận chuyển trong nước.
Bảng 1 thẩm định chi phí quét tài liệu ứng các loại máy quét khác nhau. Ba
cột đầu liên quan đến chi phí lao động. Cột đầu tiên liên quan đến năng suất
tính theo số trang/tháng, giả định đây là công việc toàn thời gian. Cột thứ 2
là tài nguyên tính theo số giờ trong tháng của mỗi người trên mỗi trang được
tính bằng cách lấy số giờ làm việc trong một tháng chia cho số lượng trang
trong, giả định có 180 giờ làm việc / tháng.
BẢNG SCANNER và SCANNING
Khả năng
(Trang/tháng)
Số
Giờ/trang
(180-
giờ/tháng)
C.phí/trang
(tối đa
$4/giờ)
Scanner
acquisition
Tuổi thọ
của máy
Scanner
(trang)
Số trang
đưa dịch vụ
quét
($.06/trang)
Flat bed
scanner
2,500
0.072
$0.288
$300 7,000 5,000
Scanner
with
sheet-feeder
8,000
0.0225 $0.09 $800 30,000 13,000
Professional:
low-end
duplex
40,000
0.0045 $0.018 $6,000 600,000
100,000
Professional:
high-end
duplex
150,000
0.0012 $0.0048 $50,000 8,000,000 833,000

Để tính chi phí cho mỗi trang, chúng ta nhân tổng chi phí lương theo giờ với
cột thứ 2 trong bảng 1. Ví dụ, cột thứ 3 cho ta giá của một trang màtự chúng
ta quét lấy ở tỉ lệ lương 4USD/giờ – không kể chi phí đầu tư.
Những phép tính này giả định rằng máy in được sử dụng vừa phải để điều
chỉnh chi phí đầu tư. Ba cột cuối trong bảng 1 cho biết thêm thông tin về
máy quét. Cột đầu tiên cho biết thông tin về chi phí máy quét. Cột kế tiếp
cho biết tuổi thọ quét của máy quét. Cột cuối thể hiện số trang được quét cho
mục đích thương mại, với chi phí 0.06USD/page tính trên mỗi máy quét.
Có nhiều nhân tố ảnh hưởng đến việc lựa chọn máy in: ngân sách, giảm
thiểu sự lệ thuộc vào các đối tác, mong muốn tạo dựng nền tảng riêng, điều
bắt buộc phải quét tự tài liệu, không vận chuyển v.v..
Các yếu tố trên đưa ra khối lượng trang cần thiết để điều chỉnh các mức đầu
tư khác nhau. Rất ít khi một cơ quan hay một tổ chức cần quét 800.000
trang. Nếu ở mức quét như vậy thì sẽ có rất nhiều vấn đề nảy sinh, chẳng
hạn như chi phí bảo trì, khả năng làm tăng chi phí gấp đôi vì phải nhờ dịch
vụ khác thực hiện công việc quét tài liệu.
Người ta hay nghĩ rằng việc phát triển khả năng quét văn bản là một công
việc kinh doanh, đặc biệt là ở những quốc gia đang phát triển. Nhưng chúng
ta nên nhớ rằng công việc này không lặp lại; nghĩa là một khi tài liệu được
quét xong thì khách hàng sẽ không bao giờ đặt những đơn đặt hàng mới để
quét lại những tài liệu đó, bất kể họ có mối quan hệ thân thiện như thế nào
với công ty quét. Từ quan điểm thương mại, quảng cáo mạnh mẽ là rất cần
thiết. Chúng tôi không khuyên các tổ chức NGOs hay các tổ chức phi lợi
nhuận khai thác vào chặng đường này mà không qua các thử nghiệm ban
đầu hay một chiến lược kinh doanh được hoạch định cẩn thận.
Nói chung nếu chúng ta muốn quét từ 10.000 đến 50.000 trang thì nên nhờ
đối tác thực hiện. Chi phí cho máy quét chuyên nghiệp low-end khoảng
6000USD chỉ có thể được điều chỉnh nếu như cần quét hơn 100.000 trang.
Bạn có thể hợp tác với một vài tổ chức khác- có thể là NGOs hay các thư
viện để mua một máy in như thế.
   Trả lời với trích dẫn


28-04-2010, 04:34 PM #5
huyenmy251
Xem hồ sơ
Xem tất cả bài gửi
Tin nhắn
Xem Entry
   Thành viên
Ngày tham gia
Apr 2010
Bài gửi
37
Đã cảm ơn
12
Được cảm ơn 3 lần trong 3 bài

3. OCR: Nhận dạng kí tự
Nhận dạng kí tự hay còn gọi là hệ thống OCR làm công việc chuyển thể các
hình ảnh được quét thành văn bản. Đầu vào là một hình ảnh kỹ thuật số ở
định dạng TIFF hoặc Bitmap, tốt nhất là ảnh có chất lượng cao. Đầu ra là
văn bản hoặc trang web, cơ bản là các định dạng RTF, Word hoặc HTML.
Sau đây là các bước cơ bản để chuyển thể tài liệu giấy tờ thành dạng kỹ
thuật số: 1. Quét tài liệu
2. Phân tích lề trang
3. Nhận dạng
4. Quét ảnh và các bảng
Tuân theo những bước này, bạn kiểm tra chất lượng các tập tin kết quả và
lưu chúng ở định dạng thích hợp.
Trên thị trường có rất nhiều chương trình nhận dạng kí tự tốt với giá cả từ
100USD đến 400USD, chẳng hạn như:
• Read-Iris (http://www.readiris.com)
• Omnipage (http://www.omnipage.com)
• Fine-Reader (http://www.finereader.com)
Tất cả thông tin bao gồm cả nhà phân phối địa phương đều có thể được tìm
thấy trên các website của các nhà sản xuất. Trong số này, theo kinh nghiệm
của tác giả, hai phần mềm có giao diện người dùng thân thiện nhất là Fine-
Reader và Omnipage. Fine-Reader là rẻ nhất, 100USD, linh hoạt và hỗ trợ
nhiều ngôn ngữ nhất.
Để tự thực hiện công việc quét tài liệu cần có máy quét, phần mềm nhận
dạng kí tự và sự đảm bảo về chất lượng. Do cần phải quyết định sự lựa chọn
giữa tự quét hay ban giao cho đối tác thực hiện việc quét.
3.1 Tiến trình nhận dạng kí tự
Với mỗi chương trình nhận dạng kí tự thì tiến trình nhận dạng kí tự cũng
khác nhau và cũng yêu cầu việc nghiên cứu sử dụng. Có bốn điểm cần đặc
biệt chú ý trong tiến trình này là: quản lý chất lượng, các bảng, các hình ảnh
và các tài liệu chuyên ngành chẳng hạn như các công thức, các kí tự nước
khác…
Quản lý chất lượng
Chúng ta phải luôn kiểm tra chất lượng, Thông thường có 4 loại kiểm tra
chất lượng.
Loại thứ nhất được thực hiện cùng lúc với giai đoạn nhận dạng kí tự. Mỗi
chương trình nhận dạng thường sẵn có một bộ kiểm tra ngữ vựng, sẽ làm nổi
bật những từ bi nghi ngờ có sai sót. Cùng thời điểm có ảnh của từ cũng xuất
hiện vì vậy cũng sẽ làm cho việc kiểm tra và sửa lỗi dễ dàng hơn.
Loại thứ hai là kiểm tra tổng thể văn bản sau khi việc quét hoàn tất. Các lỗi
thông thường bắt gặp trong giai đoạn này là mất trang, mất đoạn, các tiêu đề
chương v.v..
Loại thứ ba là kiểm tra ngữ vựng sử dụng chương trình Microsoft Word.
Chương trình này có một tự điển phong phú hơn và vì thế tốt hơn phần cài
sẵn trong các chương trình nhận dạng kí tự. Tài liệu sau khi quét sẽ được mở
bằng Word để kiểm tra ngữ vựng, sẽ có nhiều lỗi được phát hiện và chỉnh
sửa hơn. Nên thêm những từ ngữ phức tạp cho bộ kiểm tra ngữ vựng.
Loại cuối cùng là tài liệu sau khi hoàn tất 3 khâu kiểm tra trên sẽ được kiểm
tra lần cuối bởi một người khác. Người này sẽ lấy mẫu tài liệu và kiểm tra
lỗi, các vấn đề với cấu trúc bảng, hình ảnh, các thẻ và kiểm tra tổng quát tài
liệu văn bản kết quả. Chỉ sau lần kiểm tra này thì tài liệu mới được xem là
sẵn sàng cho giai đoạn sau.
Bảng
Các chương trình nhận dạng kí tự thường không xử lý tốt các bảng. Hơn nữa
các bảng rất khó kiểm tra. Chúng có nhiều kí tự, đôi lúc có cả các dấu chấm,
dấu phẩy và các mục dễ nằm sai hàng, sai cột. Điều này đòi hỏi việc kiểm tra
phải thật cẩn thận và đảm bảo thật tốt chất lượng. Có 3 cách để kiểm tra:
Cách thứ nhất, xem bảng như hình ảnh, nghĩa là quét chúng dưới dạng các
hình ảnh trắng đen và đặt chúng vào vị trí thích hợp trong tài liệu. Đây là
giải pháp đơn giản nhất. Sẽ không có lỗi và thời gian duy nhất cần thiết là
thời gian để tạo ra hình ảnh của bảng. Tuy nhiên giải pháp này tiêu tốn nhiều
bộ nhớ máy tính hơn và độ phân giải cũng thường không đủ khi các bảng
lớn được hiển thị trên màn hình máy tính. Nếu như bạn tạo ra hình ảnh các
bảng vừa vặn thì độ phân giải lại quá nhỏ. Nếu như bạn cố làm bảng lớn hơn
thì người sử dụng phải cuộn lên xuống để xem các cột, các hàng và do đó
không có được cái nhìn tổng quát nội dung bảng.
Cách thứ hai, các bảng có thể được tái tạo lại bằng cách tạo ra một bảng mới
có cùng số hàng số cột và đánh nội dung bảng vào.
Cách thứ ba là bảng có thể được nhận dạng như là các kí tự. Cách này sẽ tiết
kiệm thời gian so với tái tạo lại bảng nhưng dễ gây ra lỗi sau này. Đôi lúc các cột có thể được nối
lại và các dấu phẩy, dấu chấm không được nhận
dạng.
Hình ảnh
Việc xuất bản bao gồm 3 loại hình ảnh sau:
• Các đường trang trí trắng đen
• Các hình ảnh trắng đen
• Các hình ảnh màu
Các đường trang trí trắng đen nên được quét ở chế độ thích hợp và được lưu
ở dạng tập tin GIF hoặc PNG. Hình ảnh trắng đen nên được quét trong chế
độ xám và được lưu ở dạng tập tin GIF hoặc JPEG. Các hình ảnh màu được
quét ở chế độ màu và lưu ở dạng tập tin JPEG. Thông thường các hình ảnh
JPEG chất lượng trung bình sẽ cho độ phân giải phù hợp.
Hình ảnh thường chiếm nhiều bộ nhớ của đĩa cứng hoặc CD. Vì vậy cần
phải cân bằng ba đặc tính: độ rõ, tầm nhìn và kích thước của ảnh. Để giảm
bộ nhớ, bạn có thể bỏ đi các hình ảnh không phù hợp lắm với văn bản.
Hình ảnh nên được quét riêng biệt từng cái một. Chúng tôi khuyến khích tên
tập tin ảnh tuân theo dạng sau: 5 hay 6 kí tự đầu chỉ định tài liệu nào, theo
sau là vị trí trang chứa ảnh. Cách khác, giả định như mỗi tài liệu nằm trong
thư mục riêng, chỉ đơn giản dùng kí tự p theo sau là số thứ tự trang chứa
ảnh. Nếu như có nhiều ảnh trên cùng một trang thì hãy nối thêm các kí tự
a,b,c,… vào tên tập tin ảnh. Ví dụ, nếu như một ảnh JPEG nằm trên trang 36
của tài liệu u7548e thì nó sẽ có tên tập tin là u7548e36.jpg hay p36.jpg. Một
khi các bức ảnh đã được quét xong bạn có thể sử dụng chương trình để định
dạng kích cỡ hoặc làm chúng đẹp hơn cùng một lúc
Các tài liệu chuyên ngành
Nhiều tài liệu chuyên ngành chứa các kí tự đặc biệt, các công thức, và các
trang phức tạp. Các kí tự đặc biệt thường là từ các ngôn ngữ khác hoặc các
dấu đặc biệt. Cần phải thiết lập tùy ngôn ngữ thích hợp cho chương trình
nhận dạng kí tự. Các công thức sẽ phải được tái tạo lại. Các tài liệu phức tạp
hoặc bị hư phải được đánh lại.
3.2 Hiệu năng và các tài nguyên
Như đã bàn từ trước bạn không nên đánh giá thấp những khó khăn gặp phải
trong tiến trình nhận dạng kí tự. Mặc dù cần phải xem xét tính kinh tế và
thực tế cho tiến trình nhận dạng kí tự một cách riêng biệt với tiến trình quét
tài liệu nhưng một số điểm tương tự cũng nảy sinh: sự đầu tư cần thiết vào
máy tính, tài nguyên con người và các kỹ năng quản lý; đào tạo nhân lực, chi
phí lương, tổng số trang cần xử lý và tài liệu có được bàn giao cho các đối
tác khác không.
Trong phần này chúng tôi sẽ chia sẻ kinh nghiệm trong tiến trình nhận dạng
kí tự ở Belgium, Romania và Aán Độ. Hầu hết các trường hợp, các tính toán
và các phỏng đoán chỉ dựa trên số tình huống chung, các tài liệu có độ phức
tạp gồm bảng và hình ảnh chẳng hạn như các tài liệu ở thư viện. Tiến trình
nhận dạng kí tự rất khó được thực hiện hoàn hảo. Các kết quả tốt thường đạt
được trong những giờ làm việc đầu tiên của mỗi ngày. Sau ba giờ làm công
việc kiểm tra trong tiến trình nhận dạng kí tự thì hiệu năng giảm rõ rệt, giảm
đến 50% so với mức trong những giờ đầu. Cũng vậy, các tuần đầu thường
cho kết quả tốt hơn những tuần sau đó. Việc kiểm tra chất lượng sẽ được
người bản xứ thực hiện tốt hơn và người trẻ cũng tập trung cao hơn người
lớn tuổi hơn (thường là từ 18 đến 23 tuổi tốt hơn trên 25 tuổi).
Và cuối cùng là công việc trong tiến trình nhận dạng kí tự là một công việc
nhàn chán, vì thế sự tập trung là điều hết sức quan trọng.
Một số hướng dẫn trong việc tổ chức tiến trình nhận dạng kí tự:
• Chọn người trẻ từ 18-25 tuổi
• Do hiệu năng tốt chỉ đạt được trong những giờ đầu, nên hoặc là tổ
chức làm bán thời gian hoặc là chỉ làm toàn thời gian đối với những người
có mức tập trung cao và lâu dài.
• Hai phần ba nhân lực có khuynh hướng bỏ cuộc sau khoảng 3-5 tuần.
Điều này giải thích vì sao chất lượng và hiệu năng kém hẳn vào những tuần
sau đó.
• Cần phải đào tạo và duy trì số lượng nhân viên đều đặn để đảm bảo
chất lượng.
Giờ làm việc/ngày
Số trang/ngày Số trang/tháng
Thời gian huấn
luyện ban đầu (6
tuần)
3 6 120
Hiệu năng của quá
trình
3 9 150 đến 200
7 28 500 đến 600
Bảng 2: OCR productivity
Bảng 2 mô tả hiệu năng của quá trình nhận dạng kí tự. Các tài liệu thuộc đủ
loại kích thước chất lượng. Các tính toán này giả định rằng các tài liệu có số
lượng trung bình các hình ảnh và bảng, chẳng hạn như có một hình và một
bảng 5 hàng 5 cột trên mỗi 8 trang tài liệu và các ảnh tài liệu có chất lượng
trunh bình; điều này phụ thuộc vào chất lượng quét cũng như khả năng ngôn
ngữ của những người tham gia vào tiến trình nhận dạng kí tự.

Tuy nhiên tỉ lệ của những trang phức tạp có chất lượng thấp gồm nhiều cột
hoặc nhiều bảng là rất ít, khoảng 300-400 trang/tháng nếu làm toàn thời
gian.
Giả sử chi phí lương cho nhân viên làm toàn thời gian trong tiến trình quét
tài liệu là 400USD/tháng và các chi phí ngoài dự tính, máy tính, phòng làm
việc, các công cụ sẽ thêm khoảng 300USD/tháng. Vì vậy chi phí cho một
trang tài liệu được trong tiến trình nhận dạng kí tự là 1.2USD-1.6USD/trang.
Nếu quan tâm đến chi phí huấn luyện, lượng thời gian, khoảng thời gian dự
trữ, chi phí tìm nhân viên mới khi thiếu hụt nhân lực thì chi phí cho một
trang sẽ gia tăng lên từ 1.5USD-2.5USD/trang.
Chi phí của việc tự quét tài liệu với việc tài liệu được quét bởi đối tác cũng
nên được so sánh. Thông thường những công ty này sẽ ra giá từ 1.5USD-
4USD/trang, bao gồm cả các trang có hình ảnh và bảng. Công ty Human
Info NGO/Sinple World có một chi nhánh như thế ở Rumani và tính với chi
phí ưu đãi cho các tổ chức phi lợi nhuận từ 1.2USD-2USD/trang. Để biết
thêm thông tin xin liên hệ tại scanning@humnaninfo.org.
3.3 Các hình thức khác trong tiến trình nhận dạng kí tự

Tự đánh máy
Hình thức này sử dụng một bộ xử lý văn bản để đánh lại các tài liệu. Tuy
vậy việc này vẫn cần phải quét các hình ảnh và trang bìa nhưng các trang
còn lại thì không cần quét.
Những người làm dưới hình thức này không cần hiểu tài liệu văn bản. Họ
chỉ cần đánh máy lại một cách chính xác những gì họ thấy. Hình thức này
cần thiết có 2 người làm việc độc lập trên cùng các trang tài liệu để sau đó
đối chiếu các trang.
Ý tưởng giả định từ sự đối chiếu này là nếu một từ được 2 người đánh độc
lập mà giống nhau thì từ đó được đánh đúng. Tuy nhiên điều này không phải
luôn đúng; sẽ cực kỳ chính xác nếu như có ba người cùng đánh các tài liệu
một cách độc lập.
Thuận lợi của việc đánh máy lại tài liệu là không cần, chi phí cho các
chương trính nhận dạng kí tự và các máy tính thì không cần phải mạnh.
Ngược lại nếu trong trường hợp sử dụng chương trình nhận dạng kí tự thì
cần phải có máy tính mạnh. Và hình thức này không cần nhân viên có kỹ
năng cao. Tuy nhiên điều bất lợi là cần phải có một khóa huấn luyện ít nhất
2 tháng. Chi phí phụ thuộc hoàn toàn vào mức phát lương.
Các tập tin hình ảnh
Một hình thức khác có chi phí rất thấp trong tiến trình nhận dạng kí tự là tạo
ra các trang hình ảnh ở định dạng tài liệu PDF. Chi phí khoảng
0.1USD/trang.
Sau khi quét tài liệu ta sẽ có các tập tin dạng TIFF, sử dụng phần mềm
chuyển đổi tự động để chuyển tất cả các tập tin TIFF này thành các tập tin
PDF. Bất lợi là các tập tin này không thể tìm kiếm được. Và chúng là khá
nặng, khoảng 50Kb/trang nên download rất lâu từ đường truyền Internet tốc
độ chậm và 20% chất lượng phụ thuộc vào các tập tin TIFF ban đầu. Các tập
tin PDF thì lớn và không hổ trợ các thao tác văn bản trên tài liệu chẳng hạn
như “cắt và dán”. Hình thức này chỉ nên được sử dụng nếu ngân sách dành cho tiến trình nhận
dạng kí tự eo hẹp và chỉ có một số ít đối tượng sử dụng
có truy cập Internet ở tốc độ thấp.
3.4 Kết hợp giữa việc quét và nhận dạng kí tự
Nếu như việc máy quét được kết nối trực tiếp và máy tính có cài chương
trình nhận dạng kí tự thì hầu hết các chương trình này đều có khả năng quét
và nhận dạng một trang ngay lập tức, nhưng sẽ mất nhiều thời gian nếu như
số lượng trang lớn. Khoảng từ 100-150 trang/tháng thì giải pháp này là
không khả thi. Đối với số lượng tài liệu lớn thì nên quét xong tất cả các tài
liệu rồi mới thực hiện công đoạn nhận dạng kí tự.

4. BA VÍ DỤ: TỪ 1000 ĐẾN 100,0000 TRANG
4.1 Tập hợp nhỏ: 500-1000 trang
Hầu hết các tổ chức NGOs có từ 500-1000 trang để quét. Số lượng này có
thể được tự chúng ta thực hiện công việc nhận dạng kí tự nếu như có nhân
lực thích hợp.
Việc quét
Bước đầu tiên là quét tài liệu để tạo ra các tập tin dạng TIFF chất lượng cao
và các hình ảnh Bitmap màu, thang độ xám cho những hình minh họa. Giả
sử cần phải quét 1000 trang thì điều này cần công việc bán thời gian khoảng
một tháng chí cho công việc quét. Các tập tin ảnh TIFF tốn khoảng 60Mb-
80Mb ổ đĩa cứng và giải pháp tốt là tạo ra các đĩa CD-ROM chứa chúng.
Một máy quét phẳng giá khoảng 100USD-300USD là đủ.
Nhận dạng kí tự
Bước thứ hai là nhận dạng kí tự. Thông thường mất khoảng 5 hay 6 tháng
cho nếu làm bán thời gian (20 giờ/tuần) để chuyển khoảng 1000 trang thành
các tài liệu Word hay HTML.
Xuất sang đối tác
Một hình thức khác là nhờ đối tác thực hiện công đoạn quét và nhận dạng kí
tự. Chi phí khoảng 1500-2000USD để chuyển đổi toàn bộ số lượng tài liệu
trên thành tài liệu Word hoặc HTML.
4.2 Toàn bộ tài liệu từ một tổ chức: 5000 trang
Nhiều tổ chức lớn có khoảng 5000 trang tài liệu, các bài báo…
Việc quét
Sử dụng máy quét ở đây là không thích hợp. Công việc quét có thể nhờ bên
thứ ba (khoảng 400USD/5000 trang) hoặc sử dụng máy in có ngăn (khoảng
900USD). Một cách khác là có thể chung tiền với một số tổ chức khác để
mua một máy quét tốt hơn (6000USD được chia cho số đơn vị tham gia).
Toàn bộ 5000 trang ở dạng TIFF sẽ tốn khoảng 30Mb-40Mb ổ đĩa cứng. Và
giải pháp tốt là sử dụng đĩa CD-ROM.
Nhận dạng kí tự
Bước thứ hai là nhận dạng kí tự. Mất khoảng 25-30 tháng cho công việc bán
thời gian để chuyển 5000 trang tài liệu thành dạng tài liệu Word hoặc
HTML. Tổ chức phải trả cho những người quét và những người giám sát
hiệu suất và chất lượng.
Xuất sang đối tác
Hình thức khác là thuê đối tác thực hiện việc quét và nhận dạng kí tự. Tốn
khoảng 7500-10000USD để chuyển đổi toàn bộ sang tài liệu Word hoặc
HTMl.
4.3 Thư viện nhỏ: 100,000 trang
Các tổ chức lớn, trường đại học, chính phủ và các thư viện có thể có khoảng
100,000 trang tài liệu. Vấn đề cần xem xét trước tiên là bản quyền tài liệu.
Nếu chúng không phải tài liệu được phép phổ dụng thì cần phải xin phép
bản quyền từ những người giữ bản quyền của chúng. Bạn cũng nên kiểm tra
xem các tài liệu đã sẵn có ở bản điện tử chưa.
Việc quét
Máy quét có ngăn cũng không thích hợp cho số lượng tài liệu này. Việc quét
có thể được đối tác làm (8000USD/100,0000 trang). 100,000 trang tài liệu
tốn khoảng 6Gb-8Gb ổ đĩa cứng, và giải pháp là sử dụng đĩa CDROM để
lưu trữ bản điện tử.
Nhận dạng kí tư
Mất khoảng 500-700 tháng để chuyển 100,000 trang tài liệu thành tài liệu
WORD hoặc HTML. Điều này là không khả thi.
Để tiết kiệm chi phí, các trang ít phổ biến (80%, 80000 trang) có thể được
chuyển thành dạng tập tin PDF. Tài liệu ở dạng PDF có thể chiếm khoảng 4-
6Gb và khó khăn cho việc download từ Internet, nhưng có thể tiết kiệm
0.2USD/trang. Mất khoảng 10-20 tháng cho công việc bán thời gian để
chuyển 80,000 trang tài liệu thành dạng PDF trên một máy tính mạnh.
Xuất sang đối tác
Nếu có 80% tài liệu PDF và 20% tài liệu HTML thì tài liệu PDF sẽ tốn
khoảng 16,000USD và tài liệu HTML khoảng 30,000-40,000USD, tổng chi
phí khoảng 50,000USD. Nếu như toàn bộ tài liệu được đem đi nhận dạng thì
tốn khoảng 150,000-200,000USD để chuyển chúng thành các tài liệu Word
hay HTMl.
5. TẠO RA MỘT BỘ SƯU TẬP ĐIỆN TỬ
Có ba khía cạnh quan trọng trước khi tạo ra tập hợp tài liệu điện tử . Thứ
nhất tập hợp này phải được tổ chức. Nội dung càng nhiều thì nhu cầu lập chỉ
mục và tìm kiếm càng cao. Đối với các bộ sưu tập gồm khoảng 3000-5000
trang tài liệu thì việc lập chỉ mục và hệ thống tìm kiếm là rất cần thiết. Thứ
hai là nhu cầu của người dùng đầu cuối là không ngừng thay đổi. Vì vậy cần
phải xác định các nhóm đối tượng sử dụng tài liệu và cần có tiến trình cải tạo
thường xuyên. Thứ ba là chi phí cho dự án là bao nhiêu.
5.1 Các phương pháp xây dựng tập hợp
Có nhiều CD-ROM rất đẹp dùng trang Web để trình bày nội dung. Các tài
liệu HTML, PDF hoặc Word được gắn kết vào các mục liên kết. Việc đọc tài
liệu trở nên đơn giản, lôi cuốn nhờ các kết nối, các frame, từ khoá, chỉ mục
v.v.. Những hệ thống như thể chỉ phù hợp cho số lượng tài liệu khoảng vài
ngàn trang; nhưng nếu số lượng là từ 3000-5000 trang hoặc hơn thì tập hợp
tài liệu cần phải được tổ chức tốt và có công cụ hỗ trợ tìm kiếm thông tin.
Phần mềm Greenstone có thể làm được việc này.
Phần mềm Thư viện số Greenstone sẽ tạo ra Thư viện số có cấu trúc bao
gồm công cụ tra cứu tài liệu. 150,000 trang có thể được lập chỉ mục và được
lưu trữ trên đĩa CD-ROM. Greenstone là phần mềm mã nguồn mở và sẵn có
trong mục GNU.
Các tài liệu hướng dẫn đi kèm giới thiệu các thức xây dựng tập hợp tài liệu
cho Greenstone. Các tập hợp tài liệu nhỏ có thể được xây dựng tương tác
bằng cách sử dụng hệ thống con gọi là “Bộ thu thập” được mô tả trong tài
liệu hướng dẫn người dùng của phần mềm, hướng dẫn bạn thông qua một
loạt các trang tương tác để yêu cầu thông tin cần thiết. Riêng đối tập hợp tài
liệu lớn và phức tạp thì chúng tôi khuyến khích bạn nên sử dụng tiến trình
xây dựng dòng lệnh được mô tả trong tài liệu hướng dẫn đi kèm. Bạn cần
phải đọc tài liệu hướng dẫn trong chương 2 để vận dụng phần mềm xây
dựng các tập hợp tài liệu cao cấp, phức tạp.
5.2 Công cụ tổ chức
Greenstone được sử dụng để xây dựng nhiều tập hợp tài liệu cho nhiều mục
đích, các tài liệu có cùng cấu trúc và tổ chức nhưng có nội dung khác nhau.
Các tập hợp mẫu như “Development Library Subset-DLS” hay “Demo” là
thuộc dạng này.
Công cụ tổ chức (Organizer) là một chương trình đi kèm với Greenstone
nhằm tạo ra các tập hợp có cấu trúc và tổ chức giống tập hợp mẫu DLS. Nhờ
những tập hợp như thế sẽ làm đơn giản hóa tiến trình xây dựng dòng lệnh
của Greenstone. Organizer là một ứng dụng được tạo ra bởi Microsoft
Visual C++ và vì vậy chỉ giới hạn sử dụng trong Windows.
Organizer được thiết kế để giúp quản lý các khía cạnh tổ chức một tập hợp
Thư viện số: nhập tiêu đề tài liệu, phân loại chủ đề và các siêu dữ liệu, chỉnh
sửa chúng v.v.. Nó làm việc với phần mềm Thư viện số Greenstone khi xây
dựng các tập hợp: collect.cfg, metadata.xml, sub.txt, org.txt, Keyword.txt và
AZList.txt. Cấu trúc và nội dung của những tập tin này được giải thích trong
tài liệu hướng dẫn người dùng đi kèm.
Metadata.xml được đọc bởi bộ plug-in đi kèm Rec-Plug được thảo luận tại
phần cuối 2.1, tài liệu hướng dẫn. Các tập tin sub.txt, org.txt và AZList.txt
định nghĩa các cấu trúc phân cấp được sử dụng bởi bộ phân cấp. 5 tập tin này gắn kết với tập hợp
mẫu DLS và các tập hợp tương tự khác thông qua
tập tin cấu hình tập hợp Collect.cfg.
Metadata.xml được đọc bởi RedPlug được chỉ định trong tập tin cấu hình.
Nếu chúng ta muốn xây dựng tập hợp hình ảnh và các chức năng phân loại
thông thường gặp khó khăn trong việc làm việc với những tập tin này. Và
mục tiêu của Organizer là giúp định nghĩa nội dụng của các tập tin này- thực
ra nó tạo ra các tập tin này cho bạn. Tuy nhiên hiện tại Organizer chỉ được
dùng giới hạn cho mô hình tài liệu được mô tả dưới đây; vì vậy nếu người
dùng muốn thêm các thông tin tổ chức không có trong mô hình này sẽ phải
tự tay chỉnh sửa trong các tập tin kết quả của Organizer.
   Trả lời với trích dẫn


28-04-2010, 04:35 PM #6
huyenmy251
Xem hồ sơ
Xem tất cả bài gửi
Tin nhắn
Xem Entry
   Thành viên
Ngày tham gia
Apr 2010
Bài gửi
37
Đã cảm ơn
12
Được cảm ơn 3 lần trong 3 bài

Cài đặt và sử dụng Organizer
Vào cuối phần cài đặt bộ phần mềm Greenstone, bạn sẽ được nhắc là có cài
Organizer hay không. Nếu trả lời “yes” thì tiến trình cài đặt Organizer sẽ bắt
đầu. Nếu bạn trả lời “No” hoặc bạn muốn cài đặt lại chúng sau này thì bạn
đến thư mục windows_utilities trên đĩa CD-ROM Greenstone và thực thi
chương trình Organizer.exe.
Khi chạy chương trình bằng cách chọn Organizer dưới mục Greenstone
Digital Library trong menu Programs của menu Start của Windows. Sau đó
bạn được yêu cầu chỉ định cơ sở dữ liệu (CSDL); hãy sử dụng CSDL DLS
bằng cách chọn tập tin dls.mdb. Bạn sẽ được yêu cầu nhập username và
password: nhập vào admin cho cả hai.
Mỗi CSDL trong Organizer chứa đựng một hoặc nhiều tập hợp tài liệu. Khi
lần đầu tiên bạn chạy Organizer bạn sẽ được trình bày một danh sách các tập
hợp chứa đựng một mục duy nhất: tập hợp DLS. Nói chung rất dễ dàng sử
dụng Organizer để thêm vào các tập hợp mới cho CSDL mặc định, kể cả
việc chỉnh sửacác tập hợp con trong các tập hợp trước đó.
Mỗi CSDl và mỗi tập hợp có 3 danh sách toàn cục chính: (Global List):
• Tài liệu: tài liệu được nạp vào tập hợp
• Các hình thức tổ chức: tên các hình thức tổ chức gắn kết với các tài
liệu.
• Các chủ đề: Các cụm từ phân loại chủ đề sẵn có cho việc xây dựng
các cây phân cấp tài liệu theo chủ đề.
Một số thuộc tính khác có thể được gán vào mô hình tài liệu. Xin chú ý rằng
những thay đổi trong CSDL sẽ được tự động lưu lại trước khi thoát chương trình Organizer, mà
không nhắc người dùng có đồng ý lưu lại hay không. Vì
vậy nếu bạn muốn lưu lại bản lưu trữ thì bạn cần phải sao chép nội dung
CSDL cần lưu trữ ngay khi bạn vừa mở chương trình Organizer. Chú ý
không có chức năng backup cho từng tập hợp tài liệu riêng rẽ.
Mô hình tài liệu
Trong Organizer, mỗi tài liệu được gán thông tin siêu dữ liệu (metadata) từ
một tập hợp các thuộc tính sau:
i. Tiêu đề
ii. Hình thức tổ chức (thuộc tính này có thể lặp lại trình bày thông tin nhà
sản xuất nhưng cũng có thể là các tác giả hoặc tổ chức liên quan đến
tài liệu)
iii. Chủ đề (gán mục phân cấp)
iv. Các từ khóa : các từ ngữ được định nghĩa bởi người dùng để giúp lập
chỉ mục tài liệu – trong tập hợp DLS nó được sử dụng để phân loại tài
liệu ứng với các câu hỏi phổ biến được định nghĩa trước
v. Nhan đề: tiêu đề của tài liệu
vi. Ngày xuất bản
vii. Số trang
viii. Mã tác vụ: định danh tài liệu, được sử dụng bởi Greenstone để liên kết
các siêu dữ liệu vào các văn bản, hình ảnh của tài liệu tại tập hợp đang
xây dựng
ix. Ngôn ngữ
x. Khối: định danh của nhóm tài liệu được xử lý chung với nhau
xi. Tập hợp được yêu cầu: tập hợp tài liệu đại diện cho việc gán
xii. Thông tin bản quyền
xiii. Mã bản quyền
5 thông tin đặc biệt ở chỗ Greenstone sẽ sử dụng chúng để xây dựng và hiển
thị các chỉ mục để truy xuất tài liệu. Các thuộc tình từ vi đến viii không được
lập chỉ mục nhưng được đính kèm như các định dạnh phụ của tài liệu. Các
thuộc tình từ ix đến xiii chỉ được sử dụng cho mục tiêu quản lý tài liệu bên
trong của phần mềm Organizer.
Siêu thông tin về chủ đề tài liệu đặc biệt ở chỗ chúng là tính chất của tài liệu
trong tập hợp chứ không phải tài liệu riêng rẽ. Khi một tài liệu được di
chuyển từ tập hợp này đến tập hợp khác toàn bộ siêu dữ liệu liên quan cũng
di chuyển theo ngoại trừ thông tin siêu dữ liệu vể chủ đề sẽ được gán lại.
Không giống như việc người lập trình Thư viện số muốn sử dụng thông tin
siêu dữ liệu trong ý nghĩa tài liệu thông thường; vì vậy ngoài việc phân loại
theo chủ đề tất cả các tài liệu đều có thể được truy xuất đến trong
Greenstone thông qua công cụ tìm kiếm toàn văn. Thuộc tính này có thể
được xem như thuộc tính thêm vào cho việc lập chỉ mục. Ví dụ đối với danh
mục tác giả (Không biết trước rõ ràng ở mẫu hiện tại) hoặc dữ liệu nguồn
bằng cách thay thế dữ liệu liên quan trong từ khoá metadata. Sau đó nút
dùng để phục hồi dữ liệu thông qua việc đặt lại thuộc tính mới (Bằng nhãn
“how to” ở chế độ mặc định trong giao diện thư viện). Cũng có thể chọn lại
bằng cách thay đổi từ “How to” thành “Author” hay “Country” ở dòng 5 của
tập tin collect.cfg được tạo ra ở phần Organizer.
Greenstone cũng có thể tạo ra Bảng mục lục để truy cập vào các phần lớn và
phần nhỏ trong mỗi tài liệu. Việc này không được điều khiển trực tiếp bằng
Organizer nhưng buộc phải hoàn tất thông qua việc thêm vào phần nội dung
những mục lớn và những mục nhỏ, được miêu tả trong phần 5.3 của chương
này.
Nó được nhắc rằng tự bản thân Greenstone cũng rất linh hoạt trong các mẫu
tài liệu sẵn có trong các thư mục, nhưng phải được tạo ra chính thức trong
thư mục của các hàm metadata và được mã hoá trong các file xây dựng bộ
sưu tập được miêu tả trong phần 2.2 của tài liệu Greenstone Developer’s
Guide. Nếu mẫu được yêu cầu có liên hệ gần với mẫu DLS, ta có thể bắt đầu
với các file xây dựng bộ sưu tập được tạo ra bởi Organizer, và chỉnh sữa
chúng theo các quy tắt của Greenstone.
Tìm hiểu chức năng tổ chức (Exploring the Organizer)
Đây là chi tiết mỗi đặc tính của chức năng Organizer
i. Cửa sổ chính của Organizer
Cửa sổ này được trình bày khi cơ sở dữ liệu đã được chọn. Nó gồm ba
phần:
• Thanh Horizontal menu ngay trên đỉnh, bao gồm phần phía
dưới shortcut horizontal
• Vertical toolbar ở phía bên trái
• Phần chính giữa (central area) là nơi trình bày phần nội dung và
chức năng được chọn trên thanh vertical.
a. Thanh Horizontal menu chứa tám menu, ứng với mỗi menu
chứa một hay nhiều dòng lệnh: • File Menu chỉ cung cấp một lệnh: Exit để thoát khỏi chương
trình Organizer.
• New Menu cung cấp những lệnh để thêm hoặc thay đổi bộ
sưu tập, Tài liệu, Cách thức tổ chức, các chủ đề và để thêm
hoặc thay đổi danh mục các thuộc tính khác trong tài liệu
mẫu. Các hộp hội thoại đối với dòng lệnh này phải tường
minh, với phần bổ sung mô tả chi tiết sau:
Lệnh New/Organization trình bày hộp thoại gọi là Edit
Organization Name mà cung cấp những vùng để nhập tên
đầy đủ tổ chức và tên tóm tắt ( Nếu chức năng Auto
complete được bật, nó sẽ tự động đặt tên bằng ký tự đầu tiên
của mỗi từ đầu viết hoa trong tài liệu). Nếu chức năng Auto
complete không thể trình bày tên viết tắt (Bởi vì không có
ký tự nào trong tiêu đề hoặc là đã tồn tại một tên viết tắt
trong cơ sở dữ liệu), hộp hội thoại Auto complete phải
không được chọn và tên viết tắt phải được nhập vào
bằng tay.
Lệnh New/Subject trình bày một hộp hội thoại Add New
Subject để thêm vào một danh sách các chủ đề toàn cầu
(không phân lớp) trong cơ sở dữ liệu mà các thành phần
luôn theo sau nhau liên tiếp trong cấu trúc phân lớp các chủ
đề ứng với bộ sưu tập đưa ra (các đề tài được trình bày trong
của sổ thuộc tính bộ sưu tập).
Hộp hội thoại này cũng có thể được dùng để tạo ra các từ
khóa trong danh mục các chủ đề toàn cầu mà được đánh dấu
liên tiếp với i) thuộc tính của các loại đề tài khác nhau sẽ tạo
điều kiện cho chức năng phục hồi dữ liệu được thêm vào
trong bộ sưu tập (Chức năng Add subject các đề tài được
nhìn thấy trong cửa sổ Collection properties, xem dưới đây,
and/or với ii) một thuộc tính đưa vào bộ tài liệu chuyên đề
(Keywords tab trong hộp hội thoại Document properties của
những tài liệu được nhìn thấy trong cửa sổ Collection
properties, xem phần dưới đây).
• Menu delete cung cấp lệnh xoá bộ sưu tập, bộ tài liệu, các tổ
chức, các đề tài, và các mục trong danh mục các giá trị có
thể của các thuộc tính khác trong mẫu tài liệu.
• Menu Edit cung cấp lệnh copy (Giống lệnh Ctl C) khi copy
khung chính giữa và các dòng được chọn vào clipboard để
dán vào các file hoặc các mục Organizer khác.
• Menu View cung cấp các lệnh để mở các bộ sưu tập, bộ tài
liệu, các tổ chức hoặc các đề tài trong các danh mục ở phần
trung tâm ( Lần lượt sử dụng 4 nút đầu tiên trên thanh
toolbar đứng). Nó cũng chứa các hộp bật/tắt để trình bày
thanh công cụ short-cut (Được miêu tả chi tiết dưới đây)
trong thanh menu và thanh status ở khung chính giữa.
• Menu Tools chứa các phần sau:
- Lệnh chỉnh sửa tài liệu chứa hai công cụ: thứ nhất thay
đổi tên của một tổ chức này thành tổ chức khác trong
phần thuộc tính tổ chức của tất cả các tài liệu trong cơ sở
dữ liệu (Tên mới phải được thêm trước tiên vào trong
danh mục các tổ chức), hoặc thay đổi/thêm vào thuộc
tính mới trong nhóm tài liệu được chọn trong danh mục
các tài liệu (Công cụ kế tiếp là hoạt động nếu các tài liệu
được thêm vào liên quan đến những tài liệu đã được chọn
trong phần trình bày trang tài liệu và ngay cả những phần
khác đã được kích hoạt.
– Lệnh thứ hai cũng chứa hai công cụ. Một là công cụ
Statistics cho phép thống kê thông tin về các bộ sưu tập
và một công cụ Export lists để truy xuất ra ngoài thành
dạng file text, một danh mục các tên tài liệu hoặc một
trong ba thuộc tính chính của bộ sưu tập (Các danh mục
này được lưu với một tên chuẩn trong mục \Program
Files\Human Info\Organizer\DataBase.
– Lệnh backup được dùng để tạo ra một file backup của
toàn bộ cơ sở dữ liệu mỗi khi đươc chọn (cơ sở dữ liệu
được lưu với một tên chuẩn), có ghi lại ngày, giờ backup
trong mục \Program Files\Human
Info\Organizer\DataBase. Phần xác nhận không trình bày
những tài liệu không được yêu cầu.
• Menu Administration tools cung cấp các cửa sổ để thêm vào
user mới và xoá một user hay thay đổi password. Chỉ một
quản trị viên (e.g. “admin”) mới có thể cấp quyền cho một
user có thể truy cập vào cơ sở dữ liệu dưới tên là
“Administrator” hay “Guest” và thay đổi password. Các user
và administrator đều có quyền như nhau trong bộ sưu tập.
• Menu Help chứa một chuẩn Microsoft để trợ giúp trong thư
mục Help Topics và thông tin về phiên bản và người phát
triển thông qua lệnh About Organizer.
Một thanh công cụ short-cut dưới thanh thực đơn horizontal
cung cấp một tập các biểu tượng có thể thay đổi một các linh
hoạt tùy thuộc vào phần trình bày được mở ra trong khu
trung tâm (Được trình bày bởi menu View – xem phần trên –
hoặc trên thanh công cụ vertical – xem phần dưới).
Click vào biểu tượng thứ hai từ trái sang hay double click
vào đề mục được chọn trong danh sách được chọn để chỉnh
sửa các đề mục đó (xem phần dưới), cũng click như thế lên
dòng đầu của cột đầu tiên trong danh sách được trình bày để
sắp xếp. Các biểu tượng thư nhất, thứ ba, và cuối cùng có
cùng chức năng với ba lệnh của thanh thực đơn được mô tả
bên trên:
Edit/Copy; tạo thêm một thành phần mới trong danh mục
được trình bày: New/Collection/Empty,New/Document,
New/Organisation hay New/Subject; và Help/About
Organizer.
Biểu tượng thứ hai trình bày liên kết với một biểu tượng thứ
tư: cho phép thay đổi tên của bộ sưu tập được chọn trong
danh sách bộ sưu tập (Không có trong menu chính) hoặc
xuất ra danh sách các tài liệu (cũng giống như
Tools/Collections/Export Lists với lựa chọn danh mục tài
liệu, ngoại trừ việc chọn thư mục gốc và tên file).
b. Thanh công cụ đứng chứa 5 nút để chọn lựa phần nội dung và
chức năng ở phần chính giữa của màn hình.
Nút thứ tư của toolbar phía trên cùng dùng để trình bày phần
chỉnh sửa một trong trong số các phần sau ở vùng giữa khung: Collections, Documents,
Organisations or Subjects (các danh
mục này cũng có thể được sử dụng bẳng cách kích hoạt dòng
lệnh tương ứng được trong menu view ở thanh công cụ nằm
ngang):
• Danh mục các bộ sưu tập: chọn nút Collections (Được để ở
chế độ mặc định trước khi nhập dữ liệu) trình bày tất cả các
bộ sưu tập hiện hành trong cơ sở dữ liệu. Nhấp đúp vào tên
của bất kỳ bộ sưu tập để xem phần thuộc tính trong cửa sổ
Collection Properties (Được miêu tả dưới đây) trong đó bạn
có thể thêm vào tài liệu mới cho bộ sưu tập hoặc thêm/chỉnh
sửa thuộc tính tài liệu của bộ sưu tập. Để tạo ra bộ sưu tập
mới, sử dụng lệnh New/Collection ở thanh menu ở đỉnh hoặc
biểu tượng thứ ba từ trái sang trong thanh công cụ tắt (Xem
phần trên).
• Danh mục các tài liệu: chọn nút Documents trình bày danh
sách tất cả các tài liệu có chủ đề toàn cầu trong cơ sở dữ liệu
(Các tài liệu này lấy từ bất kỳ các tài liệu nào trong số các
tài liệu có liên kết, hoặc chưa được kết nối với bộ sưu tập).
Nhấp đúp lên tên của bất kỳ tài liệu nào để xem/thay đổi
thuộc tính của tài liệu đó nhanh hơn là phân chia chủ đề
trong cửa sổ thuộc tính bộ sưu tập (Được miêu tả phía trên).
Để tạo ra tài liệu mới với thuộc tính mới, sử dụng lệnh New/
Document ở thanh menu ở đỉnh hoặc biểu tượng thứ ba từ
trái sang trong thanh công cụ tắt (Xem phần trên).
Tìm kiếm chuỗi ký tự: có thể tìm kiếm trong danh mục có
chứa một từ hay một chuỗi ký tự bằng cách nhập vào một từ
trong hộp hội thoại nhỏ phía trên mục Tên tài liệu ở đầu của
danh sách để nhận được dữ kiện đầu tiên, sau đó click vào
biểu tượng “ống nhòm”. Click vào biểu tượng kế tiếp từ phải
sang (Biểu tượng “ống nhòm” và “mũi tên”) để nhảy sang
nhanh sang dữ kiện tiếp theo
Lọc tài liệu: đôi khi để thuận tiện cho việc trình bày và chỉnh
sửa các tài liệu cùng một ngôn ngữ, một tổ chức hay cùng
một đề tài. Để làm điều này, chọn nút lọc dữ liệu (Hình “cái
phiểu”), ở góc trên bên phải cửa sổ trình bày hộp hội thoại Search documents, nhập vào tên tài
liệu cần tìm và nhấn nút
Apply filter để xác nhận yêu cầu.
Bạn cũng có thể thay đổi và kiểm tra việc tìm kiếm mà
không cần phải rời khỏi hộp hội thoại với nút Search and
Reset search. Bạn cũng có thể kích hoạt hoặc dừng chức
năng lọc lại bất cứ khi nào với check box Apply filter. kỹ
thuật lọc này tương tự như một Boolean “và” tìm kiếm:
• Danh mục tổ chức: chọn nút Organisations trình bày danh
sách tất cả các tài liệu có chủ đề toàn cầu trong cơ sở dữ liệu
(Các tài liệu này lấy từ bất kỳ các tài liệu nào trong số các
tài liệu có liên kết, hoặc chưa được kết nối với bộ sưu tập).
Nhấp đúp lên tên của bất kỳ tổ chức nào để mở hội hội thoại
Edit Organisation Name để xem/thay đổi tên tổ chức và tên
viết tắt nhanh (Giống như hộp hội thoại được trình bày với
lệnh New/Organisation). Để tạo ra một tổ chức mới, sử
dụng lệnh New/Organisation ở thanh menu trên cùng hoặc
biểu tượng thứ ba từ trái sang trong thanh công cụ tắt (Xem
phần trên).
• Danh mục chủ đề: các chủ đề là các thành phần của một
phân lớp chuẩn để được tiếp cận với các tài liệu của bộ sưu
tập. Có thể chọn thêm nút Subjects, xoá và chỉnh sửa các
danh mục toàn cầu của tất cả các chủ đề trong cơ sở dữ liệu,
ngay cả khi chúng chưa được chỉ định tài liệu nào. Một số
không giới hạn của các thư mục đề tài được tạo ra để sử
dụng tại phân lớp bộ sưu tập nhằm xây dựng và chỉ định cho
tài liệu của bộ sưu tập theo một cấu trúc phân lớp đề tài.
Nhấp đúp lên lên bất cứ chủ đề nào trong danh mục để mở
cửa sổ Edit subject để xem/chỉnh sửa thuộc tính đề tài. Để
tạo ra một chủ đề mới, sử dụng lệnh Edit subject trên thanh
menu hoặc biểu tượng thứ ba từ trái sang trên thanh công cụ
tắt (xem bên trên).
Trong cửa sổ Edit subject hoặc Add new subject, từ khoá
(keywords) có thể được thêm vào trong danh mục chủ đề
toàn cầu (Hộp hội thoại New keyword name, cũng giống như
việc sử dụng lệnh New/Add-Modify keywords từ thanh thực
đơn ở trên cùng), và có thể được chỉ định với thuộc tính của các chủ đề riêng biệt (hộp hội thoại
chọn lựa chủ đề) sử
dụng trong việc tìm kiếm các chủ đề để thêm vào bộ sưu tập.
Từ khoá (Nếu hoặc không đánh dấu các loại đề tài) có thể
được dùng để truy xuất tài liệu bằng thuộc tính của tài liệu
đó (Dùng “How to” trong bộ sưu tập DLS). Chú ý rằng có
hai loại từ khoá được sắp xếp theo thứ tự alphabet trong
danh mục, tạo thuận lợi cho việc sử dụng từ khoá để tìm
tài liệu; cũng có thể bỏ qua bằng cách thêm vào mã “z-”
trước từ khoá được chỉ định duy nhất ứng với các mục
đề tài (Các mục này không được định rõ trong tài liệu
nếu bạn không muốn các mã xuất hiện trong danh mục
tìm kiếm từ khoá của chương trình ứng dụng phát sinh).
Lưu ý: nếu cơ sở dữ liệu chính rất lớn, sẽ mất thời gian khá
dài (một phút hoặc hơn) để upload các thành phần của bộ
sưu tập. Sau khi đã chọn bộ sưu tập, hãy chờ cho đến khi tất
cả các thành phần đã được upload lên hết trước khi bắt đầu
công việc (Biểu tượng nhỏ có hình bóng đèn tròn xuất hiện
trên dòng tab cho đến khi quá trình loading hoàn thành).
Thông báo Failure trong quá trình upload có thể làm cho
chương trình bị bỏ qua. Nút Export Files mở ra cửa sổ
Export Settings (Miêu tả bên dưới) có thể được lưu vào
trong metadata của bộ sưu tập để truy xuất cấu trúc thư viện
số vào thư viện Greenstone. Nó cũng có thể lưu hoàn toàn
cơ sở dữ liệu.
   Trả lời với trích dẫn


28-04-2010, 04:36 PM #7
huyenmy251
Xem hồ sơ
Xem tất cả bài gửi
Tin nhắn
Xem Entry
   Thành viên
Ngày tham gia
Apr 2010
Bài gửi
37
Đã cảm ơn
12
Được cảm ơn 3 lần trong 3 bài

ii. Cửa sổ thuộc tính bộ sưu tập
Cửa sổ này giúp cho ngừơi dùng có thể xây dựng hoặc thay
đổi một bộ sưu tập riêng biệt, nó xuất hiện khi bộ sưu tập đã
được chọn trong danh mục bộ sưu tập của cửa sổ Organizer
Main. Nó cũng cho phép người dùng chọn môt trong trong 4
cách trình bày bộ sưu tập bằng cách click vào các tab trên
cùng. Mỗi cách trình bày nó cung cấp một chữ số của các
hàm chọn lựa và chỉnh sửa dữ liệu đã được miêu tả dưới
đây:
a. Trình bày các đề tài: một số không giới hạn của các mục
đề tài có thể tạo ra ở đây, phân cấp bộ sưu tập được chọn
lên 6 cấp độ (Mặc dù các bộ sưu tập không cần quá 3 cấp). Để thêm một đề tài vào bộ sưu tập (có
thể dùng nó
như một thuộc tính của một hay nhiều tài liệu), i) chọn đề
tài đầu tiên trong phần mà bạn muốn thêm mới thư mục
vào, ii)chọn nút Add subject,iii) chọn Add Subjects từ
danh mục toàn cầu , iv) sử dụng các nút để trình bày toàn
bộ danh mục toàn cầu hoặc (Thủ tục thông thường hay
mặc định) những nút chưa được sử dụng trong hệ thống
phân cấp bộ sưu tập,v).
Chọn đề tài yêu cầu từ danh mục, và vi) chọn OK nếu đề
tài mong muốn chưa có trong danh mục toàn cầu, sau đó
sử dụng tùy chọn Add New Subject được cung cấp bởi
nút Add subject (Giống như quay trở lại menu chính và
thêm đề tài mới vào bằng lệnh New/Subjects). Các đề tài
cũng có thể được thay đổi với biểu tượng Edit ở giữa các
đề tài và tài liệu trình bày; Phần sử dụng chính của chức
năng này là thêm vào tùy ý một biểu đồ số cho các cấp đề
tài trong mục được sử dụng trong bộ sưu tập (Chú ý việc
thay đổi các mục chỉ được dùng đối với bộ sưu tập hiện
hành và không đem qua danh mục toàn cầu của các đề
tài).
Để thêm vào một hay nhiều tài liệu vào trong một chủ đề
(i.e. chỉ định đề tài cho một hoặc nhiều tài liệu), trước
tiên bạn chọn mục đề tài hoặc mục con mà bạn muốn
thêm vào các tài liệu, trong hộp danh mục cấp trên. Sau
đó chọn một hay nhiều tài liệu trong hộp danh mục cấp
thấp hơn, và click vào biểu tượng nhỏ giữa hai cách trình
bày với một mũi tên hướng “lên’ và cuốn sách màu đỏ
(hoặc nhấp đúp lên từng tài liệu một).
Do vậy các tài liệu được chỉ định với đề tài được chọn sẽ
được trình bày với dấu √ trước mỗi trường trong dòng
tương ứng; để thuận lợi trong việc trình bày bạn có thể di
chuyển lên xuống trang trình bày với các biểu tượng “√
up” và “√ down” ở giữa các phần trình bày. Bạn sẽ thấy
rằng các tài liệu được thêm vào nơi tương ứng trong cấu
trúc phân lớp các đề tài. Bây giờ lặp lại hành động này
cho đến khi tất cả các tài liệu được phân lớp.
Một tài liệu có thể được chỉ định với nhiều đề tài theo ý
muốn. Bạn có thể di chuyển (nhưng không phải là copy)
một tài liệu được phân lớp dưới một đề tài này hay một
đề tài khác bằng cách kéo và thả với nút trái chuột. Để di
chuyển một tài liệu ra khỏi một đề tài, chọn danh mục tên
tài liệu trong mục đề tài, nhấn phím delete và xác nhận
yêu cầu.
Trình bày các tổ chức: Phần trình bày này được dùng như
là phương tiện thuận lợi cho việc chọn hay không chọn
các tài liệu đối với bộ sưu tập theo tên của tổ chức có liên
quan mà cũng sẽ trở thành một phần của danh mục trong
thư viện số cho việc phục hồi tài liệu thông qua tổ chức
có liên quan (Lưu ý các tài liệu có thể được thêm và thay
đổi thuộc tính tổ chức, từ phần trình bày các tài liệu).
Danh mục mặc định trong hộp phía tay trái chứa các tổ
chức có liên hệ với với các tài liệu trong bộ sưu tập; còn
hộp phía tay phải chứa các tên của các tài liệu mà tổ chức
được liên hệ - Các tên này được đánh dấu với √ trong bộ
sưu tập với cả những tên mà không được đánh dấu. click
vào tên nào đó để chọn hoặc không chọn nó trong bộ sưu
tập. Sử dụng biểu tượng ở góc dưới bên phải (ô trắng
đánh dấu √ và ô tròn trắng dùng để chọn hoặc không
chọn tất cả các tiêu đề).
Để chọn những tài liệu từ các tổ chức chưa đặt thuộc tính
cho những tài liệu trong bộ sưu tập, chọn Add
Organisations từ tùy chọn danh mục toàn cầu của nút
Add organisation để thêm các tổ chức vào danh mục tổ
chức bộ sưu tập, sau đó là quá trình chọn các tài liệu như
trên. Tương tự, bạn có thể sử dụng nút remove
organisation để di chuyển tất cả các tài liệu có liên quan
với một tổ chức được chọn từ bộ sưu tập (Nhưng không
phải từ danh mục tài liệu toàn cầu). Để làm việc chỉ với
một tài liệu trong bộ sưu tập, chỉ việc bật tắt hộp
checkbox để chọn danh mục các tài liệu.
Từ phần trình bày này, bạn có thể thêm các tổ chức mới,
tài liệu mới vào trong danh mục toàn cầu (hộp hội thoại Add new organisation của nút Add
Organisation hoặc
hộp hội thoại Add new document của nút Add Document,
thực hiện theo thứ tự lần lượt như trên khi quay trở lại
menu chính và thêm mới tài liệu với dòng lệnh
New/Organisations hoặc New/Subjects.
c. Trình bày tài liệu: Danh mục tất cả các tài liệu được chọn gồm
cả các tài liệu trong bộ sưu tập được kích hoạt. Điều này cũng
giống như trong danh mục các tài liệu khi một tập tài liệu xuất
hiện ở cửa sổ phía dưới trong phần trình bày Các đề tài. Điểm
khác nhau chính là trong danh mục tài liệu này, khi nhấp đúp
vào tài liệu cần trình bày sẽ mở ra hộp hội thoại Các thuộc tính
của tài liệu ứng với tài liệu.
Sau đó bạn có thể thêm/thayđổi các thuộc tính của tài liệu đó
(Hoặc khác nữa là các mục đề tài liên kết được thay đổi, được
miêu tả ở trên trong mục Subjects view) bằng cách chọn một
trong các tab đối với các thuộc tính của các phân lớp khác nhau
ở trên cùng của hộp hội thoại:
• Tab General: trong cửa sổ này bạn có thể nhập tên tài liệu,
số công việc, số trang và số hình ảnh, năm xuất bản, và tên
cùng loại. Bạn cũng có thể thêm vào số lượng hình ảnh một
các tự động bằng cách click vào nút Find images và chọn
thư mục có chứa các hình ảnh của thư mục, sau đó chỉ ra
kiểu định dạng phần mở rộng trong trường Extensions.
• Tab Advanced: nếu một tài liệu được xuất bản định kỳ, hoặc
là một phần của bộ tài liệu, bạn có thể chỉ ra tiêu đề của tài
liệu cần phát hành hay cả bộ tài liệu như là một thuộc tính,
tự động tạo ra một thực thể trong danh mục các tài liệu phát
hành định kỳ, nó được nhìn thấy trong cửa sổ tìm kiếm tiêu
đề của chương trình ứng dụng cần sử dụng. Trong cửa sổ
trình bày cấp cao mà bạn có thể chỉ định trong phần
Organisations và Languages của tài liệu, Cả hai trường này
đều có thể được lặp lại. Nếu có nhiều hơn một tổ chức có
liên hệ với tài liệu (Nhà xuất bản, đồng tác giả) hoặc nếu
được viết bằng nhiều ngôn ngữ, hoặc song ngữ Anh/Pháp,
bạn nên chỉ ra tất cả các tài liệu tương ứng với từng danh
mục riêng.
• Tab Copyright: Việc biết rõ trạng thái bản quyền tác giả khi
xuất bản tài liệu rất quan trọng. Cửa sổ này gồm hai phần:
Thứ nhất là nơi bản gốc được trình bày và mức độ bản
quyền có thể được xác định. Thông tin này liên quan đến
việc quản lý với Organizer, nó không ảnh hưởng gì đến trình
ứng dụng thư viện số Greenstone.
• Tab Suggested collections: Phần này trình bày một danh
mục các bộ sưu tập trong đó bao gồm tài liệu được đề nghị
sau đó. Số lượng bộ sưu tập được đề nghị không giới hạn.
Thông tin này dùng trong việc quản lý tài liệu với Organizer,
và nó không ảnh hưởng gì đến trình ứng dụng thư viện số
Greenstone.
• Tab Keywords: Keyword được dùng trong việc xuất bản tài
liệu. thuộc tính này là biểu đồ phân cấp được thêm vào để bổ
sung phân lớp đề tải và có thể được sử dụng để hoạt động
trình ứng dụng Thư viện số để chọn và trình bày các tập tài
liệu trong Thư viện. Trong DLS, nó được dùng như là một
tham số “How to”, nhưng nó cũng có thể được dùng cho bất
cứ metadata nào khác được thêm vào, với ví dụ là tác giả
hay đất nước của tài liệu nguồn.
Chú ý; Trong phần trình bày các Đề tài, Tổ chức và Tài liệu,
nút Add documents cho phép người dùng thêm mới tài liệu trực
tiếp vào bộ sưu tập từ hộp hội thoại hoặc chọn từ danh mục các
dữ liệu toàn cầu. Tài liệu được thêm vào trong cửa sổ thuộc tính
trình bày một cách tự động danh mục các dữ liệu toàn cầu được
nhập vào cho việc sử dụng trong tương lai.
Khi một tài liệu mới được thêm vào bộ sưu tập từ danh mục các
dữ liệu toàn cầu, hộp hội thoại Search documents được xuất
hiện để người dùng có thể dễ dàng xác định nhu cầu tài liệu
theo nhiều nhiều chuẩn chọn lựa (Điều này giống như chức
năng lọc dữ liệu được mô tả như trên trong danh mục các tài
liệu thảo luận được sử dụng bằng cách chọn nút Documents của
thanh công cụ đứng trong cửa sổ Organizer Main)
d. Các phần trình bày khác: Phần trình bày các phân cấp khác cho
thấy thứ tự các tài liệu theo các tiêu đề kế tiếp nhau (Không
được phép chỉnh sửa)
và phân cấp các tiêu đề theo mẫu tự alphabet theo mỗi ngôn
ngữ. Người dung có thể thay đổi nhóm phân cấp theo mẩu tự
alphabet (Ví dụ: A-C, E-G or A-L, M-Z v.v…) theo cở tốt nhất
để trình bày những tài liệu trong Thư viện hoàn chỉnh. Để làm
điều này, click vào một ngôn ngữ và sử dụng chứa nút chia ký
tự (Split letters). Khi đã cảm thấy hài long với kết quả, click
vào nút Save Splitters (Cho đến khi bạn có thể quay trở lại vị trí
ban đầu hay các ký tự đã được lưu trước đó bằng cách click vào
Load/Refresh để phân chia hoặc loại bớt ký tự bằng việc click
vào Eliminate Splittings).
iii. The Export Settings window
Cửa sổ này được trình bày khi biểu tượng ở dưới thanh công cụ
đứng của cửa sổ Organizer Main được chọn, cho phép bạn lấy
ra kết quả công việc và thông thường là giai đoạn cuối liên quan
đến việc tạo ra bộ sưu tập mới hoặc là bộ sưu tập con. Chọn
Export Files để liên kết với cửa sổ Export Settings và chọn một
bộ sưu tập để truy xuất ra ngoài và một thư mục để nhận thông
tin được truy xuất. sau đó click Export files.
Việc này sẽ làm thay đổi 5 file collect.cfg, metadata.xml,
sub.txt,org.txt, Keywords.txt và AZList.txt trong thư mục được
chọn. Để xây dựng bộ sưu tập với thông tin này, bạn cần di
chuyển các file đến nơi liên kết. Nơi có file metadata.xml ở
trong thư mục import của bộ sưu tập và các thư mục khác của
bộ sưu tập .v.v..
Bắt đầu 10 bước trong 15 phút
a. Cài đặt thư mục Greenstone (xem tài liệu the Greenstone
Installer’s Guide) bao gồm luôn cả Thư viện Demo dạng DLS
và các file nguồn. Lưu ý nếu bạn muốn có thể thêm vào bộ
sưu tập của mình 140 tài liệu bất kỳ trong bộ sưu tập DLS ở
cơ sở dữ liệu Organizer để ở chế độ mặc định (Thay vì chỉ là
14 tài liệu như trong bộ sưu tập của chương trình Demo
trong Thư viện Greenstone), bạn nên cài DLS như là một
mẫu Thư viện Greenstone và thay thế “Demo củ” bằng
“dls” theo cấu trúc dưới đây. Bộ sưu tập Demo và DLS sẽ được cài đặt theo thứ tự sau trong
c:\program
files\gsdl\collect\demo and c:\program files\gsdl\collect\dls.
Nếu bạn cài đặt Greenstone trước mà không có DLS và muốn
cài thêm DLS, thì bạn có thể hủy việc cài đặt hay cài lại
Greenstone chỉ với bộ sưu tập này.
b. Thiết lập cấu trúc cho bộ sưu tập mới (Chúng ta sẽ thích để nó
dưới dạng là “newcol”) bằng cách điều khiển dòng lệnh sau:
run trong menu Start trong windows:
“c:\program files\gsdl\bin\windows\build” newcol
c. Thay thế file collect.cfg mặc định được tạo ra từ bước trước
được sử dụng bằng chương trình Demo. Lưu lại đường dẫn
c:\program files\gsdl\collect\demo\etc\collect.cfg thành
c:\program files\gsdl\collect\newcol\etc\collect.cfg. Điều này
cần thiết là vì Demo sử dụng (và tất cả bộ sưu tập dạng DLS) sử
dụng một số tùy chọn đặt biệt mà bộ sưu tập mặc định không có
(xem TL GreenstoneDeveloper’s Guide để biết thêm chi tiết)
Bạn in những chỉ dẫn dưới đây và làm theo từng bước dưới đây:
1. Mở Collection Organizer, chọn cơ sở dữ liệu dls và nhập từ
“admin” cho cả user name và password (Nút Collections
của thanh công cụ đứng sẽ được tô sang mặc định; nêu
không sang thì click vào nút đó)
2. Chọn lệnh New/Collection/Empty trong thanh thực đơn nằm
ngang ở trên cùng của cửa sổ Organizer Main để tạo ra một
bộ sưu tập mới trống. Đặt tên bộ sưu tập và phiên bản mà
bạn chọn, ví dụ như đặt tên là “My First Collection” và
phiên bản “1.0”
3. Với một số thuộc tính của tài liệu, bạn sẽ phải tạo ra một
danh mục các giá trị có thể trước tiên. Vì vậy nếu bạn biết
nhiều ngôn ngữ và/hoặc các tổ chức xuất bản trong các tài
liệu của bạn, dùng lệnh New/Add-Modify languages và
New/Organisation để them vào tất cả các ngôn ngữ mà bạn
sẽ sử dụng trong tài liệu này hoặc cho bộ sưu tập trong
tương lai cũng như vai trò các nhà xuất bản tài liệu của bạn. Bạn cũng có thể dùng một dòng lệnh
để thêm/Thay đổi ngôn
ngữ và các tổ chức khi nào muốn, nhưng không phải là
chỉnh sửa bản thân bộ sưu tập trong chỉ dẫn sau đây.
4. Nhấp đúp lên dòng tên bộ sưu tập mà bạn tạo
5. Click vào tab Subjects ở trên đỉnh (Nếu chưa chọn có thể để
ở dạng mặc định); sau đó click vào nút Add subject lệnh Add
new subject, sau đó nhập tên đề tài mới vào trường Subject
title, nhấn phím “enter” sau mỗi lần thực hiện. Click vào dấu
+ trước từ Subjects trong danh mục liệt kê phân cấp để xem
đề tài mà bạn yêu cầu.
6. Click lên tab Documents để mở trang trình bày tài liệu, sau
đó thêm các tài liệu vào bộ sưu tập như sau:
a. Để thêm một tài liệu vào bộ sưu tập Demo (Hoặc bộ sưu tập
DLS nếu đã được cài đặt trên Greenstone) vào bộ sưu tập
mới của bạn, click nút Add documents và chọn Add
document từ danh mục toàn cầu. Định vị trí tài liệu bạn yêu
cầu (Sử dụng chức năng lọc dữ liệu được miêu tả ở trên) và
thêm nó vào bộ sưu tập của bạn trong Organizer. Sau khi
thêm tài liệu, định vị file nguồn của bộ sưu tập trong Thư
mục Demo import (c:\program
files\gsdl\collect\demo\import) và copy chúng vào thư mục
import của bộ sưu tập mới của bạn. Ví dụ, để thêm tài liệu
“Butterfly Farming in Papua New Guinea” vào số công việc
khi bạn xác định nó trong Organizer. Số công việc của tài
liệu này là “b22bue”, vì vậy bạn nên copy thư mục “b22bue”
từ
c:\program files\gsdl\collect\dls\import\ac01ne sang
c:\program files\gsdl\collect\newcol\import\ac01ne.
Để thêm một tài liệu mới (Nghĩa là có một tài liệu không có
trong bộ sưu tập Demo) vào bộ sưu tập mới của bạn, click
nút Add documents và chọn Add new document. Nhập tên,
số công việc của tài liệu (Lựa chọn của bạn), số trang, tổ
chức xuất bản, ngôn ngữ và thông tin khác. Bạn phải
tạo ra một thư mục mới trong c:\program
files\gsdl\collect\newcol\import để liên hệ với số công việc của tài liệu mới. Trong thư mục mới
này bạn nên để file
nguồn của tài liệu và bất cứ file hình ảnh nào có liên quan
(Trong HTML hay bất cứ định dạng nào khác được chấp
nhận bởi Greenstone (xem trong tài liệu Greenstone User’s
Manual).
7. Quay trở lại tab đề tài bạn sẽ nhìn thấy tài liệu của bạn được
trình bày trong hộp danh mục liệt kê phía dưới. Chọn một tài
liệu, sau đó chọn môt chủ đề ở danh mục nhánh trên mà bạn
muốn phân lớp tài liệu này trong đó và click vào biểu tượng
nhỏ giữa hai phần trình bày với một mũi tên chỉ lên (“up”)và
cuốn sách màu đỏ. Khi tài liệu đã được phân lớp, bạn vẫn có
thể di chuyển nó từ đề tài này sang đề tài khác bằng cách
kéo – thả với nút trái chuột. Bạn cũng có thể di chuyển các
tài liệu hoặc các đề tài lên xuống giữa các cấp độ tương tự
nhau của biểu đồ phân lớp bằng cách chọn nút lên, xuống
màu xanh vào phía bên phải của danh mục phân cấp đề tài.
Cố gắng phân lớp trung bình từ 6 – 30 tài liệu trong một đề
tài. Một tài liệu có thể được chỉ định trong nhiều đề tài mà
bạn muốn.
8. lặp lại các bước trên bằng cách thêm đề tài mới, và thêm
nhiều tài liệu hơn. Khi Thư viện được hoàn thành, bạn sẽ
phải xem lại danh mục các đề tài và các tài liệu, để chắc
rằng tất cả đều được nhập vào và phân lớp, sắp thứ tự chính
xác.
9. Cuối cùng, đóng cửa sổ thuộc tính bộ sưu tập và nhấn nút
Export Files của thanh công cụ đứng. Phần này sẽ mở ra một
cửa sổ Export Settings. Click vào nút Display collection list
và chọn bộ sưu tập của bạn, sau đó click vào nút Browse for
folder và chọn thư mục mà bạn muốn truy xuất file
metadata, nhấn nút Export files để truy xuất metadata của bộ
sưu tập cho quá trình xây dựng với Greenstone.
10. Copy file được truy xuất đến những nơi có liên quan trong
cấu trúc thư mục của mới bộ sưu tập của bạn.
a. File metadata.xml được truy xuất, nên được copy vào thư
mục c:\program files\gsdl\collect\newcol\impor.
b. Các file AZList.txt, Keyword.txt, sub.txt, and org.txt được
truy xuất, nên được copy vào thư mục c:\program
files\gsdl\collect\newcol\etc.
Lưu ý file collect.cfg được sinh ra bởi Organizer không được
yêu cầu bởi các dòng phân lớp đã chứa file collect.cfg rồi cho
bộ sưu tập Demo và DLS. Bộ sưu tập The newcol đã sẳn sàng
được xây dựng. Xây dựng nó từ dòng lệnh import.pl và
buildcol.pl (xem chi tiết trong tài liệu the Greenstone
Developer’s Guide).
5.3 Đính kèm các file tài liệu
Tài liệu nguồn thường cần để xây dựng những phần lớn và những
phần nhỏ của bộ sưu tập, và thông tin này cần để liên kết với
Greenstone để nó có thể bảo toàn cấu trúc phân cấp. Cũng như thế
metadata – đề tài điển hình – có thể được liên kết với mỗi phần lớn và
phần nhỏ. Các tài liệu nguồn từ quá trình OCR là điển hình cho một
tập hợp các từ xử lý file, bao gồm các file hình ảnh. Nếu các file này
thuộc dạng file MicrosoftWord, họ có thể input vào Greenstone bằng
cách sử dụng plugin dạng Word. Có thể vừa chuyển thành file HTML
vừa dùng plugin HTML để input. Trong trường hợp khác cấu trúc
phân cấp của một tài liệu có thể được chỉ định bằng cách thêm đuôi
dạng text như sau:
<!--
<Section>
<Description>
<Metadata name="Title">Realizing human rights for
poor
people: Strategies for achieving the international
development targets</Metadata>
</Description>
-->
(text of section goes here)
<!--
</Section>
-->
Cách ghi như trên được dùng bởi vì chúng chỉ ra các dòng lệnh ở dạng
HTML; và vì thế các đuôi được thêm vào trong phần này sẽ không
ảnh hưởng đến định dạng tài liệu. Bạn phải ghi những dòng trên vào
phần đuôi của các phần, ngay cả khi tài liệu mà bạn đang sử dụng
không phải là file HTML (e.g. nếu nó là file dạng Microsoft Word ).
Trong phần miêu tả chi tiết (between the <Description> and
</Description> tags) các loại metadata khác có thể được chỉ định,
nhưng lại không làm đối với các tài liệu mà chúng ta đang miêu tả ở
đây.
Điều quan trọng là phải nhớ rằng bạn đang tạo bảng mục lục phân cấp
khi chèn vào phần đuôi trong tài liệu của bạn. Điều này có nghĩa các
phần này có thể được để lòng vào các phần khác. Trên thực tế, tất cả các phần đều phải được lòng
vào các phần đơn khép kín bao quanh
toàn bộ tài liệu.
Ví dụ sau chứng minh được rằng một tài liệu với hai chương, chương
hai chứa hai phần nhỏ. Ví dụ thực tế của các tài liệu gốc được thêm
vào phần đuôi bằng cách này, hãy nhìn các tài liệu nguồn trong bộ sưu
tập Demo và DLS.
<!--
<Section>
<Description>
<Metadata name="Title">My Document</Metadata>
</Description>
<Section>
<Description>
<Metadata name="Title">Chapter 1</Metadata>
</Description>
-->
(text of chapter 1 goes here)
<!--
</Section>
<Section>
<Description>
<Metadata name="Title">Chapter 2</Metadata>
</Description>
<Section>
<Description>
<Metadata name="Title">Subsection 1</Metadata>
</Description>
-->
(text of sub-section 1 goes here)
<!--
</Section>
<Section>
<Description>
<Metadata name="Title">Subsection 2</Metadata>
</Description>
-->
(text of sub-section 2 goes here)
<!--
</Section>
</Section>
</Section>
-->
Lưu ý metadata được chỉ định từ phần đuôi trong tài liệu nguồn theo
thứ tự ưu tiên đã được chỉ định từ file metadata.xml (Giống như được
tạo ra bởi Organizer). Điều này có nghĩa là bạn không nên chỉ định rõ
metadata chủ đề cho cấp cao nhất của tài liệu nguồn trừ khi bạn muốn bỏ qua tiêu đề mà bạn đã
cài vào từ Organizer. Trong ví dụ dưới đây,
nếu bạn muốn lấy tên của tài liệu mà bạn cài trong Organizer bạn nên
bỏ qua dòng sau:
<Metadata name="Title">My Document</Metadata>.
(Tài liệu được cung cấp bởi Thầy Đỗ Quang Vinh)
  Trả lời với trích dẫn


28-04-2010, 04:38 PM #8
huyenmy251
Xem hồ sơ
Xem tất cả bài gửi
Tin nhắn
Xem Entry
   Thành viên
Ngày tham gia
Apr 2010
Bài gửi
37
Đã cảm ơn
12
Được cảm ơn 3 lần trong 3 bài
   Thư viên điện tử Greenstone - Hướng dẫn sử dụng <Bài gửi của thuhuyen>
THƯ VIỆN ĐIỆN TỬ
GREENSTONE
HƯỚNG DẪN SỬ DỤNG




Tác giả: Lan H.Witten và Stefan Boddie
Khoa Công Nghệ Thông Tin trường
Đại học Waikato, New Zealand


Greenstone là một bộ phần mềm hỗ trợ việc xây dựng và phân phối các bộ sưu tập Thư
viện số. Nó cung cấp một phương thức mới trong việc tổ chức và xuất bản thông tin trên
Internet hoặc trên CD-ROM. Greenstone là kết quả của dự án Thư viện số tại trường đại
học Waikato, NewZealand (New Zealand Digital Library Project), đã được triển khai và
phân phối với sự hợp tác của hai tổ chức UNESCO và Human Info NGO. Đây là một phần
mềm có mã nguồn mở tại địa chỉ http://greenstone.com , trong mục GNU General Public
License.
Chúng tôi muốn đảm bảo rằng phần mềm này sẽ đáp ứng tốt nhu cầu của bạn. Vì vậy, nếu
có bất kì vấn đề nào liên quan đến phần mềm này, đề nghị các bạn liên lạc với
greenstone.@cs.waikato.ac.nz
Greenstone gsdl-2.39 Tháng 3 năm 2003

Hướng dẫn sử dụng:
Tài liệu này hướng dẫn chi tiết cách sử dụng Greenstone để truy cập và xây
dựng các bộ sưu tập Thư viện số.
Phần 1: Trình bày tổng quát về về các tính năng của phần mềm
Phần 2: Hướng dẫn sử dụng các bộ sưu tập Greenstone. Giao diện này rất dễ
sử dụng – Cách học Greenstone nhanh nhất là thực hành – Trong phần này
bao gồm luôn những thông tin hướng dẫn trực tuyến cho mot bộ sưu tập
bình thường.
Phần 3: Hướng dẫn bạn tự xây dựng các bộ sưu tập Thư viện bằng công cụ
Greenstone Collector. Công cụ này bao gồm các trang Web hướng dẫn bạn
từng bước xây dựng một bộ sưu tập.
Phần 4: Giới thiệu tính năng Quản lí, cho phép người quản lí hệ thống có thể
theo dõi được diễn tiến công việc và kiểm soát được những người đang làm
công việc thiết kế các bộ sưu tập.
Phần phụ lục: Liệt kê các tính năng của phần mềm Greenstone và cung cấp
một bảng chú giải thuật ngữ được sử dụng trong toàn bộ tài liệu này.
Các tập tài liệu trong Bộ phần mềm Greenstone
Bộ phần mềm này bao gồm 4 tập tài liệu:
• Hướng dẫn cài đặt
• Hướng dẫn sử dụng
• Hướng dẫn phát triển
• Từ tài liệu bằng giấy đưa lên bộ sưu tập.

Những thành viên tham gia dự án phần mềm Greenstone
Greenstone là sự hợp tác của nhiều người trong đó Rodger McNab và Stefan
Boddie là hai nhân vật chủ yếu trong việc thiết kế và phát triển phần mềm
này. Ngoài ra còn có sự đóng góp của các tác giả sau: David Bainbridge,
George Buchanan, Hong chen, Elke Duncker, Carl Gutwin, Geoff Holmes,
John McPherson, Craig Nevill-Manning, Gordon Paynter, Bernhard
Pfahringe, Todd Reed, Bill Rogers và Stuart Yeates. Những thành viên khác
trong dự án Thư viện số tham gia phần Thiết kế hệ thống là: Mark Apperley,
Sally Jo Cunningham, Steve Jones, Te Taka Keegan, Michel Loots, Malika
Mahoui và Lloyd Smith.
Chúng tôi cũng chân thành cảm ơn thấ cả những ai đã góp sức vào việc xây
dựng MG, GDBM, WGET, WV, PDF2HTML, PERL trong phiên bản này
1. TỔNG QUAN VỀ GREENSTONE........................................ ......................................4
1.1. Các bộ tài liệu.............................................. .................................................. ........4
1.2. Tìm kiếm thông tin............................................... .................................................. 5
1.3. Định dạng dữ liệu.............................................. .................................................. ...5
1.4. Các tài liệu Đa phương tiện và Đa ngôn ngữ............................................... ..........5
1.5. Chức năng phân phối của phần mềm............................................... ......................6
2. SỬ DỤNG BỘ PHẦN MỀM GREENSTONE........................................ .....................7
2.1. Cài đặt phần mềm bằng CD-ROM............................................... ..........................7
2.2. Tìm kiếm thông tin............................................... .................................................. 8
2.3. Thay đổi thuộc tính.............................................. ................................................14
3. TẬP HỢP CÁC TÀI LIỆU.............................................. ............................................17
3.1. Logging in................................................ .................................................. ..........17
3.2. Cấu trúc Dialog............................................ .................................................. ......18
3.3. Thu thập thông tin............................................... .................................................1 9
3.4. Dữ liệu nguồn............................................. .................................................. .......20
3.5. Cấu hình Bộ sưu tập............................................... ..............................................24
3.6. Xây dựng Bộ sưu tập............................................... ............................................25
3.7. Trình bày bộ sưu tập............................................... .............................................26
3.8. Làm việc với bộ sưu tập đã tồn tại............................................... ........................26
3.9. Định dạng tài liệu.............................................. .................................................. .27
4. Chức năng quản trị .................................................. .................................................. ...30
4.1. File cấu hình.............................................. .................................................. .........33
4.2. Logs.............................................. .................................................. ...................... 33
4.3. Quản lý người dùng.............................................. ...............................................34
4.4. Thông số kỹ thuật............................................. .................................................. ..34

1. TỔNG QUAN VỀ GREENSTONE
Greenstone là một hệ thống hoàn chỉnh dùng đê xây dựng và trình bày các bộ sưu tập gồm
có hàng ngàn, hàng triệu tài liệu bằng chữ, hình ảnh, băng tiếng hay băng hình.
1.1. Các bộ tài liệu
Một Thư viện số thông thường được xây dựng bằng phần mềm Greenstone
sẽ chứa được nhiều bộ sưu tập, được sắp xếp riêng lẻ thông qua sự giống
nhau nổi bật, được duy trì dễ dàng. Ngoài ra bộ tài liệu còn có thể được bổ
sung và tự động tái tạo lại.
Có nhiều cách để tìm kiếm thông tin trong bộ sưu tập Greenstone. Ví dụ,
bạn có thể tìm bằng từ khoá (là từ xuất hiện trong một đoạn văn bản hay một
phần trong tài liệu cần tìm). Bạn có thể trình duyệt tài liệu theo tiêu đề bằng
cách nhấp chuột vào quyển sách. Bạn cũng có thể trình duyệt tài liệu theo
chủ đề. Các chủ đề được sắp xếp theo dạng kệ sách, bạn chỉ cần nhấp chuột
vào kệ sách để tìm các quyển sách ở trong đó. Nhiều khi các tài liệu còn có
cả Bảng mục lục: Bạn có thể nhấp chuột vào một chương hoặc một thư mục
nhỏ để mở ra xem, để mở rộng cả bảng mục lục, hay mở toàn bộ tài liệu
trong cửa sổ trình duyệt của bạn (Giúp ích cho việc in ấn). Trang web Thư
viện số New Zealand (nzdl.org) cung cấp rất nhiều bộ sưu tập mẫu.
Trên mỗi trang đầu của bộ sưu tập đều trình bày mục đích sử dụng và hình
trang bìa của từng quyển sách, và những chỉ dẫn cách sắp xếp bộ tài liệu.
Hầu hết các bộ sưu tập đều có thể được truy cập bằng cả hai cách: Tìm kiếm
và trình duyệt. Khi tìm kiếm, phần mềm Greenstone sẽ tìm toàn bộ nội dung
của tất cả các văn bản trong bộ sưu tập. Trong hầu hết các bộ sưu tập, người
sử dụng có thể chọn sử dụng các chỉ mục được xây dựng từ những phần
khác nhau của tài liệu. Một số bộ sưu tập có chỉ mục tất cả tài liệu, chỉ mục
từng đoạn, và chỉ mục các tựa sách. Có thể tìm các chỉ mục này theo từ hay
cụm từ khóa. Bằng cách này, bạn có thể tìm được tất cả các văn bản có chứa
các từ khóa nào đó (các từ khoá này có thể được phân bố rải rác trong văn
bản), hoặc tất cả những đoạn văn có chứa các từ này (các từ này phải cùng
xuất hiện trên cùng một đoạn văn), hoặc tất cả các sưu tập có các tiêu đề
chứa các từ này (các từ này phải cùng xuất hiện trên tựa của văn bản). Còn
có cả các chỉ mục khác, ví dụ chỉ mục theo từng phần hay theo những đề
mục nhỏ. Trong quá trình trình duyệt, người sử dụng có thể ngiên cứu danh
mục các tác giả, danh mục các tiêu đề, danh mục các ngày, cấu trúc phân
loại theo từng lớp, v.v… Các bộ sưu tập khác nhau có thể có các cách trình
duyệt khác nhau.
1.2. Tìm kiếm thông tin
Phần mềm Greenstone xây dựng những chỉ mục toàn phần theo nội dung
văn bản - nghĩa là những chỉ mục giúp bạn tìm kiếm theo bất cứ từ nào
trong toàn bộ nội dung tài liệu. Chỉ mục có thể được dùng để tìm kiếm theo
các từ khoá, hay các cụm từ, và kết quả sẽ được sắp xếp theo thứ tự dựa trên
sự phù hợp đối với câu truy vấn.
Trong hầu hết các bộ tài liệu, các dữ liệu mô tả như Tác giả, Tiêu đề, ngày
tháng, từ khoá, v.v.. đều đi kèm với từng tài liệu. Dữ liệu này được gọi là dữ
liệu khóa (metadata). Nhiều bộ sưu tập chứa cả chỉ mục nội dung của một số
loại dữ liệu khoá. Ví dụ, một số bộ sưu tập, người dùng có thể tìm kiếm dựa
trên chỉ mục về Tên tài liệu.
Người dùng có thể trình duyệt một cách trực tiếp dựa trên danh mục và cấu
trúc phân lớp được thiết lập từ dữ liệu khoá có liên quan đến các tài liệu
trong bộ sưu tập. Dữ liệu khoá là dữ liệu thô cuả việc tìm kiếm. Nó phải
được trực tiếp cung cấp hoặc được tự động rút ra từ chính các tài liệu. Các
bộ sưu tập khác nhau có thể có những tính năng tìm kiếm và trình duyệt
khác nhau. Chỉ mục tìm kiếm và trình duyệt được thiết lập trong quá trình
xây dựng bộ sưu tập dựa trên các thông tin trong tập tin cấu hình.
Greenstone tự động tạo ra các chỉ mục từ các tài liệu và tập tin hỗ trở:
Không một quá trình nào phải làm bằng tay. Nếu các tài liệu mới có cùng
một định dạng, chúng sẽ tự động được xếp vào chung một bộ sưu tập. Trên
thực tế, trên nhiều bộ sưu tập, việc này được tiến hành bởi các quá trình
được kích hoạt thường xuyên để theo dõi tài liệu mới, và cập nhập lại các
chỉ mục - Tất cả đều được thực hiện một cách tự động.
1.3. Định dạng dữ liệu
Tài liệu nguồn có nhiều dạng khác nhau, và được chuyển sang định dạng
chuẩn XML để sử dụng plugins. Các plugins được phân phát với Greenstone
để hỗ trợ các văn bản thô, HTML, WORD, PDF, Usenet và E-mail. Còn
plugins khác có thể được viết cho những kiểu dữ liệu khác (để sử dụng
chúng, bạn cần phải đọc phần Hướng dẫn phát triển Phần mềm
Greenstone). Để xây dựng cấu trúc trình duyệt từ dữ liệu khóa, ta sẽ tương
tự sử dụng một cách phân loại theo lớp. Các phân loại này sẽ tạo ra các chỉ
mục trình duyệt khác nhau: liệt kê dạng thanh cuộn, dạng mẫu tự Alphabet,
dạng ngày tháng, hay một dạng cấu trúc lớp tùy ý. Một lần nữa, các lập trình
viên trên Greenstone có thể tạo ra cấu trúc trình duyệt mới.
1.4. Các tài liệu Đa phương tiện và Đa ngôn ngữ
Bộ sưu tập có thể chứa chữ, hình ảnh tĩnh, hình ảnh động, âm thanh. Những
tài liệu không thuộc dạng chữ được liên kết với những tài liệu dạng chữ hay
những tài liệu mô tả dạng chữ (ví dụ như chú thích hình ảnh) để hỗ trợ việc
tìm kiếm và trình duyệt nội dung
Unicode, phông chữ chuẩn trên Thế giới dùng để trình bày nội dung tài liệu,
cũng được sử dụng trong Greenstone. Điều này cho phép bất cứ ngôn ngữ
nào cũng đều được xử lý và trình bày theo một kiểu thống nhất. Các bộ sưu
tập được đã được xây dựng có chứa các kiểu chữ Ả rập, Trung Quốc, Anh,
Pháp, Mäori và Tây Ban Nha. Chương trình tự động nhận ra ngôn ngữ mẫu
trong bộ sưu tập và giao diện được trình bày theo những ngôn ngữ sẵn có
trên.
1.5. Chức năng phân phối của phần mềm
Các bộ sưu tập được truy cập thông qua Internet, dưới dạng các ấn phẩm,
hoặc bằng đĩa CD-ROM tự cài đặt. Chương trình nén được sử dụng để nén
nội dung tài liệu và chỉ mục. Một giao thức Corba sẽ hổ trợ cho các bộ sưu
tập được phân phối và giao diện truy vấn..
Thư viện số New Zealand(nzdl.org) cung cấp các bộ sưu tập mẫu bao gồm:
Tập tài liệu về lịch sử, thông tin về con người và sự phát triển, báo cáo kỹ
thuật và tiểu sử, các tác phẩm văn học và tạp chí.
Là phần mềm mã nguồn mở, Greenstone dễ mở rộng và hưởng lợi từ các
modules truy cập nội dung, quản lý cơ sở dữ liệu, và lấy nội dung từ các loại
dịnh dạng khác nhau của sự cho phép của GNU. Chỉ với sự hợp tác quốc tế
thì phần mềm này mới có thể trở thành một phần mềm hoàn thiện, dáp ứng
được những yêu cầu ngày càng đa dạng và phong phú của người sử dụng.
   Trả lời với trích dẫn


28-04-2010, 04:38 PM #9
huyenmy251
Xem hồ sơ
Xem tất cả bài gửi
Tin nhắn
Xem Entry
   Thành viên
Ngày tham gia
Apr 2010
Bài gửi
37
Đã cảm ơn
12
Được cảm ơn 3 lần trong 3 bài
2. SỬ DỤNG BỘ PHẦN MỀM GREENSTONE
Bộ phần mềm Greenstone được thiết kế với các chứa năng dễ sử dụng. Bộ
sưu tập trên Web hay CD-ROM đều có cùng giao diện. Việc cài đặt phần
mềm Greenstone từ CD-ROM hoàn toàn dễ dàng tích hợp với cả hệ điều
hành Windows hay Linux. Việc cài đặt được tiến hành qua một chương trình
cài đặt chuẩn và các tập tin binary được dịch trước. Một bộ sưu tập có thể
được cài đặt để sử dụng trên chính máy tính được cài hoặc khi máy tính này
được kết nối vào mạng, phần mềm này sẽ tự động cho phép tất cả các máy
trên mạng truy cập cùng một bộ sưu tập.
Phần tiếp theo mô tả cách cài đặt phần mềm bằng CD-ROM. Sau đó chúng
ta sẽ xem xét đến tính năng tìm kiếm và trình duyệt trên một bộ sưu tập
Greenstone mẫu, đó là chương trình “Demo” được cung cấp cùng với phần
mềm. Những bộ sưu tập khác cũng có các tính năng tương tự. Nếu sử dụng
được một cái, bạn cũng sẽ sử dụng được những cái khác. Phần tiếp theo sẽ
chỉ dẫn dùng trang Thuộc tính.để thay đổi giao diện theo ý muốn.
2.1. Cài đặt phần mềm bằng CD-ROM
Bản thân phần mềm Thư viện số Greenstone là từ CD-ROM, và bạn hay
người quản lý hệ thống có lẽ đã cài đặt chương trình vào hệ thống của mình,
dựa theo phần Hướng dẫn cài đặt. Nếu đã cài đặt rồi, bạn nên bỏ qua phần
này.
Một số bộ sưu tập Greenstone đến từ một CD-ROM có sẵn các chương trình
để chạy bộ sưu tập. Khi sử dụng, bạn chỉ cần để nó vào ổ đĩa CD-ROM trên
bất kì máy tính nào dùng Windows. Thông thường, (nếu chức năng tự động
“Autorun” đã được kích hoạt trên máy của bạn), một cửa sổ sẽ xuất hiện và
mời bạn cài đặt phần mềm này. Nếu không có chức năng tự động (Nếu sử
dụng hệ điều hành Windows bạn nhấp chuột vào biểu tượng My computer
trên Desktop) chương trình cài đặt sẽ xuất hiện, sau đó double-click vào đó,
tìm file setup.exe và nhấp chuột vào đó thì quá trình cài đặt được tiến hành
và bạn sẽ được hướng dẫn từng bước, trong quá trình cài đặt chương trình sẽ
luôn xuất hiện các câu hỏi và hầu hết các câu trả lời là ” yes”.
Khi quá trình cài đặt hoàn thành, bạn sẽ tìm thấy Thư viện trong phần
Programs với tên của chương trình đã cài đặt như (“Development Library”
hay “United Nations University”).
Khi chương trình đã được cài đặt, nếu chức năng “Autorun” đã được kích
hoạt, Thư viện sẽ tự động khởi động mỗi khi để CD-ROM vào ổ.
2.2. Tìm kiếm thông tin
Để sử dụng phần mềm này, cách dễ nhất là chạy thử các chương trình. Dừng
lo ngại - bạn chẳng làm hỏng chương trình đâu. Hãy tự do nhấp chuột vào
Thư viện: hầu hết các hình ảnh của từng chương trình sẽ hiện ra. Nếu giữ
yên con chỏ chuột phía trên một một hình nào đó, thông thường sẽ có một
thông báo nhỏ báo với bạn chương trình này hoạt động như thế nào.
Hãy thử nghiệm bằng cách chọn những từ quen thuộc như “the” và “and” để
tìm kiếm
Hệ thống Thư viện số Greenstone được tập hợp từ nhiều tài liệu riêng lẻ, ví
dụ như các tài liệu kĩ thuật về tin học, về các tác phẩm học , Các tài liệu của
Tổ chức Lương thực và Nông nghiệp của Liên Hiệp Quốc (FAOs), các tạp
chí chuyên đề..v.v.. Thư viện số có một trang chủ cho phép bạn truy cập .
Thêm vào đó, mỗi bộ sưu tập có một trang thông tin riêng nhằm cung cấp
cho bạn các thông tin về cách sắp xếp và quản lý các tài liệu con. Để quay
trở lại trang Thông tin này, bạn chỉ cần nhấp chuột vào biểu tượng
“collection” ở góc trên bên trái cạnh các trang tìm kiếm và trình duyệt.
Hình 1 sẽ trình bày phần “demo” là phần rất nhỏ trong tập tài liệu
“Development Library collection”, chúng ta sẽ dùng nó như là một ví dụ để
mô tả những cách tìm kiếm thông tin khác nhau (Nếu không tìm thấy
chương trình Demo bạn có thể sử dụng luôn chương trình Development
Library, chúng cũng tương tự nhau). Trước tiên phải kích hoạt chương trình
bằng cách nhấp chuột chuột vào các biểu tượng. Có nhiều biểu tượng xuất
hiện trên dòng đầu ở hầu hết mỗi trang; Bảng 1 sẽ trình bày các ý nghĩa của
biểu tượng

Hình 1:
Sử dụng chương
trình Demo


Các thanh phía dưới “search.. subjects..titles a-z..organization.. how to..” là
các công cụ trình duyệt và tìm kiếm, nút ngoài cùng bên phải là nút tìm
kiếm, 4 nút còn lại là những điều kiện tìm kiếm khác nhau ứng với các tài
liệu khác nhau.
Cách tìm kiếm thông tin
Bảng 2 trình bày 5 cách tìm kiếm thông tin trong phần Demo.
Bạn có thể tìm kiếm bằng từ khóa mà đã xuất hiện trong phần nội dung tài
liệu từ trang “tìm kiếm”. Phần này cũng giống như trang “about” đã được
trình bày ở hình 1 (ngoại trừ việc nó không chứa phần About this collection).
Trang tìm kiếm có thể có thể được truy xuất từ những trang khác bằng cách
nhấn nút search). Bạn có thể truy cập tên xuất bản theo từng chủ đề
(Publications by subject) bằng cách nhấn nút subjects. Sau đó một bảng
danh mục các chủ đề hiện ra, và được trình bày theo dạng kệ sách, có thể
mở rộng ra bằng cách nhấp chuột vào các mục con tiếp theo. Bạn cũng có
thể truy cập bằng Danh sách liệt kê How to bằng cách nhấn nút How to.
Phần này sẽ là một bảng danh mục gợi ý bằng câu hỏi “How to”. Xem Hình
1 (PV).
Bảng 1 Trình bày ý nghĩa của các biểu tượng (icons) trên dòng đầu của mỗi trang
Phần này đưa bạn đến trang “about”.

Phần này dẫn bạn quay về trang chủ, nơi mà bạn có thể chọn lại tài liệu cần
tìm.
Phần này giúp bạn tìm hiểu nội dung đang đọc.
Phần này cho phép bạn chọn lựa giao diện và các hộp hội thoại tìm kiếm
theo ý muốn và sử dụng phần đã chọn trong suốt thời gian tìm kiếm.
Bảng 2 Trình bày ý nghĩa của các biểu tượng (icons) trên thanh tìm kiếm.
Tìm kiếm bằng từ khóa
Truy cập sách xuất bản theo Chủ đề
Truy cập sách xuất bản theo Tên sách
Truy cập sách xuất bản theo Tên các Tổ chức thế giới
Truy cập sách xuất bản theo bảng trợ giúp “how to”
Cách đọc hiểu tài liệu
Trong phần Demo, bạn có thể biết được đây là quyển sách cần tìm nhờ vào
ảnh bìa của quyển sách (Hình 2). Bên cạnh ảnh bìa là bảng mục lục: Khi bạn
truy cập đến phần nào thì phần đó sẽ được in đậm, trong trường hợp này là
phần Introduction and summary – Phần 1. Bảng này sẽ được mở rộng, bạn
có thể nhấp chuột vào các thư mục để đóng mở chúng . Nhấp chuột vào
biểu tượng mở sách để đóng sách và ngược lại.
Phần bên dưới sẽ là nội dung của phần hiện hành (“The international
demand for tropical butterflies…Trong phần ví dụ, nội dung được trình bày
ngay dưới mỗi bức hình minh họa). Khi đọc đến những dòng cuối bạn có thể
sang phần tiếp theo để đọc hoặc trở về đầu trang.
Phía dưới bức hình có 4 nút.
Nút detach có tác dụng mở ra cửa sổ mới. (rất tiện khi mở nhiều quyển sách
cùng một lúc để đọc hoặc so sánh). Nếu bạn đang đọc quyển sách được tìm
bằng nút “Search” thì mục search sẽ được tô sáng, còn nút no highlighting
sẽ ẩn.
Nút expand text sẽ mở rộng toàn bộ nội dung thư mục hiện hành hoặc toàn
bộ nội dung cuốn sách hiện hành.
Nút expand contents sẽ mở rộng toàn bộ nội dung của mục lục để bạn thấy
tên tất cả các chương và mục nhỏ.
Trong một số tập tài liệu, phần nội dung không cần phải trình bày theo cấu
trúc phân cấp. Với trường hợp này sẽ không có bảng mục lục khi bạn xem
phần nội dung tài liệu - chỉ xuất hiện duy nhất phần nội dung. Một số trường
hợp thì nội dung được chia thành nhiều trang, và bạn có thể đọc lần lượt
từng trang hoặc nhảy sang từ trang này sang trang khác.
Hình 2
Một quyển sách trong phần Demo.




Ý nghĩa các biểu tượng
Trong khi tìm kiếm tài liệu bạn sẽ gặp những đề mục sau trong bảng 3.
Bảng 3 Các biểu tượng (icons) bạn sẽ gặp trong lúc tìm kiếm.

Nhấp chuột vào biểu tượng này để đọc sách
Nhấp chuột vào để xem từng Đề tài

Trình bày nội dung tài liệu

Mở Thư mục và trình bày nội dung

Nhấp chuột vào đây để đóng sách
Nhấp chuột vào đây để đóng Thư mục
Sang trang kế tiếp
Trở về trang trước
Mở trang này trong cửa sổ mới.
Mở rộng bảng mục lục
Trình bày toàn bộ nội dung văn bản

Tô sáng đề mục tìm kiếm
Cách tìm bằng từ khoá
Từ trang tìm kiếm bạn thực hiện từng bước sau:
• Xác định rõ bạn cần tìm cái gì: trong bộ sưu tập demo, bạn có thể tìm
tên sách hoặc toàn bộ nội dung quyển sách.
• Chọn cách tìm kiếm bằng toàn bộ từ khóa hay chỉ một số từ khóa
• Gõ những từ khóa vào trong hộp hội thoại truy vấn.
• Nhấp chuột nút begin search để tìm.
Khi bạn thực hiện câu truy vấn, tên của hai mươi tài liệu phù hợp sẽ được
hiện lên. Ở cuối mỗi trang sẽ có nút cho phép bạn chuyển sang trang kế
chứa 20 tài liệu kế tiếp, cứ thế bạn có thể chuyển sang trang kế hay trở về
trang đầu tiên, và cứ thế tiếp tục di chuyển tới, lui các trang kết quả. Tuy
nhiên kết quả được trình bày từ 100 mẫu tin trở lại mới được xem là chính
xác. Bạn có thể thay đổi chỉ số này trong mục preferences trên phần đầu của
trang.
Nhấp chuột vào tên của bất cứ tài liệu nào hay icon nhỏ bên cạnh đó để mở
tài liệu ra xem. Các biểu tượng có thể trình bày một cuốn sách, một thư mục
hay một trang: Biểu tượng là hình cuốn sách nếu như bạn chọn phần tìm
kiếm là sách và ngược lại là sẽ là thư mục hay từng trang nếu như phần tìm
kiếm có các phụ mục.
Đề mục tìm kiếm
Bất cứ khi nào bạn gõ vào hộp hội thoại tìm kiếm một cụm từ, thì cụm từ đó
được gọi là “Từ khóa”. Các từ này chỉ chứa các kí tự alphabet hoặc các chữ
số. Các từ phải được cách ra bằng khoảng trắng. Dấu chấm câu, chấm phẩy,
gạch ngang..v.v.. được coi như khoảng trắng và do dó bị xem như không có.
Bạn không thể tìm kiếm với các từ khóa chứa dấu chấm câu. Ví dụ:
Ta có câu truy vấn sau (query)
Argo-forestry in the Pacific Islands: Systems for Sustainability 1993
Sẽ tương đương với
Argo forestry in the Pacific Islands Systems for Sustainability 1993
Loại câu truy vấn
Có 2 loại truy vấn khác nhau.
• Loại truy vấn thứ nhất tìm các tài liệu (chương hoặc tiêu đề) chứa tất cả
các từ khóa. Những tài liệu nào thỏa điều kiện tìm kiếm sẽ được trình
bày.
• Loại thứ hai tìm các tài kiệu chứa một số từ trong một loạt từ khóa. Các
tài liệu được sắp xếp dựa theo tính phù hợp của chúng đối với diều kiện
tìm kiếm. Tính phù hợp được xác định dựa trên các tiêu chuẩn sau:
• Tài liệu nào chứa càng nhiều các từ tìm kiếm trong hộp hội thoại
thì càng phù hợp
• Các từ khóa không thông dụng quan trọng hơn các từ thông dụng
• Tài liệu có nội dung ngắn quan trọng hơn
Người sử dụng có thể chọn những cách tìm kiếm mà họ thích - Chọn cả một
câu hoặc ngay cả một đoạn. Nếu bạn chỉ dùng một từ khóa thì việc chọn
cách tìm kiếm là Tìm tất cả hay chỉ tìm một vài từ không quan trọng, ngoại
trừ việc các kết quả được sắp thứ tự theo số lần xuất hiện của từ khóa trong
mỗi tài liệu khi chọn cách thứ hai
Phạm vi câu truy vấn
Trong hầu hết các Bộ sưu tập, bạn có thể lựa chọn các danh mục tìm kiếm
khác nhau. Tìm kiếm theo danh mục Tác giả, Tên sách hoặc theo từng
Chương, từng Đoạn. Nói chung, dù bạn dùng cách nào, bạn cũng sẽ nhận
được một văn bản phù hợp điều kiện tìm kiếm
Nếu tài liệu là sách thì sẽ được mở ra ở nơi thích hợp.
Chức năng tìm kiếm cấp cao
Chương trình này còn có thêm chức năng tìm kiếm cấp cao. Phần này được
kích hoạt từ trang Preferences bằng cách nhấn nút Thuộc tính ở góc trên bên
phải màn hình, xem ở phần 2.2 hình 1 bên trên
Khả năng phân biệt chữ hoa, thường và bỏ qua chữ cuối
Khi đã xác định danh mục tìm kiếm, bạn có thể chọn chức năng phân biệt
giữa chữ hia và chữ thường cũng như chức năng loại bỏ phần đuôi của từ.
Bên dưới mục lựa chọn thuộc tính tìm kiếm trên trang Preferences, bạn sẽ
thấy hai nút có tên sau ignore case differences và upper/lower case must
match dùng để điều khiển chức năng có phân biệt chữ hoa hay chữ thường.
Hai nút có tên ignore word endings và whole word must match dùng để điều
khiển chức năng tìm kiếm chọn hay bỏ qua từ cuối.
Ví dụ: nếu bật nút ignore case differences và nút ignore word endings thì
câu truy vấn sau
African buiding.
Sẽ tương đương với
africa builds.
vì chữ in hoa “A” sẽ được đổi thành chữ “a” thường trong từ “African” và
chữ “n” và “ing” sẽ được tách khỏi hai từ “African” và “buiding” , tương tự “s”
cũng được tách khỏi chữ “builds”.
Nói chung sự phân biệt giữa chữ viết hoa/viết thường hoặc các chữ cuối nên
được bỏ qua nếu như câu truy vấn không phải là tên riêng hoặc từ viết tắt
của một nhóm từ (NATO, UNESCO..v..v).
Cụm từ tìm kiếm
Nếu câu truy vấn bao gồm cả cụm từ nằm trong ngoặc kép, chỉ những tài
liệu nào chứa chính xác cả cụm từ này mới được chấp nhận.
.
Nếu muốn sử dụng phương pháp này, bạn cần phải hiểu được cách làm việc
của nó. Quá trình tìm kiếm được tiến hành như sau: Quét để lấy ra từ giống
như trong đề mục tìm kiếm (post-retrieval scan). Trước tiên câu truy vấn sẽ
được cấp phát ở dạng chữ thường, sau đó chương trình sẽ quét để loại ra
những từ không có trong tài liệu đang tìm và cuối cùng tài liệu nào thỏa điều
kiện, tức là có chứa các từ trong đề mục tìm kiếm sẽ được trả ra.
Trong suốt quá trình quét và tìm kiếm (post-retrieval scan), các cụm từ tìm
kiếm sẽ được kiểm tra bao gồm luôn cả dấu chấm câu, chấm hỏi..v.v..
Ví dụ: Câu truy vấn sau
“what's a post-retrieval scan?”
Trước tiên việc tìm kiếm sẽ tìm tất cả những tài liệu có liên quan đến những
từ như
what s a post retrieval scan
Sau đó sẽ tìm đến những tài liệu có liên quan đến cả cụm từ
post-retrieval scan?
Nếu bật nút ignore case differences ở trang Thuộc tính, quá trình tìm kiếm
sẽkhông phân biệt chữ hoa, thường, bỏ qua từ cuối)
Cách thực hiện câu truy vấn cấp cao
Trong phần tìm kiếm cấp cao được mô tả chi tiết ở trên, loại câu truy vấn
kiểu Chân trị, bao gồm những từ được liên kết bằng các toán tử logic &
(and), | (or), ! (not). Trường hợp giữa các từ tìm kiếm không có toán tử liên
kết thì sẽ được hiểu là phép liên kết & (and), do đó nếu câu truy vấn không
chứa bất cứ toán tử nào thì tài liệu được trả về sẽ chứa tất cả các từ khóa.
Bạn phải dùng các toán tử “ & , | , ! “ thay cho phép “and, or, not” và dùng
dấu ngoặc đơn để nhóm các từ tìm kiếm lại.
Sử dụng chức năng tìm kiếm History
Khi chuyển sang chức năng tìm kiếm History, trên trang Preferences sẽ trình
bày một số kết quả tìm kiếm trước đó cùng với bảng tóm tắt số lượng kết
quả thu được. Nhấp chuột vào nút bên cạnh một trong những kết quả tìm
kiếm trước đó để copy phần nội dung vào hộp tìm kiếm. Điều này tạo sự
thuận lợi trong việc chỉnh sửa câu truy vấn trước đó.
2.3. Thay đổi thuộc tính
Khi nhấp chuột vào nút Thuộc tính ở trên phần đầu trang bạn có thể thay
đổi một số thuộc tính của giao diện cho phù hợp với yêu cầu của mình. Các
thuộc tính tùy thuộc vào bộ tài liệu, như một ví dụ ở Hình 3. Sau khi thay
đổi thuộc tính tìm kiếm, bạn nên nhấn nút set Preferences. Bạn nên nhấp
chuột vào một trong những nút trên thanh access ở dầu trang sau khi cài đặt
thuộc tính, thay vì dùng nút “back”, vì khi nhấn nút này trạng thái sẽ quay
trở lại như khi chưa cài đặt.
Thuộc tính Bộ tài liệu
Một số Bộ tài liệu bao gồm nhiều bộ tài liệu nhỏ hơn. Mà ta có thể tìm kiếm
chúng một cách độc lập hoặc coi chúng như là một. Khi đó, bạn có thể chọn
tìm kiếm luôn thư mục con trên trang Thuộc tính.
Thuộc tính ngôn ngữ
Mỗi Bộ tài liệu đều có ngôn ngữ thể hiện riêng, nhưng bạn vẫn có thể
chuyển sang ngôn ngữ khác nếu thích. Bạn có thể thay đổi kiểu mã hoá mà
phần mềm Greenstone đã sử dụng để hiển thị kết quả ra ngoài. Khi chuyển
sang những biểu đồ mã hoá khác nhau có thể cho kết quả tìm kiếm tốt hơn.
Tất cả các bộ tài liệu đều cho phép bạn chuyển từ giao diện đồ họa dạng
chuẩn thành dạng văn bản. Điều này đặc biệt hữu ích cho người sử dụng khi
các giao diện đồ hoạ trên màn hình không được rõ, người dùng có thể điều
chỉnh phông chữ màn hình lớn hơn hoặc chuyển sang dạng âm thanh
Hình 3:
Trang thuộc tính

Thuộc tính trình bày
Tùy thuộc vào từng bộ tài liệu mà có thể các khả năng thay đổi thuộc tính
trình bày là khác nhau. Các bộ sưu tập được trình trên trang Web sẽ cho
phép bạn tắt thanh điều khiển của Greenstone trên đầu mỗi trang tài liệu, để
khi bạn tìm đến đúng trang web cần tìm dưới dạng không có thanh điều
khiển Greenstone, bạn phải bấm vào nút “back” để quay trở lại trạng thái
tìm kiếm ban đầu.
Bộ tài liệu này cũng cho phép bạn ngăn chặn những cảnh báo khi nhấp
chuột vào liên kết thoát khỏi bộ tài liệu của Thư viện và kết nối vào chính
trang web đó. Trên một số bộ sưu tập web, bạn có thể quyết định có nên kết
nối vào chính trang Web hay là chỉ sử dụng bản sao của trang web đó của
Thư viện.
Thuộc tính tìm kiếm
Xem hình 3 để nhìn thấy giao diện trang thuộc tính tìm kiếm, ta thấy cặp nút
đầu tiên dùng để chuyển đổi sang chế độ Tìm kiếm cấp cao như đã trình bày
ở trên, cho phép bạn thực hiện câu truy vấn bằng các toán tử liên kết kiểu
Logic AND (&), OR (|), NOT (!).
Cặp nút tiếp theo dùng để thay đổi kích cở hộp truy vấn, với chức năng này
bạn có thể điền vào hộp tìm kiếm cả một đoạn tài liệu giúp cho quá trình
kiếm nhanh hơn. Hai cặp nút tiếp sẽ xác định nội dung tìm kiếm thông qua
việc điều chỉnh chức năng “case differences” nghĩa là tìm kiếm có quan tâm
đến chữ viết hoa hay không và chức năng “word ending” có bỏ qua phần
hậu tố của từ hay không.
Bạn cũng có thể bật hoặc tắt chức năng tìm kiếm “History” đã được miêu tả
chi tiết phía trên. Cuối cùng là chức năng điều khiển số lượng kết quả đưa
về trên mỗi trang, và số lượng kết quả tối đa trả ra cho một lần tìm kiếm

3. TẬP HỢP CÁC TÀI LIỆU
Thu thập tài liệu là tính năng của phần mềm Greenstone sẽ giúp
bạn tạo ra
bộ tài liệu mới, sữa chửa, bổ sung hay xóa bỏ bộ tài liệu đã có.
Bạn sẽ được hướng dẫn cách tập hợp tài liệu thông qua các trang
web và yêu
cầu những thông tin cần thiết từ những trang web đó. Ngoài ra
bạn cũng có
thể xây dựng các bộ tài liệu bằng các dòng lệnh. Đọc hướng dẫn
chi tiết
trong phần đầu của tài liệu Hướng dẫn phát triển phần mềm.
Việc xây dựng và phân phối bộ tài liệu còn có những nhiệm vụ
riêng mà bạn
cần phải nắm rõ trước khi tiến hành quá trình tổng hợp tài liệu.
Có những tài
liệu phát hành có bản quyền: Bạn có thể truy cập tài liệu này
không có nghĩa
là bạn có thể để cho những người khác tự do xem tài liệu. Có
những vấn đề
mang tính xã hội: Các bộ sưu tập phải phù hợp với thuần phong
mỹ tục ở
nơi phát hành. Có những vấn đề chủng tộc, những thứ đơn giản
là chúng ta
không thể phát hành rộng rãi. Hãy thận trọng với sức mạnh của
thông tin và
sử dụng chúng một cách đúng đắn
Để tiến hành việc thu thập tài liệu, nhấp chuột vào nút liên kết
trang chủ
của Thư viện. Cấu trúc của một tập tài liệu được quyết định trong
quá trình
xây dựng, bao gồm các việc như: Định dạng tài liệu nguồn, cách
trình bày
dữ liệu lên màn hình, dữ liệu mô tả chương trình (metadata), ,
danh mục tìm
kiếm toàn phần, các trình bày kết quả. Khi đã xong thì việc thêm
vào tài
liệu mới có cùng định dạng với tài liệu đã có là hoàn toàn dễ
dàng, cùng dữ
liệu mô tả chương trình.
Một bộ tài liệu khi được xây dựng có những chức năng cơ bản
sau:
1. Tạo một bộ tài liệu mới có cùng cấu trúc với bộ tài liệu đang
tồn tại;
2. Tạo một bộ tài liệu mới có cấu trúc khác với bộ tài liệu đang
tồn tại;
3. Thêm dữ liệu mới vào bộ tài liệu đang tồn tại;
4. Sữa đổi cấu trúc bộ tài liệu đã có;
5. Xoá bộ tài liệu ;
6. Ghi bộ sưu tập đã có lên đĩa CD-ROM tự khởi động

Ở hình 4 sẽ cho thấy chức năng tập hợp tài liệu được sử dụng để
tạo ra bộ
tài liệu mới. Trường hợp này là tập hợp các file HTML được lưu
trữ nội bộ.
Đầu tiên bạn sẽ quyết định xem sẽ làm việc với bộ tài liệu đã có
hay tạo một
cái mới. Bạn sẽ phải chọn 1 trong 2 nút tùy chọn bên trên và từ 3
đến 6 tùy
chọn nữa trong phần tiếp theo ở hình 4a, để tạo ra bộ tài liệu
mới.
3.1. Logging in
Cần phải thực hiện quá trình log in (nhập username và password)
trước khi
tiến hành quá trình tập hợp tài liệu. Nói chung người ta thường sử
dụng các
trình duyệt web để truy cập vào hệ thống xây dựng bộ tài liệu từ
máy tính,
hoặc trên máy chủ. Dĩ nhiên không phải bất cứ người nào cũng có
thể tham
gia vào việc xây dựng hệ thống Thư viện số này (Điều này hoàn
toàn hợp
lý). Vì thế Thư viện Greenstone còn có một hệ thống bảo mật,
buộc những
ai muốn tham gia vào quá trình thiết kế Thư viện điều phải Log in
vào
mạng. Một hệ thống trung tâm sẽ đáp ứng cho những người có
nhu cầu xây
dựng Thư viện và sử dụng dịch vụ đó để tạo thêm những bộ tài
liệu khác.
Tương tự như vậy, nếu như bạn đang sử dụng phần mềm
Greestone trên
máy tính, bạn cũng có thể xây dựng một tập tài liệu sử dụng nội
bộ, nhưng
cần thiết phải qua quá trình log in bởi vì một số người sử dụng
phần mềm
Greenstone trên máy tính của bạn không được tham gia vào công
việc thiết
kế xây dựng nếu không được phép.
3.2. Cấu trúc Dialog
Sau khi hoàn thành quá trình log in, bạn sẽ phải thực hiện trình tự
các bước
sau để xây dựng bộ sưu tập.
1. Thông tin bộ sưu tập
2. Dữ liệu nguồn
3. Cấu hình bộ sưu tập
4. Xây dựng bộ sưu tập
5. Trình bày bộ sưu tập
Trước tiên là xác định tên và các thông tin có liên quan đến bộ
sưu tập. Ở
bước hai chỉ ra nơi để lấy dữ liệu bộ sưu tập. Bước thứ ba bạn có
thể điều
chỉnh cấu hình bộ sưu tập, rất tiện dụng khi bạn đã sử dụng
thành thạo
Greenstone. Bước thứ tư thực hiện tòan bộ công việc. Trong suốt
quá trình
xây dựng bộ sưu tập hệ thống sẽ tạo các chỉ mục và thu thập
những thông
tin cần thiết để bộ sưu tập có thể hoạt động. Bước thứ năm là
trình bày bộ tài
liệu vừa tạo ra.
Hình 4a: Sử dụng chức
năng tập hợp tài liệu để xây
dựng bộ sưu tập mới

Cả năm bước này đều được lần lượt trình bày tại các nút màu
xám ở phía
dưới màn hình trong hình 4b và cả ở những trang khác. Điều này
giúp cho
người sử dụng biết được họ đang thực hiện giai đoạn nào của quá
trình.
Những nút này khi được nhấp chuột vào sẽ hiện màu xanh
(Thông tin bộ
sưu tập (Collection information) ở hình 4b), còn những nút có
màu xám thì
không được kích hoạt – Hình 4b. Những nút màu vàng nghĩa là
bạn đã thực
hiện xong giai đoạn đó, người dùng có thể quay trở lại bước trước
đó bằng
cách nhấp chuột vào nút vào vàng tương ứng trong sơ đồ. Quá
trình này
được tạo thành một mô hình sau đó phần “wizards” sẽ hướng dẫn
người
dùng thực hiện từng bước trong việc cài đặt phần mềm mới.

Hình 4b (Tiếp theo)

3.3. Thu thập thông tin
Bước tiếp theo là việc thu thập thông tin – Hình 4c. Khi tạo bộ
sưu tập mớI
bạn cần phải nhập những thông tin sau:
• Tên bộ sưu tập
• Địa chỉ liên lạc (Email)
• Bảng tóm tắt mô tả bộ tài liệu
Tên bộ sưu tập là cụm từ ngắn gọn, súc tích được sử dụng trong
Thư viện để
nhận dạng nội dung bộ sưu tập. Địa chỉ E-mail được cung cấp để
người
dùng liên lạc với bạn khi gặp sự cố với bộ sưu tập. Khi gặp sự cố,
một báo
cáo sự cố sẽ được gửi đến địa chỉ này. Cuối cùng là bảng tóm tắt
nội dung,
miêu tả những chức năng chính của bô sưu tâp. Nó xuất hiện
dưới tiêu đề
About this collection trên trang đầu khi bộ sưu tập được hiển thị.

Hình 4 (Tiếp theo)



Vị trí hiện tại của người dùng cho biết người dùng đang ở giai
đoạn nào của
quá trình tạo bộ sưu tập, là những trang cuối của màn hình –
Hình 4c – Giai
đoạn thu thập thông tin. Người dùng chuyển sang giai đoạn tiếp
theo bằng
cách nhấp chuột vào nút source data màu xanh –Hình 4d
3.4. Dữ liệu nguồn
Hình 4d – người dùng chỉ rõ dữ liệu nguồn có chứa bộ sưu tập.
Bạn cũng có
thể xây dựng dựa trên cấu trúc mặc định đã được cung cấp hoặc
dựa trên cấu
trúc bộ sưu tập đã có.

Hình 4d (Tiếp theo)




Nếu bạn chọn cấu trúc mặc định, bộ sưu tập mới sẽ chứa các tài
liệu dạng
HTML (Là những file có đuôi chấm .htm, html), hoặc tài liệu dạng
văn bản
thuần túy như (Những file có đuôi .txt, .text), Dạng Word (.doc),
Dạng PDF
(.pdf), or dạng E-mail (.email). Những thông tin về định dạng các
loại tài
liệu khác, các bạn có thể tham khảo phần 3.9 dưới đây.
Còn nếu bạn xây dựng dựa trên cấu trúc bộ sưu tập đã có, những
file mới
này phải có định dạng hoàn toàn giống như các file của bộ sưu
tập đã có.
Lưu ý rằng một số bộ sưu tập có file nguồn không thuộc dạng
chuẩn, trong
khi một số bộ sưu tập khác sử dụng metadata, được xác định
trong file hổ
trợ. Nếu dữ liệu nguồn của bạn thiếu những thông tin này thì một
số tính
năng trình duyệt có thể hoạt động sai. Nếu bạn chạy bản sao của
chương
trình Demo collection có thể những nút subjects, organization, và
how to sẽ
không hoạt động.
Co 3 hộp được xây dựng để chỉ ra đường dẫn đến dữ liệu nguồn.
Nếu bạn
cần thêm hộp hội thoại để ghi thêm đường dẫn thì nhấp chuột
vào nút
“more sources.”
Có ba loại đường dẫn:
• Tên thư mục trên hệ thống chủ (server) Greenstone (Bắt đầu
với
“file://”)
• Địa chỉ bắt đầu với http:// đối với những file được download từ
trang
web
• Địa chỉ bắt đầu vớI ftp:// đối với những file được download sử
dụng
thuộc tính ẩn FTP.
Nếu bạn sử dụng file:// hay ftp:// để xác định file, file đó sẽ được
download.
Nếu bạn sử dụng http://, điều đó tùy thuộc vào việc URL là một
trang web
thông thường để để sử dụng, hoặc là một danh sách các file. Nếu
là một
trang thì trang đó sẽ được tải về - vì thế tải tất cả các trang được
liên kết từ
trang này – Tất cả các thư mục và các thư mục con của nó và vì
thế chúng ở
cùng dưới một trang URL
Nếu sử dụng file:// hoặc ftp:// để dẫn dến một thư mục, hoặc cho
một đường
dẫn http:// URL dẫn đến một danh sách các file, thì tất cả các
danh mục và
các danh mục con đều chứa tải về bộ sưu tập.
Bạn có thể đưa ra nhiều hơn một đường dẫn.
(Hình 4d) Một bộ sưu tập mới sẽ chứa các tài liệu được lấy từ hệ
thống các
file nội bộ cũng như điều khiển các trang web sẽ được nhân bản
trong quá
trình xây dựng.
Khi bạn nhấp chuột vào nút configure collection để chuyển sang
trang kế
tiếp, Chức năng Collector sẽ kiểm tra tất cả các nguồn dữ liệu đầu
vào mà
bạn chỉ đến đường dẫn. Việc kiểm tra này sẽ mất vài giây hoặc
ngay cả vài
phút, nếu càng chỉ đến nhiều đường dẫn. Nếu một trong các
đường dẫn được
chỉ định là không hợp lệ thì một trang web tương tự hình 4e sẽ
được trình
bày, các đường dẫn không hợp lệ sẽ được đánh dấu x (Trong
hình này là cả
hai đường dẫn).
Các đường dẫn không hợp lệ là vì:
Hình 4 (Tiếp theo)




• Các file, các trang FPT, URL không tồn tại
• Bạn cần phải kết nối vào ISP trước
• Bạn đang cố truy cập vào Internet mà không qua firewall
Ở trường hợp cuối là khó hiểu nhất. Thông thường khi truy cập
vào mạng
bạn phải nhập username và password nhưng thỉnh thoảng bạn
cũng có thể
kết nối thẳng vào mạng mà không cần nhập username và
password, nhưng
URL sẽ thông báo là không hợp lệ. Rất có thể là trang được trình
bày là
trang được truy xuất từ các bản sao trong mạng nội bộ. Nhưng
các bản sao
này thì collector lại không nhìn thấy. Trong trường hợp này - Hình
4f,
collector giới thiệu những trang mà bạn đang tải về.


Hình 4f
3.5. Cấu hình Bộ sưu tập
(Hình f) Cấu trúc và cách trình bày tất cả các bộ sưu tập được xác
định trong
một file cấu hình đặc biệt (hình trên). Người dùng được phân
quyền có thể
sử dụng trang này để sữa đổi cấu hình, quá trình này có liên quan
trực tiếp
đến giai đoạn cuối. Lưu ý rằng bước này hoàn toàn có thể bỏ qua.


Hình 4 (g)




Trong phần ví dụ của chúng ta, người dùng có thể tạo một sự
thay đổi nhỏ
để mặc định file cấu hình bao gồm flag file_is_url với file đính
kèm HTTP.
Flag này tạo ra metadata URL được chèn vào mỗi tài liệu dựa trên
quy ước
tên file được chọn bởi quá trình theo dõi. Metadata này được sử
dụng trong
bộ sưu tập cho phép người đọc tham khảo được nguồn dữ liệu
gốc hơn là
bản sao nội bộ.
3.6. Xây dựng Bộ sưu tập
Hình 4g cho thấy giai đoạn xây dựng bộ sưu tập. Cho đến lúc này
mọi công
việc chỉ được ghi vào một tập tin tạm. Quá trình xây dựng bộ sưu
tập là nơi
công việc thật diễn ra.
Trong quá trình xây dựng cả danh mục tìm kiếm và trình duyệt
đều được
xây dựng theo chỉ dẫn trong file cấu hình bộ sưu tập. Quá trình
xây dựng
mất khoảng từ vài phút đến hàng giờ, tùy thuộc vào kích cở bộ
sưu tập và
tốc độ của máy tính. Một số bộ sưu tập có kích thước lớn có thể
mất một
ngày hoặc hơn mới xây dựng xong.
Khi bạn đạt đến giai đoạn này, cứ năm giây một lần, một dòng
trạng thái ở
dòng cuối của trang màn hình sẽ cho biết quá trình hoạt động
đang diễn ra
như thế nào. Ví dụ, tin nhắn hình trong hình 4f cho biết tên của
dữ liệu đang
được lấy ra từ một tập tin nguồn.

Thông báo xuất hiện khi mà các tập tin nguồn hoặc URL nhập vào
không
tồn tại, hoặc có tồn tại mà không có plugin, hoặc có plugin nhưng
không tìm
được file liên kết, chẳng hạn như file được đặt trong tài liệu
HTML. Mục
đích là khi bạn giữ cho cửa sổ này luôn mở, bạn có thể theo dõi
quá trình
hoạt động. Bất cứ lỗi làm gián đoạn quá trình sẽ được lưu lại ở
đây.
Bạn có thể dừng quá trình xây dựng này bất cứ lúc nào bằng cách
nhấp
chuột vào nút Dừng xây dựng - Hình 4g. Nếu bạn rời khỏi trang
web này
mà không nhấn vào nút này thì quá trình vẫn tiếp diễn và bộ sưu
tập mới sẽ
được cài đặt sau khi quá trình xây dựng bộ sưu tập cũ hoàn
thành.
3.7. Trình bày bộ sưu tập
Khi bộ sưu tập đã được xây dựng và cài đặt xong, dãy nút ở phía
dưới hình
4b, sẽ xuất hiện ở phía dưới Hình 4g, với nút view collection được
kích hoạt
để liên kết người dùng với bộ sưu tập mới xây dựng thành công.
Cuối cùng, có một chức năng là gửi E-mail đến địa chỉ liên lạc của
bộ sưu
tập và đến người quản trị hệ thống bất cứ khi nào bộ sưu tập
được tạo ra
(hoặc sữa đổi). Điều này cho phép những người có trách nhiệm
kiểm tra khi
có những thay đổi, và theo dõi những việc đang xảy ra với hệ
thống. Các
điều kiện mặc định là không hoạt động nhưng có thể được chỉnh
cho kích
hoạt bằng thay đổi các file cấu hình main.cfg (xem phần
Greenstone Digital
Library Developer’s Guide. Phần 4).
3.8. Làm việc với bộ sưu tập đã tồn tại
Khi bạn sử dụng chức năng collector bạn phải xác định được rằng
bạn muốn
tạo ra một bộ sưu tập mới hoàn toàn hay làm việc với bộ sưu tập
đã tồn tại,
thêm hay xoá bộ sưu tập. Bằng cách tạo ra các cấu trúc tìm kiếm
và trình
duyệt tự động, việc thêm thông tin vào bộ sưu tập đã tồn tại trên
Greenstone
diễn ra rất dễ dàng. Bởi vì không có liên kết nào được nhập vào
bằng tay,
khi một bộ tài liệu mới có cùng một dạng, hệ thống sẽ tự nhận
biết và trộn
vào chung với bộ sưu tập đã có.
Để làm việc với bộ sưu tập có sẵn, trước tiên bạn phải chọn bộ
sưu tập từ
danh mục bộ sưu tập được cung cấp. Một số bộ sưu tập được
đánh dấu là
không thể sữa đổi thì sẽ không xuất hiện trong danh mục liệt kê
này. Với bộ
sưu tập, bạn có thể.
• Thêm dữ liệu mới và tái tạo lại bộ sưu tập
• Chỉnh sữa file cấu hình của bộ sưu tập
• Xóa toàn bộ bộ sưu tập
• Truy xuất bộ sưu tập ra CD-ROM
Thêm dữ liệu mới
Tất cả những file bạn chỉ định sẽ được thêm vào bộ sưu tập, do
đó bạn phải
chắc rằng nó chưa tồn tại trong bộ sưu tập, nếu không bộ sưu tập
sẽ chứa hai
file giống hệt nhau. Các file này được nhận dạng bằng đường dẫn
đầy đủ,
những trang web hay địa chỉ web tuyệt đối. Bạn phải xác định rõ
những thư
mục hay những file như khi bạn xây dựng bộ sưu tập mới.
Nếu khi thêm dữ liệu mới vào bộ sưu tập mà vì một số nguyên
nhân có thể
làm cho quá trình này không thực hiện được, có thể là do bộ sưu
tập cũ chưa
thể thay đổi
Chỉnh sữa file cấu hình
Những người sử dụng thành thạo có thể chỉnh sửa tập tin cấu
hình của bộ
sưu tập, như là họ làm khi xây dựng bộ sưu tập mới. Phần 4 dưới
đây sẽ giải
thích rõ hơn về cách cài đặt cấu hình.
Xoá bộ sưu tập
Bạn sẽ được thông báo để xác nhận xem có thật sự muốn xoá bộ
sưu tập
không. Một khi đã xoá thì Greenstone không thể hồi phục lại.
Truy xuất bộ sưu tập
Bạn có thể xuất bộ sưu tập ra ngoài dưới một dĩa CD-ROM tự
dộng cài đặt
và sử dụng của Greenston dành cho Windows. Vì các phần mềm
thương mại
để tạo các CDs tự cài đặt rất tốn kém, công cụ này bao gồm cả
một phần cài
đặt riêng.
Khi bạn truy xuất bộ sưu tập, hộp hội thoại sẽ thông báo cho bạn
biết tên thư
mục được xuất đến. Toàn bộ nội dung của thư mục sẽ được ghi
lên CD-
ROM bằng các công cụ ghi chép CD-writing thông thường. Vì cấu
hình của
Windows rất đa dạng, Greenstone rất khó kiểm tra và sửa lỗi cho
tất cả các
trường hợp. Nếu bạn bị lỗi và bạn có được một bộ phần mềm
thương mại
dùng để cài đặt( ví dụ như. InstallShield), bạn có thể sử dụng nó
để tạo ra
đĩa CD-ROMs từ những thông tin mà bộ sưu tập cung cấp. Thư
mục truy
xuất đến được đề cập phía trên chứa 4 file liên quan đến quá
trình cài đặt và
3 thư mục con chứa toàn bộ phần mềm và bộ sưu tập. Bạn hãy
xóa bốn file
này và sử dụng InstallShield để tạo một ảnh CD-ROM dùng trong
việc cài
đặt những thư mục và tạo một biểu tượng dẫn đến chương trình
gsdl\server.exe.
3.9. Định dạng tài liệu
khi xây dựng bộ sưu tập, phần mềm Greenstone xử lý các định
dạng khác
nhau của tài liệu gốc bằng dùng một plugin viết riêng cho dạng
tài liệu đó.
Các plugin được ghi rõ trong file cấu hình bộ sưu tập. Nói chung
phần mềm
Greenstone sử dụng tên file để quy định thuộc tính của tài liệu ví
dụ như
foo.txt được quy định là file văn bản, còn foo.html là dạng file
HTML, và
foo.doc dạng file Word.
Đây là bảng tóm tắt các file đính kèm (plugins) có sẵn dùng để
định dạng
các tài liệu. Để biết thêm chi tiết về các plugins này và các plugins
khác ít
thông dụng hơn, các bạn hãy tham khảo phần tài liệu tên
Greenstone
DigitalLibrary Developer’s Guide.
TEXTPlug (*.txt, *.text)
TEXTPlug là dạng file văn bản thuần tuý. Nó thêm tiêu đề vào
phần
metadata dựa trên dòng đầu của file.
HTMLPlug (*.htm, *.html; also .shtml, .shm, .asp, .php, .cgi)
HTMLPlug xử lý các file HTML. Nó tách title metadata dựa trên
phần đuôi
<title>; các metadata khác trình bày cách sử dụng cú pháp
metatag của
HTML cũng được tách ra. Plugin này cung cầp nhiều chọn lựa
khác nhau,
tham khảo thêm trong tài liệu Greenstone Digital Library
Developer’s
Guide
WORDPlug (*.doc)
WORDPlug lấy các tài liệu dạng Microsoft Word. Có nhiều tài liệu
dạng
Word khác nhau và ngay cả các chương trình của Microsoft gặp
trục trặc khi
chuyển đổi. Greenstone sử dụng các chương trình độc lập để
chuyển đổi các
file dạng Word sang dạng HTML. Đối với một số tài liệu thuộc các
phiên
bản trước đó, hệ thống phải sử dụng đến thuật toán phân tích
giản đơn để
tìm tất cả các chuỗi ký tự trong file nguồn
PDFPlug (*.pdf)
PDFPlug nhận tài liệu dạng PDF (Adobe’s Portable Document
Format).
Giống như WORDPlug, nó sử dụng một chương trình độc lập,
trong trường
hợp này là chương trình pdftohtml để chuyển đổi file dạng PDF
sang dạng
HTML.
Đối với WORDPlug, theo mặc định thì bộ sưu tập sẽ trình bày file
tương tự
dạng HTML, khi người dùng nhấp chuột vào biểu tượng
document; tuy
nhiên chuỗi ký tự định dạng trong file cấu hình bộ sưu tập có
được điều
chỉnh để cho phép người dùng truy cập vào file gốc PDF (các bạn
nên sửu
dụng cách nbày). Giống như trên, chỉ cần thay thế các tag <link>
… </link>
bằng <srclink> … </srclink>
Chương trình pdftohtml có lỗi trên một số file PDF. Chuyện gì sẽ
xãy ra khi
mà quá trình chuyển đổi diễn ra trong một thời gian dài, và
thường xuất hiện
thông báo lỗi liên quan đến quá trình chuyển đổi trên màn hình.
Nếu có xãy
ra lỗi, thì giải pháp duy nhất là loại bỏ tài liệu bị lỗi ra khỏi bộ sưu
tập.
Thêm vào đó, PDFPlug không xử lí được các tập tin PDF bị mã
hóa.
PSPlug (*.ps)
PSPlug lấy tài liệu dưới dạng PostScript. Nó làm việc tốt nhất nếu
một
chương trình ps2ascii của Linux đã được cài đặt sẵn. Chương trình
này có
sẵn trên hầu hết các cài đặt Linux, nhưng không phải Windows.
Nếu chương
trình này không có sẵn, PSPlug phải dùng đến thuật toán phân
tích văn bản
đơn giản.
EMAILPlug (*.email)
EMAILPlug xử lí các tập tin chứa E-mail, và xử lí những định dạng
email
thông thường được dùng trên Netscape, Eudora, and Unix. Mỗi tài
liệu
nguồn được kiểm tra xem nó có chứa một hoặc nhiều email khác
gộp chung
lại hay không, nếu có, phần nội dung của email sẽ dược xử lí.
Plugin sẽ thu
thập metadata về Subject, To, From, và Date.
Tuy nhien, plugin này chưa xử lí được các email mã hóa dưới
dạng MIME.
Trên trên lí thuyết là có thể nhưng trên thực tế, dạng mã hóa này
hơi lạ so
với các dạng khác.
ZIPPlug (.gz, .z, .tgz, .taz, .bz, .zip, .tar)
Plugin ZIPPlug xử lý các file dưới dạng nén hoặc lưu trữ: gzip (.gz,
.z, .tgz,
.taz), bzip (.bz), zip (.zip .jar), và tar (.tar). Nó giải nén bằng các
chương
trình gunzip, bunzip, unzip, và tar theo chuẩn Linux utilities.
ZIPPlug không
hoạt động trên hệ điều hành Windows.

				
DOCUMENT INFO
Shared By:
Tags:
Stats:
views:32
posted:2/2/2013
language:
pages:77