; Dokumen Digital
Documents
Resources
Learning Center
Upload
Plans & pricing Sign in
Sign Out

Dokumen Digital

VIEWS: 42 PAGES: 27

  • pg 1
									Dokumen Digital




            Firman Ardiansyah
            Departemen Ilmu Komputer
      Bogor Agricultural University (IPB)
Apa itu dokumen digital
   Dokumen kertas, dokumen lontar,
    dokumen microfilm.  bermakna jelas

 “ Dokumen digital” ???
  Segala sesuatu yang dapat diberikan
    nama file dan disimpan dalam media
    elektronik
    koleksi data dan propertinya yang dipilih
    oleh pengguna untuk mengacu pada suatu
    unit logis ?
Representasi Dokumen Digital

   Karakter
   Dokumen dasar
   Bahasa deskripsi halaman (PostScript &
    PDF)
   Dokumen Word-Processor
   Images
   Audio dan Video
Digitasi Dokumen

   Apakah diperlukan mendigitasi
    dokumen yang ada?
   Digitasi : proses mengambil materi
    perpustakaan tradisional – biasa
    dalam bentuk buku dan kertas – dan
    mengubahnya ke dalam bentuk
    elektronik yang dapat disimpan dan
    dimanipulasi oleh komputer
Tahapan Digitasi

   Ada 2 tahapan
   1. menghasilkan imej terdigitasi
    dari tiap halaman  scanning
   2. menghasilkan representasi
    digital dari isi tekstual halaman
    menggunakan OCR
           1 banyak digunakan tp tdk sesuai
           OCR menarik jika masih dapat
            mempertahankan layout dokumen
Scanning

   Digitasi tiap halaman
    menghasilkan imej digital.
   Terkadang suatu dokumen tidak
    hanya teks, tp juga gambar yang
    memiliki warna/grayscale
   Teks paling baik hitam putih,
    namun jika terdapat gambar?
Scanning

   Pada saat digitasi imej, harus diputuskan
    apakah menggunakan black&white,
    grayscale, color?
   Penggunaan resolusi dari imej terdigitasi
    (jumlah piksel per unit linear)
   Mis : layar 1024x768, 14”  92x92
       Scanner: 300x300
Scanning

         Lebih banyak bit/pixel akan menyebabkan
          lack dalam resolusi linear dan sebaliknya
         Riset membuktikan : jika suatu titik cukup
          kecil, kecerahan dan ukurannya bersifat
          berlawanan.
             Titik kecil cerah tidak dapat dibedakan dengan
              titik yang lebih besar tapi lebih gelap.
         Ukuran kritis sangat tergantung pada
          kontras antara titik dan latar belakangnya
Scanning

              Ketika mendigitasi dokumen untuk
               perpustakaan digital, fikirkan tentang apa
               yang dapat dilihat oleh pengguna
              Seberapa dekat apa yang didapat di digilib
               jika dibandingkan dengan dokumen
               orisinilnya
              Apakah anda mencoba menampilak artefak?
              Bagaimana dengan gambar dalam teks?
              Apakah pengguna akan melihat satu
               halaman dalam layar dalam satu waktu?
              Apakah pengguna diperbolehkan
               memperbesar imej?
scanning

   Anda akan memerlukan beberapa versi scan
    dari beberapa contoh halaman.
   Memilih halaman uji yang dapat merangkum
    semua jenis dan kualitas dalam koleksi
   Mendigitasi dalam cakupan kualitas yang
    berbeda-beda – beda resolusi, gray level,
    color, monochrome
scanning

   Diusahan agar kulitas harus sebaik mungkin
   Kendala : biaya
     Segi penyimpanan
     Waktu akses oleh pengguna, terutama remote
        user
   Dapat disiasati dengan kompresi
   Untuk pengujian gunakan komputer dan
    jaringan standar
   Dapat digunakan thumbnails/imej pada
    beberapa resolusi/progressive refinement- yang
    pengguna dapat menentukan sendiri
Optical character recognition

   Tahapan kedua yang
    mentransformasikan imej terpindai
    ke dalam representasi digital dari
    isi halaman
   Dpl : representasi per karakter
    dibandingakan per piksel
   Proses ini dapat seluruhnya
    otomatis
   Terkadang diperlukan tindakan
    manual  mahal & time-consuming
OCR

   Secara umum diperlukan resolusi
    imej sebesar 300dpi untuk
    mendukung OCR mengenali font
    reguler berukuran 10pt/lebih
   400/600dpi untuk ukuran font yg
    lebih kecil
   Scanner terkadang membutuhkan
    waktu 4x lebih lama untuk
    memindai 600dpi dibanding
    300dpi
OCR

   OCR program dapat mengubah
    kecerahan imej grayscale agar
    teks dapat dikenali 
    greyscale menghasilkan
    kualitas yang baik dibanding
    b/w scanning
   Namun harus diperhatikan
    ukuran file, jika proses
    scanning dilakukan secara
    offline
OCR

   Kualitas output sangat
    tergantung pada kualitas input.
   Jelas, tercetak benar, halaman
    bersih, font umum, terdigitasi
    pada resolusi yang tepat,
    meletakkan dokumen dengan
    cara normal, tanpa tabel, imej
    atau meteri nontekstual lain 
    mencapai 99.9% atau 1-4
    error/2000 karakter
OCR
   Akurasi akan meningkat seiring dengan
    perkembangan teknologi.
   Mereplikasi dokumen secara tepat
    lebih susah, meski dilakukan berbagai
    pendekatan
   Sayangnya, di dunia nyata sering
    terjadi masalah
       bahasa, font aneh, lambang matematis
        yang kecil dan tercetak smudgy,
        overdark/overlight character, keragaman
        format, hand annotation, bekas
        air/kopi/kelembaban, multiple columns yang
        dekat, beragam imej (terutama yang
        didalamnya terdapt teks), terlipat saat
        scanning
Solusi

   Pada saat OCR accuracy rate di
    bawah 95% lebih efisien jika
    digunakan manual „keying‟
   Menerapkan tahapan yang
    benar
   Pelatihan
   Penerapan interactive OCR
Interactive OCR

   Diperlukan intervensi manusia baik
    sesudah/sebelum proses
    pengenalan
   Time consuming
   6 tahapan :
       Image acquisition
       Cleanup
       Page analysis
       Recognition
       Checking
       saving
Acqusition

   Pada tahap inisial, imej didapat
    dari scanner atau membaca file
    yang merupakan imej
    terdigitasi
   Cara pertama langsung
    melibatkan hardware
   Dan bisa dilakukan langsung
    secara interaktif
   Lebih efektif jika menggunakan
    document feeder
Cleanup

   Menggunakan opersi pengolahan imej
    tertentu terhadap seluruh/sebagian imej
   Mis : despeckle filter membersihkan noise.
   Terkadang dibutuhkan rotasi/skew
    beberapa derajat untuk pelurusan
   Perubahan warna, mis dari white on black
     black on white
   Halaman ganda dipisahkan menjadi satu
    halaman
   Membuang bagian yang tidak diinginkan :
    bekas jilidan
   Manual/automatis
Page analysis

   Mengamati layout halaman dan menentukan bagian
    mana yang harus diproses dan dalam susunan apa.
   Hasilnya adl segmen/blok halaman dalam berbagai
    tipe
   Text block, table block – yang akan dianalisa layout
    tablenya sebelum dibaca isi selnya, picture block –
    yang akan ditidakacuhkan dalam tahapan
    pengenalan
   Multikolom akan dideteksi dan diurutkan
    berdasarkan susunan pembacaan yang
    benar
   Dapat setup manual layout untuk proses
    batch
       Mis : mendefiniskan header/footer region,
        multikolom
   Tabel memiliki tingkat kesusahan tertinggi
Recognition

   Tahap pembacaan
       Tipe font : regular, fixed width, dot matrix
       Bahasa
       Ligature
       Melakukan training untuk berbagai karakter
Checking

   Cek hasil keluaran
   Hasil OCR ditampilkan di layar dengan
    masalah yang di-highlight,
       Tidak dikenali/karakter tidak dikenali secara
        pasti/kata yang tidak ada dalam kamus
   Biasanya diacukan terhadap dokumen
Saving

   Save ke dalam format dokumen lain
       HTML, rttf, word, pdf
   Perlu diperhatikan kelemahan dan
    kekurangan dari format-format tertentu
Page handling

   Melepas jilidan
   Menggunakan scanner khusus
   Menggunakan microfilm/microfich
Proyek digitasi

   Outsourcing
   Pay per page
   Memperpendek jalan, menegakkan aturan

								
To top
;