dataware house lecture 2 by thydaweb

VIEWS: 53 PAGES: 17

									        บทที่ 2 ส่วนประกอบต่างๆของคลังข้อมูล
                (Data warehouse: The building
                blocks)

          จากบทที่แล้ว เราจะทราบว่าการสร้างคลังข้อมูลนั้นเป็นส่วนหนึ่งของการทาธุรกิจอย่างชาญฉลาดของ
องค์กรต่างๆ ซึ่งการสร้างคลังข้อมูลจะเป็นการรวบรวมและเปลี่ยนแปลง/เปลี่ยนรูปข้อมูลให้ไปเป็นข้อมูล
สารสนเทศส าหรับการตัดสินใจ เราสามารถนาข้อมูลย้อนหลังจากหลายๆระบบการดาเนินการมารวมกัน
เพื่อให้ได้เป็นข้อมูลในคลังข้อมูล หลังจากนาข้อมูลมารวมกันแล้วข้อมูลที่ได้อาจมีรูปแบบที่แตกต่างกัน เราควร
จะต้องทาการเปลี่ยนรูปข้อมูลให้อยู่ในรู ปแบบที่เหมาะสมต่อผู้ใช้งาน และท้ายสุดคือการสร้างฟังก์ชันให้ผู้ใช้
เรียกใช้งานข้อมูล
          ในการสร้างระบบสารสนเทศ (คลังข้อมูล) เราจาเป็นจะต้องพิจารณาถึงส่วนประกอบต่างๆที่แตกต่าง
กันที่จะทาให้การทางานนั้นตอบสนองความต้องการได้ดีที่สุด แต่ก่อนที่จะไปพิจารณาถึงส่วนประกอบของ
คลังข้อมูล เราต้องมองถึงคุณลักษณะพื้นฐานของคลังข้อมูลเป็นลาดับแรก ซึ่งจากบทที่ผ่านมาเราทราบถึง
ความต้องการของการสร้างคลังข้อมูล แต่เรายังไม่ทราบว่า คลังข้อมูลคืออะไร? มีลักษณะเป็นอย่างไร?Bill
Inmonผู้ที่ได้รับการขนานนามว่าเป็นบิดาของคลังข้อมูล ได้นิยามคลังข้อมูลว่า “คลังข้อมูลนั้นเป็นกลุ่มของ
ข้อมูลที่มีลักษณะเป็น subject-oriented, integrated, nonvolatile และ time variant ที่สามารถ
สนับสนุนการตัดสินใจได้” และ Sean Kelly ซึ่งเป็นผู้ทรงอิทธิพลต่อการสร้างคลังข้อมูล ได้ให้คาจากัดความ
เกี่ยวกับคลังข้อมูลว่า “ข้อมูลในคลังข้อมูลจะ separate, available, integrated, time stamped, subject
oriented, nonvolatile และ accessible” ดังนั้นเราคานิยามที่ใกล้เคียงกันมากจากทั้งสองบุคคลที่มีความ
เชี่ยวชาญเกี่ยวกับคลังข้อมูล เราจะสามารถระบุถึงคุณลักษณะที่สาคัญของคลังข้อมูลได้ดังนี้

Defining features
          ในการที่จะทราบถึงคุณลักษณะหลักของคลังข้อมูล คุณเกิดข้อสงสัยเหล่านี้หรือไม่ 1) ข้อมูลใน
คลังข้อมูลมีลักษณะเป็นอย่างไร? 2) ข้อมูลในคลังข้อมูลแตกต่างจากข้อมูลในระบบการดาเนินการอย่างไร? 3)
ทาไมข้อมูลจากทั้งสองระบบต้องแตกต่างกัน ? 4) เราจะสามารถใช้ข้อมูลในคลังข้อมูลได้อย่างไร? จากคาถาม
เหล่านี้ เราลองพิจารณาถึงคุณลักษณะของข้อมูลที่สาคัญในคลังข้อมูลดังนี้




                                                                                            1|Page
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย อ.ดร.โกเมศ อัมพวัน
Subject-oriented data
        ในระบบการดาเนินงาน ข้อมูลจะถูกเก็บโดยแยกตามแอพพลิเคชันหรือฟังก์ชันการใช้งานเช่น (1)
ข้อมูลการสั่งสินค้าที่ประกอบไปด้วยข้อมูลลูกค้า ข้อมูลเกี่ยวกับสินค้า และ จานวนที่ต้องการสั่งซื้อ (2) ข้อมูล
คลังสินค้าจะประกอบไปด้วย รหัสสินค้า ชื่อสินค้า หมวดหมู่สินค้า และ จานวนสินค้าคงเหลือในคลังสินค้า (3)
การตรวจสอบเครดิตของลูกค้าจะเก็บข้อมูล ลูกค้า และ ธนาคาร เป็นต้น ซึ่งจากฟังก์ชันการทางานต่างๆของ
ระบบการดาเนินการ ระบบของธุรกิจใดๆก็ตามจะต้องมีการเก็บข้อมูลที่สอดคล้องกับแอพพลิเคชันนั้นๆเพื่อทา
ให้กระบวนการทางานต่างๆสามารถทางานได้อย่างมีประสิทธิภาพ
          ในส่วนของคลังข้อมูลจะมีการเก็บข้อมูลที่แตกต่างจากระบบดาเนินการ โดยที่ข้อมูลในคลังข้อมูลจะ
ถูกเก็บและเชื่อมโยงด้วย “หัวข้อทางธุรกิจ (business subject)” เช่น บริษัทผู้ผลิตสินค้าจะมี การขาย การส่ง
สินค้า และ คลังข้อมูล เป็นหัวข้อทางธุรกิจที่สาคัญ บริษัทค้าปลีกจะมี การขายที่จุดขายสินค้า เป็นหัวข้อทาง
ธุรกิจที่สาคัญ เป็นต้น ดังนั้นหัวข้อทางธุรกิจสามารถสรุปได้ว่าเป็น “ฟังก์ชัน กิจกรรม หรือการดาเนินธุรกิจที่
สาคัญและส่งผลถึงผลกาไรหรือขาดทุนของบริษัทได้ รวมถึงสามารถวัดหรือประเมินผลสัมฤทธิ์ได้”
          ในการที่จะเข้าใจถึงความแตกต่างระหว่างข้อมูลที่ถูกจัดเก็บไว้ในระบบการดาเนินการและคลังข้อมูล
                         ่
ลองพิจารณารูปที่ 2-1 ทีเปรียบเทียบการจัดเก็บข้อมูลจากทั้งสองระบบ จากรูปเราจะเห็นได้ว่า ข้อมูลที่ถูกเก็บ
ไว้ในระบบการดาเนินการจะถูกเก็บแยกตามแต่ละแอพพลิเคชัน อาทิเช่น การสั่งสินค้า การยืมเงินของลูกค้า
การออกใบเสร็จให้กับลูกค้าการเรียกเคลมประกัน เป็นต้น จากแอพพลิเคชันต่างๆเราจะเห็นว่ า การเรียกเคลม
ประกันถือว่าเป็นหัวข้อทางธุรกิจที่สาคัญสาหรับบริษัทประกัน ซึ่งจะมีการเก็บข้อมูลการเรียกเคลมประกันของ
ลูกค้าในแอพพลิเคชันนั้น เช่น ข้อมูลการเคลมประกันสาหรับ รถยนต์ และ การชดเชยค่าเสียหายให้กับผู้ทา
งานจะมีการเก็บข้อมูลที่มีรายละเอียดที่แตกต่างกันซึ่งขึ้นอยู่กับแต่ละแอพพิลเคชัน แต่คลังข้อมูลสาหรับบริษัท
ประกัน ข้อมูลเกี่ยวกับการเคลมประกันข้อมูลจะถูกเก็บอยู่ในหัวข้อทางธุรกิจที่ชื่อว่าการเคลม ซึ่งจะไม่ได้นาไป
ผูกกับแอพลิเคชันของการเคลมเกี่ยวกับรถยนต์ และ แอพพลิเคชันของการชดเชยค่าเสียหายให้กับผู้ทางาน
ดังนั้นเราสามารถสรุปได้ว่า ….




                                                                                               2|Page
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย อ.ดร.โกเมศ อัมพวัน
                          รูปที่2-1 The data warehouse is subject oriented

Integrated data
          ในการที่จะตัดสินใจได้อย่างเหมาะสม เราจาเป็นต้องเรียกใช้ข้อมูลที่เกี่ยวข้องจากหลายๆแอพพลิเค
ชัน ซึ่งเมื่อผู้ใช้ใช้ข้อมูลจากคลังข้อมูลประกอบการตัดสินใจ จะทาให้ข้อมูลในคลังข้อมูลนั้นจะมาจากระบบการ
ดาเนินการหลายระบบด้วยกัน ซึ่งแต่ละระบบอาจะใช้ฐานข้อมูล (databases) แฟ้มข้อมูล (files) หรือ ส่วน
ของข้อมูล (data segment) จะมีความแตกต่างกัน และอาจรวมถึง เค้าโครงแฟ้มข้อมูล (file layout) การ
แทนอักขระ (character code representation) และ การตั้งชื่อฟิลด์ต่างๆ (field naming convention)
อาจมีความแตกต่างกันอีกด้วย ข้อมูลในคลังข้อมูลนั้นไม่ได้มาจากระบบการดาเนินการเพียงอย่างเดียว ข้อมูล
ในคลังข้อมุลอาจมาจากแหล่งข้อมูลภายนอก เช่น คลังข้อมูลอาจะเรียกใช้ข้อมูลจากบริษัท Metro Mail, A.C.
Nielsen และ IRI ซึ่งเป็นบริษัทผู้ให้บริการข้อมูลต่างๆในการดาเนินธุรกิจ ดังนั้นเมื่อคลังข้อมูลมีการใช้ข้อมูล
ทั้งจากระบบการดาเนินการหลายระบบ/แหล่งข้อมูลภายนอก เราจะต้องทาการรวบรวมข้อมูลเหล่านั้นแล้ว
จัดเก็บไว้ในคลังข้อมูลให้อยู่ในรูปแบบที่เหมาะสมต่อการใช้งานต่อไป
          รูปที่ 2-2 แสดงถึงกระบวนการรวบรวมข้อมูลอย่างง่ายของบริษัท/สถาบันทางการเงิน ซึ่งข้อมูลนั้นจะ
ถูกรวมจาก 3 แอพพลิเคชัน แล้วเก็บไว้ในหัวข้อทางธุรกิจเกี่ยวกับบัญชี แอพพลิเคชัน saving account,
checking account และ loans account นั้นอาจมีการตั้งชื่อต่างๆที่แตกต่างกัน รูปแบบ (format) ของ
ข้อมูลที่แตกต่างกัน เช่น หมายเลขบัญชีสาหรับระบบ saving account ควรจะมีด้วยกัน 8 หลักด้วยกัน แต่
สาหรับระบบ checking account จะใช้หมายเลขบัญชีเพียง 6 หลักด้วยกัน ซึ่งจากความแตกต่างข้างต้น เรา
จะต้องทาการกาจัดความไม่สอดคล้ องกันของข้อมูลโดยการสร้างมาตราฐานให้กับข้อมูลเหล่านั้นเพื่อทาให้
ข้อมูลที่เหมือนกันที่เก็บอยู่ในแต่ละแอพลิเคชันนั้นสื่อความหมายเดียวกัน ดังนั้นก่อนที่จะทาการเคลื่อนย้าย
ข้อมูลเข้าสู่คลังข้อมูลเราจะต้องทาการเปลี่ยนแปลง/เปลี่ยนรูปข้อมูลให้เป็นมาตราฐานเสียก่อน ซึ่งโดยส่วน
ใหญ่แล้วเราจะต้องทาสิ่งต่างๆให้เป็นมาตราฐาน ดังนี้

                                                                                               3|Page
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย อ.ดร.โกเมศ อัมพวัน
        การตั้งชื่อต่างๆ (Name conventions) เช่น ชื่อตาราง ชื่อฟิลด์ ชื่อแอทริบิว เป็นต้น
        การใช้รหัส (Code)
        คุณลักษณะของข้อมูล (Data attribute)
        มาตรวัดต่างๆ (Measurements)




                                รูปที่ 2-2 The data warehouse is integrated

Time-variant data
           การเก็บข้อมูลของระบบการดาเนินการจะทาการเก็บข้อมูลที่เป็นปัจจุบันเท่านั้น เช่น ระบบบัญชีของ
ธนาคารจะเก็บข้อมูลยอดเงินคงเหลือปัจจุบันของบัญชีลูกค้า ระบบการสั่งสินค้าจะเก็บสถานะของการสั่ง
สินค้าล่าสุด เป็น ต้น ระบบการดาเนินการบางระบบอาจะเก็บข้อมูลในอดีตบ้างแต่ก็ทาการเก็บข้อมูลเพื่อ
สนับสนุนการทาธุรกิจในแต่ละวันเท่านั้น แต่ในส่ วนของข้อมูลในคลังข้อมูลที่ใช้ในการวิเคราะห์และตัดสินใจ
เช่น ผู้ใช้อาจะต้องการรูปแบบการซื้อสินค้า (buying pattern) ของลูกค้ารายหนึ่งๆ ผู้ใช้จะต้องการข้อมูลการ
ซื้อสินค้าจากลูกค้ารายนั้นไม่เพียงแต่การซื้อครั้งล่าสุด แต่จะรวมถึงการซื้อครั้งก่อนๆหน้าด้วย ผู้ใช้ อีกรายอาจ
ต้องการทราบถึงเหตุผลที่ยอดขายสินค้าลดลงในแถบตะวันออกเฉียงเหนือ ดังนั้นผู้ใช้จะต้องการข้อมูลยอดขาย
ทั้งหมดที่เกิดขึ้นในเขตตะวันออกเฉียงเหนือที่เกิดขึ้นในช่วงเวลาที่ผ่านมา ในอีกกรณีหนึ่งผู้วิเคราะห์การทางาน
ธุรกิจของร้านค้าปลีกต้องการที่จะโปรโมทสินค้ า 2 รายการสินค้าหรือมากกว่านั้น นักวิเคราะห์จะต้องการ
ยอดขายสาหรับรายการสินค้าที่ต้องทาการโปรโมทเทียบกับรายการสินค้าอื่นๆในช่วงไตรมาสที่ผ่านๆมาเป็น
ต้น ซึ่งจากความต้องการที่แตกต่างกันของผู้ใช้ คลังข้อมูลจะต้องทาการเก็บข้อมูล ณ ปัจจุบัน และข้อมูล
ย้ อ นหลั ง โดยมี แ กนเวลาเข้ า มาเกี่ ย วข้ อ ง ซึ่ ง การเก็ บ ข้ อ มู ล ลั ก ษณะนี้ จ ะช่ ว ยให้ ส ามารถทราบถึ ง ความ
เปลี่ยนแปลงของข้อมูลต่อช่วงเวลาต่างๆได้ ตัวอย่างเช่น ในคลังข้อมูลประกอบไปด้วยข้อมูลยอดขายที่เป็น
จานวนชิ้นสินค้า ซึ่งในการขายสินค้าจะมีการเก็บเวลาที่เกี่ยวข้องตามความละเอียด ซึ่งเราอาจะทาการเก็บ
ข้อมูลจานวนชิ้นสินค้าที่ขายได้กับหน่วยของเวลาที่เป็นยอดขายรายวัน ยอดขายแต่ละสัปดาห์ ยอดขายแต่ละ
เดือน หรื อ ยอดขายแต่ล ะไตรมาส เป็น ต้น ซึ่ง จากตัวอย่างข้างต้นเราจะเห็ นว่า time-variant นั้นเป็น
                                                                                                         4|Page
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย อ.ดร.โกเมศ อัมพวัน
คุณลักษณะหนึ่งของคลังข้อมูลที่ทาให้ผู้ใช้สามารถวิเคราะห์ข้อมูลในอดีตและปัจจุบันเพื่อคาดการณ์ถึงสิ่งที่จะ
เกิดขึ้นในอนาคตได้

Nonvolatile data
           ข้อมูล ที่ส กัดได้จ ากระบบการดาเนินงานและแหล่ งข้อมูล ภายนอกจะถูกเปลี่ ยนแปลง/เปลี่ยนรูป
รวมเข้าด้ว ยกัน แล้ วทาการจั ดเก็บ ไว้ในคลั งข้อมูล อย่างที่เราทราบกันดีว่า ข้อมูล ในคลั งข้อ มูลนั้นไม่ได้มี
วัตถุประสงค์เพื่อการดาเนินธุรกิจในแต่ละวัน เมื่อเราต้องการที่จะทาการกรอกข้อมูลการสั่งสินค้าของลูกค้าเรา
จะไม่ต้องยุ่งเกี่ยวกับข้อมูลในคลังข้อมูลเพื่อหาข้อมูลเกี่ยวกับจานวนสินค้าคงเหลือในคลังสินค้า ผู้ใช้จะต้อง
เรียกดูข้อมูลจากระบบการดาเนินการเพื่อทราบถึงจานวนสินค้าคงเหลือในคลังสินค้า สาหรับข้อมูลคลังสินค้าที่
เก็บอยู่ในคลังข้อมูล เราจะทาการเก็บสถานะของคลังสินค้า ณ ช่วงเวลาหนึ่งๆ เช่น สถานะสินค้าในแต่ละวัน
แต่ละสัปดาห์ หรือแต่ละเดือนเป็นต้น ซึ่งจากข้อมูลที่มีลักษณะดังกล่าวเราจะไม่ต้องทาการอัพเดทคลังข้อมูล
ทุกครั้งที่มีการสั่งสินค้าในแต่ละครั้ง
           ข้อมูลจากระบบการดาเนินการจะถูกเคลื่อนย้ายเข้าสู่คลังข้อมูล ในช่วงเวลาที่กาหนดขึ้นอยู่กับความ
ต้องการทางธุรกิจ เช่น ทาการเคลื่อนย้ายข้อมูลวันละสองครั้ง วันละครั้ง อาทิตย์ละครั้ง หรือ สองอาทิตย์หนึ่ง
ครั้ งเป็ นต้น ลองพิจ ารณารู ป ที่ 2-3 ที่การทาธุรกรรมทางธุรกิจในแต่ล ะครั้งจะมีการอัพเดทระบบการ
ดาเนินการแบบทันท่วงที และ ผู้ใช้ระบบการดาเนินการสามารถเพิ่ม เปลี่ยนแปลง และ ลบข้อมูลออกจาก
ระบบการดาเนินการได้ แต่สาหรับลังข้อมูลข้อมูลจะไม่อัพเดทแบบทันท่วงที แต่ถูกอัพเดทตามเวลาที่ กาหนด
และ ผู้ใช้ไม่สามารถลบข้อมูลออกจากคลังข้อมูลได้




                             รูปที่ 2-3 The data warehouse is nonvolatile

Data granularity
        ในระบบการดาเนินการ ข้อมูลมักจะถูกเก็บในลักษณะความละเอียดค่อนข้างสูง อาทิเช่น การขายของ
ร้านค้าปลีกจะทาการเก็บจานวนสินค้าที่ขายได้ในแต่ละรายการขายที่จุดแคชเชียร์คิดเงิน การสั่งสินค้าจะทา
การเก็บจานวนสินค้าที่สั่งในแต่ละครั้งต่อลูกค้ารายหนึ่งๆ ซึ่งข้อมูลที่ต้องทาการเก็บจะมีความละเอียดค่อนข้าง
                                                                                              5|Page
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย อ.ดร.โกเมศ อัมพวัน
สูง โดยส่วนใหญ่ของระบบการดาเนินการจะไม่ทาการเก็บข้อมูลที่เป็นผลสรุป ซึ่งเมื่อเราต้องการข้อมูลที่เป็น
ผลสรุป เราจะต้องทาการรวมข้อมูลแต่ละรายการเข้าด้วยกัน เช่น ถ้าเราต้องการยอดขายของสินค้าชนิดหนึ่ง
ในเดือนมิถุนายน เราจะต้องทาการอ่านข้อมูลการขายสินค้าทั้งหมดของเดือนมิถุนายมจากนั้นจาการรวม
จานวนชิ้นสินค้าที่เราสนใจจากยอดขายเหล่านั้น แต่สาหรับคลังข้อมูล ผู้ใช้มักจะถามถึงข้อมูลที่เป็นผลสรุป
โดยผู้ใช้อาจะเริ่มขากการร้องขอข้อมูลจานวนสินค้ารายการหนึ่งๆที่ขายได้ในภาคตะวันออก จากนั้นค่อยเพิ่ม
ความละเอียดของข้อมูลที่ต้องการได้รับเป็นยอดขายของสินค้ารายการหนึ่งที่ได้ขายได้ในแต่ละจังหวัดของภาค
ตะวันออก และ อาจะลงลึกไปถึงข้อมูล ยอดขายของสินค้ารายการหนึ่งที่ขายได้ในแต่ละสาขาที่อยู่ในภาค
ตะวันออกเป็นต้น ซึ่งโดยส่วนใหญ่แล้วผู้ใช้มักจะเริ่มจากการร้องขอข้อมูลที่มีรายละเอียดน้อยแล้วค่อยๆเพิ่ม
รายละเอียดขึ้นเรื่อยๆ
          ในการจัดเก็บข้อมูลในคลังข้อมูล โดยส่วนใหญ่แล้วจะทาการเก็บข้อมูลที่เป็นแบบผลรวมหรือผลสรุป
ที่มีความละเอียดแตกต่างกันออกไปตามความต้องการของผู้ใช้ ซึ่งถ้าเราเก็บข้อมูลในลักษณะที่มีความละเอียด
สูงที่สุดจะทาให้เราต้องทาการเก็บข้อมูลเป็นจานวนมาก ดังนั้นในการจัดเก็บข้อมูล เราจะต้องทาการกาหนด
ระดับความละเอียดของข้อมูลตามแต่ละชนิดขงอข้อมูล และ ประสิทธิภาพที่คาดหวังจากการค้นคืนผลลัพธ์
เพื่อให้เข้าใจถึงระดับความละเอียดของข้อมูลที่ถูกเก็บอยู่ในคลังข้อมูล ลองพิจารณารูปที่ 2-4




                                     รูปที่ 2-4 Data granularity

Data warehouse and data marts
       หลายๆคนที่ยังไม่มีประสบการณ์เกี่ยวกับคลังข้อมูลจะสับสนเกี่ยวกับ “คลังข้อมูล” และ “ดาต้ามาร์ท
(data mart)” ซึ่งบางคนจะมองว่าสองคานีเหมือนกัน แต่แท้จริงแล้วทั้งสองคานี้ไม่เหมือนกัน ซึ่งจากผู้เขียน

                                                                                          6|Page
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย อ.ดร.โกเมศ อัมพวัน
หลายๆคน จากผู้ ส ร้างหลายๆคน จะมองว่า “คลั งข้อมูล ” คือ คลั งข้อมู ล ของทั้งองค์กรหรือที่เรียกว่า
“enterprise data warehouse” แต่สาหรับ “ดาต้ามาร์ท” คือ คลังข้อมูลส่วนย่อยๆ หรือ คลังข้อมูลของแต่
ละแผนกขององค์กร ซึ่งจากความแตกต่างดังกล่าว ก่อนที่เราทาจะทาการสร้างคลังข้อมูลสาหรับองค์กรหนึ่งๆ
เราจะเป็นต้องพิจารณาสิ่งต่างๆดังต่อไปนี้

     เราควรสร้างข้อมูลแบบ top-down หรือ bottom-up ? กล่าวคือเราจะทาการสร้างคลังข้อมูลโดย
      พิจ ารณารายละเอีย ดทั้งหมดก่อน แล้ ว จึงทาการสร้างข้อมูล แต่ล ะส่ ว น หรือ เราจะทาการสร้าง
      คลังข้อมูลส่วนย่อยๆก่อนแล้วค่อยทาการรวมคลังข้อมูลเหล่านั้นให้เป็นคลังข้อมูลสาหรับทั้งองค์กร
     เราควรสร้างอย่างใดอย่างหนึ่งก่อนระหว่าง data warehouse และ data mart ?
     เราควรสร้างคลังข้อมุลในลักษณะเป็น dependent หรือ independent data mart ?
    จากปัจจัยข้างต้นเราจะต้องมองภาพรวมกว้างๆของทั้งองค์กรเพื่อทาการสร้างคลังข้อมูลแบบ top-down
ใช่หรือไม่ หรือ เราควรจะเริ่มจากการสร้างคลังข้อมูลแบบ bottom-up โดยทาการพิจารณาความต้องการของ
แต่ละส่วนงาน/แผนก เราควรจะสร้างคลังข้อมูลขนาดใหญ่แล้วทาการจัดเก็บข้อมูลลงในแต่ละดาต้ามาร์ท
หรือไม่ หรือ เราควรจะสร้างแต่ละดาต้ามาร์ทแล้วค่อยทาการรวมดาต้ามาร์ทที่สร้างขึ้นให้เป็นคลังข้อมูลขนาด
ใหญ่ เราควรสร้างดาต้ามาร์ทให้เป็นอิสระต่อกันหรือไม่? หรือ เราควรสร้างดาต้ามาร์ทให้มีความเกี่ยวเนื่องกัน?
คาถามเหล่านี้เป็นคาถามที่สาคัญมาก และส่งผลต่องบประมาณการสร้างคลังข้อมูล ระยะเวลาในการสร้าง
คลังข้อมูล การใช้งานคลังข้อมูล และ อื่นๆ ดังนั้นก่อนที่เราจะทาการสร้างคลังข้อมูลเราควรจะต้องพิจารณาให้
รอบคอบว่าเราควรจะสร้างคลังข้อมูลในลักษณะใด โดยใช้วิธีการอะไร เพื่อควบคุมค่าใช้จ่าย เวลาในการ
ดาเนินงาน และ ฟังก์ชันการทางานที่ครบครันที่สุด ลองพิจารณารูปที่ 2-5 แล้วจะทราบถึงความแตกต่าง
ระหว่าง “data warehouse” และ “data mart”




                            รูปที่ 2-5 Data warehouse versus data mart

                                                                                            7|Page
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย อ.ดร.โกเมศ อัมพวัน
Top-down versus bottom-up approach
Top-down approach วิธีการนี้ถูกเสนอโดย Bill Inmon ซึ่งได้นิยามคลังข้อมูลในลักษณะนี้ว่าเป็น
ศูนย์กลางคลังข้อมูลสาหรับองค์กร ซึ่งจะทาการเก็บข้อมูลที่มีความละเอียดค่อนข้างสูงและมีการทานอร์มอล
ไลซ์กับข้อมูล (normalized data) คลังข้อมูลที่สร้างขึ้นจากวิธีการ top-down จะประกอบไปด้วย logical
framework สาหรับสนับสนุนการทาธุรกิจอย่างชาญฉลาดขององค์กร
        ข้อดีของการใช้วิธีการ top-down จะประกอบไปด้วย

                สามารถมองข้อมูลได้ทั่วทั้งองค์กร
                สถาปัตยกรรมเป็นเนื้อเดียวกัน ไม่ได้เป็นแบบการรวมกันของหลายๆ data mart
                ทาการเก็บข้อมูลไว้ที่เดียว
                อาจจะเห็นผลอย่างรวดเร็วจากสร้างโดยใช้วิธี iteration
        ข้อดีของการใช้วิธีการ top-down จะประกอบไปด้วย

                ใช้เวลาในการสร้างค่อนข้างนาน
                มีความเสี่ยงที่เกิดความล้มเหลวค่อนข้างสูง
                ต้องการความสามารถสูงในการสร้างการเชื่อมโยงฟังก์ชันการทางานที่มีการข้ามสายงาน
                เสียค่าใช้จ่ายค่อนข้างมาก
          วิธีการสร้างคลังข้อมูลแบบ top-down จะเป็นการสร้างแบบมองภาพกว้างๆ ซึ่งเราจะต้องทาการ
สร้างทั้งหมด แต่ก็จะทาให้เราได้ข้อมูลเป็นกลุ่มก้อนเป็นชิ้นเดียวกัน แต่อย่างไรก็ดีการสร้างวิธีนี้จะใช้เวลานาน
เนื่องจากต้องทาความเข้าใจเกี่ยวกับการดาเนินธุรกิจทั้งองค์กร และมีความเสี่ยงสูงที่จะเกิดความล้มเหลว
รวมถึงเนื่องจากวิธีการนี้ต้องการผู้สร้างที่มีความเชี่ยวชาญทั้งในเชิงเทคนิคและเชิงธุรกิจสูง
Bottom-up approach วิธีการนี้ถูกเสนอโดย Ralph Kimball ซึ่งมองคลังข้อมูลว่าเป็นกลุ่มของดาต้ามาร์ท
ที่สอดคล้องกัน โดยปัจจัยหลักของวิธีการนี้จะอยู่ที่ความสอดคล้องกันของดาต้ามาร์ทที่สร้างขึ้นเพื่อสาหรับแต่
ละส่วนงาน วิธีการนี้จะเริ่มจากการสร้างดาต้ามาร์ทของแต่ละส่วนจากเพื่อสร้างข้อมูลสารสนเทศที่ใช้ในการ
วิเคราะห์และสร้างรายงานให้กับแต่ละหัวข้อทางธุรกิจของแต่ละแผนก ซึ่งแต่ละดาต้ามาร์ทจะทาการเก็บ
ข้อมูลที่มีความละเอีดยสูง จากนั้นทาการเชื่อมโยงดาต้ามาร์ทให้มีความสอดคล้องกัน
        ข้อดีของการใช้วิธีการ bottom-up จะประกอบไปด้วย

             สามารถการดาเนินการได้เร็วขึ้นและง่ายขึ้นจากชิ้นแต่ละส่วนงาน
             ผลตอบแทนที่ดีในการลงทุนและมีการพิสูจน์แนวคิด
             มีความเสี่ยงของความล้มเหลวน้อย

                                                                                                8|Page
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย อ.ดร.โกเมศ อัมพวัน
             สามารถกาหนดให้ส่วนงาน/แผนกที่มีความสาคัญทาการสร้างดาต้ามาร์ทได้ก่อน
             ช่วยให้ผู้สร้างสามารถทาการเรียนรู้ทีละส่วนงาน
         ข้อเสียของการใช้วิธีการ bottom-up จะประกอบไปด้วย

             แต่ละดาต้ามาร์ทจะมีข้อมูลของตัวเองเท่านั้นซึ่งเป็นข้อมูลที่ค่อนข้างแคบ
             อาจทาให้เกิดความซับซ้อนของข้อมูล อาจต้องทาการเก็บข้อมูลหนึ่งๆไว้ในทุกดาต้ามาร์ท
         วิธีการสร้างคลังข้อมูลแบบ bottom-up จะทาการสร้างดาต้ามาร์ททีละส่วน โดยที่เราสามารถ
กาหนดความสาคัญของส่วนงานเพื่อกาหนดว่า ดาต้ามาร์ทใดควรจะทาการสร้างก่อน แต่ข้อเสียที่ชัดเจนที่สุด
คือ ข้อมูลจะกระจายออกเป็นส่วนๆไม่รวมเป็นกลุ่มก้อน ซึ่งเมื่อดาต้ามาร์ทเป็นอิสระต่อกันจะทาให้ไม่สามารถ
มองเห็นความต้องการทั้งหมดทั่วทั้งองค์กรได้

A practical approach
          ในการสร้างคลังข้อมูลเราจะต้องพิจารณาว่าอะไรคือสิ่งที่เราต้องการ องค์กรของเราต้องการที่จะมอง
หาผลลัพธ์ระยะยาวหรือดาต้ามาร์ท ที่ข้อมูลไม่มากที่สามารถสร้างได้รวดเร็ว ณ ปัจจุบัน ? องค์กรของเรา
ต้องการใช้เวลาในการสร้างระยะสั่นหรือไม่ หรือ องค์กรของเรากาลังมองหาวิธีการที่สามารถใช้งานได้จริง จาก
หัวข้อที่แล้วเราทราบว่าวิธีการสร้างคลังข้อมูลแบบ top-down และ bottom-up ต่างก็มีข้อเสีย ดังนั้นวิธีการ
ที่น่าจะดีที่สุดก็คือการรวมกันระหว่าง 2 วิธี ซึ่งจะทาให้เราสามารถเห้นภาพกว้างๆของทั้งองค์กร โดยการวาง
แผนการสร้างสาหรับทั้งองค์กรโดยใช้วิธีการแบบ top-down แต่เราจะประยุกต์ใช้วิธีการแบบ bottom-up
ในการสร้างแต่ละดาต้ามาร์ทที่มีความเหมาะสมโดยทาการกาหนดลาดับความสาคัญของแต่ละส่วนงานที่จะทา
การสร้างคลังข้อมูล ซึ่งขั้นตอนวิธีในการสร้างคลังข้อมูลที่นาวิธีการ top-down และ bottom-up มารวมกัน
จะประกอบไปด้วย
    1.   วางแผนและกาหนดความต้องการของทั้งองค์กร
    2.   สร้างสถาปัตยกรรมโดยรอบสาหรับคลังข้อมูลที่สมบูรณ์
    3.   ทาให้ข้อมูลนั้นสอดคล้องกัน และ เป็นมาตราฐาน
    4.   ทาการสร้างคลังข้อมูลทีละส่วนงานเรียงต่อกัน
    วิธีการที่เหมาะสมกับการสร้างคลังข้อมูลจะมีหัวใจหลักอยู่ที่การวางแผนและกาหนดความต้องการของทั้ง
องค์กร ซึ่งเราจะต้องเก็บรวมรวมความต้องการให้ได้ทั้งหมดในทุกระดับ จากนั้นทาการสร้างสถาปัตยกรรมของ
คลังข้อมูลทั้งหมด แล้วทาการกาหนดข้อมูลที่จะถูกจั ดเก็บไว้ในแต่ละดาต้ามาร์ท จากนั้นทาการสร้างแต่ละ
ดาต้ามาร์ท โดยทาการสร้างทีละดาต้ามาร์ท ณ ช่วงเวลาหนึ่งๆ แต่ก่อนที่เราจะทาการสร้างแต่ละดาต้ามาร์ท
เราจะต้องแน่ใจก่อนว่าข้อมูลนั้นมีความสอดคล้องกัน ทั้งในส่วนของ ชนิดของข้อมูล ความยาวของฟิลด์ ความ
ถูกต้องแม่นยา และความหมายที่สื่อไปในทางเดียวกัน เพื่อหลีกเลี่ยงความแตกต่างของข้อมูล หรือ ความไม่
สอดคล้องของข้อมูลระหว่างดาต้ามาร์ท
                                                                                          9|Page
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย อ.ดร.โกเมศ อัมพวัน
        จากวิธีการสร้างในลักษณะนี้ เราสามารถมองได้ว่าคลังข้อมูลคือกลุ่มของดาต้ามาร์ทที่สอดคล้องกัน
โดยที่แต่ละดาต้ามาร์ทจะให้บริการการดาเนินธุรกิจ ของแต่ส่วนงานและภาพรวมของทั้งองค์กรด้วย ซึ่งเรา
สามารถเรียกกลุ่มของดาต้ามาร์ทที่ทาการสร้างขึ้นว่าเป็น “Enterprise data warehouse”

Architecture types
         หลังจากที่เราเข้าใจถึงนิยามและคุณลักษณะของคลังข้อมูล และ ดาต้ามาร์ทแล้ว ในส่วนนี้เราจะมาทา
ความเข้าใจเกี่ยวกับสถาปัตยกรรมของคลังข้อมูลว่าเราจะสามารถเก็บข้อมูลได้อย่างไร? ความสัมพันธ์ระหว่าง
คลังข้อมูลและดาต้ามาร์ทที่สร้างขึ้นเป็นอย่างไร? ลองพิจารณารูปที่ 2-6 ซึ่งแสดงถึงรูปแบบของสถาปัตยกรรม
ของคลังข้อมูลในลักษณะต่างๆ




                          รูปที่ 2-6 Data warehouse architectural types

Centralized data warehouse
         สถาปัตยกรรมนี้จะคานึงถึง enterprise data warehouse ที่รวมทุกอย่างไว้ด้วยกัน ข้อมูลจะถูก
จัดเก็บ ไว้ที่เดียว ซึ่งจะถูกเก็บ ที่ความละเอียดสูงสุ ดและถูกเก็บอยู่ในรูปแบบของการทานอร์มอลไลซ์ แต่
อย่างไรก็ดี ข้อมูลที่เป็น ผลสรุป ก็จะถูกเก็บด้ วย การคิว รีและการเข้าถึงข้อมูล จะสามารถทาได้โดยตรงกับ
คลังข้อมูล


                                                                                        10 | P a g e
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย อ.ดร.โกเมศ อัมพวัน
Independent data marts
          สถาปัตยกรรมนี้จะเป็นการสร้างดาต้ามาร์ทของแต่ละส่วนงานที่ไม่มีความเกี่ยวเนื่องกัน ซึ่งแต่ละ
ดาต้ามาร์ทจะให้บริการเฉพาะส่วนงานของตนเองเท่านั้น ซึ่งจะทาให้ไม่มีความสอดคล้องกันของข้อมูล มีข้อมูล
ที่ไม่เป็นมาตราฐานเดียวกัน และ ข้อมูลอาจจะไม่ได้สื่อความหมายเดียวกันอีกด้วย ตัวอย่างเช่น ดาต้ามาร์
ทของการขาย และ การส่งสินค้านั้นแยกออกจากกันและไม่มีความเกี่ยวเนื่องกัน ซึ่งโดยแท้จริงแล้วทั้งสอง
แผนกจะมีความเกี่ยวเนื่องกันเป็นอย่างมาก ซึ่งจากความที่ไม่เกี่ยวเนื่องกันจะทาให้ผู้ใช้เกิดความยากลาบากใน
การวิเคราะห์ยอดขายและการส่งของพร้อมๆกัน

Federated
        สถาปัตยกรรมนี้จะเป็นสถาปัตยกรรมที่สามารถใช้ได้จริง มองเป็นเหมือนกับกลุ่มของดาต้ามาร์ทที่ มี
การรวมฟิลด์ข้อมูลที่สาคัญเข้าด้วยกัน และมีการใช้ฟิลด์เหล่านั้นร่วมกันอีกด้วยเหล่านั้นร่วมกัน ซึ่งจะทาให้
ระบบอื่นๆสามารถเรียกใช้งานข้อมูลจากดาต้ามาร์ทส่วนอื่นๆได้

Hub-and-spoke
         สถาปัตยกรรมนี้เกิดจากแนวคิดของบริษัทของ Inmon ซึ่งมีลักษณะคล้ายกับสถาปัตยกรรมแบบ
centralized data warehouse ที่สามารถทราบถึงข้อมูลทั้งองค์กร แต่จะมีความแตกต่างตรงที่สถาปัตยกรรม
นี้จะมีดาต้ามาร์ทเข้ามาเกี่ยวข้องด้วย ซึ่งแต่ละดาต้ามาร์จะมีความเกี่ยวข้องกัน ซึ่งข้อมูลในแต่ละดาต้ามาร์ท
จะได้มากจาก centralized data warehouse โดยการสร้าง hub เพื่อทาการส่งข้อมูลเข้าสู่ดาต้ามาร์ท ที่เป็น
ลักษณะเหมือนปลายทาง โดยที่ดาต้ามาร์ ทที่มีความเกี่ยวเนื่องกันจะถูกพัฒ นาขึ้นเพื่อใช้ในการวิเคราะห์
สาหรับส่วนงาน คิวรีพิเศษ การทาเหมืองข้อมูล และ อื่นๆ เมื่อผู้ใช้ทาการสร้างคิวรีจะสามารถติดต่อกับดาต้า
มาร์ทได้โดยตรง แม้ว่า centralized data warehouse จะถูกสร้างเพื่อตอบคาถามคิวรีต่างๆอยู่แล้วก็ตาม

Data-mart bus
        สถาปัตยกรรมนี้เกิดจากแนวคิดของ Kimball ที่ทาการสร้างความสอดคล้องให้กับดาต้ามาร์ท ในการ
สร้างคลังข้อมูลโดยสถาปัตยกรรมนี้เราจะเริ่มจากการวิเคราะห์ความต้องทางธุรกิจแต่ละหัวขช้อ จากนั้นทา
การสร้างดาต้ามาร์ทแรกขึ้น เมื่อได้ดาต้ามาร์ทแรกแล้วในส่วนของมิติทางธุรกิจ (business dimension) ของ
ดาต้ามาร์ทแรกจะถูกแบ่งสรรให้กับดาต้ามาร์ทอื่นๆที่จะสร้างขึ้นในอนาคต หัวใจหลักของสถาปัตยกรรมนี้คือ
การทาให้ดาตามาร์ทสอดคล้องกันซึ่งจะทาให้คลังข้อมูลที่ถูกรวมเข้าด้วยกันตอบสนองการมองภาพรวมของทั้ง
องค์กรได้

Overview of the components
        หลังจากที่พิจารณาถึงวิธีและสถาปัตยกรรมสาหรับการสร้างคลังข้อมูลแล้ว ในส่วนนี้เราจะพิจารณา
ถึงส่วนประกอบต่างๆของคลังข้อมูล ซึ่งในการสร้างคลังข้อมูลจะประกอบไปด้วยส่วนประกอบต่างๆทั้งในส่วน
ของซอร์ ฟแวร์ แ ละฮาร์ ด แวร์ เราจะต้ องทาการปรั บแต่ง ส่ ว นประกอบเหล่ า นี้ เพื่ อให้ เ กิด การทางานและ

                                                                                            11 | P a g e
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย อ.ดร.โกเมศ อัมพวัน
ประโยชน์ที่ดีที่สุด เราอาจจะเน้นที่ส่วนประกอบหนึ่ง เราอาจจะสนับสนุนการทางานของอีกส่วนประกอบหนึ่ง
ด้วยเครื่องมือหรือบริการต่างๆ ซึ่งส่วนประกอบต่างๆที่เราจะใช้นั้นจะขึ้นอยู่กับข้อจากัดและความต้องการของ
แต่ละองค์กรเป็นหลัก
       รูปที่ 2-7 จะแสดงส่วนประกอบพื้นฐานของคลังข้อมูล ซึ่งจากทางซ้ายสุดคือแหล่งข้อมูล (Source
data) และ ถัดมาคือ data staging ซึ่งเป็นตัวกลาง หรือเป็นที่พักข้อมูล ก่อนที่จะโหลดเข้าสู่ส่วนของ data
storage ที่ใช้ในการจัดเก็บข้อมูลและจัดเก็บเมตาดาต้าอีกด้วย ในส่วนของ information delivery ที่แสดงอยู่
ทางด้านขวามือจะประกอบไปด้วยวิธีการต่างๆสาหรับการส่งข้อมูลให้กับผู้ใช้




                   รูปที่ 2-7 Data warehouse: building blocks or components

Source data component
        แหล่งข้อมูลของคลังข้อมูลสามารถแบ่งได้เป็น 4 ประเภทดังนี้
Production data จะมาจากระบบการดาเนินการหลายระบบด้วยกัน เช่น ระบบการเงิน ระบบการผลิต
ระบบ ระบบตลอดห่ว งโซ่อุปทาน และ ลู กค้าระบบการจัดการความสั มพันธ์ จากความต้องการข้อมูล ใน
คลังข้อมูล เราจะต้องเลือกส่วนของข้อมูลจากระบบการดาเนินการต่างๆ ซึ่งในการที่จะจัดการกับข้อมูล เรา
อาจจะพบกับ ข้อมูล ที่มีรู ป แบบที่ห ลายหลาย เช่น ข้อมูล อาจมาจากฮาร์ดแวร์ที่แตกต่างกัน ฐานข้อมูล ที่
แตกต่างกัน ระบบปฏิบัติการที่ต่างกัน เป็นต้น ข้อมูลของระบบการดาเนินการที่แตกต่างกันจะไม่สอดคล้องกั น


                                                                                         12 | P a g e
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย อ.ดร.โกเมศ อัมพวัน
และ คิวรีในระบบการดาเนินการ จะมีการเตรียมไว้ก่อนแล้ว และสามารถคาดเดาได้ เช่น ผู้ใช้อาจจะต้องการ
เพียงแค่ชื่อและที่อยู่ของลูกค้าเพียงคนเดียว หรือ เรียกดูข้อมูลการสั่งซื้อสินค้าล่าสุดของลูกค้าคนหนึ่ง เป็นต้น
          ลักษณะหนึ่งที่อาจจะเป็นอุปสรรคของ production data คือ ความไม่เหมือนกันของข้อมูล ซึ่งจาก
ข้อมูลที่แตกต่างกันเราจะต้องทาการสร้างมาตราฐานให้กับข้อมูล ทาการเปลี่ยนแปลง/เปลี่ยนรูปข้อมูลที่มี
ความแตกต่างกันให้เหมือนกัน และ ทาการรวมข้อมูลเข้าด้วยกัน เพื่อสร้างเป็นข้อมูลสาหรับคลังข้อมูล
Internal data ในทุกๆองค์กร ผู้ใช้จะมีการเก็บสเปรดชีท เอกสาร รายละเอียดของลูกค้า หรือ ฐานข้อมูล
ของแผนกไว้เป็นส่วนตัว ซึ่งสิ่งเหล่านี้คือ internal data ซึ่งในการสร้างคลังข้อมูลเราไม่สามารถละเลยข้อมูลที่
เป้นส่วนตัวเหล่านั้นได้ ในการเก็บรวบรวม internal data จากผู้ใช้นั้นเราอาจจะต้องทาการตัดสินใจว่าเราควร
เก็บ internal data เป็นจานวนเท่าใดเพื่อเพิ่มข้อมูลในคลังข้อมูล ซึ่งการเพิ่ม internal data จะเป็นการเพิ่ม
ความซับซ้อนของการทางานให้กับขั้นตอนการเปลี่ยนแปลง/เปลี่ยนรูปข้อมูลและการรวบรวมข้อมูลก่อนที่จะ
ทาการจัดเก็บข้อมูล ดังนั้นเราตวรจะต้องหากลยุทธ์ในการเลือกข้อมูลจากสเปรทชีท หาวิธีในการดึงข้อมูลจาก
เอกสารที่เป็นข้อความ และ รวมข้อมูลฐานข้อมูลหลายๆแผนกเข้าด้วยกันเพื่อให้ได้เป็นข้อมูลที่ตรงประเด็น
สาหรับแหล่งข้อมูลเหล่านั้น
Archieved data ระบบการดาเนินการจะทาการเก็บข้อมูลใหม่ๆไว้ในฐานข้อมูลที่มีก ารทางานแบบออนไลน์
แต่สารหรับข้อมูลเก่าๆ เช่น ข้อมูลที่มีอายุมากกว่า 1 ปีขึ้นไป ข้อมูลที่มีอายุเกินกว่า 5 ปีแล้ว จะถูกเก็บไว้ใน
แฟ้มข้อมูล หรือ ในดิสก์ และ ข้อมูลที่มีความเก่าที่สุดอาจะถูกเก็บไว้ในเทปเป็นต้น ซึ่งจากคุณลักษณะหนึ่ง
ของคลังข้อมูลที่มีการพิจารณาถึ งข้อมูลย้อนหลังเพื่อวิเคราะห์รูปแบบของข้อมูลและวิเคราะห์แนวโน้มของ
ข้อมูล เราอาจจะต้องทาการเก็บข้อมูลที่ค่อนข้างเก่าเหล่านี้ไว้ในคลังข้อมูลด้วยเช่นกัน
External data ผู้บริหารส่วนใหญ่จะใช้ข้อมูลจากภายนอกเป็นอัตราส่วนที่มาก ซึ่งข้อมูลที่ใช้จะเป็นข้อมูล
เกี่ยวกับสถิติในภาคอุสาหรรมที่สร้างขึ้นจากบริษัทภายนอก และ หน่วยงานราชการต่างๆ ดังนั้นในการสร้าง
คลั งข้อมูล เราอาจจะต้องทาการเก็บ ข้อมูล จากแหล่ งข้อมูล ภายนอกไว้ เพื่อทาการวิเคราะห์ แนวโน้มของ
อุตสาหกรรม และ เปรียบเทียบประสิทธิภาพระหว่างบริษัทของเรากับองค์กรอื่นๆ เป็นต้น แต่อย่างไรก็ดีข้อมูล
จากภายนอกจะมีการจัดรูปแบบของข้อมูลที่ไม่เหมือนกับข้อมูลภายใน ดังนั้นเราต้องทาการออกแบบวิธีในการ
แปลงข้อมูลให้ให้อยู่ในรูปแบบเดียวกับข้อมูลภายใน นอกจากนั้นเราอาจจาเป็นต้องจัดการกับการส่งผ่านข้อมูล
จากแหล่งข้อมูลภายนอกอีกด้วย

Data staging component
         หลังจากที่เราทาการสกัดข้อมูลจากระบบการดาเนินการต่างๆและจากแหล่งข้อมูลภายนอกแล้ว เรา
จะต้องทาการประมวลผลข้อมูลเหล่านั้นเพื่อจัดเก็บไว้ในคลังข้อมูล เมื่อข้อมูลที่ได้มาจากการสกัดข้อมูลมีความ
ต่างกันเราจะต้องทาการเปลี่ยน แปลง และจัดให้อยู่ในรู ปแบบเหมาะสมต่อคลังข้อมูล แต่เนื่องจากข้อมูลใน
ระบบการดาเนินการและคลังข้อมูลมีความแตกต่างกัน กล่าวคือ ข้อมูลในระบบการดาเนินการจะถูกจัดเก็บ
ตามแอพลิเคชันเพื่อสนับการดาเนินธุรกิจในแต่ละวัน แต่ข้อมูลในคลังข้อมูลจะถูกจัดเก็บตามหัวข้อ ซึ่งข้อมูล
                                                                                           13 | P a g e
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย อ.ดร.โกเมศ อัมพวัน
อาจจะมาจากการสรุปข้ อมูลจากคลังข้อมูล ดังนั้นเราจึงจาเป็นต้องสร้างที่พักข้อมูล ที่อยู่ระหว่างระบบการ
ดาเนินการและคลังข้อมูล ซึ่งก็คือ “staging area” ใน staging area จะประกอบไปด้วยพื้นที่สาหรับจัดเก็บ
ข้อมูลที่สกัดได้จากระบบการดาเนินการ และฟังก์ชันการทางานต่างๆเช่น การทาความสะอาดข้อมูล การ
เปลี่ยนแปลงข้อมูล การรวมข้อมูลเข้าด้วยกัน การเตรียมข้อมูลสาหรับจัดเก็บในคลังข้อมูลเป็นต้น

Data storage component
        ในส่วนงานการจัดเก็บข้อมูลจะเป็นส่วนที่แยกออกมาจากระบบการดาเนินการ ในการจัดเก็บข้อมูล
เราอาจจะเรียกใช้เครื่องมือต่างๆที่มีวางจาหน่าย หรือ ทาการสร้างฟังก์ชันการจัดเก็บข้อมูลขึ้นเอง ซึ่งโดยส่วน
ใหญ่แล้วคลังข้อมูลจะใช้ relational DBMS ในการจัดเก็บข้อมูล แต่ก็มีบางคลังข้อมูลใช้ multidimensional
DBMS เพื่อเก็บข้อมูลด้วยเช่นกัน
        ในการจั ด เก็บ ข้ อ มูล ผู้ ส ร้ า งคลั ง ขช้ อมู ล ควรจะเน้ น ย้ าที่ ก ารเก็ บ ข้อ มู ล ทั้ง ในปัจ จุ บั น และ ข้ อ มู ล
ย้อนหลัง และ การวางแผนหรือออกแบบโครงสร้างของข้อมูลที่ใช้ในการวิเคราะห์ นอกจากนี้ยังต้องคาถึง
ประสิทธิภาพในการเรียกใช้ข้อมูลอีกด้วย

Information Delivery Component
             ในส่วนงานการส่งข้อมูลให้กับผู้ใช้ อันดับแรกเราต้องทราบก่อนว่าข้อมูลที่เราสร้างขึ้น มีผู้ใช้กี่ประเภท
แต่ละประเภทเป็นใครบ้างและต้องการข้อมูลประเภทใด ผู้ใช้ที่เพิ่งเริ่มใช้งานโดยยังไม่ได้ผ่านการอบรมการใช้
งานจะต้องการรายงานและคิวรีที่ระบบคลังข้อมูลกาหนดไว้ให้แล้ว เนื่องจากยังไม่มีประสบการณ์เช่นเดียวกับ
ผู้ใช้ที่ ใช้งานคลั งข้อมู ล แบบครั้งคราวจะต้องการข้อมูลแบบเป็นแพคเกจ ในขณะที่นักวิเคราะห์ ทางธุรกิจ
ต้องการที่จ ะวิเคราะห์ ข้อมูล ที่มีความซับ ซ้อน ผู้ ใช้ที่มีอานาจต้องการที่จะเรียกดูข้อมูล ที่ น่าสนใจ จัดการ
เกี่ยวกับคิวรีในการเรียกดูข้อมูล เรียกดูข้อมูลตามลาดับชั้นต่างจากการดูข้อมูลสร้าง report ที่ต้องการ
         เมื่อผู้ใช้งานหลายกลุ่มและมีความหลากหลายเราอาจจะต้องวางฟังก์ชั่นการส่งข้อมูลที่แตกต่างกัน
เพื่อตอบสนองต่อการส่งข้อมูลที่หลากหลายให้กับผู้ใช้แต่ละประเภทดังแสดงในรูปที่ 2-8 ฟังก์ชั่นการส่งข้อมูล
จะมี 4 วิธีด้วยกันซึ่งโดยส่วนใหญ่ทั้งการส่งข้อมูลจะเป็นแบบออนไลน์ทั้งตัว query และ report ซึ่งอนุญาติให้
ผู้ใช้สามารถรับข้อมูลได้อย่างทันทีที่มีการส่ง query ที่ต้องการไปยังคลังข้อมูล วิธีการหนึ่งที่ได้รับความนิยม
ลดหลั่นลงมา การตั้งเวลาในการ Request Query และเรียกดู Report ซึ่งผู้ใช้จะได้รับ Report ผ่านทาง E-
Mail หรือเราออาจใช้อินเตอร์เนตของบริษัทในการเรียกดูข้อมูล แต่อย่างไรก็ดีการส่งข้อมูลผ่านอินเตอร์เนตก็
ได้รับความนิยมสูงสุดในยุคปัจจุบัน




                                                                                                                  14 | P a g e
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย อ.ดร.โกเมศ อัมพวัน
                              รูปที่ 2-8 Information delivery component

Metadata Component
        เมตาดาต้าในคลังข้อมูลเปรียบเสมือน data Dictionary/data catalog ของระบบจัดการฐานข้อมูล
ข้างใน data dictionary จะเก็บข้อมูลเกี่ยวกับ logical data structure ข้อมูลเกี่ยกับแฟ้มข้อมูลและ
address ต่างๆ ข้อมูลเกี่ยวกับ index และอื่นๆ เราสามารถกล่าวได้ว่า data dictionary คือข้อมูลของข้อมูล
ในฐานข้อมูล ในทานองเดี ยวกัน ส่วนงานเมตาดาต้าก็คือข้อมูลของข้อมูลในคลังข้อมูล ที่ถูกใช้ในการทางาน
กระบวนการต่างๆของคลังข้อมูล

Management and Control Component
        ส่ ว นงานการจั ด การและควบคุ ม จะท าหน้ า ที่ป ระสานงานบริ การ (services)และกิ จ กรรมต่ า งๆ
ภายในคลังข้อมูล ซึ่งการทางานจะประกอบไปด้วยการควบคุมการเปลี่ยนแปลง/เปลี่ยนรูปข้อมูล การถ่ายโอน
ข้อมูลไปยังคลังข้อมูล และควบคุมการส่งข้อมูลให้กับ ผู้ใช้ นอกจากนี้ยังประกอบการทางานร่วมกับ (DBMS)
ระบบจัดการฐานข้อมูล จัดการให้ข้อมูลถูกจัดเก็บในที่เก็บข้อมูลอย่างเหมาะสม และคอยเฝ้าดูการเคลื่อนที่
ของข้อมูลไปยัง staging area และจาก staging Area เข้าสู่ที่เก็บข้อมูลของคลังข้อมูลอีกด้วย

Metadata in the data warehouse
            เมตะดาต้าเปรียบเสมือนข้อมูลตาแหน่งของเมืองทีคุณอยู่ซึ่งในบางครั้งอาจต้องการข้อมูลเกี่ยวกับห้าง
ร้านต่างๆในเมืองของคุณว่าร้านแห่งนั้นอยู่ที่ใด ชื่ ออะไรบ้าง มีสินค้าอะไรในร้านเหล่านั้นบ้าง เมื่อเราต้องการ
ข้อมูลเราควรเปิดสมุดหน้าเหลือง เมตาดาต้าทาหน้าที่เหมือนกับไดเร็กทอรี่ของข้อมูลสาหรับคลังข้อมูลของคุณ
ดัง นั้ น เมตาดาต้า จึ ง มีค วามส าคั ญส าหรั บ การสร้า งและการใช้ค ลั ง ข้อ มูล เป็ นอย่า งมาก รายละเอี ยดของ
เมตาดาต้าจะอธิบายอีกครั้งหนึ่งในบทที่ (..XXX..)

                                                                                                15 | P a g e
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย อ.ดร.โกเมศ อัมพวัน
       ส่วนงานการจัดการและควบคุมการทางานร่วมกับส่วนงานเมตาดาต้าเพื่อทาการจัดการและควบคุม
การทางานต่างๆเนื่องจากเมตาดาต้าที่เก็บข้อมูลต่างๆเกี่ยวกับแหล่งข้อมูล พารามิเตอร์ต่างๆเกี่ยวกับขั้นตอน
การทางาน ชื่อของฐานข้อมูลและอื่นๆที่ข้อมูลเหล่านี้จะใช้ในการจัดการและควบคุมกระบวนการทางาน

Type of Metadata
        เมตาดาต้าในคลังข้อมูลสามารถแบ่งได้เป็น 3 กลุ่มใหญ่ๆคือ

         เมตาดาต้าที่ได้มาจากระบบดาเนินการ (Operational metadata)
         เมตาดาต้าที่ได้มากจากการเกิดข้อมูล และการเปลี่ยนแปลง/ เปลี่ยนรูปข้อมูล (Extract and
          transformation metadata)
         เมตาดาต้าสาหรับผู้ใช้ในการใช้งานคลังข้อมูล (End-user metadata)
Operational Metadata อย่างที่เราทราบกันดีว่าข้อมูลจากคลังข้อมูลนั้นได้มาจากการเกิดข้อมูลจากระบบ
การดาเนินการหลายระบบด้วยกัน ซึ่งแต่ละระบบการดาเนินการอาจมีโครงสร้างข้อมูล ชนิดของข้อมูล ความ
ยาวของแต่ละฟิลด์ข้อมูลที่แตกต่างกัน ในการเลือกข้อมูลจากแหล่งข้อมูล (ระบบการดาเนินการ) เพื่อไว้ใน
คลังข้อมูลเราจะต้องทาการแยกเรคคอร์ทออกเป็นหลายๆเรคคอร์ท รวมเรคคอร์ทย่อยๆเข้าด้วยกัน จัดการกับ
การแก้การเข้ารหัสหรือการใช้รหัสต่างๆแทนการจัดเก็บข้อมูล ในการส่งข้อมูลให้ผู้ใช้เราจะต้องทาให้ข้อมูล
สามารถรวมกันเพื่อย้อนไปหาแหล่งข้อมูลได้ จากการทางานที่กล่าวมาทั้งหมด เมตาดาต้าที่ได้จากระบบการ
ดาเนินการจะประกอบไปด้วย ข้อมูลทั้งหมดที่เกี่ยวข้องกับระบบดาเนินการ อาทิเช่น ฐานข้อมูลชื่อตารางต่างๆ
ของระบบการดาเนินงานเป็นต้น
Extraction and Transformation Metadata จะเป็นข้อมูลที่เกี่ยวกับการเกิดข้อมูลจากแหล่งข้อมูล
เมตาดาต้าลักษณะนี้จะประกอบไปด้วย ชื่อต่างๆ ของข้อมูล/ตาราง หรือ อื่นๆ ที่เกี่ยวข้องกับการเกิดข้อมูล
ความถี่ในการสกัดข้อมูล วิธีการสกัดข้อมูล และกฎทางธุรกิจ (Business Rule) สาหรับการสกัดข้อมูลเป็นต้น


End-User Metadata เปรียบเสมือนแผนที่ของคลังข้อมูลที่ช่วยให้ผู้ใช้สามารถค้นหาข้อมูลได้ สารสนเทศ
จากคลังข้อมูลได้ End-User metadata อนุญาติให้ผู้ใช้ใช้คาศัพท์เฉพาะที่ เกี่ยวกับธุรกิจในการเรียกดูข้อมูล
จากคลังข้อมูลได้อีกด้วย

Special Significant
        ทาไมเมตาดาต้าถึงมีความสาคัญสาหรับการสร้างและการใช้งานคลังข้อมูล
    1. เมตาดาต้าทาหน้าที่เสมือนการเชื่อมส่วนต่างๆของคลังข้อมูลเข้าด้วยกัน
    2. เมตาดาต้าจะช่วยให้ผู้พัฒนาคลังข้อมูลเข้าใจถึงเนื้อหา/ ข้อมูล และโครงสร้างของฐานข้อมูล
    3. เมตาดาต้าจะช่วยให้ผู้ใช้สามารถจาเนื้อหา/ ข้อมูลเฉพาะทาง/ คาศัพท์ ของพวกเขาได้

                                                                                          16 | P a g e
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย อ.ดร.โกเมศ อัมพวัน
                                                                     17 | P a g e
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย อ.ดร.โกเมศ อัมพวัน

								
To top