dataware house lecture 9

Document Sample
dataware house lecture 9 Powered By Docstoc
					        บทที่ yyy คุณภาพของข้อมูล (Data quality)

           โดยปกติแล้วบริษัทส่วนใหญ่ใช้ระบบคอมพิวเตอร์ในการดาเนินธุรกิจมักจะมีความเชื่อมั่นในคุณภาพ
ของข้อมูลที่ระบบทาการประมวลผลหรือทาการเก็บข้อมูลไว้ จะมีบริษัทจานวนน้อยมากที่จะมีขั้นตอนหรือ
ระบบที่จะตรวจสอบคุณภาพของข้อมูลแต่อย่างไรก็ดีในหลายๆ ระบบก็ยังคงมีข้อมูลที่ไม่มีคุณภาพ หรือข้อมูล
ที่ผิดพลาดอยู่ได้ (ในบางคลั้งเราอาจเรียกข้อมูลที่มีความผิดพลาดว่า ข้อมูลที่ไม่สะอาด ) ข้อมูลที่ไม่สะอาด
หรือไม่มีคุณภาพเป็นเหตุผลหลักของความล้มเหลวในการสร้างคลังข้อมูล เนื่องจากเมื่อข้อมูลไม่มีคุณภาพเป็น
ที่ยอมรับได้ ผู้ใช้ก็จะหมดความเชื่อมั่นต่อคลังข้อมูล และอาจจะไม่ใช้งานคลังข้อมูลอีก เมื่อผู้ใช้หมดความ
เชื่อมั่นไปแล้วจะเป็นการยากมากที่จะเรียกความมั่นใจเหล่านั้นกลับมา ดังนั้นเมื่อเราทราบว่าในระบบมีข้อมูล
ที่ไม่สะอาดอยู่ เราจะต้องหาระดับของความไม่สะอาดของข้อมูลว่าเป็นเช่นไร จากนั้นพยายามหาวิธีการหรือ
ขั้นตอนวิธีที่จะทาความสะอาดข้อมูล
        ในการสร้างคลังข้อมูลจากระบบดาเนินการหรือแหล่งข้อมูลที่มีกระจายตัวอยู่หลายแหล่งและแต่ละ
แหล่งข้อมูลอาจะมีความแตกต่างกันในโครงสร้างการเก็บข้อมูลรวมถึงสถาปัตยกรรมของระบบ เราจะต้องเริ่ม
ด้วยสมมติฐานที่ว่าข้อมูลนั้นมีความผิดพลาดอยู่ ดังนั้นเราจะต้องค้นหาระบบของความผิดพลาดของข้อมูล
แล้วทาการปรับปรุงข้อมูลให้มีคุณภาพมากขึ้น ข้อมูลที่ไม่มีคุณภาพจากระบบการดาเนินงานหรือแหล่งข้อมูล
จะทาให้เกิดการตัดสินใจที่ผิดพลาดด้วยเมื่อผู้ใช้ทาการตัดสินใจจากข้อมูลที่ได้จากคลังข้อมูล ดังนั้นเราควรจะ
ให้ความสาคัญกับคุณภาพของข้อมูลที่ใช้ในการสร้างคลังข้อมูล

Why is Data Quality Critical?
 คุณภาพของข้อมูลในคลังข้อมูลมีความสาคัญมากและมีความสาคัญมากกว่าระบบดาเนินงาน
(Operational system) เสียอีก เหตุที่คุณภาพของข้อมูลในคลังข้อมูลมีความสาคัญมากเนื่องจากผู้บริหารจะ
นาข้อมูลเหล่านี้มาใช้ในการตัดสินใจเชิงกลยุทธ์ซึ่งเป็นการตัดสินใจที่ส่งผลในวงกว้างต่อการทาเดินธุรกิจ ดังนั้น
เราควรจะทาการปรับปรุงคุณภาพของข้อมูลในคลังข้อมูล เมื่อเราทาการปรับปรุงคุณภาพของข้อมูลแล้วอาจ
ทาให้เกิดเหตุการณ์ดังต่อไปนี้

       เพิ่มความมั่นใจให้กับกระบวนการตัดสินใจ
       สามารถเพิ่มประสิทธิภาพในการบริการลูกค้า
       เพิ่มโอกาสในการเพิ่มมูลค่าในการบริการ
       ลดความเสี่ยงในการตัดสินใจผิดพลาด
       ลดต้นทุนโดยเฉพาะอย่างยิ่งการโฆษณา

                                                                                               1|Page
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย ดร.โกเมศ อัมพวัน
     เพิ่มประสิทธิภาพในการตัดสินใจเชิงกลยุทธ์
     เพิ่มผลผลิตด้วยขั้นตอนวิธีการที่มีประสิทธิภาพ
     หลีกเลี่ยงผลกระทบที่เพิ่มขึ้นจากข้อมูลไม่มีคุณภาพ

What Is Data Quality?
          คุณภาพของข้อมูลในคลังข้อมูลไม่ได้หมายถึงคุณภาพของข้อมูลใดข้อมูลหนึ่งเท่านั้น แต่หมายถึง
คุณภาพของข้อมูลทั้งหมดในคลังข้อมูล ถ้าข้อมูลเป็นไปตามวัตถุประสงค์ที่ตั้งใจไว้และถูกใช้โดยถูกวิธี เราจะ
สามารถเรียกได้ว่าข้อมูลนั้นมีคุณภาพ คุณภาพของข้อมูลจะเกี่ยวข้องกับความถูกต้องของข้อมูล (             Data
accuracy) ที่สามารถบ่งบอกได้ถึงข้อมูลนั้นๆ แต่อย่างไรก็ดีคุณภาพของข้อมูลยังมีปัจจัยอื่นๆที่เกี่ยวข้องที่
มากกว่าความถูกต้องของข้อมูลเพียงอย่างเดียว ดังนั้นก่อนที่จะเข้าใจถึงปัจจัยต่างๆ ของคุณภาพของข้อมูล
เราจาเป็นต้องเข้าใจถึงความแตกต่างระหว่างคุณภาพของข้อมูลและความถูกต้องของข้อมูลเสียก่อน (ดังแสดง
ในรูปที่ 1)




รูปที่ 1 Data accuracy versus data quality
    รูปที่ 1 แสดงถึงความแตกต่างระหว่างความถูกต้องของข้อมูลและคุณภาพของข้อมูล แต่อย่างไรก็ดี เราจะ
สามารถกาหนดหรือระบบถึงคุณภาพข้อมูลได้อย่างไร ? จะสามารถพิจารณาได้อย่างไรว่าข้อมูลใดมีคุณภาพสูง
หรือไม่? ถ้าเราสามารถพิจารณาได้ว่าข้อมูลมีคุณภาพสูง คาถามที่ตามมาก็คือ เราจะทาพิจารณาว่าข้อมูลใดมี
คุณภาพสูงได้อย่างไรโดยใช้วิธีใด ? จากคาถามที่ได้กล่าวมาข้างต้น จะมีวิธีการที่เป็นรูปธรรมสาหรับจาแนก
คุณภาพของข้อมูลในคลังข้อมูลที่จะบอกถึงคุณลักษณะของข้อมูลที่มีคุณภาพสูง ดังนั้นในการสร้างคลังข้อมูล
เราอาจใช้วิธีเหล่านี้เพื่อใช้วัดคุณภาพของข้อมูลจากแหล่งข้อมูลได้ โดยที่วิธีการเหล่านี้จะพิจารณาถึงหลายๆ
องค์ประกอบดังนี้
                                                                                                2|Page
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย ดร.โกเมศ อัมพวัน
    Accuracy หมายถึง ค่าของข้อมูลที่ถูกเก็บไว้ในระบบนั้นเป็นค่าที่ถูกต้องสาหรับข้อมูลนั้นๆ
     ตัวอย่างเช่น ถ้าเรามีข้อมูลชื่อและที่อยู่ของลูกค้าเก็บอยู่ใน record หนึ่งๆ ที่อยู่ที่เก็บไว้จะต้องเป็นที่
     อยู่ที่ถูกต้องของลูกค้าชื่อนั้นๆ และ ถ้าเราทาการหายอดสั่งซื้อสินค้าเป็นจานวน 1,000 ชิ้นใน record
     ของการสั่งซื้อเลขที่ 12345678 จานวนสินค้าที่ถูกต้องจะต้องสอดคล้องกับเลขที่ใบสั่งซื้อด้วย
    Domain Integrity หมายถึง ค่าของข้อมูลใน attribute หนึ่งๆจะต้องอยู่ในช่วงที่เรากาหนดไว้
     ตัวอย่างเช่น ในการเก็บข้อมูลเพศของลูกค้าค่าที่เรายอมรับคือ “male” และ “female” เท่านั้น
    Data Type หมายถึง ค่าของข้อมูลใน attribute หนึ่งๆ จะต้องถูกเก็บให้ตรงกับชนิดของข้อมูลที่
     กาหนดไว้ ตัวอย่างเช่น ถ้าเราทากาหนดชนิดของข้อมูลที่จะทาเก็บข้อมูลชื่อลูกค้าไว้เป็นข้อความ
     “text” ดังนั้นทุกข้อมูลที่ถูกเก็บไว้ใน attribute ที่ใช้เก็บชื่อลูกค้าจะต้องประกอบไปด้วยข้อมูลที่เป็น
     ข้อความเท่านั้น ไม่สามารถเป็นชุดของตัวเลขได้
    Consistency หมายถึง รูปแบบและเนื้อหาของข้อมูลใน field หนึ่งๆ จะต้องเหมือนกันในทุก
     แหล่งข้อมูล ถ้าเราทาการเก็บรหัสสินค้า ABC ในแหล่งข้อมูลหนึ่งๆ เป็น 1234 ดังนั้นรหัสของสินค้า
     ABC ในแหล่งข้อมูลอื่นๆ จะต้องใช้รหัส 1234 ด้วย
    Redundancyหมายถึง ข้อมูลที่เหมือนกันจะไม่สามารถเก็บได้มากกว่าหนึ่งที่ในระบบหนึ่งๆ แต่
     อย่างไรก็ดีเราสามารถยอมให้เกิดการซ้าซ้อนของข้อมูลได้ ซึ่งการซ้าซ้อนของข้อมูลอาจเกิดจากความ
     ต้องการที่จะเพิ่มประสิทธิภาพในการเข้าถึงข้อมูล
    Completeness หมายถึง การไม่มีการขาดหายไปของข้อมูล (Missing value) เกิดขึ้นใน attribute
     หนึ่งๆ ตัวอย่างเช่น ข้อมูลการสั่งสินค้า ทุกรายละเอียดของการสั่งซื้อจะต้องถูกกรอกทั้งหมด
    Duplication หมายถึง record ที่ซ้ากันในระบบจะต้องถูกแยกแยะ เช่น ถ้าข้อมูลสินค้ามีการซ้ากัน
     เราจะต้องทาการระบุถึงทุก record ที่ซ้ากันของแต่ละสินค้าและต้องทาการอ้างอิงเพิ่ม
    Conformance to Business Rules หมายถึง ข้อมูลสาหรับแต่ละรายการข้อมูลจะต้องสอดคล้อง
     กับกฎทางธุรกิจ ตัวอย่างเช่น ระบบการขายด้วยการประมูล ราคาที่ขายสินค้าจะต้องไม่ต่ากว่าราคา
     ที่ตั้งไว้ หรือในระบบการกู้ยืมเงินจากธนาคาร ยอดเงินการกู้ยืมจะต้องเป็นเลขบวกหรือเป็นศูนย์
     เท่านั้น
    Structural Definiteness หมายถึง รายการข้อมูลหนึ่งๆ จะต้องมีโครงสร้างที่ชัดเจน และ เรา
     จะต้องเก็บข้อมูลตามโครงสร้างนั้นๆตัวอย่างเช่น ชื่อของลูกค้าจะประกอบไปด้วย ชื่อ ชื่อกลาง และ
     นามสกุล ดังนั้นในการเก็บข้อมูลเราควรจะเก็บตามโครงสร้างของข้อมูลนั้นคือ เราควรจะเก็บข้อมูลทั้ง
     ชื่อต้น ชื่อกลาง และ นามสกุล ซึ่งการเก็บข้อมูลตามโครงสร้างของข้อมูลจะช่วยให้ข้อมูลมีมาตราฐาน
     และลดการขาดหายไปของข้อมูล
    Data Anomaly หมายถึง ข้อมูล filed หนึ่งๆ จะต้องเก็บข้อมูลตามวัตถุประสงค์ที่ตั้งใจไว้ เช่น
                                                                            ่
     ข้อมูล Address-3 ถูกกาหนดไว้เพื่อเก็บข้อมูลที่อยู่เป็นบรรทัดที่ 3 ซึง field นี้จะถูกใช้ก็ต่อเมื่อข้อมูล


                                                                                                 3|Page
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย ดร.โกเมศ อัมพวัน
        ที่อยู่ยาวมาก ดังนั้นเราจะต้องใช้ข้อมูล filed Address-3 สาหรับเก็บข้อมูลในลาดับที่ 3 เท่านั้น ห้าม
        ใช้ในการเก็บข้อมูลอื่นๆเช่น เบอร์โทรศัพท์ หรือเบอร์แฟกซ์
       Clarity หมายถึง องค์ประกอบของข้อมูลอาจมีคุณลักษณะที่จะเป็นข้อมูลที่คุณภาพแต่ถ้าผู้ใช้ไม่
        เข้าใจความหมายของข้อมูลอย่างชัดเจน ข้อมูลนั้นก็จะไม่ได้มีคุณค่าสาหรับผู้ใช้ ดังนั้น การกาหนด
        ข้อตกลงในการตั้งชื่อหรือ การเขียนคาอธิบายข้อมูลจะสามารถช่วยให้ผู้ใช้มีความเข้าในองค์ประกอบ
        ของข้อมูลได้ง่ายขึ้น
       Timely หมายถึง การที่ผู้ใช้สามารถกาหนดช่วงเวลาที่เหมาะสมให้กับข้อมูลได้ (อายุของข้อมูล) เช่น
        ถ้าผู้ใช้คาดหวังว่าข้อมูลลูกค้าที่เก็บอยู่ใน Customer dimension ไม่ควรจะมีอายุเกิน 1 หนึ่ง ดังนั้น
        ความเปลี่ยนแปลงของข้อมูลลูกค้าจากแหล่งข้อมูลจะต้องถูกถ่ายโอนเข้าสู่คลังข้อมูลทุกๆ วัน
       Usefulness หมายถึง ข้อมูลทุกข้อมูลในคลังข้อมูลจะต้องตอบสนองความต้องการของผู้ใช้ ในบาง
        กรณีข้อมูลจากคลังข้อมูลที่มีความถูกต้องและมีคุณภาพอาจไม่ได้จะไม่ได้มีคุณค่าต่อผู้ใช้ก็เป็นได้ ซึ่ง
        ข้อมูลเหล่านี้ไม่ควรจะถูกเก็บอยู่ในคลังข้อมูล
       Adherence to Data Integrity Rules หมายถึง ข้อมูลที่ถูกเก็บอยู่ในฐานข้อมูลของแหล่งข้อมูล
        จะต้องยึดมั่นกับกฎ entity integrity (ข้อมูลที่มีเอกลักษณ์โดยสิ้นเชิง ) และ กฎ referential
        integrity (ข้อมูลที่สามารถอ้างอิงได้ ) โดยที่ตารางใดก็ตามที่อนุญาติให้สามารถมีค่า NULL ได้ในคีย์
        หลัก (Primary key) ตารางนั้นจะไม่เป็นไปตามกฎ entity integrity ในส่วนของกฎ referential
        integrity จะเป็นการบังคับเกี่ยวกับความสัมพันธ์แบบ parent-child ตัวอย่างเช่น ถ้าในการสั่งซื้อ
        สินค้าของลูกค้าเป็นไปตามกฎ referential integrity เราจะสามารถมั่นใจได้ว่าในการสั่งซื้อสินค้าใดๆ
        ก็ตามจะต้องมีข้อมูลเกี่ยวกับลูกค้าแนบอยู่ด้วยเสมอ

Benefits of Improved Data Quality
       อย่างที่เราทราบกันดีว่า “ข้อมูลที่ไม่ดีจะทาให้เกิดการตัดสินใจที่ไม่ดี ” ดังนั้นเราจะทาการปรับปรุง
คุณภาพของข้อมูลให้ดีขึ้นเพื่อช่วยเหลือในการตัดสินใจเชิงกลยุทธ์ ซึ่งในการพิจาณาถึงคุณภาพของข้อมูลหรือ
การปรับปรุงข้อมูลให้ดีขึ้นจะมีประโยชน์ดังต่อไปนี้
Analysis with Timely Information สมมติว่าร้านค้าปลีกขนาดใหญ่ทาโปรโมชันกับสินค้ามากมายแบบ
วันต่อวัน และโปรโมชันนี้ได้ถูกใช้กับร้านค้ากว่า 200 สาขาทั่วประเทศ ข้อมูลการทาโปรโมชันจะถูกเก็บไว้เป็น
หนึ่ง dimension ของคลังข้อมูล ถ้านักการตลาดต้องการที่จะวิเคราะห์ข้อมูลโดยใช้ข้อมูลโปรโมชันเป็น
primary dimension เพื่อที่จะเฝ้าดูและปรับโปรโมชันตามยอดการขาย โดยการวิเคราะห์ข้อมูลจะทาทุกวัน
เนื่องจากจะมีการออกโปรโมชันใหม่ๆทุกวัน สมมติว่าข้อมูลโปรโมชันจะถูกทาการถ่ายโอนเข้าสู่คลังข้อมูล
อาทิตย์ละครั้ง คุณคิดว่าข้อมูลโปรโมชันจะมีอายุที่เหมาะสมสาหรับนักการตลาดหรือไม่ ข้อมูลโปรโมชันใน
คลังข้อมูลจะเป็นข้อมูลที่มีคุณภาพและเป็นที่ต้องการของผู้ใช้หรือไม่ คาตอบของทั้งสองคาถามคือไม่ ดังนั้น
จากส่วนที่แล้วทาให้เราทราบว่าข้อมูลที่มีคุณภาพจะทาให้เราสามารถวิเคราะห์ข้อมูลได้ตามช่วงเวลาที่
เหมาะสม นี้จึงเป็นข้อดีอย่างหนึ่งของข้อมูลที่มีคุณภาพที่เหมาะกับความต้องการทางด้านเวลาของผู้ใช้
                                                                                           4|Page
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย ดร.โกเมศ อัมพวัน
Better Customer Service ประโยชน์ของข้อมูลที่มีความถูกต้องและสมบูรณ์สาหรับการบริการลูกค้านั้นไม่
สามารถเน้นย้าจนเกินไปได้ พิจารณาเกี่ยวกับตัวแทนฝ่ายบริการลูกค้าในธนาคารขนาดใหญ่ที่ทาการรับ
โทรศัพท์ลูกค้าที่ต้องการพูดคุยเกี่ยวกับค่าบริการในการตรวจสอบยอดเงินในบัญชี จากการตรวจสอบข้อมูล
ตัวแทนฝ่ายบริการลูกค้าเห็นว่าเงินในบัญชีมีอยู่เพียง €27.38 ซึ่งจากจานวนเงินดังกล่าวจะทาให้เข้าใจได้ว่า
ทาไมลูกค้าถึงกังวลเกี่ยวกับค่าบริการ และอาจจะมองว่าลูกค้าไม่มีเงิน แต่ถ้าตัวแทนฝ่ายบริการลูกค้าลองไป
ตรวจสอบดูในบัญชีอื่นๆลูกค้าและพบว่าลูกค้ามีเงินเก็บอยู่ €35,000 และมีบัตรเงินฝาก (Certificate of
deposit: CD) ซึ่งมีมูลค่ามากกว่า €120,000 เมื่อตัวแทนฝ่ายบริการลูกค้าสามารถเห็นข้อมูลทั้งหมดแล้วคุณ
คิดว่าเขาจะตอบคาถามในโทรศัพท์อย่างไร ? แน่นอนว่าต้องตอบด้วยความสุภาพมาก เนื่องจากมีความเกรงใจ
ในลูกค้าที่มีเงินค่อนข้างมาก จากตัวอย่างข้างต้นจะทาให้เห็นว่าข้อมูลที่มีความถูกต้องและสมบูรณ์สามารถที่
จะช่วยปรับปรุงการให้บริการได้อย่างมาก
Newer Opportunities คุณภาพของข้อมูลในคลังข้อมูลจะเป็นสิ่งที่เป็นประโยชน์อย่างมากสาหรับนักการ
ตลาด ซึ่งเมื่อเรามีข้อมูลที่มีคุณภาพจะทาให้เราสามารถเพิ่มโอกาสอย่างมากในการขายสินค้าอย่างทั่วถึง ผู้ใช้
คลังข้อมูลสามารถเลือกผู้ซื้อที่ซื้อสินค้าชนิดหนึ่งแล้วทาการหาว่าผู้ซื้อคนนั้นมีแนวโน้มที่จะซื้อสินค้าอื่นๆ ด้วย
นอกจากนี้นักการตลาดยังสามารถสร้างเคมเปญให้แก่กลุ่มลูกค้าเป้าหมายได้อีกด้วย อย่างไรก็ดีถ้าข้อมูลไม่มี
คุณภาพ เคมเปญที่สร้างขึ้นจะล้มเหลว
Reduced Costs and Risks การมีข้อมูลที่มีคุณภาพไม่ดีจะมีความเสี่ยงอย่างไร ? ความเสี่ยงที่เห็นได้ชัดเจน
อย่างหนึ่งคือการตัดสินใจเชิงกลยุทธ์ที่อาจทาให้เกิดความเสียหายต่อการดาเนินธุรกิจได้ นอกจากนี้ยังมีความ
เสี่ยงอื่นๆอีก อาทิเช่น การเสียเวลา การไม่สามารถทางานได้อย่างปกติของขั้นตอนการทางานและระบบ และ
อื่นๆ แต่อย่างไรก็ดีข้อมูลที่มีคุณภาพจะสามารถลดต้นทุนในการดาเนินงานได้ เช่น สามารถลดต้นทุนในการส่ง
แคมเปญทางการตลาดทางไปรษณีย์ให้แก่ลูกค้า ถ้าข้อมูลที่อยู่ของลูกค้าไม่สมบูรณ์ ไม่ถูกต้อง หรือซ้าซ้อนกัน
แคมเปญที่จัดทาขึ้นนั้นจะสูญเปล่า
Improved Productivity ผู้ใช้สามารถดูข้อมูลได้แบบทั้งองค์กรซึ่งทาให้สามารถปรับปรุงประสิทธิภาพของ
กระบวนการทางานได้ เพราะเราจะเห็นการเพิ่มผลผลิตได้ ตัวอย่างเช่น การดูข้อมูล purchasing patterns
ของลูกค้าในห้างสรรพสินค้าขนาดใหญ่ จะทาให้เกิดการพัฒนาขั้นตอนการซื้อสินค้าของลูกค้าและกลยุทธ์
ต่างๆ

Types of Data Quality Problems
 อย่างที่เราทราบกันดีว่า           “คุณภาพของข้อมูลจะส่งผลถึงความถูกต้องในการตัดสินใจเชิงกลยุทธ์ ”
ดังนั้นในการสร้างคลังข้อมูลเราจะต้องพยายามทาให้ข้อมูลมีความถูกต้องและมีคุณภาพ ไม่อย่างนั้นอาจจะทา
ให้เกิดความผิดพลาดในกระบวนการทาเนินธุรกิจได้ ตัวอย่างเช่น ถ้ามูลค่าของการขายสินค้ามีความผิดพลาด
เกิดขึ้น 4% จากมูลค่าการขายสินค้าทั้งหมด $2,000,000,000 นั่นหมายความว่า เงินรายได้อาจสูญหายไป
$80,000,000 เมื่อมีรายได้ต่ากว่าข้อมูลที่เก็บอยู่ในระบบการดาเนินการและคลังข้อมูลจะส่งผลในแนวกว้างต่อ

                                                                                                    5|Page
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย ดร.โกเมศ อัมพวัน
การดาเนินธุรกิจ ในแง่ของการลงทุน การเสียภาษี และอื่นๆ อีกตัวอย่างหนึ่งที่เห็นได้ชัดคือคือ ในการส่ง
แค็ตตาล็อกรายการสินค้าให้กับลูกค้าทางไปรษณีย์โดยใช้ข้อมูลที่อยู่ลูกค้าที่เก็บไว้ในระบบการดาเนินงาน แต่
ถ้าข้อมูลที่อยู่ลูกค้าที่เก็บไว้มีความซ้าซ้อนของข้อมูลเกิดขึ้น จะทาให้บริษัททาการส่งแค็ตตาล็อกรายสินค้า
ให้กับลูกค้าซ้าซ้อน ซึ่งอาจจะสร้างความไม่พอใจให้แก่ลูกค้าได้ รวมถึงจะต้องสูญเสียงบประมาณในการทา
รายการสินค้าและค่าส่งไปรษณีย์โดยไม่จาเป็น จากตัวอย่างข้างต้นเราจะเห็นว่าคุณภาพของข้อมูลนอกจากจะ
ส่งผลต่อการตัดสินใจแล้ว ยังส่งผลถึงการดาเนินการทางธุรกิจอีกด้วย ดังนั้นเราจะต้องใส่ใจกับคุณภาพของ
ข้อมูล และพยายามทาให้ข้อมูลมีคุณภาพมากที่สุด เพื่อที่จะไม่ให้เกิดปัญหาเกี่ยวกับคุณภาพของข้อมูล
ดังต่อไปนี้
Dummy Values in Fields คุณมีความตระหนักถึงการกรอกข้อมูลที่ถูกต้องหรือไม่ หลายๆ ครั้งคุณอาจจะ
ไม่ได้สนใจการกรอกข้อมูลที่ถูกต้อง หลายๆครั้งที่คุณอาจกรอกข้อมูล 88888 ใน field รหัสไปรษณีย์สาหรับ
ลูกในแถบเอเชีย และ กรอกข้อมูล 77777 สาหรับลูกค้าฝั่งยุโรป ซึ่งเป็นข้อมูลที่ไม่ถูกต้อง
Absence of Data Values การขาดหายไปของข้อมูลจะพบบ่อยในการเก็บข้อมูลลูกค้า ในระบบการ
ดาเนินงาน ผู้ใช้จะสนใจเพียงข้อมูลที่อยู่ลูกค้าที่จะใช้ในการส่งไปแจ้งหนี้เรียกเก็บเงิน การส่งจดหมายติดตาม
หรือการโทรศัพท์ไปหาลูกค้าเกี่ยวกับการจ่ายเงินเมื่อเกินกาหนดเวลาการจ่าย* โดยส่วนใหญ่แล้วจะไม่สนใจ
ข้อมูลในเชิงสถิติจานวนประชากรที่ไม่ได้ใช้งานในระบบการดาเนินงาน ซึ่งจะทาให้เกิดการขาดหายไปของ
ข้อมูลจานวนประชากรโดยไม่รู้ตัว โดยที่ข้อมูลสถิติจานวนประชากรจะมีประโยชน์อย่างมากในการวิเคราะห์
ข้อมูลจากคลังขอมูล
Unofficial Use of Fields มีกี่ครั้งที่คุณถามลูกค้าหรือผู้ใช้ของระบบให้ทาการกรอกข้อมูลความคิดเห็นใน
field หนึ่งๆของข้อมูลที่ใช้ในการติดต่อลูกค้า โดยส่วนใหญ่แล้วระบบการดาเนินการจะไม่ทาการเก็บข้อมูล
ความคิดเห็นลงในข้อมูลลูกค้า ซึ่งการนาข้อมูลความคิดเห็นของลูกค้าไปใช้จะเป็นการใช้ข้อมูลจาก field ที่ไม่
เป็นทางการ
Cryptic Values เป็นปัญหาเกี่ยวกับข้อมูลที่มีความกากวมหรือข้อมูลที่มีความลับซึ่งเราจะพบบ่อยในระบบ
การดาเนินงานที่มีการเข้ารหัสข้อมูลที่การจัดเก็บข้อมูลนั้นไม่ได้ออกแบบที่ตรงใจผู้ใช้งาน ตัวอย่างเช่น การตั้ง
รหัสข้อมูลโดยใช้ตัวอักษรใหญ่ตัวแรกของโค้ดที่ต้องการเก็บ ในตอนเริ่มต้นโค้ดของสถานะของลูกค้าอาจใช้เป็น
R=Regular และ N=New ต่อมาได้ทาการเพิ่มข้อมูล D=Decreased และ A=Archive และทาการลบข้อมูล
R และ N ออก เมื่อทาการใช้ระบบต่อไปเรื่อยๆ อาจทาการเพิ่มข้อมูล R=Remove เข้าไปใหม่ ซึ่งการใช้
ตัวอักษรตัวเดียวกันแทนโค้ดสถานะของข้อมูลที่แตกต่างกันจะก่อให้เกิดความกากวมและสับสนกับข้อมูลได้
Contradicting Values มีข้อมูลอยู่จานวนมากในแหล่งข้อมูลที่เกี่ยวข้องกัน ตัวอย่างเช่นข้อมูลชื่อรัฐและ
รหัสไปรษณีย์จะเกี่ยวข้องกัน ซึ่งในการเกี่ยวข้องข้อมูลนั้นอาจะเกิดความผิดพลาดได้เช่น ระบบดาเนินการทา
การเก็บข้อมูลรัฐแคลิฟอร์เนีย และรหัสไปรษณีย์เป็น 08817 (ซึ่งเป็นรหัสไปรษณีย์ของรัฐนิว เจอซี่ย์) ไว้ใน
record เดียวกัน ซึ่งเป็นข้อมูลที่มีความผิดพลาด
                                                                                               6|Page
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย ดร.โกเมศ อัมพวัน
Violation of Business Rules ในระบบพนักงานและระบบบัญชีเงินเดือน เราจะเห็นกฎทางธุรกิจที่ว่า
จานวนวันที่ทางาน รวมกับ วันลากิจ วันหยุดพักผ่อน และ วันลาป่วย จะต้องมีค่าไม่เกิน 365 หรือ 366 วัน
ดังนั้น ถ้าจานวนวันรวมทั้งหมดของพนักงานมีค่าเกิดกว่าจานวนวันในหนึ่งปี การมีข้อมูลแบบนี้จะทาให้เกิด
การฝ่าฝืนกฎทางธุรกิจ
Reused Primary Keys สมมติว่าระบบการดาเนินการกาหนดคีย์หลักของข้อมูลลูกค้าเป็นตัวเลขจานวน 5
หลัก ซึ่งเป็นตัวเลขที่รองรับจานวนลูกค้าที่น้อยกว่า 100,000 ราย แต่เมื่อวันเวลาผ่านไปลูกค้ามีจานวนเพิ่มขึ้น
มากเกินกว่า 100,000 ราย โดยที่ลูกค้าบางรายก็ไม่ทาการซื้อ -ขายสินค้าจากบริษัทนั้นๆ อีก บางบริษัทาการ
แก้ไขปัญหานี้โดยทาการเก็บข้อมูลลูค้าเก่าไว้และทาการกาหนดค่าคีย์หลักให้กับลูกค้าใหม่โดยใช้คีย์หลัก
เริ่มต้นที่เลข 1 การแก้ปัญหาในลักษณะนี้จะไม่เป็นปัญหากับระบบดาเนินการ แต่จะทาให้เกิดปัญหาใน
คลังข้อมูลในการเข้าถึงข้อมูลลูกค้าใหม่ (หลังการเปลี่ยนแปลงค่าเริ่มต้นของคีย์หลักแล้ว ) และ ข้อมูลลูกค้าเก่า
ที่ทาการเก็บไว้ ซึ่งจากการเข้าถึงข้อมูลทั้งสองชนิดจะทาให้เกิดปัญหาการซ้าซอบของการใช้คีย์หลักซ้า
Nonunique Identifiers สมมติว่าระบบบัญชีมีการกาหนดโค้ดของสินค้าเองซึ่งแตกต่างจากโค้ดสินค้าใน
ระบบการขายและระบบคลังสินค้า ตัวอย่างเช่น โค้ด 355 จะแสดงถึงรายการสินค้าหนึ่งๆ ในระบบการขาย
ซึ่งจะเป็นสินค้าเดียวกับ โค้ด A226 ในระบบบัญชี การทางานในลักษณะนี้จะทาให้เกิดปัญหาการอ้างถึงตัว
สินค้าที่ว่า โค้ดของสินค้าหนึ่งๆ ไม่สามารถระบุถึงสินค้าได้ในสองระบบที่มีการทางานเชื่อมต่อกัน
Inconsistent Values เป็นปัญหาการไม่สอดคล้องกันของข้อมูลเช่น โค้ดของชนิดของนโยบายในบริษัท
ประกันอาจจะใช้ไม่เหมือนกันในแต่ละสาขา เช่น สาขาหนึ่งอาจใช้ A=Auto, H=Home, F=Flood,
W=Workers Comp แต่ในอีกสาขาหนึ่งอาจใช้ 1=Auto, 2=Home, 3=Flood และ 4=Workers Comp
ตามลาดับ
Incorrect Values สมมิตว่าทาการเก็บข้อมูล รหัสสินค้าเป็น 146 ชื่อสินค้าเป็น แจกันคริสตัล และ ความสูง
ของสินค้าเป็น 486 นิ้ว ซึ่งข้อมูลที่เก็บทั้งหมดจะถูกเก็บอยู่ใน record เดียวกัน จากตัวอย่างข้างต้นชี้ให้เห็นว่า
ข้อมูลที่ทาการเก็บนั้นไม่ถูกต้อง เนื่องจากข้อมูลชื่อสินค้าและความสูงของสินค้าไม่สอดคล้องกัน (เนื่องจากคง
ไม่มีใครสร้างแจกันสูง 486 นิ้วแน่ๆ ) และ โดยส่วนใหญ่แล้วเมื่อเกิดความไม่สอดคล้องกันของข้อมูลเกิดขึ้น
รหัสสินค้าที่ทาการเก็บไว้จะผิดพลาดด้วย
Multipurpose Fields ข้อมูลที่เหมือนกันใน field หนึ่งๆ แต่ถูกเพิ่มข้อมูลจากแผนกที่ต่างกันอาจหมายถึง
สิ่งที่แตกต่างกันได้ field หนึ่งๆควรจะถูกเก็บไว้เป็นแบบรหัสของส่วนที่เก็บข้อมูล (storage area code)
เพื่อที่จะสามารถอ้างอิงได้ถึงส่วนที่ทาการเก็บข้อมูล หรือควรจะทาการแยก field โดยให้ความหมายของแต่ละ
field นั้นๆ
Erroneous Integration ในบริษัทการประมูล ผู้ซื้อ คือ ลูกค้าที่ทาการประมูลสินค้าชนะ กล่าวคือให้ราคา
สินค้าสูงที่สุด จากนั้นทาการซื้อสินค้าหลังจากการประมูลเสร็จสิ้น ผู้ขาย คือ ลูกค้าที่ทาการขายสินค้าผ่าน

                                                                                                  7|Page
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย ดร.โกเมศ อัมพวัน
ระบบการประมูล ลูกค้าของบริษัทการประมูลอาจเป็นทั้งผู้ซื้อและผู้ขายก็ได้ ถ้าระบบที่เก็บข้อมูลผู้ซื้อและ
ระบบการออกใบเสร็จสร้างไม่พร้อมกันและมีการแยกการทาข้อมูล จะทาให้ ลูกค้าที่มีรหัสเป็น 12345 จาก
ระบบการประมูลสินค้า และ แต่จะมีรหัสเป็น 34567 ในระบบการออกใบเสร็จ เมื่อทาการรวมระบบเข้า
ด้วยกันแล้วจะทาให้เกิดความแตกต่างของข้อมูลลูกค้าเกิดขึ้นเช่น ลูกค้าที่รหัส 55555 ในระบบการประมูล
สินค้า จะเป็นคนละคนกับลูกค้าที่รหัส 55555 ในระบบการออกใบเสร็จ ซึ่งจะทาให้เกิดปัญหาความไม่
สอดคล้องของข้อมูลซึ่งอาจเกิดขึ้นในการสร้างระบบที่แยกจากกัน โดยทาการสร้างข้อมูลไม่พร้อมกัน



Data Quality Challenges
 ในการสารวจล่าสุดในหัวข้อเรื่องการทาธุรกิจกับคลังข้อมูล ได้มีการซักถามตาถามที่ว่า   “อะไรคือสิ่งที่
ท้ายทายหรือเป็นอุปสรรคต่อการสร้างและการใช้คลังข้อมูล ” คาตอบที่ได้จะแสดงดังรูปที่ 2 ซึ่งจะเป็นการ
จัดลาดับความท้าทายหรืออุปสรรคจากน้อยไปมาก




รูปที่ 2 Data quality: the top challenge
          จากผลสารวจจะเห็นได้ว่าคุณภาพของข้อมูลนั้นเป็นอุปสรรคชิ้นโตในการสร้างและใช้คลังข้อมูล
ดังนั้นเราควรให้ความใส่ใจกับการปรับปรุงคุณภาพของข้อมูล อาทิเช่น การทาความสะอาดข้อมูล           (Data
cleansing) และวิธีการอื่นๆ ในบางคลังข้อมูลอาจมีข้อมูลที่ความสกปรก (Dirty data) เก็บไว้ โดยที่ความ
สกปรกของข้อมูล หรือ ความไม่สมบูรณ์ของข้อมูลอาจไม่ได้เกิดจากคลังข้อมูล แต่เกิดจากความผิดพลาดของ
แหล่งข้อมูล ดังนั้นเราอาจต้องการที่จะกาจัดความสกปรกของข้อมูลจากแหล่งข้อมูล หรือ จากระบบการ
ดาเนินการโดยที่ไม่ได้รับความช่วยเหลือใดๆจากระบบเก่าก็เป็นได้

                                                                                             8|Page
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย ดร.โกเมศ อัมพวัน
Sources of Data Pollution
        ในการที่จะเลือกวิธีการหรือกลยุทธ์ที่ดีในการทาความสะอาดข้อมูล ถ้าเราทราบถึงประเภทหรือชนิด
ของลักษณะของระบบที่เกิดข้อมูลที่มีความสกปรกก่อน อาจช่วยให้เราสามารถเลือกวิธีที่เหมาะสมกับระบบที่
เรากาลังสร้างขึ้นได้
System Conversions ระบบที่สาหรับการสั่งซื้อเริ่มมากจากการใช้ file ซึ่งเริ่มขึ้นในปี 1970 ซึ่งข้อมูลการ
ซื้อจะถูกเขียนลง flat files หรือ indexed file และ ไม่มีการตรวจสอบสต็อกสินค้าหรือการตรวจสอบเครดิต
ของลูกค้ามากนัก ต่อมาระบบได้ถูกเปลี่ยนให้เป็นระบบออนไลน์มากขึ้นซึ่งเราต้องเปลี่ยนจากระบบเดิม หรือ
การเก็บข้อมูลแบบเดิมมาเป็นการเก็บข้อมูลด้วย RDBMS เมื่อทาการเปลี่ยนอะไรจะเกิดขึ้นกับข้อมูลการสั่งซื้อ
ของลูกค้า การเปลี่ยนแปลงระบบและการย้ายการใช้งานไปสู่ระบบใหม่จะเป็นสิ่งที่ทาให้เกิดความผิดพลาดกับ
ข้อมูลได้
Data aging ข้อมูลก็มีความคล้ายกับมนุษย์ที่มีอายุขัย และ สามารถเสื่อมสลายลงตามอายุ ซึ่งข้อมูลที่ความ
เก่ามากก็จะสูญเสียความสาคัญและอาจะไม่มีความหมายกับผู้ใช้ได้ ซึ่งถ้าข้อมูลมาจากระบบที่มีความเก่ามากๆ
เราต้องให้ความใส่ใจกับอายุขัยของข้อมูลด้วย
Heterogeneous System Integration ยิ่งข้อมูลที่นาเข้าสู่คลังข้อมูลมาจากหลายแหล่งข้อมูล หรือ
แหล่งข้อมูลที่ต่างชนิดกัน มากเท่าไหร่ ก็จะทาให้ยิ่งมีโอกาสในการที่จะมีข้อผิดพลาด หรือ ข้อมูลไม่มีคุณภาพ
มากขึ้นเท่านั้น ปัญหาความสอดคล้องของข้อมูลจะเป็นปัญหาที่มาจากระบบในลักษณะนี้ ดังนั้นเราควรจะต้อง
ระมัดระวังให้มากกับข้อมูลที่นามาใส่ใน dimension หรือ fact table ว่ามาจากระบบที่มีความแตกต่างกัน
มากน้อยเพียงใด หรือมาจากหลายแหล่งข้อมูล
Poor Database Design การออกแบบฐานข้อมูลที่ดีจะสามารถลดความผิดพลาดเกิดขึ้นได้ ถ้าเราใช้
DBMS เราจะสามรถแก้ไข field ต่างๆได้ แต่ถ้าเราใช้ RDBMS เราจะสามารถตรวจสอบความสอดคล้องของ
                                      ่
ข้อมูลกับกฎทางธุรกิจได้ผ่าน trigger ซึง adhering to entity integrity และ referential integrity rules
จะสามารถลดความผิดพลาดหรือความสกปรกของข้อมูลได้
Incomplete Information at Data Entry ในการกรอกข้อมูลถ้าผู้กรอกข้อมูลทาการกรอกข้อมูลไม่ครบ
จะทาให้เกิดความผิดพลาดขึ้น 2 ชนิดด้วยกันคือ 1) อาจเกิดการขาดหายไปของข้อมูลเนื่องจากผู้ใช้ไม่กรอก
ข้อมูลบาง field และ 2) ถ้าข้อมูลที่ไม่สามารถหาได้จาเป็นต่อการกรอกข้อมูล ผู้ใช้จะพยายามที่จะใช้ค่าทั่วไป
(generic value) กับข้อมูลที่ต้องทาการกรอก เช่น การกรอกข้อมูล N/A สาหรับชื่อเมืองจะทาให้เกิดความ
ผิดพลาดกับข้อมูลได้
Input Errors คือการเกิดข้อผิดพลาดกับการกรอกข้อมูล ในระบบข้อมูลแบบเก่าเมื่อสเมียนทาการกรอก
ข้อมูลเข้าสู่ระบบจะมีขั้นตอนการตรวจสอบความถูกต้องของข้อมูลโดยการให้สเมียนอีกคนทาการตรวจสอบ


                                                                                            9|Page
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย ดร.โกเมศ อัมพวัน
ข้อมูล แต่ในปัจจุบัน เมื่อพนักงานที่เกี่ยวข้องกับการทาธุรกรรมทางธุรกิจทาการกรอกข้อมูล การตรวจสอบ
ข้อมูลจะทาการตรวจสอบทางสายตาเท่านั้น ซึ่งอาจจะทาให้เกิดความผิดพลาดได้
Internationalization/Localization เนื่องจากการดาเนินธุรกิจมีการเปลี่ยนแปลงไป บางบริษัทได้ก้าว
เข้าสู่การทาธุรกิจระหว่างประเทศซึ่งมีความหลากหลายทั้งทางภูมิศาสตร์และวัฒนธรรม ดังนั้นเมื่อบริษัทก้าว
เข้าสู่การทาธุรกิจระหว่างประเทศจะทาให้ข้อมูลที่ทาการเก็บไว้อาจมีการเปลี่ยนแปลง โดยอาจมีค่าใหม่ๆ
เพิ่มขึ้น เช่น บริษัท NIKE ถ้าดาเนินธุรกิจในประเทศอเมริกาเพียงอย่างเดียวจะต้องทาการเก็บขนาดของ
รองเท้าตามหน่วยวัดของประเทศอเมริกา แต่เมื่อ NIKE ได้ดาเนินธุรกิจในประเทศญี่ปุ่นซึ่งใช้หน่วยเซนติเมตร
ในการวัดขนาดของรองเท้า จึงเป็นเหตุให้ระบบจะต้องทาการเก็บค่าใหม่ๆ ตามมาตรวัดที่เปลี่ยนแปลงไป ใน
ทานองเดียวกันถ้าบริษัทดาเนินธุรกิจเฉพาะบางภูมิภาคของประเทศจะทาให้บางค่าของข้อมูลไม่ได้ถูกใช้ได้ ซึ่ง
การเปลี่ยนแปลงการโครงสร้างการทาธุรกิจของบริษัทจะส่งผลต่อการแก้ไขระบบดาเนินการซึ่งอาจจะ
ก่อให้เกิดความผิดพลาดกับข้อมูลได้
Fraud ไม่ต้องตกใจว่ามีความพยายามที่จะกรอกข้อมูลที่ไม่ถูกต้องเพราะมันเป็นเรื่องธรรมดา ซึ่งการกรอก
ข้อมูลที่ผิดจะเป็นการปลอมแปลงหรือบิดเบือนข้อมูล ตัวอย่างเช่น การกรอกข้อมูลรายได้ของลูกค้า ลูกค้าบาง
คนไม่ต้องการเปิดเผยถึงจานวนที่แท้จริง จึงอาจทาให้มีการกรอกข้อมูลที่ไม่ถูกต้องได้ ดังนั้นเราอาจจะต้องมี
มาตราการในการป้องกันในการกรอกข้อมูลที่ไม่ถูกต้องได้ เช่น กาหนดช่วงของเงินของรายได้ซึ่งจะทาให้ลูกค้า
รู้สึกได้ว่าไม่ได้เปิดเผยถึงรายได้ที่แท้จริง ซึ่งการกรอกข้อมูลที่ไม่ถูกต้องจะส่งผลถึงคุณภาพของข้อมูลโดยตรง
Lack of Policies การป้องกันความผิดพลาดของข้อมูลและการรักษาไว้ซึ่งคุณภาพของข้อมูลที่ถูกเก็บอยู่ใน
แหล่งข้อมูลนั้นเป็นเรื่องที่ต้องทาการใส่ใจและพิจารณาให้รอบคอบ ถ้าองค์กรใดไม่ได้ให้ความสนใจกับคุณภาพ
ของข้อมูล องค์กรนั้นจะไม่สามารถมีข้อมูลที่มีคุณภาพในระดับที่ต้องการได้

Validation of Names and Addresses
 บริษัทโดยส่วนใหญ่จะเผชิญความยุ่งยากกับความซ้าซ้อนของข้อมูลชื่อและที่อยู่ โดยที่สาหรับบุคคล
หนึ่งอาจะมีข้อมูลเก็บอยู่หลาย record เมื่อระบบทาการเก็บข้อมูลไว้ในหลายแหล่งข้อมูลและไม่เว้นแม้แต่การ
เก็บข้อมูลไว้ในแหล่งข้อมูลเดียว แต่สาหรับคลังข้อมูลแล้วเราจะต้องทาการรวมข้อมูลชื่อและที่อยู่ของบุคคล
เข้าไว้ด้วยกัน ซึ่งจากเดิมอาจมีการเก็บข้อมูลที่มีการซ้าซ้อนอยู่ในหลายแหล่งข้อมูล ซึ่งการรวมข้อมูลเข้า
ด้วยกันอาจทาให้เกิดปัญหาขึ้นได้เมื่อเราต้องทาการจัดการกับข้อมูลที่มีความแตกต่างกันเช่น ข้อมูลของลูกค้า
พนักงาน ผู้ผลิตสินค้า และผู้ขายวัตถุดิบ
        ตัวอย่างของปัญหาที่อาจเกิดขึ้นในการเก็บชื่อและที่อยู่ของบุคคลคือ บริษัทที่ทาการประมูลสินค้าที่มี
ลูกค้าหลายชนิดทาในกิจกรรมที่ต่างๆกัน เช่น ลูกค้าบางรายอาจต้องทาการซื้อสินค้าจากการประมูล ลูกค้า
บางรายอาจต้องการนาสินค้ามาทาการประมูล ลูกค้าบางรายอาจต้องการที่จะขอแค๊ตตาลอกรายการสินค้า
เพื่อทาการตัดสินใจก่อนการประมูล ลูกค้าบางรายอาจนาสินค้ามาประเมินราคาเนื่องจากบริษัทมีผู้เชี่ยวชาญ
ในการประเมินราคาสินค้า และอื่นๆ จากที่กล่าวมาข้างต้นระบบการดาเนินการอาจต้องทาการเก็บข้อมูลของ
                                                                                          10 | P a g e
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย ดร.โกเมศ อัมพวัน
ลูกค้าแต่ละประเภท โดยที่ลูกค้าบางคนอาจทากิจกรรมหลายๆ อย่างทาให้ระบบอาจทาการเก็บข้อมูลชื่อและ
ที่อยู่ของลูกค้าอย่างซ้าซ้อนได้ ในกรณีที่บริษัทประมูลได้ขยายกิจการไปสู่การประมูลระดับนานาชาติ การ
กรอกชื่อและที่อยู่อาจะเกิดขึ้นในแต่ละประเทศที่ทาการประมูล ซึ่งเป็นการทาให้ข้อมูลเกิดความซ้าซ้อนอย่าง
มาก และอาจทาให้คุณภาพของข้อมูลต่าลง
        การเก็บชื่อและที่อยู่สามารถทาได้ 2 วิธีดังแสดงในรูปที่ 3 ถ้าชื่อและที่อยู่มีการเก็บข้อมูลโดยใช้
หลายๆ field จะทาให้ง่ายในการตรวจสอบความซ้าซ้อนตอนกรอกข้อมูล แต่อย่างไรก็ดีการกรอกข้อมูลชื่อ
และที่อยู่ก็ยังคงสร้างปัญหาให้กับระบบได้ดังนี้




รูปที่ 3 Data entry: name and address formats

       ไม่มีคีย์ที่ไม่ซ้ากัน (No unique key)
       มีหลายชื่อในบรรทัดเดียวกัน (Many names on one line)
       มีชื่อเดียวในสองบรรทัด (One name in two lines)
       ชื่อและที่อยู่ถูกกรอกในบรรทัดเดียวกัน (Name and the address in a single line)
       มีการกรอกข้อมูลผสมกันระหว่างชื่อและชื่อบริษัท (Personal and company names mixed)
       คนหนึ่งคนมีหลายที่อยู่ซึ่งแตกต่างกัน (Different addresses for the same person)
       ลูกค้าคนหนึ่งๆ มีหลายชื่อ และอาจมีการสะกดที่แตกต่างกัน (Different names and spelling for
        the same customer)



                                                                                           11 | P a g e
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย ดร.โกเมศ อัมพวัน
         ในการที่จะทาการลดความซ้าซ้อนของการเก็บข้อมูลชื่อและที่อยู่ของบุคคลในระบบ เราอาจต้องทา
การจัดเก็บข้อมูลโดยใช้การเก็บแบบหลาย field (จะต้องทาในกรณีที่ข้อมูลถูกเก็บไว้ใน field เดียว) จากนั้น
ทาการออกแบบอัลกอริทึมสาหรับตรวจสอบความเหมือนกันของข้อมูลและทาการหาแหล่งของข้อมูลที่ซ้ากัน
เพื่อลบข้อมูลที่ซ้ากันออก

Costs of Poor Data Quality
 ในการที่จะทาความสะอาดข้อมูลและการปรับปรุงข้อมูลเราจะต้องเสียค่าใช้จ่ายและความพยายาม
ถึงแม้ว่าคุณภาพของข้อมูลจะเป็นสิ่งสาคัญ แต่ก่อนที่จะเริ่มทาความสะอาดข้อมูลเราจะต้องทาการประเมิน
ค่าใช้จ่ายที่ต้องใช้รวมถึงพยายามทราบถึงข้อมูลใดที่จาเป็นต้องมีความถูกต้องหรือมีคุณภาพเป็นอย่างมาก ใน
การประเมินเราอาจขอความช่วยเหลือจากผู้ใช้ระบบซึ่งจะทราบถึงการสูญเสียโอกาสและความน่าจะเป็นที่จะ
ตัดสินใจ ซึ่งในการประเมินถึงความจาเป็นในการทาความสะอาดข้อมูลจะต้องพิจารณาสิ่งเหล่านี้

     การตัดสินใจที่ไม่ดีจากการวิเคราะห์งานประจา (Bad decisions based on routine analysis)
     การเสีย โอกาสทางธุรกิจเนื่องจากข้อมูลไม่พร้อมใช้งาน หรือข้อมูลสกปรก (Lost business
      opportunities because of unavailable or “Dirty” data)
     ค่าปรับทางจากรัฐบาลหรือหน่วยงานราชการสาหรับการไม่ยินยอมทางานหรือฝ่าฝืนกฎข้อบังคับ
      (Fines from governmental agencies for noncompliance or violation of regulatios)
     ความละเอียดของการตรวจสอบปัญหา (Resolution of audit problems)
     ความซ้าซ้อนของข้อมูลที่ไม่จาเป็นต่อการทางาน (Redundant data unnecessarily for business
      routine)
     รายงานที่ไม่สอดคล้องกัน (Inconsistent reports)
     เวลาและความพยายามในการแก้ไขข้อมูล ให้ถูกต้องในทุกๆครั้งที่มีการพบข้อมูลที่ไม่มีความผิดพลาด
      (Time and effort for correcting data every time data corruption is discovered)

Data Quality Tools
 ในปัจจุบันได้มีเครื่องมือสาหรับทาความสะอาดข้อมูลวางจาหน่าย เราสามารถประยุกต์ใช้เครื่องมือ
นั้นๆ ทาความสะอาดข้อมูลที่ถูกเก็บอยู่ในแหล่งข้อมูลได้ รวมถึงสามารถนาไปประยุกต์ใช้ใน staging area
กล่าวคือ หลังจากทาการสกัดข้อมูลแล้วเราจะประยุกต์ใช้เครื่องมือในการทาความสะอาดข้อมูลก่อนที่จะทา
การถ่ายโอนข้อมูลเข้าสู่คลังข้อมูล โดยที่ในปัจจุบันผู้พัฒนาเครื่องมือในการทาความสะอาดข้อมูลได้ผลิตชุด
เครื่องมือที่สามารถรวมเข้ากับเครื่องมือสาหรับการทา ETL แล้ว

Categories of Data Cleansing Tools
        การใช้เครื่องมือช่วยในการทาความสะอาดข้อมูลโดยส่วนใหญ่แล้วจะมีการทางานหลักๆ 2 ฟังก์ชัน
ด้วยกันคือ 1) ช่วยในการระบุถึงข้อมูลที่ไม่ถูกต้องและข้อมูลที่ไม่สอดคล้องกัน (Data error discovery tools)
                                                                                           12 | P a g e
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย ดร.โกเมศ อัมพวัน
และ 2) ช่วยทาการแก้ไข้ข้อมูลที่มีความผิดพลาดได้อีกด้วย (Data correction tools) ซึ่งเครื่องมือดังกล่าวจะ
ใช้อัลกอริทึม การแจงส่วน (parse) การเปลี่ยนรูป (transform) การเปรียบเทียบ (match) การรวมเข้า
ด้วยกัน (Consolidate) และ การแก้ใช้ข้อมูลให้ถูกต้อง (Correct the data)
Error Discovery Features
       เครื่องมือที่ใช้ในการค้นหาความผิดพลาดของข้อมูลจะประกอบไปด้วยฟังก์ชันการทางานดังต่อไปนี้

     ระบุ record ที่ซ้ากันได้อย่างรวดเร็วและง่ายดาย (Quickly and easily identify duplicate
      records)
     ระบุถึงข้อมูลที่มีค่าที่อยู่นอกช่วงของค่าโดเมน ที่กาหนด (Identify data items whose values are
      outside the range of legal domain values)
     ค้นหาข้อมูลที่ไม่สอดคล้องกัน (Find inconsistent data)
     ตรวจสอบขอบเขตของข้อมูล (Check for range of allowable values)
     ตรวจจับข้อมูลที่ไม่สอดคล้องกันจากแหล่งข้อมูลที่แตกต่างกัน (Detect inconsistencies among
      data items from different sources)
     อนุญาตให้ผู้ใช้ระบุและ บอกปริมาณปัญหาของคุณภาพของข้อมูล (Allow users to identify and
      quantify data quality problems)
     ตรวจสอบแนวโน้ มคุณภาพของข้อมูลในช่วงเวลา ต่างๆ (Monitor trends in data quality over
      time)
     รายงานคุณภาพของข้อมูลที่ใช้ในการวิเคราะห์ ไปยังผู้ใช้ (Report to users on the quality of
      data used for analysis)
     ตรวจสอบปัญหาเกี่ยวกับ RDBMS referential integrity (Reconcile problems of RDBMS
      referential integrity)
Data Correction Features
      เครื่องมือที่ใช้ในการแก้ไขข้อมูลให้ถูกต้องจะต้องประกอบไปด้วยฟังก์ชันการทางานดังต่อไปนี้

     ทาให้ข้อมูลที่ไม่สอดคล้องกันกลายเป็นปกติ (Normalize inconsistent data)
     ปรับปรุงการรวมข้อมูลจากแหล่งข้อมูลที่ไม่เหมือนกัน (Improve merging of data from
      dissimilar data sources)
     ทาการรวมกลุ่มและสร้างความสัมพันธ์ให้กับข้อมูลลูกค้าที่อยู่ในครอบครัวเดียวกัน (Group and
      relate customer records belonging to the same household)
     จัดเตรียมการวัด/ประเมินคุณภาพของข้อมูล (Provide measurements of data quality)
     ทาข้อมูลให้อยู่ในรูปแบบที่เป็นมาตราฐาน (Standardize data elements to common formats)
                                                                                          13 | P a g e
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย ดร.โกเมศ อัมพวัน
     ตรวจสอบค่าที่อนุญาต (Validate for allowable values)
The DBMS for Quality Control
       เราสามารถใช้ระบบการจัดการฐานข้อมูลเพื่อควบคุมคุณภาพของข้อมูลได้ โดยที่ RDBMS จะมีหลาย
คุณลักษณะพิเศษที่สามารถช่วยป้องกันการเกิดข้อผิดพลาดกับข้อมูลที่ค่อยเกิดขึ้นกับคลังข้อมูลดังนี้
Domain Integrity อนุญาติให้มีการแก้ไขขอบเขตของข้อมูล และทาการป้องกันการกรอกข้อมูลออกนอก
ขอบเขตที่กาหนดไว้โดยการใช้ data dictionary
Update Security เป็นการป้องกันการทางานที่ไม่มีอานาจมาอัพเดทข้อมูลในฐานข้อมูล
Entity Integrity Checking เป็นการทาให้แน่ใจว่าข้อมูล record ที่ซ้ากัน และมีคีย์หลักเหมือนกันจะไม่ถูก
เพิ่มเข้ามาในฐานข้อมูล
Minimize missing values เป็นการทาให้แน่ใจว่าจะไม่อนุญาติให้มี NULL ใน field ที่จาเป็น
Referential Integrity Checking เป็นการทาให้แน่ใจว่าความสัมพันธ์ของ foreign key นั้นยังคงมีอยู่ และ
ทาการป้องกันการลบของแถวแม่ที่เกี่ยวข้อง
Conformance to Business Rules ใช้โปรแกรม trigger และขั้นตอนการจัดเก็บข้อมูล (Stored
procedures) ในการบังคับให้ข้อมูลเป็นไปตามกฎทางธุรกิจ ซึ่ง trigger จะถูกเก็บอยู่ในบานข้อมูลอยู่แล้ว
โปรแกรม trigger จะทางานอัตโนมัติเมื่อข้อมูลที่กาหนดมีการอัพเดทหรือถูกลบ ในขณะที่ขั้นตอนในการ
จัดเก็บข้อมูลอาจถูกออกแบบสาหรับการบังครับทาให้ข้อมูลที่ถูกกรอกเข้ามามีความสอดคล้องกับกฎทางธุรกิจ
ซึ่งขั้นตอนในการจัดเก็บข้อมูลอาจถูกเรียกว่า application program

Data Quality Initiative
           แม้ว่าคุณภาพของข้อมูลจะมีความสาคัญมาก แต่หลายๆ บริษัทยังคงมีคาถามว่าควรจะเอาใจใส่กับ
คุณภาพของข้อมูล หรือ การทาความสะอาดข้อมูลหรือไม่ ในหลายๆกรณีข้อมูลที่ขาดหายไปในบาง attribute
ก็ไม่สามารถสร้างขึ้นใหม่ได้ หรือ บางข้อมูลก็มีความซับซ้อนมากเกินกว่าที่จะทาความสะอาดได้ จากเหตุการณ์
ที่เกิดขึ้นจึงมีคาถามตามมามากมาย เช่น เราควรทาความสะอาดข้อมูลหรือไม่ ? เราต้องทาความสะอาดข้อมูล
เป็นจานวนเท่าใด? ส่วนใดของข้อมูลที่จะมีความสาคัญสูงที่จะทาความสะอาดข้อมูล ? จากคาถามที่เกิดขึ้นอาจ
ทาให้บริษัทต่างๆไม่สนใจหรือต่อต้านที่จะทาความสะอาดข้อมูล ซึ่งการละเลยในการทาความสะอาดข้อมูลอาจ
เกิดจากปัจจัยดังต่อไปนี้

     การทาความสะอาดข้อมูลเป็นเรื่องที่น่าเบื่อหน่อยและเสียเวลา
     เมตาดาต้าจากหลายๆ แหล่งข้อมูลอาจสูญหายไปหรือไม่ได้มีการเก็บข้อมูลไว้


                                                                                        14 | P a g e
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย ดร.โกเมศ อัมพวัน
    ผู้ใช้ที่ต้องการข้อมูลที่มีคุณภาพมีหน้าที่อื่นๆ ที่ต้องรับผิดชอบมากมาย ซึ่งทาให้การทาให้คุณภาพอยู่
     ในความสนใจลาดับท้ายๆ
    ในบางครั้งการทาความสะอาดข้อมูลนั้นเป็นกิจกรรมที่ยิ่งใหญ่มาก มีการทางานที่ซ้าซ้อน ซึ่งเป็นเหตุ
     ให้บริษัทต่างๆเกิดความหวาดกลัวที่จะเริ่มต้นการทาความสะอาดข้อมูล
   ในการสร้างการทาความสะอาดข้อมูล คุณอาจเลือกกลยุทธ์ใดกลยุทธ์หนึ่งจาก 2 กลยุทธ์ดังต่อไปนี้

    คุณอาจเลือกที่จะความสะอาดเฉพาะข้อมูลที่จะทาการถ่ายโอนเข้าสู่คลังข้อมูล ซึ่งจะทาให้ข้อมูลที่มี
     คุณภาพ 100% เท่านั้นที่จะถูกถ่ายโอนเข้าสู่คลังข้อมูล ข้อมูลที่มีความผิดพลาดจะต้องถูกแก้ไขก่อนที่
     จะทาการโหลด ซึ่งการทางานจะเริ่มจากการตรวจจับความผิดพลาดของข้อมูล แล้วทาการแก้ไขข้อมูล
     ซึ่งการทางานในลักษณะนี้จะทาให้ใช้เวลานานในการทาความสะอาดข้อมูลก่อนที่จะถ่ายโอนข้อมูล
     เข้าสู่คลังข้อมูล
    “Clean as you go” จะทาการโหลดข้อมูลที่เป็น “as is” (อ่านบท ETL) เข้าสู่คลังข้อมูล จากนั้นทา
     ความสะอาดข้อมูลในหลังข้อมูลในภายหลัง ข้อมูลที่ถูกโหลดเข้าสู่คลังข้อมูลแล้วแต่ยังไม่ได้ทาความ
     สะอาดจะเป็นข้อมูลที่ยังไม่มีความน่าเชื่อถือ เราจะต้องรอให้ข้อมูลนั้นๆถูกทาความสะอาดเสียก่อน
     วิธีการนี้จะทาให้คุณภาพของข้อมูลนะช่วงเวลาหนึ่งๆ ขาดความน่าเชื่อถือ ซึ่งความน่าเชื่อถือนั้นถือว่า
     เป็นสิ่งสาคัญมากๆสาหรับการใช้คลังข้อมูล




                                                                                            15 | P a g e
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย ดร.โกเมศ อัมพวัน
Data Cleansing Decisions
          ก่อนที่เริ่มทาความสะอาดข้อมูล ผู้พัฒนาคลังข้อมูล และ ผู้ใช้คลังข้อมูล ควรจะต้องรู้ถึงการตัดสิน
เบื้องต้นก่อนว่ามีอะไรบ้าง จากนั้นเราต้องทาการค้นหาว่าข้อมูลใดส่งผลต่อการตัดสินใจบ้าง อย่างที่เราทราบ
กันดีว่าเราไม่สามารถทาความสะอาดข้อมูลทั้งหมดได้ เนื่องจากข้อจากัดทางด้านเวลาและงบประมาณ ดังนั้น
เราจะทาความสะอาดข้อมูลที่จาเป็นบางส่วนเท่านั้น ตัวอย่างเช่น ถ้าข้อมูลจากคลังข้อมูลจะต้องสร้างรายงาน
เกี่ยวกับลูกค้า 25 คนที่มีการซื้อสินค้าสูงที่สุด ข้อมูลการขายจะต้องมีคุณภาพสูง หรือ ถ้าข้อมูลสถิติประชาการ
จะถูกใช้สาหรับการคิดค้นแคมเปญใหม่ๆ คุณภาพของข้อมูลสถิติประชากรอาจจาเป็นต้องมีรายละเอียดมาก

Which Data to Cleanse
 ในการเลือกว่าข้อมูลใดที่ควรจะต้องทาความสะอาดนั้น เราจะต้องรู้ว่ารายงานหรือคาถามที่ต้องการ
ถามจากคลังข้อมูลมีอะไรบ้าง จากนั้นการหาแหล่งข้อมูลเพื่อตอบคาถามเหล่านั้น นอกจากนี้เราต้องทาการ
ประเมินถึงประโยชน์ที่คาดว่าจะได้รับจากการทาความสะอาดข้อมูลแต่ละชิ้น และ ประเมินว่าถ้าเราทาความ
สะอาดข้อมูลหรือปล่อยให้ข้อมูลมีความสกปรกอยู่ จะมีผลกระทบต่อการวิเคราะห์ข้อมูลจากคลังข้อมูลหรือไม่
ในการประเมินต่างๆ เราจะให้ผู้ใช้เป็นคนตัดสินใจ โดยที่ผู้สร้างคลังข้อมูลจะช่วยเหลือเล็กน้อยเท่านั้น

Where to Cleanse
          ข้อมูลในคลังข้อมูลจะมาจากระบบดาเนินการซึ่งข้อมูลอาจะมีความผิดพลาดอยู่บ้าง การเก็บข้อมูลเข้า
สู่คลังข้อมูลจะเริ่มจากการสกัดข้อมูลแล้วทาการเก็บไว้ใน staging area จากนั้นทาการถ่ายโอนข้อมูลจาก
staging area เข้าสู่คลังข้อมูล จากขั้นตอนการดาเนินงานที่กล่าวมาข้างต้นจะมีอยู่ 3 ที่ที่จะมีข้อมูลอยู่คือ
แหล่งข้อมูล staging area และ คลังข้อมูล เราสามารถเลือกทาความสะอาดที่ใดที่หนึ่งก็ได้ หรือจะทาความ
สะอาด 2 ใน 3 หรือทาความสะอาดในทุกที่ที่มีข้อมูลเลยก็ได้
 ในการทาความสะอาดข้อมูลในคลังข้อมูลเราอาจไม่มีประสิทธิภาพมากนั้เมื่อเทียบกับการทาความ
สะอาดในที่อื่นๆ เนื่องจากอาจะประสบปัญหาการมีฟังก์ชันการทางานที่มากเกินไปสาหรับการเคลื่อนย้าย
ข้อมูล และ การถ่ายโอนข้อมูล เข้าสู่คลังข้อมูล ดังนั้นในทางปฏิบัติแล้วเราจะทาความสะอาดข้อมูลก่อนที่จะ
ทาการโอนถ่ายข้อมูลเข้าสู่คลังข้อมูล ดังนั้นการทาความสะอาดข้อมูลอาจทาจาก staging area หรือ จาก
แหล่งข้อมูล จะเป็นสองทางเลือกที่จะดีกว่าการทาความสะอาดข้อมูลในคลังข้อมูล
 การทาความสะอาดข้อมูลใน                 staging are น่าเป็นสิ่งที่จะดีที่สุด เนื่องจากเป็นการทางานหลังจากทา
การสกัดข้อมูลแล้ว ซึ่งจะมีข้อมูลที่เหมาะกับคลังข้อมูลเท่านั้น แต่อย่างไรก็ตามการทาความสะอาดข้อมูลใน
staging area ยังมีข้อด้อยอยู่ที่ คือ ข้อมูลในแหล่งข้อมูลจะยังคงมีความผิดพลาดอยู่ และ ยังไม่ได้รับการแก้ไข
นอกจากนี้จะมีความแตกต่างของรายงานที่สร้างขึ้นจากข้อมูลเหมือนกันซึ่งถูกเก็บไว้ในแหล่งข้อมูลและ
คลังข้อมูล จากความแตกต่างที่เกิดขึ้นจะทาให้ระบบขาดความน่าเชื่อถือได้



                                                                                              16 | P a g e
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย ดร.โกเมศ อัมพวัน
 การทาความสะอาดข้อมูลในแหล่งข้อมูล อาจเป็นการขจัดปัญหาต่างๆที่ได้กล่าวมาข้างต้น แต่อย่างไร
ก็ดีเราอาจจะต้องพบกับความยุ่งยากและอุปสรรคมากมายในการทางาน เมื่อบางแหล่งข้อมูลหรือบางระบบไม่
มีเอกสารคู่มือการทางานที่ดีพอ รวมถึงในบางระบบอาจไม่มี source code ให้เลยก็เป็นได้

How to Cleanse
          นี่คือคาถามเมื่อคุณตัดสินใจที่จะใช้เครื่องมือใรการทาความสะอาดข้อมูล ซึ่งจะมีคาถามอื่นๆตามมา
อีกมากมาย เช่น คุณใช้เครื่องมือในการทาความสะอาดข้อมูลเพียงอย่างเดียวใช้หรือไม่ ? คุณทาการรวมชุด
เครื่องมือสาหรับทาความสะอาดข้อมูลเข้ากับเครื่องมือสาหรับ ETL หรือไม่ ? ถ้าไม่คุณมีการ implement
โปรแกรมเองมากน้อยแค่ไหน จากคาถามที่กล่าวข้างต้น ถ้าเราเลือกใช้เครื่องมือในการทาความสะอาดข้อมูล
เราต้องตรวจสอบว่าระบบที่เราสร้างขึ้นนั้นสามารถรองรับชุดเครื่องมือเหล่านี้ได้หรือไม่ ถ้าระบบของเราไม่
สามารถรองรับข้อมูลเหล่านี้ได้เราจะเป็นต้อง implement เอง

How to Discover the Extent of Data Pollution
 ก่อนที่จะใช้เทคนิคต่างๆในการทาความสะอาดข้อมูล เราจะต้องประเมินขอบเขตของความผิดพลาด
หรือคุณภาพของข้อมูลเสียก่อน โดยทาลิสต์ที่สะท้อนถึงความผิดพลาดของระบบการดาเนินการ จากนั้นทา
การประเมินของขอบเขตของความผิดพลาดโดยพิจารณาถึงความผิดพลาดของระบบที่ได้ลิสต์ไว้ รูปที่ 4 แสดง
ถึงวิธีการในการตรวจสอบขอบเขตของความผิดพลาด เราสามารถใช้วิธีเหล่านี้เข้ากับคลังข้อมูลที่เราสร้างขึ้น




                                                                                        17 | P a g e
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย ดร.โกเมศ อัมพวัน
รูปที่ 4 Discovering the extent of data pollution
Setting Up a Data Quality Framework
       ขั้นตอนการสร้าง data quality framework จะแสดงดังรูปที่ 5




รูปที่ 5 Data quality framework

Who Should Be Responsible?
       รูปที่ 6 แสดงถึงผู้ที่มีส่วนร่วมกับการปรับปรุงคุณภาพของข้อมูล ซึ่งมีหน้าที่ที่แตกต่างกันดังนี้
Data Consumer เป็นคนที่ใช้คลังข้อมูลสาหรับการทา query การทารายงาน และการวิเคราะห์ข้อมูล ซึ่ง
จะเป็นคนกาหนดระดับของคุณภาพของข้อมูลที่ยอมรับได้
Data Producer รับหน้าที่การพิจาณาคุณภาพของข้อมูลที่ได้จากแหล่งข้อมูล
Data Expert เป็นผู้เชี่ยวชาญในเกี่ยวกับข้อมูลในแหล่งข้อมูล รับหน้าที่ในการระบุความผิดพลาดของ
แหล่งข้อมูล
Data Policy Administrator รับผิดชอบเกี่ยวกับการแก้ไขความผิดพลาดของข้อมูล การเปลี่ยนรูปข้อมูล
และการถ่ายโอนข้อมูลเข้าสู่คลังข้อมูล
Data Integrity Specialist ทาหน้าที่เกี่ยวกับตรวจาสอบความสอดคล้องของข้อมูลจากแหล่งข้อมูลกับกฎ
ทางธุรกิจ
                                                                                                18 | P a g e
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย ดร.โกเมศ อัมพวัน
รูปที่ 6 Data quality: participants and roles

The Purification Process
 คุณจะสามารถทาการปรับปรุงคุณภาพของข้อมูลได้อย่างไร          ? ในการปรับปรุงคุณภาพของข้อมูล เรา
ควรจัดลาดับความสาคัญของข้อมูล โดยอาจแบ่งเป็น 3 ระดับ คือ สูง กลาง และ ต่า ในกลุ่มของความสาคัญ
ระดับสูงข้อมูลอาจต้องมีคุณภาพถึง 100% แต่ในระดับกลางอาจต้องการข้อมูลที่มีคุณภาพมากที่สุดเท่าที่จะ
เป็นไปได้ และระดับต่าข้อมูลอาจถูกทาความสะอาดถ้าเรามีเวลาและทรัพยากรเพียงพอ จากการแบ่งลาดับ
ความสาคัญของข้อมูลทาให้เราสามารถเริ่มการทาความสะอาดข้อมูลที่มีความสาคัญระดับสูง จากนั้นค่อย
เปลี่ยนมาทาความสะอาดข้อมูลที่มีความสาคัญระดับกลางต่อไป
        ปัญหาที่มักจะพบบ่อยเกี่ยวกับคุณภาพของข้อมูล คือ การซ้ากันของข้อมูล ซึ่งมักจะเกิดกับข้อมูลของ
บุคคล เช่น ลูกค้า พนักงาน และผู้ร่วมลงทุน จากปัญหาที่เกิดขึ้นเราต้องตรวจสอบให้แน่ใจว่าเทคนิคต่างๆ จะ
สามารถระบุถึง record ที่มีการซ้ากัน และทาการเปลี่ยนการเชื่อมโยงกับ record อื่นๆที่เกี่ยวข้องกัน รูปที่ 7
แสดงถึงขั้นตอนในการปรับปรุงคุณภาพของข้อมูล ซึ่งประกอบไปด้วยขั้นตอนย่อยดังต่อไปนี้




                                                                                           19 | P a g e
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย ดร.โกเมศ อัมพวัน
รูปที่ 7 Overall data purification

       กาหนดความสาคัญของข้อมูลที่มีคุณภาพ (Establish the importance of data quality)
       กาหนดคณะกรรมการดูแลคุณภาพของข้อมูล (Form a data quality steering committee)
       กาหนดขอบข่ายงานของการทาให้ข้อมูลมีคุณภาพ (Institute a data quality framework)
       กาหนดหน้าที่และความรับผิดชอบ (Assign roles and responsibilities)
       เลือกเครื่องมือสาหรับช่วยในการปรับปรุงคุณภาพของข้อมูล (Select tools to assist in the data
        purification process)
       จัดเตรียมการโปรแกรมภายในองค์กรเมื่อทาเป็น (Prepare in-house programs as needed)
       อบรบพนักงานต่างๆเกี่ยวกับเทคนิคในการทาความสะอาดข้อมูล (Train the participants in data
        cleansing techniques)
       ทบทวนและยืนยันมาตรฐานข้อมูล (Review and confirm data standards)
       จัดลาดับความสาคัญของข้อมูลเป็น ระดับสูง ระดับกลาง และ ระดับต่า (Prioritize data into high,
        medium, and low categories)
       เตรียมตารางเวลาสาหรับการเริ่มการปรับปรุงคุณภาพของข้อมูลที่มีลาดับความสาคัญสูง (Prepare a
        schedule for data purification beginning with the high priority data)
       ตรวจสอบให้แน่ใจว่าเทคนิค สาหรับการลดความซ้าซ้อนของ record และการตรวจสอบข้อมูลจาก
        ภายนอก (Ensure that techniques are available to correct duplicate records and to
        audit external data)
       ดาเนินการปรับปรุงข้อมูลตามตารางเวลาที่กาหนดไว้ (Proceed with the purification process
        according to the defined schedule)
                                                                                     20 | P a g e
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย ดร.โกเมศ อัมพวัน
Practical Tips on Data Quality
    ระบุข้อมูลที่มีความผิดพลาดซึ่งมีผลกระทบต่อการทางานค่อนข้างมาก และเริ่มการปรับปรุงคุณภาพ
     ของข้อมูลจากข้อมูลเหล่านั้น (Identify high-impact pollution sources and begin your
     purification process with these)
    อย่าพยายามที่จะทาทุกอย่างที่ โดยการเขียนโปรแกรมเอง (Do not try to do everything with in-
     house programs)
    เครื่องมือเป็นสิ่งที่ดีและมีประโยชน์ ทาการเลือกเครื่องมือที่เหมาะสม (Tools are good and
     useful. Select the proper tools)
    เห็นด้วยกับมาตราฐาน (Agree on standards)
    ทาการเชื่อมโยงคุณภาพของข้อมูลกับความต้องการทางธุรกิจ (Link data quality with specific
     business objectives)




                                                                                 21 | P a g e
Data Warehouse Design (การออกแบบคลังข้อมูล) โดย ดร.โกเมศ อัมพวัน

				
DOCUMENT INFO
Shared By:
Categories:
Stats:
views:57
posted:10/3/2012
language:Thai
pages:21