Name of presentation - Download Now PowerPoint

Document Sample
Name of presentation - Download Now PowerPoint Powered By Docstoc
					การวิเคราะห์กลุ่ม (Cluster Analysis)
                 โดย
       นางสาวจิตรลดา ทองอันตัง
        นายสุ ขสมพร อโนไท


                                       •1
         1.ความหมายของ Cluster Analysis
- เป็ นเทคนิ คที่ใช้จำแนกหรื อจัด Case (หมำยถึง คน สัตว์
สิ่ งของ หรื อ องค์กร ฯลฯ) หรื อจัดตัวแปรออกเป็ นกลุ่มย่อย ๆ
                                 ่
ตั้งแต่ 2 กลุ่มขึ้นไป Case ที่อยูในกลุ่มเดียวกันจะมีลกษณะที่
                                                     ั
เหมือนกันหรื อคล้ำยกัน ส่ วน Case ที่อยู่ต่ำงกลุ่มกันจะมี
ลักษณะที่แตกต่ำงกัน
             ่                              ั
- ตัวแปรอยูในกลุ่มเดียวกันมีควำมสัมพันธ์กนมำกกว่ำตัวแปรที่
     ่                      ่                          ั
อยูต่ำงกลุ่มกัน ตัวแปรที่อยูต่ำงกลุ่มกันมีควำมสัมพันธ์กนน้อย
                        ั
หรื อไม่มีควำมสัมพันธ์กนเลย
                                                          •2
Cluster Analysis
จัดกลุ่มโดยพยำยำมให้สิ่งที่อยู่ในกลุ่มเดียวกันมีควำมคล้ำยคลึงกัน
มำกที่สุด (Minimize Intra-Cluster Distances) และพยำยำมให้แต่ละ
กลุ่ ม มี ค วำมแตกต่ ำ งกัน มำกที่ สุ ด (Maximize    Inter-Cluster
Distances)                                        Inter-cluster
         Intra-cluster                            distances are
         distances are                             maximized
           minimized




                                                                  •3
                             Cluster Analysis
• การวิเคราะห์เพื่อศึกษาว่าบุคคล (Cases) หรื อสิ่ งต่างๆ (Objects) จะ
  สามารถนามาจัดกลุ่มกันตามความเหมือน (Similarity) หรื อ
  ความแตกต่าง (Dissimilarity or Distance) ของตัวแปร (Variables)
  ได้กี่กลุ่ม อย่างไรบ้าง
• บุคคลหรื อสิ่ งที่มีความคล้ายคลึงกันในตัวแปรที่นามาวิเคราะห์จะ
             ่
  ถูกจัดอยูในกลุ่ม (Cluster) เดียวกัน ส่ วนบุคคลหรื อสิ่ งที่แตกต่างกัน
                          ่
  ในตัวแปรจะถูกจัดอยูคนละกลุ่มกัน


                                                                    •4
2.ข้อสมมติหรื อเงื่อนไขเทคนิดการวิเคราะห์กลุ่ม

1.   ไม่ทราบจานวนกลุ่มมาก่อนว่ามีกี่กลุ่ม
2.   ไม่ทราบมาก่อนว่าหน่วยไหนหรื อคนใดจะอยูกลุ่มใด ่
3.                                    ่
     หน่วยหรื อคนใดคนหนึ่งจะต้องอยูกลุ่มใดกลุ่มหนึ่งเพียงกลุ่มเดียว
4.   ตัวแปรที่ใช้ในการแบ่งกลุ่มมีมากกว่า 1 ตัว และตัวแปรอาจเป็ นตัว
     แปรตัวแปรที่มีค่าได้เพียง 2 ค่า หรื อเป็ นตัวแปรเชิงคุณภาพ หรื อตัว
     แปรเป็ นปริ มาณ



                                                                      •5
      3. วัตถุประสงค์ ของ Cluster Analysis

       เพือจัดกลุ่ม Case ซึ่งจะเป็ นประโยชน์ในงานด้าน
          ่
ต่าง ๆ เช่นการตลาด การแพทย์ การปกครอง ฯลฯ ดัง
ตัวอย่างต่อไปนี้




                                                        •6
ตัวอย่างที่ 1 ใช้ศึกษาพฤติกรรมการบริ โภคของกลุ่มผูบริ โภค้
ที่ อ ยู่ ต่ า งกลุ่ ม กั น ซึ่ งจะท าให้ ส ามารถวางกลยุ ท ธ์ ท าง
การตลาดได้อย่างมีประสิ ทธิ ภาพมากขื้น การที่จะสามารถ
แยกกลุ่มผูบริ โภคเป็ นกลุ่มย่อยได้ จะต้องพิจารณาถึงตัวแปร
                ้
                                                 ู้ ่
ที่ใช้ในการแบ่งกลุ่มผูบิริโภค ที่จะทาให้ผที่อยูต่างกลุ่มกันมี
                                ้
พฤติ ก รรมการบริ โ ภคที่ แ ตกต่ า งกัน ตัว แปรดั่ง กล่ า วอาจ
ประกอบด้วย อาชีพ อายุ รายได้ เป็ นต้น




•5/25/2012                                                           •7
                                    ี่ ้
ตัวอย่างที่ 2 การเปรี ยบเทียบรถยนต์ยหอต่างๆ โดยที่ 1 Case
                ่ ้
คือรถยนต์ 1 ยีหอซึ่ งพิจารณาจากตัวแปร เช่น ความถี่ในการ
ซ่อม ลูกสูบ ระบบแบรก ค่าใช้จ่ายต่อกิโลเมตรราคาเป็ นต้น




                                                        •8
ข้ อสั งเกต
   จำกตัวอย่ำงที่ 1 ข้ำงต้น จะพบว่ำกำรเลือกตัวแปรเพื่อนำมำใช้
จัดกลุ่ม Case มีควำมสำคัญมำก เพรำะถ้ำผูวิจยเลือกตัวแปรที่
                                            ้ ั
ไม่ได้ทำ Case แตกต่ำงกันแล้ว จะทำให้ไม่สำมำรถจัดกลุ่มได้
ถูกต้อง กำรเลือกจะต้องพิจำรณำว่ำตัวแปรใดบ้ำงที่มีอิทธิ พลทำ
ให้เกิดควำมแตกต่ำง นอกจำกนั้น กำรจัดกลุ่มตัวแปรทำให้ทรำบ
                                  ั
ว่ำตัวแปรใดบ้ำงที่มีควำมสัมพันธ์กน กำรเปลี่ยนแปลงของตัว
แปรบำงตัวย่อมมีผลกระทบต่อตัวแปรอื่น ๆ ที่มีควำมสัมพันธ์กบ  ั
ตัวแปรดังกล่ำว
                                                          •9
4.การวัดความคล้ าย (Similarity Measure)
           ดังที่ได้ กล่ าวมาแล้ วถึงหลักเกณฑ์ ของเทคนิค Cluster ว่ าจะใช้
 ในการจั ด Case ที่ ค ล้ า ยกัน ไว้ ใ นกลุ่ ม เดี ย วกัน หรื อ จั ด กลุ่ ม ตั ว แปรที่
            ั
 สั มพันธ์ กนไว้ ในกลุ่มเดียวกัน นั่นคือ จะมีความวัดคล้ ายกันของ Case ที่
 ละคู่ ในกรณีที่เป็ นการจัด กลุ่ม Case ส่ วนการจัด กลุ่มตัวแปร การวัด
 ความคล้ ายจะเป็ นการวัดความคล้ ายของตัวแปรแต่ ละคู่ คือการหาค่ า
 สั มประสิ ทธิ์สหสั มพันธ์ เมื่อต้ องการจัดกลุ่ม Case




                                                                                    •10
        4.1 การวัดค่ าความต่ าง ของหน่ วย 2 หน่ วย เช่ น คน 2 คน หรือ 2
        องค์ กร เป็ นการหาระยะห่ าง ระหว่ าง 2 หน่ วย เช่ นการศึกษา ความต่ าง
        ของคน 2 คน (นาย ก และ นาย ข) ในด้ านรายได้ รายจ่ าย ถ้ านาย ก และ
        นาย ข มีความต่ างกันน้ อย หรือระยะห่ างต่ างกันน้ อย หรือถ้ าระยะห่ าง
                                                             ั                ่
        ก และ ข มีรายได้ ไกล้ศูนย์ แสดงว่ า ก และ ข อยู่ใกล้กน หรือค้ ายกัน จึง
        ควรให้ นาย ก และ นาย ข อยู่ในกลุ่มเดียวกัน แต่ ถ้านาย ก และ นาย จ
        มีความต่ างกันมากหรืออยู่ห่างกันมากจึ่งมีรยะห่ างมาก ก็จะจัดให้ นาย ก
        และนาย จ อยู่คนละลุ่ม




•5/25/2012                                                                    •11
  ระยะห่างยุดลิดกาลังสอง (Euclidean Distance)




•5/25/2012                                      •12
ตัวอย่ าง 3 การศึกษาความแตกต่างของอายุและรายได้ของนายสาวจอย
                      ้
และนางสาวพลอยได้ขอมูลดังนี้
                                        อายุ (ปี ) รายได้(บาท)
   ข้ อมูลดิบ
                    จอย                 20         7,200
                    พลอย                40         7,500
                    ค่าเฉลี่ย           30         7,350
                    ค่าเบี่ยงเบนมาตรฐาน

•การวัดความต่างของนางสาวจอย และนางสาวพลอย ในที่น้ ีจะใช้ระยะห่าง
ยุคลิดกาลังสอง
ระยะห่าง=                               =400+90,000=90,400
                                                                 •13
      ่
ค่าเบียงเบนมาตรฐาน




                     •14
ค่ ามาตฐานของข้ อมูล
                อายุ   รายได้

        จอย

        พลอย




                                •15
•5/25/2012   •16
ระยะห่างของจอย และพลอย =

            ซึ่ งเป็ นผลจากอายุและรายได้เท่ากัน คือร้อย
         ละ 50 ดังนั้นก่อนใช้เทคนิคการวิเคราะกลุ่มควร
         ปรับหรื อจากัดหน่ วยของตัวแปรที่แตกต่างกัน
         ออกไป ดั ง ในตั ว อย่ า งนี้ ปรั บ ให้ เ ป็ นค่ า
         มาตรฐานที่ไม่มีหน่วย


•5/25/2012                                                   •17
•
           4.3 การคานวณระยะห่ างและความคล้ายของข้ อมูลที่มีค่าได้ เพียงสองค่ า
           (Binary data)
                     การวัดความคล้ ายและความต่ างของ 2 หน่ วย หรื อ 2 คน
            จะต้ องสร้ างตารางขนาด 2  2 เพื่อศึกษาความคล้ าย หรือความ
            ต่ าง การสร้ างความคล้ ายหรื อความต่ างของนาย วิน และ กัน พิ
            จรณาดังนี้
                ตัวอย่ าง 4 การวัดความสามารถด้านภาษา ถ้าพูด
             ภาษาอังกฤได้จะได้หมายเลข 1 ถ้าพูดไม่ได้หมายเลข 0
             ตัวอย่าง เช่นถ้ามีตวแปร 4 ตัว (X1, X2 , X3 , X4)
                                ั


    •5/25/2012                                                              •18
                   X1     X2      X3       X4
             วิน   0      1        0        1
             กัน   1      1        0        0

•จากตารางจะพบว่า วิน และ กัน คล้ายกันใน X2 และ X3 แต่ต่างกัน X1 และ X4




•5/25/2012                                                               •19
      เช่น X A1=

                                 นายกัน       รวม
                             1            0
                         1   1            1    2
              นาย วิน
                         0   1            1    2
                   รวม       2            2    4



•5/25/2012                                          •20
•ในรูปทัวไปกรณีทมตวแปร p (X1, X2 ,… Xp) ตารางความถี่
         ่       ่ี ี ั
เพือเปรียบเทียบความคล้าย และความต่างของที่ i และ j จะเป็ น
   ่


                                     หน่วยที j      รวม
                                   1          0
                           1       a          b     a+b
              หน่วยที i
                           0       c          d     C+d
                     รวม          a+c      b+d      a+b+c+d


 •5/25/2012                                                   •21
4.4 การวัดความต่าง
     1. ระยะห่างยุคลิดกาลังสอง (Square Euclidean Distance)




  2. ระยะห่างยุคลิด (Euclidean Distance)




•5/25/2012                                                   •22
4.5 การวัดความคล้าย
•Simple Matching เป็ นการให้หนักเท่ากันกับลักษณะที่เหมือนกัน




                                                               •23
ตัวอย่ าง 5 จากการตอบถามความคิดเห็นด้วยคาถาม 6 คาถามต่อสามีภรรยา 1 คู่
โดยคาถามเป็ นดังนี้
               ่




                x1       x2       x3         x4          x5         x6
       สามี          1        1        1          1           0      0
       ภรรยา         0        1        1          1           0      0
                                                                         •24
นาข้อมูลมาสร้างตารางความถี่จาแนก 2 ทาง


                                     สามี
           ภรรยา         1 (เห็นด้วย) 0 (ไม่เห็นด้วย)   รวม

        1 (เห็นด้วย)         3               0           3
       0 (ไม่เห็นด้วย)       1               2           3
            รวม              4               2          P=6


                                                              •25
5. ประเภทของเทคนิค Cluster Analysis

     เทคนิค Cluster Analysis แบ่ งเป็ นหลายประเภทหรือเทคนิค
                       ั
ย่ อย โดยเทคนิดที่ใช้ กนมากมี 2 เทคนิค คือ
 Hierarchical Cluster Analysis
 K-Means Cluster Analysis




                                                          •26
5.1 เทคนิค Hierarchical Cluster Analysis
              ่ ั
เป็ นเทคนิคทีใช้ กนมากในการแบ่ งกลุ่ม Case หรือแบ่ งกลุ่มตัวแปร
โดยมีเงื่อนไขดังต่ อไปนี้
1. ในกรณีที่ใช้ การแบ่ ง Case นั้น จานวน Case ไม่ ต้องมากนัก
                                           ้
(จานวน Case ควรต่ากว่ า 200 ถ้ าตั้ง 200 ขืนไปใช้ K-Means
Cluster ) และจานวนตัวแปรไม่ ต้องมากเช่ นกัน
           ้
2. ไม่ จาเปนต้ องทราบจานวนกลุ่มาก่อน
3. ไม่ จาเป็ นต้ องทราบว่ าตัวแปรใด หรือ Case ใดอยู่กลุ่มใดมาก่ อน


•5/25/2012                                                           •27
 6. การวิเคราะห์กลุ่มแบบขันตอน (Hierarchical Cluster Aalysis)
                          ้

         การวิเคราะห์กลุ่มแบบขันตอน (Hierarchical Cluster Aalysis) เป็ นการ
                                   ้
                                       ้
        ทาการแบ่งกลุ่มแบบเป็ นขันตอน และเมื่อนาหน่ วยหนึ่งไว้ในกลุ่มใด
                           ี              ้
        หนึ่งแล้ว จะไม่มการย้ายหน่ วยนันไปไว้กลุ่มอื่น ๆ อีก เช่น จัดให้นาย
             ั                       ี             ั   ่
        วิชย อยู่กลุ่มที่ 3 ก็จะไม่มการย้ายนายวิชยไปอยูกลุ่มอื่น ๆ ในขณะที่
           ี                                ้
        วิธการวิเคราะห์กลุ่มแบบไม่เป็ นขันตอน ถ้าจัดแล้วอาจมีการย้ายกลุ่ม
                                                 ั
        ได้ เช่น เดิมในตอนแรก จัดนายวิชยในกลุ่มที่ 3 ภายหลังอาจจะย้าย
                                              ่ี
        นายวชัยไปกลุ่มที่ 1หรือ 2 (กรณีทมี 3 กลุ่ม)



•5/25/2012                                                              •28
6.1 เทคนิค Hierarchical Cluster Analysis
   แบ่งเป็ น 2 เทคนิคย่อยคือ
1. Agglomerative Hierarchical Cluster Analysis
2. Divisive Hierarchical Cluster Analysis
   สำหรับโปรแกรมสำเร็ จรู ปทัวไป จะใช้เทคนิ ค
                                ่
Agglomerative Hierarchical Cluster Analysis
                                             •29
6.1.1 Agglomerative HierarchicalCluster
Analysis
                        ่
       เริ่ มต้นจะสมมติวำมี n กลุ่มย่อย สิ่ งของ หรื อ item ที่
มีระยะสั้นที่สุด หรื อคล้ำยกันมำกที่สุดจะรวมเข้ำด้วยกันเป็ น
กลุ่มก่อน จึงเหลือ n-1 กลุ่มย่อย จำกนั้นหำระยะทำงหรื อ
                                                ่
ควำมคล้ำยจำก n – 1 กลุ่มย่อยใหม่ แล้วดูวำกลุ่มย่อยใดมี
ระยะทำงสั้นที่สุด หรื อคล้ำยกันมำกที่สุดก็รวมกลุ่มย่อยนั้นเข้ำ
ด้วยกัน ทำเช่นนี้ต่อ ๆ ไป ในท้ำยที่สุดแล้วจะมีเพียง 1 กลุ่มซึ่ ง
ประกอบด้วยสิ่ งของ n สิ่ ง
                                                             •30
ข้ อจากัดของวิธี Agglomerative Hierarchical Cluster Analysis
      เนื่องจำกวิธี Agglomerative Hierarchical Cluster Analysis จะ
เริ่ มต้นให้จำนวน case = จำนวน cluster เช่น มี n case = มี n
cluster แล้วค่อย ๆ ลดจำนวน cluster ทีละ 1 โดยรวมกลุ่ม 2
cluster ที่คล้ำยกันมำกที่สุด หรื อต่ำงกันน้อยที่สุดเข้ำด้วยกัน จึงค่อยๆ
ลดจำนวน cluster ครั้งละ 1 ดังนั้น ถ้ำมี n มำก เช่น n = 1,000
คน จะต้องทำกำรรวมกลุ่ม 999 ครั้งโดยเริ่ มจำกมี 1,000 cluster
แล้วลดเหลือ 999 cluster , 998 cluster เป็ นเช่นนี้ไปเรื่ อย ๆ จน
เหลือ 1 cluster ซึ่ งจะทำให้เสี ยเวลำมำก ดังนั้นโดยทัวไปถ้ำมี  ่
จำนวน case มำกว่ำ 200 case จึงไม่นิยมใช้เทคนิ ค Hierarchical
Cluster                                                             •31
 ใน Agglomerative            Hierarchical Cluster
Analysis จะมีวิธีที่เรี ยกว่ำ Linkage method ที่
            ั
เป็ นที่รู้จกกันโดยทัวไปมี 3 วิธีคือ
                     ่
1. single linkage (หรื อเรี ยกว่ำ nearest neighbor)
2. complete linkage (หรื อ furthest neighbor)
3. average linkage (หรื อ average distance)
แนวคิดทั้ง 3 วิธีอธิบำยด้วยรู ปดังนี้
                                                 •32
•33
                          ่
ชนิดของข้ อมูลหรือตัวแปรทีสามารถใช้
เทคนิค Hierarchical Cluster ได้ มี 3 ประเภท คือ
1. ข้อมูลเป็ นสเกลอันตรภำค (Interval scale) หรื อสเกล
      อัตรำส่ วน (Ratio scale)
               ่
2. ข้อมูลที่อยูในรู ปควำมถี่ (Count Data)
             ่
3. ข้อมูลอยูในรู ป Binary นันคือ มีได้ 2 ค่ำ คือ 0 กับ 1 หรื อ
                               ่
คุณภำพ


                                                           •34
      ี่ ั
กรณีทวดความคล้ ายด้ วยระยะห่ าง
   ถ้ำระยะห่ำงระหว่ำง Case คู่ใดต่ำ แสดงว่ำ
            ั ่       ั
Case คู่น้ นอยูใกล้กน หรื อมีควำมคล้ำยกัน
               ่
ควรจะจัดให้อยูในกลุ่ม หรื อ Cluster เดียวกัน
                                 ั
สำหรั บวิธีกำรคำนวณจะขึ้ นอยู่กบชนิ ดของ
ข้อมูลทั้ง 3 ชนิดข้ำงต้น (Interval scale ,
Count Data , Binary )                     •35
       ี่ ั
กรณีทวดความคล้ ายด้ วยของ Case
 ถ้ำค่ำควำมคล้ำยของ Case คู่ใดมีค่ำมำก
แสดงว่ำ Case คู่น้ นคล้ำยกันมำก จึงควรจัด
                    ั
ให้อยู่ในกลุ่มเดี ยวกัน กำรคำนวณค่ำควำม
คล้ำ ยจะแตกต่ ำ งกัน ถ้ำ ชนิ ด ของข้อ มู ล
แตกต่ำงกัน
                                         •36
กรณี ที่ วั ด ความคล้ า ยของตั ว แปรด้ วยค่ า
สั มประสิ ทธิ์สหสั มพันธ์
   ถ้ำตัวแปรคู่ใด มีค่ำสัมประสิ ทธิ์ สหสัมพันธ์
                             ั
มำก แสดงว่ำคู่น้ ันสัมพันธ์กนมำกควรจัดไว้
ในกลุ่มเดียวกัน

                                             •37
•หลักเกณฑ์ ในการรวมกลุ่ม
1. Between – groups Linkage หรื อเรี ยกว่ำวิธี Average
Linkage Between Groups หรื อเรี ยกกว่ำ UPGMA
(Unweightede Pair-Group Method Using Arithmetic Average)




                                                    •38
•       วิธีน้ ี จะคำนวณหำระยะห่ ำงเฉลี่ยของทุก
                                   ่
คู่ของ Case โดยที่ Case หนึ่งอยูใน Cluster ที่ i
                        ่
ส่ วนอีก Case หนึ่งอยูใน Cluster ที่ j
ถ้ำ Cluster ที่ i มีระยะห่ำงเฉลี่ยจำก Cluster ที่ j
สั้นกว่ำระยะห่ำงจำก Cluster อื่นจะนำ
Cluster ที่ i และ j รวมกันเป็ น Cluster เดียวกัน
                                                •39
2. Within-group Linkage Technique
 วิธีน้ ีจะรวม Cluster เข้ำด้วยกัน ถ้ำระยะห่ำง
เฉลี่ยระหว่ำงทุก Case ใน Cluster นั้น ๆ มีค่ำ
น้อยที่สุด


                                           •40
3. Nearest Neighbor หรือเรียกว่ า Single Linkage




•วิธีน้ ีจะรวม Cluster 2 Cluster เข้ำด้วยกันโดยพิจำรณำจำกระยะห่ำงที่
สั้นที่สุด โดยที่ dik เป็ นระยะห่ำงที่ส้ ันที่สุดระหว่ำง Cluster i และ k
ในรู ปจะรวม Cluster i และ j เข้ำด้วยกันเพรำะ dij < dik
                                                                     •41
4. Furthest Neighbor Technique หรื อเรี ยกว่ำ Complete Linkage




วิธีน้ ีจะรวม Cluster 2 Cluster เข้ำด้วยกันโดยพิจำรณำจำกระยะห่ำงที่ยำวที่สุด
dik = ระยะห่ำงที่ยำวที่สุดของ Cluster ที่ i และ k
dij = ระยะห่ำงที่ยำวที่สุดของ Cluste ที่ i และ j
ในที่น้ ี dij < dik จึงรวม Cluster ที่ i และ j เข้ำเป็ น Cluster เดียวกัน
                                                                         •42
   5. Centroid Clustering




•วิธีกำรนี้จะคำนวณหำระยะห่ ำงระหว่ำง Centroid ของ Cluster ทีละคู่ ในที่น้ ี
จะเรี ยกค่ำเฉลี่ย หรื อค่ำกลำงของแต่ละ Cluster ว่ำ Centroid ของ Cluster
เนื่ องจำกกำรจัดกลุ่มCase จะพิจำรณำจำกตัวแปรหลำย ๆ ตัวพร้อม ๆ กัน จึง
เรี ยกค่ำกลำงหรื อค่ำเฉลี่ยว่ำ Centroid ถ้ำระยะห่ ำงระหว่ำง Centroid ของ
Cluster คู่ใดต่ำจะรวม Cluster คู่น้ นเข้ำเป็ น Cluster เดียวกัน
                                    ั                                 •43
6. Median Clustering
       วิธีน้ ีจะรวม Cluster 2 Cluster เข้ำด้วยกัน โดยให้แต่ละ
Cluster สำคัญเท่ำกัน (ให้น้ ำหนักเท่ำกัน) ในขณะที่วิธีของ
Centroid Clustering จะให้ควำมสำคัญแก่ Cluster มีขนำด
ใหญ่มำกกว่ำ Cluster ที่มีขนำดเล็ก (ให้น้ ำหนักไม่เท่ำกัน)
Median Clustering จะใช้ค่ำ Median เป็ นค่ำกลำงของ
Centroid ถ้ำระยะห่ ำง ระหว่ำงค่ำ Median ของ Clustering
จะใช้ค่ำ Median เป็ นค่ำกลำงของ Centroid ถ้ำระยะห่ ำง
ระหว่ำงค่ำ Median ของ Cluster คู่ใดต่ำจะรวม Cluster คู่น้ น  ั
เข้ำด้วยกัน                                                 •44
7. Ward’s Method
 วิธีน้ ีจะพิจำรณำจำกค่ำ Sum of the squared within-
cluster distance โดยจะรวม Cluster ที่ทำให้ค่ำ Sum of
square within-cluster distance เพิ่มขึ้นน้อยที่สุด โดยค่ำ
Square within-cluster distance คือค่ำ Square Euclidean
distance ของแต่ละ Case กับ Cluster Mean


                                                        •45
8. การพิจารณาเลือกจานวนกลุ่มทีเ่ หมาะสม
• ผลลัพธ์ของเทคนิค Cluster ไม่ได้ให้ค่ำสถิติ หรื อผลกำร ทดสอบ
สมมติฐำนเพื่อให้ตดสิ นใจหำจำนวนกลุ่มที่เหมำะสม ต้องพิจำรณำ
                     ั
ควำมเหมำะสมเอง โดยอำจใช้ระยะห่ำงหรื อควำมคล้ำยโดยใช้
1) การใช้ Dendogram สำหรับ Dendogram ถ้ำกำหนดระยะห่ ำง
ระหว่ำงกลุ่ม เป็ นหน่ วยที่แตกต่ำงกันไปก็จะได้จำนวน Cluster ที่
แตกต่ำงกันไป คือยิงระห่ำงยิงมำก จำนวน Cluster ก็จะเพิ่มขึ้น
                   ่         ่
2) Multidimension Scaling
3) Discriminant
                                                           •46
       6.1.2 Divisive Hierarchical Cluster Analysis
    คือ กลุ่มที่ประกอบด้วยสิ่ งของ หรื อ item จำนวน
n สิ่ ง แบ่งออกเป็ น 2 กลุ่มชนิดที่สิ่งของในกลุ่มมี
ระยะทำงไกลที่สุด ขั้นต่อไปก็จะมี 3 กลุ่มย่อย ทำ
เช่ น นี้ ต่ อ ๆ ไป จะเห็ น ว่ำ ในท้ำ ยที่ สุ ด แล้ว จะมี n
กลุ่มย่อยซึ่งแต่ละกลุ่มย่อยประกอบด้วยสิ่ งของ 1 สิ่ ง

                                                       •47
9.             การวิ เ คราะห์ ก ลุ่ ม แบบไม่ เ ป็ นขั้ น ตอน
(Nonhierarchical Cluster Analysis หรือบางครั้ง
เรียกว่ า K – Means Cluster Analysis )

• คือ ต้องกำหนดเองว่ำจะต้องแบ่งเป็ นกี่กลุ่ม เช่น k
                        ่
กลุ่ม จึงเรี ยกวิธีน้ ีวำ K-Means Clustering สรุ ปได้ดงนี้
                                                      ั


                                                        •48
ขั้นตอนการจัดกล่ มดังนี้
                 ุ
1. จัดสิ่ งของออกเป็ น K กลุ่ม คร่ ำว ๆ ก่อน
2. หำ Centroid (ในที่น้ ีคือค่ำเฉลี่ย) ของแต่ละกลุ่ม
                                 ่
เรำจะจัดสิ่ งของลงในกลุ่มที่อยูใกล้ Centroid มำก
ที่สุด ในกรณี ที่กลุ่มที่จดได้ในข้อ 1. ไม่เป็ นไปตำม
                          ั
                            ้
นี้ เรำต้องกลับไปเริ่ มที่ขอ 1. ใหม่
3. กลับไปทำข้อ 2.
                                                   •49
9.1 หลักการของเทคนิค K-Means Clustering
      เป็ นเทคนิคกำรจำแนก Case ออกเป็ นกลุ่มย่อย จะใช้เมื่อมี
จำนวน Case มำก โดยจะต้องกำหนดจำนวนกลุ่ม หรื อจำนวน
Cluster ที่ตองกำร เช่นกำหนดให้มี k กลุ่ม เทคนิค K-Means จะ
             ้
มีกำรทำงำนหลำย ๆ รอบ (Iteration) โดยในแต่ละรอบจะมีกำร
                     ่
รวม Cases ให้ไปอยูในกลุ่มใดกลุ่มหนึ่ง โดยเลือกกลุ่มที่ Case
นั้นมี ระยะห่ ำงจำกค่ำกลำงของกลุ่มน้อยที่ สุด แล้วคำนวณค่ำ
กลำงของกลุ่มใหม่ จะทำเช่นนี้ จนกระทังค่ำกลำงของกลุ่มไม่
                                        ่
เปลี่ยนแปลง หรื อครบจำนวนรอบที่กำหนดไว้
                                                          •50
9.2 ชนิดของตัวแปรที่ใช้ ในเทคนิค K-Means
Clustering
    ตัวแปรที่ใช้ในเทคนิ ค K-Means Clustering
จะต้องเป็ นตัวแปรเชิงปริ มำณ คือ เป็ นสเกล
อันตรภำค (Interval Scale) หรื อสเกลอัตรำส่ วน
                                 ั          ่
(Ratio Scale) โดยไม่สำมำรถใช้กบข้อมูลที่อยูใน
รู ปควำมถี่ หรื อ    Binary        เหมือนเทคนิ ค
Hierarchical                                   •51
9.3 ขั้นตอนการวิเคราะห์ ของวิธี K-Means มี 4 ขั้นตอนดังนี้
ขั้นที่ 1 จัดกลุ่มข้อมูลเป็ น k กลุ่ม ซึ่ งมีกำรแบ่งได้หลำยวิธีดงนี้
                                                                ั
- แบ่งอย่ำงสุ่ ม
                ้
- แบ่งด้วยผูศึกษำเอง
•ขั้นที่ 2 คำนวณหำจุดกึ่งกลำงกลุ่มของแต่ละกลุ่ม เช่น จุดกลำง
กลุ่มของกลุ่มที่ C คือ
              ิ
•ขั้นที่ 3 มีวธีกำรพิจำรณำ 2 แบบ โดยจะคำนวณ
                                                              •52
แบบที่ 1 คำนวณหำระยะห่ ำงจำกแต่ละหน่วยไปยังจุด
กลำงกลุ่มของทุกกลุ่มและจะพิจำรณำย้ำยหน่ วยไปยัง
กลุ่มที่มีระยะห่ำงต่ำสุ ด
แบบที่ 2 คำนวณระยะห่ำงกำลังสองของแต่ละหน่วยไป
ยังจุดกลำงกลุ่มที่หน่วยนั้นอยู่ โดยให้ ESSZ(Error Sum
Square) เท่ำกับระยะห่ำงกำลังสองของแต่ละหน่วยไปยัง
จุดกลำงกลุ่ม สูตรที่ใช้

                                                  •53
ขั้นที่ 4 กำรพิจำรณำย้ำยกลุ่ม จะใช้เกณฑ์กำรย้ำยตำมค่ำที่
คำนวณได้ในขั้นที่ 3
     ถ้ำขั้นที่ 4 ไม่มีกำรย้ำยกลุ่มอีกแล้ว แสดงว่ำกลุ่มที่
แบ่งได้น้ นเหมำะสมแล้ว แต่ถำในขั้นที่ 4 มีกำรย้ำยกลุ่ม
             ั                          ้
กลุ่ ม ที่ มี ห น่ ว ยย้ำ ยเข้ ำ หรื อย้ำ ยออกจะต้ อ งท ำกำร
คำนวณหำจุดกลำงกลุ่มใหม่น้ นคือต้องกลับไปทำขั้นที่ 2
                                      ั

                                                          •54
9.4 ข้ อแตกต่ างระหว่ างเทคนิค Hierarchical กับวิธี K-Means

   1. เทคนิค K-Means ใช้เมื่อมีจำนวน Case หรื อจำนวน
ข้อมูลมำก โดยทัวไปนิยมใช้เมื่อ n ≥ 200 เพรำะเมื่อ n มำก
                 ่
เทคนิ ค K-Means จะง่ำยกว่ำ และใช้ระยะเวลำในกำร
คำนวณน้อยกว่ำกำรใช้เทคนิค Hierarchical หรื อกล่ำวได้
ว่ำเมื่อมีจำนวน Case ไม่มำกควรใช้เทคนิค Hierarchical
                                                          •55
2. เทคนิค K-Means นั้น ผูใช้จะต้องกำหนดจำนวนกลุ่มที่แน่นอนไว้
                             ้
ล่วงหน้ำ กรณี ที่ผวเิ ครำะห์ยงไม่แน่ใจว่ำควรมีกี่กลุ่มจึงจะเหมำะสม ผู ้
                   ู้          ั
                        ิ
วิเครำะห์อำจจะใช้วธีใดวิธีหนึ่งดังต่อไปนี้
                      ้
- ทำกำรวิเครำะห์ดวยวิธี K-Means หลำย ๆ ครั้ง แต่ละครั้งกำหนด
 จำนวนกลุ่ม แตกต่ำงกันไป เช่น เป็ น 3, 4 หรื อ 5 กลุ่ม แล้วพิจำรณำ
หำจำนวนกลุ่มที่ เหมำะสม แต่เมื่อมีขอมูลมำกวิธีน้ ี จะทำให้เสี ยเวลำ
                                      ้
มำก
     ้
-ใช้ขอมูลบำงส่ วนทำกำรวิเครำะห์โดยวิธี Hierarchical เพื่อหำจำนวน
กลุ่มที่ควรจะเป็ นจำกนั้นจึงใช้เทคนิค K-Means กับข้อมูลทั้งหมดที่มี
                                                                    •56
                               ้
3. เทคนิค Hierarchical นั้น ผูวิเครำะห์จะ Standardized
ข้อมูลหรื อไม่ก็ได้ แต่โดยวิธี K-Means จะต้องทำกำร
Standardized ข้อมูลก่อนเสมอ
4. วิธี K-Means จะหำระยะห่ ำงโดยวิธี Euclidean
Distance โดยอัตโนมัติ
•ขณะที่ Hierarchical ผูวิเครำะห์มีสิทธิ์ที่จะเลือกวิธีกำร
                        ้
คำนวณระยะห่ำง หรื อควำมคล้ำยได้

                                                       •57
           ข้ อแตกต่ างระหว่ างการจาแนกกลุ่มด้วยเทคนิค
       Cluster Analysis และเทคนิค Discriminant Analysis
• Cluster Analysis
1. ไม่จำเป็ นต้องทรำบก่อนว่ำมีกี่กลุ่ม
                                  ่
2. ไม่ทรำบมำก่อนว่ำ Case ใดอยูกลุ่มไหน
3. ไม่มีสมกำรแสดงควำมสัมพันธ์
Discriminant Analysis
1. ต้องทรำบมำก่อนว่ำมีกี่กลุ่ม โดยผูวิจยเป็ นผูจดกลุ่มเอง และกำหนดเอง จะ
                                       ้ ั     ้ั
      มีกี่กลุ่ม
                               ่
2. ทรำบมำก่อนว่ำ Case ใดอยูกลุ่มไหนเนื่องจำกผูวิจยเป็ นผูจดกลุ่มมำก่อน.
                                                  ้ ั      ้ั
3. มีสมกำรแสดงควำมสัมพันธ์                                          •58
ตัวอย่ างการใช้ เทคนิคต่ าง ๆ
 ตัวอย่ างการใช้ เทคนิค Hierarchical Cluster ในการจัดกลุ่ม
       การจัดกลุ่มจังหวัด
                                       ่
 ตัวแปรที่ใช้ มี 5 ตัวแปร และข้ อมูลทีใช้ เป็ นข้ อมูลปี 2550
 1. ผลผลิตมวลรวมของจังหวัด ปี 2550
                ่
  2. รายได้ เฉลียต่ อครัวเรือน ปี 2550
                  ่
  3. รายจ่ ายเฉลียต่ อครัวเรือน ปี 2550
   4. จานวนเด็กเกิดใหม่ ปี 2550
                     ิ
5. จานวนผู้เสี ยชีวต ปี 2550                              •59
•60
    ตัวอย่าง ข้อมูลเกี่ยวกับเบียร์20ยีหอผูวิจยต้องการ
                                      ่ ้ ้ ั
                   ั ่ ้
    ทราบว่าเบียร์ทง20ยีหอนี้จะจัดรวมกันได้อย่างไร
    โดยพิจารณาจากตัวแปรต่างๆต่อไปนี้ calories,
    sodium, alcohol, cost




•5/25/2012                                              •61
•62

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:93
posted:5/25/2012
language:Thai
pages:62