Docstoc

Data Mining

Document Sample
Data Mining Powered By Docstoc
					‫ﻓﺼﻞ 5 : ﺗﺤﻠیﻞ ﺩﺍﺩﻩ‬


                   ‫ﻧﺪﺍ ﺳﻠﻄﺎﻧی‬
       ‫ﺍﻟکﺘﺮﻭﻧیک‬ ‫کﺎﺭﺷﻨﺎﺳی ﺍﺭﺷﺪ ﺗﺠﺎﺭﺕ‬
              ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
           ‫ﺍﺳﺘﺎﺩ : ﺩکﺘﺮ ﻋﺒﺪﺍﻟﻠﻪ ﺯﺍﺩﻩ‬
       ‫ﻧیﻤﺴﺎﻝ ﺍﻭﻝ ﺳﺎﻝ ﺗﺤﺼیﻠی 88-98‬
         ‫ﺩﺍﻧﺸگﺎﻩ ﺻﻨﻌﺘی ﺍﻣیﺮکﺒیﺮ‬
   ‫ﺩﺍﻧﺸکﺪﻩ ﻣﻬﻨﺪﺳیکﺎﻣپیﻮﺗﺮ ﻭ ﻓﻨﺎﻭﺭی ﻼﻋﺎﺕ‬
   ‫ﺍﻃ‬
                       1
                 Business Case
                  Assesments



                        2
                   Enterprise
                 Infrastructure
                   Evaluation




                           3
                        Project
                       Planning




                           4
                        Project
                     Requirements
                       Definition




   5                                    7
                          6
                                    Meta Data
 Data                Application
                                    Repository
Analysis             Prototyping
                                     Analysis



           .......                    …...       2
                      ‫ﻣﺮﻭﺭ‬
         ‫ﺗﺤﻠیﻞ ﺩﺍﺩﻩ ﻫﺎی ﻣﻨﺒﻊ ﺑﺮﺍی ‪ Application‬ﻫﺎی ‪BI‬‬   ‫‪‬‬
  ‫ﺗﻔﺎﻭﺕ ﻓﺎﺯ ﺗﺤﻠیﻞ ﺳیﺴﺘﻢ ﺩﺭﻣﺘﺪﻭﻟﻮژی ﺳﻨﺘی ﻭ ﺗﺤﻠیﻞ ﺩﺍﺩﻩ‬   ‫‪‬‬
                              ‫ﻣﺘﻤﺮکﺰ ﺑﺮ کﺴﺐ ﻭ کﺎﺭ‬
               ‫ﻣﺪﻟﺴﺎﺯی ﻣﻨﻄﻘی ﺩﺍﺩﻩ ﺑﻪ ﺷکﻞ ‪top-down‬‬      ‫‪‬‬
                  ‫ﺗﺤﻠیﻞ ﺩﺍﺩﻩ ﻣﻨﺒﻊ ﺑﻪ ﺷکﻞ ‪bottom-up‬‬     ‫‪‬‬
        ‫ﻣﺴﺌﻮﻟیﺖ ﻫﺎی ﺍﺟﺮﺍی ‪data ،data archeology‬‬        ‫‪‬‬
                          ‫‪ cleansing‬ﻭ ‪data quality‬‬
‫ﺗﻮﺿیﺢ ﻣﺨﺘﺼﺮ ﻓﻌﺎﻟیﺖ ﻫﺎی ﻣﺸﻤﻮﻝ ﺩﺭ ﺗﺤﻠیﻞ ﻭ ﻧﺘﺎیﺞ ﻭ‬        ‫‪‬‬
                                   ‫ﻧﻘﺶ ﻫﺎیﺩﺭگیﺮ آﻨﻬﺎ‬
                ‫ﺭیﺴک ﻫﺎی ﻧﺎﺷی ﺍﺯ ﻋﺪﻡ ﺍﻧﺠﺎﻡ ﻗﺪﻡ پﻨﺠﻢ‬    ‫‪‬‬
                       ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
                  ‫‪http://ceit.aut.ac.ir/islab‬‬              ‫3‬
                  ‫ﻣﻔﺮﻭﺿﺎﺕ ﺩﺍﺩﻩ ﻣﻨﺒﻊ‬

                                 ‫‪ ‬آیﺎ ﻣی ﺩﺍﻧیﻢ ﺩﺍﺩﻩ ﻣﻨﺒﻊ کﺠﺎﺳﺖ؟‬
                                         ‫ﺩﺍﺩﻩ‬
                     ‫‪ ‬آیﺎ ﻣﻨﺎﺑﻊ ﻣﺨﺘﻠﻒ ﺑﺮﺍی یکﺴﺎﻥ ﻭﺟﻮﺩ ﺩﺍﺭﺩ؟‬
                                                   ‫ﻗﺒ‬
                              ‫‪ ‬آیﺎ ﺩﺍﺩﻩ ﻣﻨﺒﻊ ﻼ ﻣﺪﻟﺴﺎﺯی ﺷﺪﻩ ﺍﺳﺖ؟‬
                ‫‪ ‬ﻣﺘﺎﺩﺍﺩﻩ ﻫﺎی کﺴﺐ ﻭ کﺎﺭ ﺗﺎ چﻪ ﺣﺪ ﺑﻪ ﺭﻭﺯ ﻫﺴﺘﻨﺪ؟‬
                      ‫‪ ‬آیﺎ ﺻﺎﺣﺒﺎﻥ ﺩﺍﺩﻩ ﻣﺘﺎﺩﺍﺩﻩ کﺴﺐ ﻭ کﺎﺭ ﺩﺍﺭﻧﺪ؟‬
   ‫‪ ‬آیﺎ ﻣی ﺩﺍﻧیﻢ ﺻﺎﺣﺒﺎﻥ ﺩﺍﺩﻩ ﻫﺎ چﻪ کﺴﺎﻧی ﻫﺴﺘﻨﺪ؟ ﻭ چﻪ کﺴی ﺭﻭی‬
                                              ‫ﺩﺍﺩﻩ ﻫﺎ ﺍﺧﺘیﺎﺭ ﺩﺍﺭﺩ؟‬
‫ﺩیگﺮی ﺑﺮﺍی ﺩﺍﺩﻩ ﻣﻨﺒﻊ ﻭﺟﻮﺩ ﺩﺍﺭﺩ؟آیﺎ ﻣﺴﺘﻨﺪﺍﺕ ﻣﻮﺟﻮﺩ ﺑﻪ‬    ‫‪ ‬آیﺎ ﻣﺴﺘﻨﺪﺍﺕ‬
                                              ‫ﺭﻭﺯ ﻭ کﺎﻣﻞ ﻫﺴﺘﻨﺪ؟‬
 ‫‪ ‬ﻣﺴﺘﻨﺪﺍﺕ کﺠﺎ ﻫﺴﺘﻨﺪ؟ یک ‪meta data repository‬؟ ﺩﺭ ﺑﺮﻧﺎﻣﻪ‬
                                         ‫ﺩﺭ‬
                                            ‫ﻫﺎ؟ ﺩﺭ ﺩﺳﺘﻮﺭﺍﻟﻌﻤﻞ ﻫﺎ؟‬
                              ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
                         ‫‪http://ceit.aut.ac.ir/islab‬‬                   ‫4‬
           ‫ﻣﻔﺮﻭﺿﺎﺕکیﻔیﺖ ﺩﺍﺩﻩ‬

             ‫‪ ‬آیﺎ ﻣی ﺩﺍﻧیﻢ ﺩﺍﺩﻩ ﻣﻨﺒﻊ ﺗﺎ چﻪ ﺣﺪ ‪ clean‬ﺍﺳﺖ؟‬
 ‫‪ ‬ﺩﺍﺩﻩ ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ کﺴﺐ ﻭ کﺎﺭ ﺗﺎ چﻪ ﺣﺪ ﺑﺎیﺪ ‪ clean‬ﺑﺎﺷﺪ؟‬
‫‪ ‬آیﺎ ﺑﻪ ﺍﻧﺪﺍﺯﻩ کﺎﻓی ﺑﺮﺍی ‪knowledge worker‬ﻫﺎ، ﺗﺤﻠیﻞ‬
           ‫کﺎﺭ‬
‫گﺮﺍﻥ کﺴﺐ ﻭ کﺎﺭ ﻭ ﻣﺪیﺮﺍﻥ کﺴﺐ ﻭ ﺩیگﺮ، کﻪ‬
     ‫ﺍﺯ ﻫﻤﺎﻥ ﺩﺍﺩﻩ ﺍﺳﺘﻔﺎﺩﻩ ﺧﻮﺍﻫﻨﺪ کﺮﺩ ‪ clean‬ﺧﻮﺍﻫﺪ ﺑﻮﺩ؟‬
                             ‫‪ ‬آیﺎ ﻣی ﺩﺍﻧیﻢ آﻨﻬﺎکیﺴﺘﻨﺪ؟‬
    ‫‪ ‬ﺍﺯ کﺠﺎ ﻣی ﺗﻮﺍﻧیﻢ ﻗﻮﺍﻋﺪ کﺴﺐ ﻭ کﺎﺭ ﺭﺍ ﺑﺪﺳﺖ ﻣی‬
  ‫آﻮﺭیﻢ؟ ﺍﺯ ﺻﺎﺣﺒﺎﻥ ﺩﺍﺩﻩ؟ ﺍﺯ ﻧﻤﺎیﻨﺪﻩ کﺴﺐ ﻭ کﺎﺭ ﺭﻭی‬
                                             ‫پﺮﻭژﻪ؟‬
                          ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
                     ‫‪http://ceit.aut.ac.ir/islab‬‬            ‫5‬
        ‫ﻣﻔﺮﻭﺿﺎﺕ ‪data cleansing‬‬

‫ﺩیگﺮ ﻣﺴﺘﻨﺪ‬                      ‫ﻗﺒ‬
            ‫‪ ‬آیﺎ ﺧﻄﺎﻫﺎی ﺩﺍﺩﻩ ﻫﺎ ﻼ ﺗﻮﺳﻂ ﺗیﻢ ﻫﺎی پﺮﻭژﻪ‬
    ‫ﺷﺪﻩ ﺍﺳﺖ؟ ﺍیﻦ ﻣﺴﺘﻨﺪﺍﺕ ﺩﺭ ﺻﻮﺭﺕ ﻭﺟﻮﺩ کﺠﺎ ﻫﺴﺘﻨﺪ؟‬
        ‫‪ ‬چﻪ کﺴی ﺧﻄﺎﻫﺎی ﺩﺍﺩﻩ ﻫﺎ ﺭﺍ ﺗﺸﺨیﺺ ﺧﻮﺍﻫﺪ ﺩﺍﺩ؟‬
      ‫ﺍﺟﺮﺍیی ﺗﺮﺟﻤﻪ ﻣی ﺷﻮﻧﺪ؟ ﺩﺭ چﻪ‬ ‫‪ ‬آیﺎ کﺪﻫﺎ ﺩﺍﺧﻞ ﺑﺮﻧﺎﻣﻪ‬
                                          ‫ﻫﺎیی؟‬ ‫ﺑﺮﻧﺎﻣﻪ‬
   ‫‪ ‬یک کﺘﺎﺏ ﺗﺮﺟﻤﻪ کﺪ ﺑﺮﺍی ﻓیﻠﺪﻫﺎی ﺭﻣﺰگﺬﺍﺭی ﺷﺪﻩ‬     ‫آیﺎ‬
                                           ‫ﻭﺟﻮﺩ ﺩﺍﺭﺩ؟‬
                                   ‫ﺩﺍﺩﻩ‬
 ‫‪ ‬آیﺎ ﻣی ﺩﺍﻧیﻢ چﻪ ﻫﺎیی ﺣﺴﺎﺱ، ﻣﻬﻢ ﻭ ﺑی ﺍﻫﻤیﺖ ﻫﺴﺘﻨﺪ‬
                          ‫)ﺑﺮﺍی پﺮﻭﺳﻪ ‪(cleansing‬؟‬
                          ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
                     ‫‪http://ceit.aut.ac.ir/islab‬‬           ‫6‬
        ‫ﺗﺤﻠیﻞ ﺩﺍﺩﻩ ﻣﺘﻤﺮکﺰ ﺑﺮ کﺴﺐ ﻭ کﺎﺭ‬

    ‫‪ ‬ﺣﺴﺎﺱ ﺗﺮیﻦ ﻣﺮﺣﻠﻪ ﺑیﻦ ﺳﺎﺯﻣﺎﻧی ﺩﺭ ‪BI Roadmap‬‬
    ‫‪ ‬ﻣﺘﻔﺎﻭﺕ ﺍﺯ ﻓﺎﺯ ﺗﺤﻠیﻞ ﺳیﺴﺘﻢ ﺩﺭﻣﺘﺪﻭﻟﻮژی ﻫﺎی ﺳﻨﺘی :‬
  ‫یک ﺗﺼﻤیﻢ ﻃﺮﺍﺣی ﺑﺮﺍی ﺳیﺴﺘﻤی کﻪ‬    ‫‪ ‬ﺗﺤﻠیﻞ ﺳیﺴﺘﻢ: ﺍیﺠﺎﺩ‬
                                        ‫ﺳﺎﺧﺘﻪ ﺧﻮﺍﻫﺪ ﺷﺪ‬
‫‪ ‬ﺗﺤﻠیﻞ ﺩﺍﺩﻩ: ﻓﻬﻢ ﻭ ﺗﺼﺤیﺢ ﻼﻓﺎﺕ ﻣﻮﺟﻮﺩ ﺩﺭ ﺩﺍﺩﻩ ﻫﺎی کﺴﺐ ﻭ‬
                         ‫ﺍﺧﺘ‬
       ‫کﺎﺭ، ﺻﺮﻓﻨﻈﺮ ﺍﺯ ﻫﺮ ﻃﺮﺍﺣی ﺳیﺴﺘﻢ یﺎﻣﺘﺪﻭﻟﻮژی ﺍﺟﺮﺍ‬
                                  ‫ﺩﺍﺩﻩ‬
‫‪ ‬ﻟﺬﺍ ﺗﺤﻠیﻞ یک ﻓﻌﺎﻟیﺖ ﻣﺘﻤﺮکﺰ ﺑﺮ کﺴﺐ ﻭ کﺎﺭ ﺍﺳﺖ،‬
                           ‫ﻧﻪ ﻣﺘﻤﺮکﺰ ﺑﺮ ﺳیﺴﺘﻢ‬

                           ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
                      ‫‪http://ceit.aut.ac.ir/islab‬‬         ‫7‬
                Top-Down
                Logical Data
                Modeling



Bottom-Up
Source Data
Analysis



            ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
       http://ceit.aut.ac.ir/islab   8
          ‫ﻣﺪﻟﺴﺎﺯی ﻣﻨﻄﻘی ﺩﺍﺩﻩ ﺑﻪ ﺷکﻞ ‪Top-Down‬‬


      ‫‪ ‬ﻣﺪﻟﺴﺎﺯی ﻣﻨﻄﻘی ﺩﺍﺩﻩ یﺎ ‪Entity Relationship‬‬
   ‫یکﺠﺎ‬‫‪ ‬ﻣﺪﻟﺴﺎﺯی ﻫﻤﻪ ﺩﺍﺩﻩ ﻫﺎی ‪ enterprise‬ﺑﻪ ﺻﻮﺭﺕ‬
                              ‫‪‬ﺍﺯ ﻟﺤﺎﻅ ﻣﻌﻤﺎﺭی ﺍﺭﺯﺷﻤﻨﺪ‬
  ‫‪‬ﺳیﺴﺘﻢ ﻫﺎی ﺑﻬﺘﺮی ﺍﺭﺍﺋﻪ ﻧﻤی کﻨﺪ؛ چﺮﺍ کﻪ ﺍیﻦ پﺮﻭﺳﻪ ﺑﺎ‬
                ‫چﺮﺧﻪ ﻋﻤﺮ ﺗﻮﺳﻌﻪ ﺳیﺴﺘﻢ ﺗﺠﻤیﻊ ﻧﻤی ﺷﻮﺩ‬
‫‪ ‬ﺭﺍﻩ ﺣﻞ : ﺗﺠﻤیﻊ ‪ ER‬ﻫﺎی ﻣﺮﺑﻮﻁ ﺑﻪ پﺮﻭژﻪ ﻫﺎ ﻭﺗﺮکیﺐ‬
                                            ‫آﻨﻬﺎ‬
                       ‫‪ ‬ﻣﺒﺘﻨی ﺑﺮ ﻗﻮﺍﻧیﻦ ﻧﺮﻣﺎﻟﺴﺎﺯی‬

                        ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
                   ‫‪http://ceit.aut.ac.ir/islab‬‬          ‫9‬
              ‫ﻣﺪﻟﺴﺎﺯی ﻣﻨﻄﻘی ﺩﺍﺩﻩ ﺑﻪ ﺷکﻞ ‪) Top-Down‬ﺍﺩﺍﻣﻪ(‬


                                            ‫‪ ‬ﻣﺒﺘﻨی ﺑﺮ ﻗﻮﺍﻧیﻦ ﻧﺮﻣﺎﻟﺴﺎﺯی‬
          ‫‪ ‬ﺍﻃﻤیﻨﺎﻥ ﺍﺯ ﺍیﻨکﻪ ﻫﺮ ﻋﻨﺼﺮ ﺩﺍﺩﻩ ﺍی ﺩﺭ ‪BI scope‬‬
                             ‫‪ ‬یک ﺑﺎﺭ ﺗﺸﺨیﺺ ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﺳﺖ‬‫ﻓﻘﻂ‬
                                     ‫‪ ‬ﺑﻪ ﺩﺭﺳﺘی ﻧﺎﻡ گﺮﻓﺘﻪ ﺍﺳﺖ‬
                                    ‫‪ ‬ﺑﻪ ﺩﺭﺳﺘی ﺗﻌﺮیﻒ ﺷﺪﻩ ﺍﺳﺖ‬
‫‪ ‬ﺩﺍﻣﻨﻪ آﻦ ﺑﺮﺍی ﻫﻤﻪ کﺴﺎﻧی کﻪ ﺑﻪ ﺩﺍﺩﻩ ﺩﺳﺘﺮﺳی ﺧﻮﺍﻫﻨﺪ ﺩﺍﺷﺖ، ﻣﻌﺘﺒﺮ‬
                                                   ‫ﺷﺪﻩ ﺍﺳﺖ‬
                                  ‫یک ﻧﻤﺎیﺶ ﺍﺯ ﺩﺍﺩﻩ ﺑﺪﺳﺖ ﻣی ﺩﻫﺪ‬‫‪‬‬
              ‫‪ ‬ﺑﻪ ﻫﻤﺎﻥ ﺷکﻠی کﻪ ﺩﺍﺩﻩ ﺩﺭ ﺩﻧیﺎی ﻭﺍﻗﻌی ﻭﺟﻮﺩ ﺩﺍﺭﺩ‬
                                          ‫‪ ‬ﺑﺪﻭﻥﺍﻓﺰﻭﻧگی ﻭ ﺍﺑﻬﺎﻡ‬
                               ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
                          ‫‪http://ceit.aut.ac.ir/islab‬‬                     ‫01‬
‫ﻣﺪﻟﺴﺎﺯی ﻣﻨﻄﻘی ﺩﺍﺩﻩ ﺑﻪ ﺷکﻞ ‪) Top-Down‬ﺍﺩﺍﻣﻪ(‬


‫‪ ‬ﻣﺴﺘﻘﻞ ﺍﺯ پﺮﻭﺳﻪ ﺑﻪ ﺩﻟیﻞ ﻧﻤﺎیﺶ ﺭﺳﻤی ﺩﺍﺩﻩ:‬
            ‫‪ ‬ﺳﺎﺧﺘﺎﺭ ﻭ ﻣﺤﺘﻮﺍی ﻣﺪﻝ ﺩﺍﺩﻩ ﻣﻨﻄﻘی ﺍﺯ‬
                                           ‫‪‬پﺎیگﺎﻩ ﺩﺍﺩﻩ‬
                                        ‫‪ ‬ﻣﺴیﺮ ﺩﺳﺘیﺎﺑی‬
                                                ‫‪ ‬ﻃﺮﺍﺣی‬
                                                  ‫‪ ‬ﺑﺮﻧﺎﻣﻪ‬
                                                   ‫‪ ‬ﺍﺑﺰﺍﺭ‬
                                            ‫‪ ‬ﺳﺨﺖ ﺍﻓﺰﺍﺭ‬
                                       ‫ﺗﺎﺛیﺮ ﻧﻤی پﺬیﺮﺩ‬

              ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
         ‫‪http://ceit.aut.ac.ir/islab‬‬                         ‫11‬
         (‫ )ﺍﺩﺍﻣﻪ‬Top-Down ‫ﻣﺪﻟﺴﺎﺯی ﻣﻨﻄﻘی ﺩﺍﺩﻩ ﺑﻪ ﺷکﻞ‬




Oracle




                                                SELECT   A,B,C,D
                                                FROM     COST,PROD
                 ER Model:                      WHERE    CUST.A=PROD.A
                                                AND      PROD.C < 10,000
                 Business view




                       ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
                  http://ceit.aut.ac.ir/islab                              12
      ‫ﻣﺪﻟﺴﺎﺯی ﻣﻨﻄﻘی ﺩﺍﺩﻩ ﺑﻪ ﺷکﻞ ‪) Top-Down‬ﺍﺩﺍﻣﻪ(‬


                             ‫‪ ‬ﻣﺪﻝ ﺩﺍﺩﻩ ﻣﻨﻄﻘی ‪Enterprise‬‬
                ‫‪ ‬ﺗﺠﻤیﻊ ﻣﺪﻝ ﻫﺎی ﻣﻨﻄﻘی پﺮﻭژﻪ ﻫﺎ‬
                           ‫‪‬یکﺠﺎ ﺳﺎﺧﺘﻪ ﻧﻤی ﺷﻮﺩ‬
                      ‫‪ ‬ﺩﺭ ﻃﻮﻝ ﺯﻣﺎﻥ ﺭﺷﺪ ﻣی کﻨﺪ‬
‫‪ ‬ﻫﺪﻑ ﺳﺎﺧﺖ ﻣﺪﻝ کﺎﻣﻞ ﻧیﺴﺖ، ﺑﻠکﻪپیﺪﺍ کﺮﺩﻥ ﻭ کﺸﻒ‬
                                       ‫ﺍﺧﺘ‬
                             ‫ﻼﻓﺎﺕ ﺩﺍﺩﻩ ﻫﺎﺳﺖ‬

                                ‫‪‬ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ‪Best Practice‬ﻫﺎ‬


                    ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
               ‫‪http://ceit.aut.ac.ir/islab‬‬                    ‫31‬
       (‫ )ﺍﺩﺍﻣﻪ‬Top-Down ‫ﻣﺪﻟﺴﺎﺯی ﻣﻨﻄﻘی ﺩﺍﺩﻩ ﺑﻪ ﺷکﻞ‬


                              Data
                            Ownership




                Data                    Data
                Rule                    Policy


        Data                  Data                      Data
        Type                 Length
                                                       Content



Data             Data                       Data                   Data
Name           Definition               Relationship             Identifier




  Data-Specific Business Meta Data Components                                 14
Bottom-Up ‫ﺗﺤﻠیﻞ ﺩﺍﺩﻩ ﻣﻨﺒﻊ ﺑﻪ ﺷکﻞ‬

            Technical Data
                                                            ‫ﻫﻤیﺸﻪ ﺍﻧﺠﺎﻡ ﻣیگیﺮﺩ‬
           Conversion Rules




 Business Data                            Business Data
 Domain Rules                             Integrity Rules




               ‫ﺍﻏﻠﺐ ﻏﻔﻠﺖ ﻣی ﺷﻮﺩ‬
                 ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
            http://ceit.aut.ac.ir/islab                                      15
    ‫ﺗﺤﻠیﻞ ﺩﺍﺩﻩ ﻣﻨﺒﻊ ﺑﻪ ﺷکﻞ ‪) Bottom-Up‬ﺍﺩﺍﻣﻪ(‬


                            ‫‪ ‬ﻧﻮﻉ ﺩﺍﺩﻩ ﻫﺎی ﻣﻨﺒﻊ ﻭ ﻣﻘﺼﺪ ﺑﺎیﺪ‬
                          ‫‪Technical Data‬‬
                                                    ‫ﻫﻤیﺸﻪ ﺍﻧﺠﺎﻡ ﻣیگیﺮﺩ‬
                         ‫‪Conversion Rules‬‬
                                                      ‫یکی ﺑﺎﺷﺪ‬
                           ‫‪ ‬ﻃﻮﻝ ﺩﺍﺩﻩ ﺑﺎیﺪ ﺑﺮﺍی ﺟﺎﺑﺠﺎ ﺷﺪﻥ،‬
                                     ‫یﺎ کﻮﺗﺎﻩ‬
‫ﺗﻮﺳﻌﻪ یﺎﻓﺘﻦ ‪Business Data‬ﺷﺪﻥ ﺩﺍﺩﻩ ﻫﺎی ﻣﻨﺒﻊ ﺑﻪ ﺩﺍﺩﻩ ﻫﺎی ﻣﻘﺼﺪ‬
             ‫‪Business Data‬‬
             ‫‪Domain Rules‬‬          ‫‪Integrity Rules‬‬
                                                   ‫کﺎﻓی ﺑﺎﺷﺪ‬
      ‫ﻫﺎیی کﻪ ﺩﺍﺩﻩ ﻫﺎی ﻣﻨﺒﻊ ﺭﺍ ﺩﺳﺘکﺎﺭی ﻣی‬        ‫‪ ‬ﻣﻨﻄﻖ ﺑﺮﻧﺎﻣﻪ‬
 ‫کﻨﻨﺪ، ﺑﺎیﺪ ﺑﺎ ﺩﺍﺩﻩ ﻫﺎی ﻣﻨﺒﻊ ﺳﺎﺯگﺎﺭ ﻭ ﻗﺎﺑﻞ ﺍﺟﺮﺍ ﺭﻭی آﻨﻬﺎ‬
                                                          ‫ﺑﺎﺷﺪ‬
                            ‫ﺍﻏﻠﺐ ﻏﻔﻠﺖ ﻣی ﺷﻮﺩ‬
                              ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
                         ‫‪http://ceit.aut.ac.ir/islab‬‬                 ‫61‬
 ‫ﺗﺤﻠیﻞ ﺩﺍﺩﻩ ﻣﻨﺒﻊ ﺑﻪ ﺷکﻞ ‪) Bottom-Up‬ﺍﺩﺍﻣﻪ(‬


                              ‫‪ ‬ﻗﻮﺍﻋﺪی ﺭﺍﺟﻊ ﺑﻪ ﻣﻌﻨﺎی ﺩﺍﺩﻩ ﻫﺎ‬
                     ‫‪Technical Data‬‬
                    ‫ﺧﻄﺎﻫﺎی ﺩﺍﺩﻩ ﻫﺎ :‬
                    ‫‪Conversion Rules‬‬    ‫‪ ‬ﺗﺸﺨیﺺ ﻭ ﺗﺼﺤیﺢ‬
                                       ‫1. ﺩﺍﺩﻩ ﻫﺎی ﺑﺪﻭﻥ ﻣﻘﺪﺍﺭ‬
                                       ‫2. ﻣﻘﺎﺩیﺮپیﺶ ﻓﺮﺽ‬
          ‫‪Business Data‬‬         ‫3. ﻣﻘﺎﺩیﺮ ‪ Dummy‬ﺑﺎ ﻣﻌﻨی‬
                                   ‫‪Business Data‬‬
          ‫4. ﻣﻨﻄﻖ ﺟﺎﺳﺎﺯی ﺷﺪﻩ ﺩﺭ ﻣﻘﺪﺍﺭ ﺩﺍﺩﻩ ‪Domain Rules‬‬
                                   ‫‪Integrity Rules‬‬

                                             ‫5. ﺩﺍﺩﻩ ﻫﺎی ﺭﻣﺰی‬
                                      ‫6. ﺩﺍﺩﻩ ﻫﺎی چﻨﺪ ﻣﻨﻈﻮﺭﻩ‬
‫7. چﻨﺪیﻦ ﻋﻨﺼﺮ ﺩﺍﺩﻩ ﺍی ﺟﺎﺳﺎﺯی ﺷﺪﻩ، ﺍﻟﺤﺎﻕ ﺷﺪﻩ، یﺎ پﻨﻬﺎﻥ‬
                        ‫ﺷﺪﻩ ﺩﺭ ﻓیﻠﺪﻫﺎی ﻣﺘﻨی ﺑﺪﻭﻥ ﺳﺎﺧﺘﺎﺭ‬
                          ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
                     ‫‪http://ceit.aut.ac.ir/islab‬‬                ‫71‬
‫ﺗﺤﻠیﻞ ﺩﺍﺩﻩ ﻣﻨﺒﻊ ﺑﻪ ﺷکﻞ ‪) Bottom-Up‬ﺍﺩﺍﻣﻪ(‬


                            ‫‪ ‬ﻗﻮﺍﻋﺪی ﺭﺍﺟﻊ ﺑﻪ ﻣﻌﻨﺎی ﺭﻭﺍﺑﻂ ﻭ‬
                    ‫‪Technical Data‬‬
                   ‫‪Conversion Rules‬‬     ‫ﻭﺍﺑﺴﺘگی ﻫﺎی ﺩﺍﺩﻩ ﻫﺎ‬
                           ‫‪ ‬ﻣﺤﺪﻭﺩیﺖ ﻫﺎی ﺍﻋﻤﺎﻝ ﺷﺪﻩ ﺗﻮﺳﻂ‬
                        ‫ﻗﻮﺍﻧیﻦ ﻭ ﺳیﺎﺳﺖ ﻫﺎی کﺴﺐ ﻭ کﺎﺭ‬
           ‫‪Business Data‬‬                  ‫1. ﺩﺍﺩﻩ ﻫﺎی ﻣﺘﻨﺎﻗﺾ‬
                                  ‫‪Business Data‬‬
           ‫‪Domain Rules‬‬       ‫2. ﻧﻘﺾ ﻗﻮﺍﻧیﻦ کﺴﺐ ﻭ کﺎﺭ‬
                                  ‫‪Integrity Rules‬‬

                             ‫3. ﺍﺳﺘﻔﺎﺩﻩ ﻣﺠﺪﺩ ﺍﺯ کﻠیﺪ ﺍﺻﻠی‬
                                  ‫ﻏیﺮیکﺘﺎ‬      ‫4. کﻠیﺪ ﺍﺻﻠی‬
                             ‫5. ﺍﺷیﺎیی ﺑﺪﻭﻥ ﺷی ﻭﺍﻟﺪ ﻭﺍﺑﺴﺘﻪ‬
‫6. ﺭﻭﺍﺑﻂ ﺑیﻦ ﺍﺷیﺎی ﺩﻧیﺎی ﻭﺍﻗﻌی کﻪ ﺩﺭ ﺳیﺴﺘﻢ ﺛﺒﺖ ﻧﺸﺪﻩ‬
                                                     ‫ﺍﺳﺖ‬
                         ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
                    ‫‪http://ceit.aut.ac.ir/islab‬‬                ‫81‬
             ‫‪Data Cleansing‬‬

                                      ‫‪ ‬ﺗﺼﺤیﺢ ﺩﺍﺩﻩ ﺑﺪ‬
                               ‫‪‬یک پﺮﻭﺳﻪ ﺩﺳﺘی ﺍﺳﺖ‬
                                               ‫ﻮ‬
‫‪ ‬ﻣﻌﻤﻻ ﺯﻣﺎﻥ آﻦ کﻤﺘﺮ ﺍﺯ ﻣﻘﺪﺍﺭ ﻭﺍﻗﻌی ﺗﺨﻤیﻦ ﺯﺩﻩ ﻣی ﺷﻮﺩ‬
       ‫‪ ‬ﺑﺎ ﺭﻋﺎیﺖ ﺳﻪ ﺩﺳﺘﻪ ﻗﺎﻧﻮﻥ ﻓﻮﻕ، ﻗﺎﺑﻞ ﺩﺳﺘیﺎﺑی ﺍﺳﺖ‬




                        ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
                   ‫‪http://ceit.aut.ac.ir/islab‬‬          ‫91‬
                                             ‫ﺍﻧﺘﺨﺎﺏ ﺩﺍﺩﻩ ﻣﻨﺒﻊ‬
             ‫1‬
      ‫ﺗﻌییﻦ ﺩﺍﺩﻩ ﻣﻮﺭﺩ‬
           ‫ﻧیﺎﺯ‬

                                   ‫2‬
                           ‫ﺗﺤﻠیﻞ ﻣﺤﺘﻮﺍی ﺩﺍﺩﻩ‬

           ‫آیﺎ ﺍیﻦ ﺩﺍﺩﻩ ﺑﻪ ﺍﻧﺪﺍﺯﻩ کﺎﻓی ﺑﺮﺍی ﺗﺼﻤیﻢگیﺮی ‪ clean‬ﺍﺳﺖ؟‬     ‫•‬
                                                            ‫3‬
‫ﺩﺭ ﻏیﺮ ﺍیﻨﺼﻮﺭﺕ،آیﺎ ﺩﺍﺩﻩ، ﺣﺪﺍﻗﻞﺍﻧﺪکی، ﻗﺎﺑﻞ ‪ cleanse‬ﺷﺪﻥ ﺍﺳﺖ؟آیﺎ ﻣی‬
                                                    ‫• ﺍﻧﺘﺨﺎﺏ ﺩﺍﺩﻩ ﺑﺮﺍی‬
                                                      ‫ﺩﺍﻧیﻢ چﻄﻮﺭ؟‬
                                                       ‫‪BI‬‬
    ‫آیﺎ ﺩﺍﺩﻩ ‪ dirty‬ﺩﻟیﻞ ﺳﺎﺧﺘﻦ ﺍیﻦ ﺑﺮﻧﺎﻣﻪ کﺎﺭﺑﺮﺩی ‪ BI‬ﺍﺳﺖ؟آیﺎ ﺑﻨﺎﺑﺮﺍیﻦ‬       ‫•‬
                                     ‫‪ Cleansing‬ﺍیﻦ ﺩﺍﺩﻩ ﻻﺯﻡ ﺍﺳﺖ؟‬
  ‫ﺗﻌییﻦ ﺍیﻨکﻪ چﻄﻮﺭ ﺩﺍﺩﻩ ﺭﺍ ‪ cleanse‬کﻨیﻢ ﻻﺯﻣﺴﺖ؟‬
                                             ‫چﻘﺪﺭ ﻼﺵ ﺑﺮﺍی‬
                                                  ‫ﺗ‬                        ‫•‬
                                                                                    ‫4‬
                                                                             ‫آﻤﺎﺩﻩ ﺳﺎﺯی ﻣﺸﺨﺼﺎﺕ‬
                           ‫ﻫﺰیﻨﻪ ‪ Data Cleansing‬چﻘﺪﺭ ﺧﻮﺍﻫﺪ ﺑﻮﺩ؟‬            ‫•‬
                                                                              ‫‪Data Cleansing‬‬
   ‫ﻣﺰیﺖ ‪ cleansing‬ﺩﺍﺩﻩ ﺑﺮ ﺍﻧﺘﻘﺎﻝ آﻦ ﺑﻪ ﻫﻤﺎﻥ ﺷکﻞ ﺑﻪ ‪BI Application‬‬          ‫•‬
                                                            ‫چیﺴﺖ؟‬
            ‫ﺍﻃ‬
   ‫ﺍﻧﺘﻈﺎﺭﺍﺕکیﻔیﺖ ﺩﺍﺩﻩ ﺍﺯ ﺩیﺪ ﻣﺼﺮﻑ کﻨﻨﺪگﺎﻥ ﻼﻋﺎﺕ ﻭ ﻣﺪیﺮیﺖ‬                    ‫•‬                           ‫5‬
                                      ‫چیﺴﺖ؟‬  ‫کﺴﺐ ﻭ کﺎﺭ‬
                                                                                                 ‫ﺍﻧﺘﺨﺎﺏ ﺍﺑﺰﺍﺭﻫﺎ‬
                                                       ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
                                                  ‫‪http://ceit.aut.ac.ir/islab‬‬                                     ‫02‬
‫ﺍﻧﺘﺨﺎﺏ ﺩﺍﺩﻩ ﻣﻨﺒﻊ )ﺍﺩﺍﻣﻪ(‬

                                    ‫‪ ‬ﻣﻌیﺎﺭﻫﺎی ﺍﻧﺘﺨﺎﺏ :‬
                                         ‫یکپﺎﺭچگی ﺩﺍﺩﻩ‬   ‫‪‬‬
                                                ‫‪ ‬ﺩﻗﺖ ﺩﺍﺩﻩ‬
                                             ‫‪ ‬ﺻﺤﺖ ﺩﺍﺩﻩ‬
                                   ‫‪ ‬ﻗﺎﺑﻠیﺖ ﺍﻃﻤیﻨﺎﻥ ﺩﺍﺩﻩ‬
                                              ‫‪ ‬ﻓﺮﻣﺖ ﺩﺍﺩﻩ‬




          ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
     ‫‪http://ceit.aut.ac.ir/islab‬‬                             ‫12‬
‫‪To Cleanse or Not To Cleanse‬‬
   ‫‪ ‬ﺩﺍﺩﻩ کﻢکیﻔیﺖ ﺑﺎﻋﺚ ﺷکﺴﺖ یﺎ ﻧﺘﺎیﺞ ﻧﺎﻣﻄﻠﻮﺏ ﺩﺭ‬
                 ‫ﻓﻌﺎﻟیﺖ کﺴﺐ کﺴﺐ ﻭ کﺎﺭ ﻣی ﺷﻮﺩ‬
 ‫یک پﺮﻭﺳﻪ کﺎﺭﻃﻠﺐ، ﻭﻗﺖگیﺮ ﻭ گﺮﺍﻥ‬          ‫‪Cleansing ‬‬
                                                ‫ﺍﺳﺖ‬
 ‫‪ cleanse ‬ﺗﻤﺎﻡ ﺩﺍﺩﻩ ﻫﺎ ﺍﺯ ﻧﻈﺮ ﻫﺰیﻨﻪ ﻭ ﻋﻤﻠی ﺗﻮﺟیﻪ ﺷﺪﻩ‬
                                             ‫ﻧیﺴﺖ :‬
                                       ‫‪ ‬ﺗﻤﺎﻡ ﺩﺍﺩﻩ ﻫﺎی ﺣﺴﺎﺱ‬
                            ‫‪ ‬ﺑﺨﺶ ﺯیﺎﺩی ﺍﺯ ﺩﺍﺩﻩ ﻫﺎی ﻣﻬﻢ‬
 ‫یک ﺍﺯ ﺩﺍﺩﻩ ﻫﺎی ﺑی ﺍﻫﻤیﺖ )ﺑﺪﻭﻥ ‪ Cleansing‬پﺎیگﺎﻩ‬
       ‫ﺑﻪ‬                                           ‫‪ ‬ﻫیچ‬
                   ‫ﺩﺍﺩﻩ ﻫﺎی ﻣﻘﺼﺪ ﺩﺭ ‪ BI‬ﻣﻨﺘﻘﻞ ﺩﺭﺱ ﻫﻮﺵﺷﻮﻧﺪ(‬
                     ‫ﻣی ﺗﺠﺎﺭی‬
                       ‫‪http://ceit.aut.ac.ir/islab‬‬            ‫22‬
                 ‫ﻓﻌﺎﻟیﺖ ﻫﺎی ﺗﺤﻠیﻞ ﺩﺍﺩﻩ‬
                                                            ‫4 ﺗﻮﺳﻌﻪ ﻣﺪﻝ‬
                ‫2 ﻼﺡ ﻣﺪﻝ‬
                     ‫ﺍﺻ‬                                       ‫ﻣﻨﻄﻘی‬
                 ‫ﻣﻨﻄﻘی ﺩﺍﺩﻩ‬                                 ‫‪Enterprise‬‬
                                                                ‫ﺩﺍﺩﻩ‬

                                                                               ‫6 ﻧﻮﺷﺘﻦ‬
‫1 ﺗﺤﻠیﻞ ﻣﻨﺎﺑﻊ‬                                                                  ‫ﻣﺸﺨﺼﺎﺕ‬
 ‫ﺩﺍﺩﻩ ﺧﺎﺭﺟی‬                                                                     ‫‪Data‬‬
                                                                              ‫‪Cleansing‬‬



                  ‫3 ﺗﺤﻠیﻞ‬
                                                             ‫5 ﺣﻞ ﻧﺎﻫﻤﺨﻮﺍﻧی‬
                ‫کیﻔیﺖ ﺩﺍﺩﻩ‬
                                                               ‫ﻫﺎی ﺩﺍﺩﻩ ﺍی‬
                     ‫ﻣﻨﺒﻊ‬




                                   ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
                              ‫‪http://ceit.aut.ac.ir/islab‬‬                                 ‫32‬
        ‫ﻧﺘﺎیﺞ ﻓﻌﺎﻟیﺖ ﻫﺎ‬

‫ﻼ ﻣﺸﺨﺼﻪ ﺍی‬ ‫ﻣﺪﻝ ﻣﻨﻄﻘی ﺩﺍﺩﻩ ﻧﺮﻣﺎﻝ ﺷﺪﻩ ﻭ کﺎﻣ‬   ‫1.‬
                        ‫ﻣﺘﺎﺩﺍﺩﻩ کﺴﺐ ﻭ کﺎﺭ‬   ‫2.‬
              ‫ﻣﺸﺨﺼﺎﺕ ‪Data Cleansing‬‬         ‫3.‬
    ‫ﻣﺪﻝ ﻣﻨﻄﻘی ﺗﻮﺳﻌﻪ یﺎﻓﺘﻪ ‪ Enterprise‬ﺩﺍﺩﻩ‬   ‫4.‬




                ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
           ‫‪http://ceit.aut.ac.ir/islab‬‬           ‫42‬
‫ﻧﻘﺶ ﻫﺎیﺩﺭگیﺮ ﺩﺭ ﻓﻌﺎﻟیﺖ ﻫﺎ‬

            Business representative    
                 Data administrator    
                Data quality analyst   
                 ETL lead developer    
           Meta data administrator     
 Stakeholders including data owners    
              Subject matter expert    

              ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
         http://ceit.aut.ac.ir/islab       25
      ‫ﺭیﺴک ﻫﺎی ﻋﺪﻡپیﺎﺩﻩ ﺳﺎﺯی ﻗﺪﻡ 5‬

 ‫‪ ‬ﺑﺮﺧی ﻣﺪیﺮﺍﻥ کﺴﺐ ﻭ کﺎﺭ، ﻣﺪیﺮﺍﻥ ‪ IT‬ﻭ کﺎﺭﺷﻨﺎﺳﺎﻥ‬
                  ‫‪ IT‬ﺍیﻦ ﻣﺮﺣﻠﻪ ﺭﺍ ﻼﻑ ﺯﻣﺎﻥ ﻣی ﺩﺍﻧﻨﺪ‬
                                ‫ﺍﺗ‬
          ‫‪ ‬ﺯﻣﺎﻥ کﻤﺘﺮ ﺭﺍ ﻣﻌﺎﺩﻝ ﻣﻮﻓﻘیﺖ ﺑیﺸﺘﺮ ﻣی ﺩﺍﻧﻨﺪ‬
‫‪ ‬ﺩﺍﺩﻩ ﻫﺎی ﻣﻨﺒﻊ ﺭﺍ ﺑﻪ ﻫﻤﺎﻥ ﺷکﻞ ﺑﻪ ﻣﺤیﻂ ‪ BI DS‬ﻣﻨﺘﻘﻞ ﻣی‬
                                               ‫کﻨﻨﺪ‬
   ‫ﻼﺕ ﺩﺍﺩﻩ، آﻨﻬﺎ ﺭﺍﺗﺮکیﺐ ﻣی کﻨﻨﺪ‬ ‫ﻣﺸک‬     ‫‪ ‬ﺑﻪ ﺟﺎی ﺣﺬﻑ‬
                            ‫‪ ‬ﻣﻬﻢ ﺗﺮیﻦ ﻗﺪﻡ ﺑیﻦ ﺳﺎﺯﻣﺎﻧی‬
   ‫‪‬یک ﻭﺟﻪ ﺗﻔﺎﻭﺕ ﺑیﻦ ﺭﻭﺵ ﺗﻮﺳﻌﻪ ﺳﻨﺘی ﺳیﺴﺘﻢ ﻭ ﺭﻭﺵ‬
                                   ‫ﺗﻮﺳﻪ ﺑیﻦ ﺳﺎﺯﻣﺎﻧی‬
                         ‫ﺩﺭﺱ ﻫﻮﺵ ﺗﺠﺎﺭی‬
                    ‫‪http://ceit.aut.ac.ir/islab‬‬          ‫62‬

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:9
posted:7/22/2013
language:Unknown
pages:26
Lingjuan Ma Lingjuan Ma MS
About work for China Compulsory Certification. Some of the documents come from Internet, if you hold the copyright please contact me by huangcaijin@sohu.com