Statistick� anal�za dat

Document Sample
Statistick� anal�za dat Powered By Docstoc
					Jištění kvality technologických
procesů
     12. Statistická analýza dat
                       Richard Březina
Statistická analýza dat


     Základní pojmy

     Průzkumová analýza dat

     Vyhodnocování trendů
Statistická analýza dat
      Základní pojmy
          Statistické šetření

          Charakteristiky polohy a variability

          Grafické metody

      Průzkumová analýza dat

      Vyhodnocování trendů
Statistická analýza dat

     Základní pojmy

     Průzkumová analýza dat
         Výpočet popisných a intervalových charakteristik

         Grafické metody


     Vyhodnocování trendů
Statistická analýza dat

     Základní pojmy

     Průzkumová analýza dat

     Vyhodnocování trendů
         Tvorba a použití regulačních diagramů
Základní pojmy
     Statistické zkoumání
     Ve statistickém zkoumání se sledují hromadné jevy, tj. jevy vyskytující se u velkého množství prvků.
      Z hlediska účelu zkoumání hromadných jevů se předpokládá definování vymezené množiny objektů,
      prvků zkoumání neboli statistického souboru (soubor podniků, soubor obyvatelstva, soubor událostí
      apod.). Počet objektů, prvků, jednotek statistického souboru se nazývá rozsah souboru.
     Základní soubor
     Statistické soubory, které jsou předmětem statistického zkoumání, jsou označovány jako základní
      soubor.
     Výběrový soubor
     Z důvodu ekonomické náročnosti, praktické složitosti a velkých rozsahů se v praxi zpravidla nepracuje
      s celým rozsahem statistického souboru, ale jen se vzorkem statistických jednotek neboli s
      výběrovým souborem. Výběrové soubory se používají ke zkoumání zejména proto, že zobecnění
      provedené z dat výběrového souboru je považováno pro daný účel zkoumání za dostatečně přesné a
      z hlediska poznání za reprezentativní a že zkoumání celého statistického souboru by bylo nákladné,
      časově zdlouhavé nebo z jiných praktických ohledů neuskutečnitelné.
     Zkoumané vlastnosti statistického souboru sleduje statistika prostřednictvím měřitelných vlastností
      statistických jednotek. tzv. statistických znaků. Pracuje-li se u každé statistické jednotky jen s jedním
      znakem (s jednou proměnnou), jedná se o jednorozměrný soubor. Zjišťuje-li se současně více
      znaků a jejich vzájemné vztahy, jde o dvou-, tří-, resp. obecně vícerozměrný soubor.
Základní pojmy
     Kvalitativní a kvantitativní znaky
     Základním tříděním statistických znaků je rozlišování znaků číselných (kvantitativních,
      numerických) a znaků slovních (kvalitativních, alfabetických, kategoriálních).
     Číselné (kvantitativní, numerické) statistické znaky vyjadřují sledované vlastnosti statistických
      jednotek čísly. Číselné znaky se dělí na spojité (kontinuální), které mohou teoreticky nabývat
      libovolných reálných číselných hodnot v určitém intervalu (průtok vody, hmotnost výrobku, výška,
      peněžní obrat apod.) a znaky nespojité (diskrétní), které mohou v oboru reálných čísel nabývat
      pouze určitých číselných hodnot

     Cíle statistického zjišťování
     Cílem statistického šetření je získávání statistických dat o hodnotách statistických znaků u prvků,
      které tvoří statistický soubor. Každé statistické zjišťování má určitý, předem vymezený a konkrétní cíl.
      Z definice cílů šetření vyplývá,
           jak vymezíme statistický soubor
           jaké proměnné statistické znaky budeme zjišťovat.



     Zpracování rutinních dat
     Pro účely této přednášky se omezíme se na zpracování jednorozměrného souboru dat, u něhož
      sledujeme jednu vlastnost, měřením jednoho spojitého znaku
Základní pojmy
     Postup průzkumové analýzy dat
     Při statistickém vyhodnocení rutinních dat se předpokládá, že
          jde o nezávislé veličiny
          stejně rozdělené veličiny
          pocházející z normálního rozdělení

     Test nezávislosti prvků výběru
           Závislost měření je obvykle způsobena nestabilitou měřicího zařízení, nekonstantností
            podmínek, zanedbáním faktorů, které významně ovlivňují výsledek měření
     Test homogenity výběru
           K nehomogenitě naměřených dat dochází všude tam, kde se vyskytuje výrazná
            nestejnoměrnost měřených vlastností vzorků, mění se náhle podmínky experimentu a data
            obsahují vybočující měření
     Test normality dat
     Určení výběrového rozdělení a jeho konstrukce
           Stanovení parametrů polohy a rozptýlení
     Průzkumová analýza dat pomocí grafických metod
Základní pojmy
    Rozdělení pravděpodobnosti                                              Normální (Gaussovo) rozdělení
                                                                                         0,45




    Normální rozdělení                                                                   0,4


                                                                                         0,35


    Rozdělení je charakterizováno                                                        0,3



     parametrem polohy a rozptýlení funkcí hustoty pravd.




                                                              hustota
                                                                                         0,25




         Střední hodnotou m                                                              0,2


                                                                                         0,15

         Rozptylem           s2                                                          0,1




    Studentovo rozdělení                                                                0,05


                                                                                           0


    Pro výběry pocházející z normálního rozdělení platí,     -3      -2       -1               0       1    2   3
                                                                                                x

    že náhodná veličina t má Studentovo rozdělení s(n-1) stupni volnosti
                xm
            t       n
                 s

    C2 - rozdělení
    Pro výběry pocházející z normálního rozdělení platí, náhodná veličina C2 má C2 – rozdělení s (n-1) stupni
     volnosti

                 (n  1) s 2
          C2 
                    s2
Základní pojmy
     Výběrové charakteristiky polohy
                                        1 n
         Výběrový průměr            x   xi
                                        n i 1
                     Je maximálně věrohodným odhadem střední hodnoty m
                     Je velmi citlivý na odlehlé hodnoty

         Kvantily
              Kvantily jsou přirozenou mírou polohy. Daný výběr se nejdříve seřadí od nejmenší hodnoty
               po největší a poté určíme pro daný p% kvantil pořadové číslo jednotky n p , pro které platí:
                      p             p
                   n       np  n     1
                     100           100
                             ~
                             x50
              Medián                                                           robustní
                     padesátiprocentní kvantil, který charakterizuje z hlediska velikosti prostřední
                      hodnotu souboru. Ve statistickém souboru odděluje polovinu hodnot menších od
                      poloviny hodnot větších.
                             ~
                             x 25    ~
                                     x75
              Kvartily                                                         robustní
                     25% a 75% kvantil

         Modus               ˆ
                              x                                                 robustní
              Modus je hodnota , která se vyskytuje nejčastěji.
Základní pojmy
    Výběrové charakteristiky rozptýlení
        Výběrový rozptyl a směrodatná odchylka
             je nevychýleným odhadem rozptylu s2 pro normální rozdělení. Je definován jako aritmetický
              průměr ze čtverců odchylek jednotlivých hodnot od průměru, tj.
                                            , s – směrodatná odchylka
                          i1 xi  x 
                      1    n
              sx 
               2                        2

                     n 1

        Varianční rozpětí                                                       robustní
             Variační rozpětí R je rychlou, jednoduchou, ale jen orientační charakteristikou variability
              založenou na informaci o maximální a minimální hodnotě v souboru, tj.

               R  xm ax  xm in


        Interkvartilové rozpětí                                                 robustní
             Kvantilový odhad směrodatné odchylky

               RF  0,7413 ( ~75  ~25 )
                             x     x
Základní pojmy
    Charakteristika tvaru rozdělení
        Šikmost
             slouží k zjištění míry symetrie (souměrnosti) rozdělení
             Jednoduchou charakteristikou šikmosti je Pearsonův koeficient α. K hodnocení
              stupně šikmosti využívá vztah mezi velikostí aritmetického průměru a mediánu
              daný ve tvaru
                     x~ x
                  
                      sx
             Jiný přístup k měření šikmosti je založen na aplikaci tzv. momentových
              charakteristik. Při práci s daty uspořádanými do rozdělení četností je vhodná tzv.
              momentová míra šikmosti
                                   3
                   1 k  xi  x 
                     
                  n i 1  s x 
                                  ni
                                
        Špičatost
             Míry špičatosti jsou založeny na srovnání stupně nahuštěnosti hodnot prostřední
              velikosti se stupněm nahuštěnosti ostatních
                                 4
                  1 k  xi  x 
                    
                  n i 1  sx 
                                ni  3
                              
Základní pojmy
    Intervalové odhady statistických parametrů
        Koeficient spolehlivosti, hladina významnosti
        Ze statistického hlediska mají bodové odhady malý význam, protože neříkají nic o tom, kde leží skutečné
         hodnoty parametrů. Více informací poskytuje intervalový odhad, který určuje interval, v němž se bude se
         zadanou pravděpodobností ( 1-  )nacházet skutečná hodnota daného parametru.
        Pravděpodobnost nazýváme koeficient spolehlivosti ( 1-  ), volíme nejčastěji 95% nebo 99% a
         parametr  se nazývá hladina významnosti.

        Intervalový odhad střední hodnoty
                                 s                             s
             x  t1 / 2 ( )        m  x  t1 / 2 ( )
                                 n                             n

        Intervalový odhad rozptylu
                 (n  1) s 2              (n  1) s 2
                                 s2 
                C1 / 2 n
                 2
                                          C / 2 n
                                           2




        Intervalový odhad mediánu
          ~ u        0,707 s                        0,707 s
          x50 1 / 2          med  ~50  u1 / 2
                                      x
                         n                              n
Základní pojmy
 Grafické metody
 Diagram rozptýlení a krabicový graf
Základní pojmy
 Grafické metody
 Histogram                        Q-Q graf




 Odhad hustoty pravděpodobnosti   Graf rozptýlení s kvantily
Průzkumová analýza dat
 Příklad: Homogenita tabletoviny
    Obsahová stejnoměrnost
         Obsah účinné látky v tabletovině



    Naměřené hodnoty
         Výsledky analýzy obsahu účinné látky ve vzorcích odebraných z homogenizačního
          kontejneru při prospektivní validaci na 3 validačních šaržích



    Limity pro obsahovou stejnoměrnost v tabletovině :
         Interval 93-107 % pro jednotlivé naměřené hodnoty
         Interval 18,6 – 21,4 mg/tbl
         RSD ≤ 3,2%
Průzkumová analýza dat
 Naměřené hodnoty
      Označení vzorku   Obsah účinné látky v tabletovině [mg/tbl.]

                        Š1                 Š2                  Š3

      A                 19,70              19,50               19,60

      B                 19,70              19,51               19,69

      C                 19,60              19,84               19,47

      D                 19,60              19,66               18,94

      E                 19,60              19,70               19,52

      F                 19,90              19,47               19,52

      G                 19,80              19,54               19,52

      H                 19,90              20,10               19,67

      CH                19,40              19,69               19,59

      I                 19,80              19,48               19,45
Průzkumová analýza dat
      Test normality :
      Název sloupce :             šarže1               šarže2               šarže3
      Normalita :                 Přijata              Přijata              Zamítnuta
      Vypočtený :                              0,573                4,012                7,690
      Teoretický :                             5,991                5,991                5,991
      Pravděpodobnost :                        0,751                0,134                0,021
      Vybočující body :
      Název sloupce :             šarže1               šarže2               šarže3
      Homogenita :                Přijata              Zamítnuta            Zamítnuta
      Počet vybočujících bodů :                0,000                1,000                1,000
      Spodní mez :                          19,222                 19,083               19,185
      Horní mez :                           20,178                 20,087               19,855
      Autokorelace :
      Řád autokorelace :                          4
      Název sloupce :             šarže1               šarže2               šarže3
      Řád autokorelace 1
      Závěr :                     Nevýznamný           Nevýznamný           Nevýznamný
Průzkumová analýza dat
     Klasické parametry :
     Název sloupce :              šarže1            šarže2            šarže3
     Průměr :                                19,7            19,649            19,497
     Spodní mez :                          19,588            19,506            19,346
     Horní mez :                           19,812            19,792            19,648
     Rozptyl :                              0,024             0,040             0,045
     Směr. odchylka :                       0,156             0,200             0,211
     Šikmost                               -0,368             1,195            -1,974
     Odchylka od 0 :              Nevýznamná        Nevýznamná        Významná
     Špičatost :                            2,438             3,549             6,134
     Odchylka od 3 :              Nevýznamná        Nevýznamná        Významná
     Polosuma                              19,650            19,785            19,315
     Modus :                               19,700            19,520            19,558
     Robustní parametry :
     Název sloupce :              šarže1            šarže2            šarže3
     Medián :                              19,700            19,600            19,520
     IS spodní :                           19,527            19,392            19,393
     IS horní :                            19,873            19,808            19,647
     Mediánová směr. odchylka :             0,077             0,092             0,056
     Mediánový rozptyl :                    0,006             0,008             0,003
Průzkumová analýza dat
 Grafické metody




       s1


      s2



      s3
Průzkumová analýza dat
Vyhodnocování trendů
 Vyhodnocování trendů
    Vyhodnocování trendů zahrnuje metody a postupy sledování a
     vyhodnocování vybraných veličin procesu. Všechny tyto činnosti mají za
     cíl odhalit v získaných datech signály, že existují podmínky, které mohou
     způsobit odchylku od ustáleného stavu procesu a pomoci tak
     identifikovat nepříznivé vlivy, které mohou mít negativní dopad na
     produkt.
  Prakticky to znamená, že předpokládáme nějaké statistické vlastnosti
   procesu (obecně dat) a vyhodnocování trendů slouží (přinejmenším) k
   testování, zda se tyto statistické vlastnosti nemění.
  Postupy:
     Sledování středních hodnot a rozptylů

     Grafické zobrazení dat

     Regulační diagramy
Vyhodnocování trendů
 Regulační diagramy
    Diagram x-průměr
       Použití tohoto grafu se doporučuje pokud je možné vytvořit tzv.
        podskupiny (dvě nebo více hodnot pro jeden časový okamžik).

    Diagram x-individual
       Používá se tam, kde z nějakého důvodu není možné vytvořit
        podskupiny, do grafu se vynáší přímo naměřené hodnoty


    Diagram c
       Je vhodný pro sledování počtu jednotlivých vad na definovaném
        množství výrobku, který má Poissonovo rozdělení
Vyhodnocování trendů
 Pravidla regulačních diagramů
    1.Jedna hodnota mimo kontrolní meze,
    2.Devět hodnot na téže straně centrální linie,
    3.Šest hodnot za sebou roste nebo klesá,
    4.Čtrnáct hodnot má střídavé znaménko svých diferencí,
    5.Dvě ze tří hodnot jsou od základní linie dále než 2s,
    6.Čtyři z pěti hodnot jsou na téže straně základní linie dále než 1s,
    7.Patnáct hodnot je uvnitř intervalu ±s od základní linie,
    8.Osm hodnot po sobě je mimo interval ±s od základní linie.
Vyhodnocování trendů
 Příklad: Sledování výtěžnosti
    Výtěžek
        Množství přijaté na sklad z výrobní zakázky


    Naměřené hodnoty
        Množství přijaté na sklad z výrobních zakázek 9
         sledovaných přípravků za období 2003 -2004 byly
         získány ze systému SAP
Vyhodnocení trendů
            Sledování středních hodnot a rozptylů
                Rok 2003                               Rok 2004                               Porovnání
Přípravek       Stř. h.    Rozptyl Sm.od. Počet Stř. h.           Rozptyl Sm.od. Počet Střední h.           Rozptyly
Přípravek1      101,704    0,354   0,595  9     102,194           0,305   0,552  17    neshodné             shodné
Přípravek2      280,288    15,260    3,906     17      282,690    6,209   2,492  20    neshodné             neshodné
Přípravek3      282,747    8,732     2,955     55      283,082    9,621     3,102     83      shodné        shodné
Přípravek4      586,940    5,924     2,434     60      587,851    4,787     2,188     63      neshodné      shodné
Přípravek5      281,664    5,760     2,400     171     280,417    11,661    3,415     193     neshodné      neshodné
Přípravek6      705,454    62,220    7,888     28      709,513    72,364    8,507     30      shodné        shodné
Přípravek7      316,133    18,100    4,254     81      315,903    12,470    3,531     60      shodné        shodné
Přípravek8      138,063    1,351     1,162     46      138,055    1,667     1,291     51      shodné        shodné
Přípravek9      448,459    7,714     2,777     44      447,846    35,496    5,958     41      shodné        shodné

            Z tabulky je patrné, že Přípravek5 vykazuje za rok 2004 pokles výtěžnosti a změnu rozptylu. Proto
             provedeme analýzu pomocí regulačního diagramu X-individual. Nejdříve vytvoříme regulační
             diagram pro data za rok 2003.
Vyhodnocení trendů
    Regulační diagram




    Z grafu je patrné, že došlo zhruba po 100 šaržích ke změně ve výrobním
     postupu, proto je potřeba pro výpočet parametrů ustáleného stavu
     procesu vzít data pro šarže s pořadovým číslem větším než 100.
Vyhodnocení trendů
    Při tvorbě regulačního diagramu byly vypočteny následující hodnoty
     parametrů:
       ZL      = 280,318 (výběrový průměr)
              s = 2,675 (výběrová směrodatná odchylka)
         LCL = 271,937
         UCL = 288,700

    Tyto vypočtené parametry byly použity pro regulační diagram z dat
     naměřených v roce 2004
Vyhodnocení trendů




    Červeně označené body indikují porušení jednoho nebo více z 8 pravidel
     regulačních diagramů. Kromě bodů mimo meze (kde se jednalo o výrobu
     na výjimku), se také jedná o šarže kolem pořadového čísla 300, kde je
     pro více než dvacet bodů porušeno pravidlo
    č.7 Patnáct hodnot je uvnitř intervalu ±s od základní linie
    Tento jev byl odůvodněn výrobou pod dohledem technologa z důvodů
     testování nového dodavatele suroviny.

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:12
posted:6/23/2012
language:
pages:29