M�todos de Ordena��o by CGs31n1

VIEWS: 0 PAGES: 24

									Métodos de Ordenação
     Valério De Patta Pillar
           Departamento de Ecologia
   Universidade Federal do Rio Grande do Sul
                 Porto Alegre, RS
                 vpillar@ufrgs.br
         http://ecoqua.ecologia.ufrgs.br
• Em ecologia buscamos revelar padrões, processos e
  mecanismos ao examinar conjuntos, geralmente
  complexos, de unidades ecológicas descritas por
  muitas variáveis.


   Métodos de ordenação podem sintetizar conjuntos
  complexos de dados, permitindo interpretações sobre
            padrões no espaço e no tempo.
                Bibliografia
• Legendre, P.; Legendre, L. 1998. Numerical Ecology 2nd ed.
  Elsevier, Amsterdam. 853 p.
• Podani, J. 2000. Introduction to the Exploration of Multivariate
  Biological Data. Leiden, Backuys Publishers. 407 p. ISBN 90-
  5782-067-6
• Pillar, V.D. 1999. The bootstrapped ordination reexamined.
  Journal of Vegetation Science 10: 895-902.
• Valentin, J.L. 2000. Ecologia Numérica. Rio de Janeiro,
  Interciência.
• Wildi, O. & Orlóci, L. 1990. Numerical Exploration of
  Community Patterns. Haia, SPB Academic Publishing. p. 65-
  68.
Análise de dados com MULTIV




Disponível em http://ecoqua.ecologia.ufrgs.br
                         Ordenação
Os dados podem ser representados em um espaço de comparação,
   abstrato, multidimensional:
- p variáveis são as dimensões que descrevem
- n unidades amostrais, pontos no espaço de comparação.
Ordenação é uma projeção dos pontos em um número menor
de dimensões (geralmente 2 ou 3) com mínima perda de
informação.

 Alguns métodos de ordenação:
 •Análise de Componentes Principais (PCA)
 •Análise de Coordenadas Principais (PCOA)
 •Análise de Correspondência (CA)
 •Ordenação não-métrica (NMDS)
 •Ordenação Canônica (CCA, Análise de Redundância)
                      Floresta    Floresta
Unidade    Campos    Ombrófila   Ombrófila
amostral    (-Ast)      Mista      Densa            350
   1          25        237          6
   2          47        234          16
                                                    300
   3          22        269          9
   4          64        214          14
   5         109        175          6              250
   6         115        156          15
   7         188         68          8
   8         223         37          12             200
   9         170         40          6
  10         235         24          0
  11         220         20          2              150
  12         195         16          4
  13         205         15          0              100
  14         230          6          1
  15         234          6          2
  16         253          8          0              50
  17         234         12          0
  18         228         11          1
  19         242         13          0                0
  20         227         19          1       -5 0          0   50   100   150   200   250   300
  21         227         24          1              -5 0
  22         217         28          1



                                             Diagrama de dispersão de 22 paleo-inventários
                                             (unidades amostrais) descritas por três
                                             variáveis. A terceira dimensão (variável 3) é
                                             representada pelo diâmetro das esferas (esferas
                                             maiores estão mais próximas do observador e
                                             indicam maior abundância da variável 3).
                                                                                Eryn
                                                                              Pa mp
                                                                                  Pl au
                                                                          Pl tu Cype
                                                                         Echi Ap ia
                                                 Cl et   Myrt                    Se ne
                                            La sp                        Hydr Ju ng Ba cc
                                                  Ile x Proc               Myri
                                                        So la
                                                  Schi                       AsTu
                            Wei n            Ce cr
                                          Eu te Trem Se co
                      Aran Mi sc Mora     Acal         Ce lt                                Po ac
                               Myrs                        Al chXyri
                                  Di ck




Ordenação de dados de pólen de um perfil de sedimento, Cambará do Sul, Brazil, indicando a
trajetória da composição da vegetação em 42.840 14C anos antes do presente. Método de análise
de coordenadas principais com base em distâncias euclidianas usando porcentagem de pólen em
138 taxa. Taxa mais correlacionados com os eixos de ordenação estão indicados em posições
proporcionais ao nível de correlação.
Fonte: Behling, H.; Pillar, V.D.; Orlóci, L. & Bauermann, S.G. 2004. Late Quaternary Araucaria forest, grassland
(Campos), fire and climate dynamics, studied by high-resolution pollen, charcoal and multivariate analysis of the
Cambará do Sul core in southern Brazil. Palaeogeography, Palaeoclimatology, Palaeoecology 203: 277-297.
                                                                                     Wei n



                                                                             Da ph
                                                                             Pi pe
                                       So la          Se ne
                                 Myrt
                           Mel a Mi sc              Ph ry
                            Ba cc      Ile x AsTu Stru                              Di ck
                                             La sp            Pi nu            Acal
                                Za nt        Cl et cP ro                        Ce lt     Aran
                                                                         Cype Myrs
                                                                 Se ba       Amar
                                                                         Trem
                                                                              Eri o
                                                                               Po ac




Ordenação de dados de pólen de um perfil de sedimento, Cambará do Sul, Brazil, indicando a
trajetória da composição da vegetação desde 610 anos antes do presente. Método de análise de
coordenadas principais com base em distâncias euclidianas usando porcentagem de pólen em 92
taxa. Taxa mais correlacionados com os eixos de ordenação estão indicados em posições
proporcionais ao nível de correlação.
Fonte: Behling, H.; Pillar, V.D.; Orlóci, L. & Bauermann, S.G. 2004. Late Quaternary Araucaria forest, grassland
(Campos), fire and climate dynamics, inferred from a high resolution pollen and charcoal record at Cambará do Sul
in southern Brazil. Palaeogeography, Palaeoclimatology, Palaeoecology 203: 277-297.
                   Análise de Componentes Principais
                              (Hotelling 1933)


               nxp
               Dados




Calcula matriz
de semelhança


             pxp

Extração de
raízes da matriz
                      Análise de Componentes Principais
     Sp.A Sp.B Sp.C
 1   26    28    18
 2   28    30    14
 3   29    31    13
 4   29    33    13
 5   30    27    19
 6   35    38    15
 7   39    36    15

Matriz submetida a extracao   de autovalores e autovetores:
                19.67         13.83       -1.50
                13.83         16.00       -5.17
                 -1.50        -5.17        5.57

Numero de autovalores >1e-6    3
Autovalores:                32.6           7.2         1.4
Porcentagem:                79.0          17.5         3.5

Autovetores (normalizados max. 6):
Eixo 1:                   -0.730        -0.662       0.167
Eixo 2:                   -0.531         0.396      -0.750
Eixo 3:                    0.430        -0.636      -0.640

Escores de unid.amostrais nos primeiros   3 componentes
Eixo 1:                      2.76          0.78      0.71          0.17         1.90   -2.83   -3.49
Eixo 2:                     -0.39          0.67      0.97          1.29        -1.73    0.19   -1.00
Eixo 3:                     -0.55          0.24      0.51         -0.01         0.15   -0.78    0.44

Coeficientes de correlacao entre descritores originais e eixos da ordenacao:
Variáveis                Eixo 1     Eixo 2        Eixo 3
     a                      -0.940      -0.322        0.117
     b                      -0.945       0.266       -0.191
     c                       0.405      -0.854       -0.326
                   Análise de Coordenadas Principais (Gower 1966)
                          ou Metric Multidimensional Scaling (Torgerson 1952)

     nxp
     Dados




 Calcula
 semelhanças


                   nxn




Extração de
raízes da matriz
                     Análise de Coordenadas Principais
Matriz de distancias ao quadrado:
             0
            34         0
            43         1       0
            59         5       4        0
            18        42      53       73          0
          190         86      89       65        162       0
          242       126      129      113        178      20        0

Matriz submetida a extracao de autovalores     e autovetores:
         48.37   10.51     7.80     -0.20       35.08 -44.78    -56.78
         10.51    6.65     7.94      5.94        2.22 -13.63    -19.63
          7.80    7.94    10.22      8.22       -1.49 -13.35    -19.35
         -0.20    5.94     8.22     10.22      -11.49   -1.35   -11.35
         35.08    2.22    -1.49    -11.49       39.80 -35.06    -29.06
        -44.78  -13.63   -13.35     -1.35      -35.06   52.08    56.08
        -56.78  -19.63   -19.35    -11.35      -29.06   56.08    80.08

Número de
autovalores          3
Autovalores      195.3      43.4       8.7
Porcentagem       79.0      17.5       3.5

Escores de unid.amostrais nos primeiros 3 componentes:
Eixo 1:          -6.76     -1.91    -1.74   -0.42  -4.66          6.94 8.54        Sp.A Sp.B Sp.C
Eixo 2:          -0.96      1.63     2.38    3.17  -4.23          0.46 -2.45   1   26   28    18
Eixo 3:          -1.34      0.60     1.24   -0.03   0.37         -1.91 1.08    2   28   30    14
                                                                               3   29   31    13
Coeficientes de correlacao entre descritores                                   4   29   33    13
Variáveis       Eixo 1   Eixo 2    Eixo 3                                      5   30   27    19
     a            0.940   -0.322     0.117                                     6   35   38    15
     b            0.945    0.266    -0.191                                     7   39   36    15
     c           -0.405   -0.854    -0.326
                        Análise de Correspondência
      ou “contingency table analysis”, “reciprocal averaging”, “reciprocal ordering”, “analyse
             factorielle des correspondances” (ref. em Legendre & Legendre 1998:451)


               nxp
               Dados
               ajuste
               duplo

Calcula matriz
de semelhança


             pxp

Extração de
raízes da matriz
                                Análise de Correspondência
     Sp.A Sp.B Sp.C
 1   26    28    18
 2   28    30    14
 3   29    31    13
 4   29    33    13
 5   30    27    19
 6   35    38    15
 7   39    36    15


Matriz de dados transformados: (Linhas= 7 unidades amostrais, colunas= 3 variaveis)
             -0.020088    -0.011265     0.044907
           -0.0023905    0.0058395     -0.005045
           0.00073943    0.0090759     -0.014185
           -0.0054785      0.018077    -0.018354
           -0.0007389       -0.03116    0.046138
            0.0011092      0.014453    -0.022491
              0.024052    -0.005552      -0.02622

Matriz submetida a extracao de autovalores e autovetores:
            0.0010201
         0.000025534 0.001781
           -0.0014897 -0.002613 0.005902

Numero de autovalores >1e-6: 2
Autovalores(max.6):    0.007456        0.001248
Porcentagem:             85.667          14.333

Escores de unidades amostrais nos primeiros 2 componentes:
Eixo1:                       1.555 -0.20106 -0.52273       -0.70681      1.6765   -0.75526   -0.74296
Eixo2:                       1.043    0.38188   0.27698      1.0378     -1.0589     0.4062    -1.7409
Escores de variaveis nos primeiros 2 componentes:
Eixo 1:                  -0.32932 -0.64119        2.0102
Eixo 2:                   -1.1903      1.0175   0.28395
É estável esta ordenação, i.e., as mesmas tendências de variação nesse
espaço de ordenação em duas dimensões reapareceriam se o mesmo
universo amostral fosse reamostrado?
É suficiente o número de unidades amostrais para responder essa
questão?
           Significância de eixos de
                   ordenação
•   Um problema na ordenação é saber quantas dimensões são
    significativas, a serem então interpretadas.
•   Interpretações podem ser enganosas quando baseadas em dimensões
    representando tendências instáveis de variação que não reapareceriam
    na análise de outras amostras do mesmo universo amostral.
•   Pode haver perda de informação importante ao descartar dimensões
    significativas.

Jackson, D.A. 1993. Stopping rules in principal components analysis: a comparison of
    heuristical and statistical approaches. Ecology 74: 2204-2214.
Pillar, V. D. 1999. The bootstrapped ordination reexamined. Journal of Vegetation
    Science 10: 895-902.
                          Algoritm o:
                          1 . Anali sar a amos t ra (pseud o univ erso amos t ral)

Bootstrapped ordination        usando o m ét odo de or denação escolhido.
                          2 . Armazenar os escores de         unidades      amostrais
                               ( escores de ref erência ).
                          Repet ir os passos seguintes um      grande núme ro de
                          vezes para cada amos t ra de t amanho k:
                          3 . Tomar uma amostra boots t rap de tamanho n k a qual
                               é submetida ao mét odo de ord enação.
                          4 . Armazenam -se em uma ma t riz X* os escores de
                               ordenação da amos t ra boot st rap para um dado
                               núm ero de eixos da or denação.
                          5 . Armazenam -se em uma matriz X os escores das
                               unidades amostrais        que estão na         amos t ra
                               boots t rap, mas ex t raídos dos e scores de referê ncia
                               (unidades amostrais p odem est ar repetidas).
                          6 . Ajust e Proc rusteano envo lven do os prime iros i eixo s
                               da ordenação          t orna os escores das duas
                               ordenações       comparáveis .      Envo lve   rotaç ão,
                               t ransla ção e dilatação do subespaço de ordenação
                               na amos t ra boot st rap, de tal fo rma a maximi zar o
                               ajuste com a         ordenação do pseu do univ erso
                               amos t ral. (Schön emann and Carroll 1 9 7 0).
Bootstrapped ordination
Ajuste de Procrustes
  •   O ajuste envolve rotação, translação e dilatação
      do sub-espaço de ordenação da amostra
      bootstrap de modo a maximizar o ajuste com a
      ordenação do pseudo universo amostral.
  •   O ajuste é necessário devido à forma como os
      algoritmos de ordenação posicionam os eixos de
      diferentes amostras. Primeiro, imagens
      especulares são comuns e arbitrárias. Segundo,
      há variação entre amostras boostrap na ordem
      de expressão da mesma dimensão intrínseca
      porque podem ser muito semelhantes.
  Schönemann, P.H. & Carroll, R.M. 1970. Fitting one matrix
     to another under choice of a central dilation and a rigid
     motion. Psychometrika 35: 245-256.
The effect of sample size on the
significance of ordination axes
(PCOA). The method involved
bootstrap resampling with
increasing sample size. Upper:
data set with 60 species and 60
relevés from grassland in the
south of Brazil. Bottom: the data
set with the same relevés
described by 20 environmental
variables. (Pillar 1999)
Efeito do tamanho da amostra na
significância de eixos de ordenação. O
método envolveu auto-reamostragem
(bootstrap) com tamanhos crescentes de
amostra. A análise usou matrizes simuladas
com 3 grupos de 4 variáveis cada e 40
unidades amostrais: correlação entre
variáveis r = 0.6 dentro e r = 0.3 entre
grupos. (Pillar 1999)
( A)                            ( C)
1       0.9 9   0.9 9   0.9 9   1         0.9 9    0.0 0    0.0 0
0.9 9   1       0.9 9   0.9 9   0.9 9     1        0.0 0    0.0 0
0.9 9   0.9 9   1       0.9 9   0.0 0     0.0 0    1        0.9 9
0.9 9   0.9 9   0.9 9   1       0.0 0     0.0 0    0.9 9    1

( B)                            (D)
1       0.0 0   0.0 0   0.0 0   1         -0.9 9   -0.9 9   -0.9 9
0.0 0   1       0.0 0   0.0 0   -0.9 9    1        0.9 9    0.9 9
0.0 0   0.0 0   1       0.0 0   -0.9 9    0.9 9    1        0.9 9
0.0 0   0.0 0   0.0 0   1       - 0.9 9   0.9 9    0.9 9    1
  Bootstrapped ordination
                                                               ( 6 ) Sc ores on axis 2 f rom ( 5) aft er Procrust ean
                                                               adjust me nt involving axes 1 a nd 2 t o maximize fi t
( 1 ) Da t a set ( variables in rows, sampling                 with similar ordinat ion subspace in ( 4 ):
unit s in columns):                                                         3         4         2          1         2
17      14      27      21     16                              Ax is 2: 0.8302    -2.00955     5.00678 0.385703    5.00678
5       9       8       5      0
5       8       0       0      10                              ( 7 ) Correlat ion 2 * betw een bootst rap ( 6) and
                                                               ref erence scores (4 ) on axis 2: 0. 9 71 9 97
( 2 ) Comp ute r efe rence ordinat ion with th e dat a set:
PCOA eigenvalues: 1 83 .159 4 3 .5 4 97 1 1 .69 1 1            ( 8 ) Sc ores on axis 1 f rom ( 5) aft er Procrust ean
Scores of sampling unit s ( f irst 2 axes) :                   adjust me nt involving only axis 1 to m axi mize f it with
           1           2         3         4          5        simi lar o rdinat ion subspace in ( 4 ):
Ax is 1: 1.80 579    4.9865   -9.39389 -4.32964 6.93124                     3          4        2          1         2
Ax is 2: 0.28828     4.9386   -0.08556 -0.86007 -4.28128       Ax is 1: -8.8812   -4.7088      5.32221   1.00086   5.32221

( 3 ) Get a boot st rap sample f rom (1 ) :
                                                               ( 9 ) Correlat ion 1 * betw een bootst rap ( 6) and
Sampling units: 3 4 2 1 2
                                                               ref erence scores (4 ) on axis 1: 0. 9 95 9 73
( 4 ) Sc ores of boot str ap sampling units on t he f irst 2
                                                               ( 1 0) D at a set f rom st ep   ( 1 ) r andomly permut ed
ref erence ordinat ion axe s, t aken f rom ( 2 ):
                                                               with in variables:
             3         4         2         1          2
                                                               27      14      17     16       21
Ax is 1: -9.3939 -4.32964     4.9865    1.80579    4.9865
Ax is 2: -0.08556 -0.86007    4.9386    0.28828   4.93864      5       5       0      8        9
                                                               5       10      8      0        0
( 5 ) Ordinat ion wit h boot str ap sample:
PCOA eigenvalues: 1 81 .712 1 9 .1 7 81 1. 9 10 0 8            ( 1 1) R ef erence ordinat ion of permut ed dat a set:
Scores of sampling unit s ( f irst 2 axes) :                   PCOA eigenvalues: 1 39 .413 8 5 .5 4 14 1 3 .44 5 4
            3           4         2         1       2          Scores of sampling unit s ( f irst 2 axes) :
Ax is 1: -9.1088    -4.6 3347 6.12578   1.49071    6.12578                   1        2         3        4         5
Ax is 2: -2.4064     2.46444 -1.12336   2.18864   -1.12336     Ax is 1: 4.56838   -6.84347 -5.75821 2.24378 5.78952
                                                               Ax is 2: 6.56064    -1.2166  2.3469 -5.56826 -2.12269
                  Bootstrapped ordination (cont…)
The fo llowing st eps ( 1 2) to ( 1 8) are similar to st eps
                                                                ( 1 6) Correlat ion 2 o betw een bootst rap ( 15 ) and
( 3 ) to (9 ) , but p erf orme d with permut ed dat a fr om
                                                                ref erence scores (1 3 ) on a xi s 2: 0. 9 99 9 99 , wh ich is
( 1 0):
                                                                larger th an th e correlat ion  * fo und i n st ep ( 7) .
                                                                                                 2

( 1 2) Get a boots t rap sample f rom p ermut ed data
(w ith same number o f repeats as in (3 ) ):                    ( 1 7) S cores on axis 1 f rom (1 4 ) a f t er Procrust ean
Sampling units: 3 4 2 1 2                                       adjust me nt involving only axis 1 to m axi mize f it with
                                                                simi lar o rdinat ion subspace in ( 1 3) :
( 1 3) S cores of bootst rap sampling unit s on th e fi rst 2                3          4        2            1         2
ref erence ordinat ion axe s of permut ed d at a, ta ken        Ax is 1: -4.0544   -0.64967 -6.77643     5.62398    -6.77643
f rom st ep (1 1 ):
            3        4          2        1           2          ( 1 8) Correlat ion 1 o betw een bootst rap ( 17 ) and
Ax is 1: -5.75821 2.24378 -6.84347     4.56838   -6.84347       ref erence scores (1 3 ) on a xi s 1: 0. 9 47 2 99 , wh ich is
Ax is 2: 2.3469 -5.56826 -1.2166       6.56064    -1.2166
                                                                smaller th an th e correlat ion 1 * fo und i n st ep ( 9) .

( 1 4) Ordinat ion of boot str ap sample t aken f rom
                                                                ( 1 9) R epeat st eps ( 3 ) to ( 1 8) up to B it erat ions.
permut ed data :
PCOA eigenvalues: 1 32 .979 7 1 .8 4 5 16. 7 76
                                                                ( 2 0) A r un with B = 10 0 0 i t erat ions g ave th e f ollowing
Scores of sampling unit s ( f irst 2 axes) :
                                                                result s:
            3         4          2         1         2
Ax is 1: 1.69214 -2.07875 4.7068 -9.02699 4.7068                Axi s P( io • i* ) Average i*
Ax is 2: -3.13995 7.26744 -0.613028 -2.90144 -0.613028          1      0.3 91         0.9 82 2 27
                                                                2      0.5 67         0.8 70 7 88
( 1 5) S cores on axis 2 f rom (1 4 ) a f t er Procrust ean
adjust me nt involving axes 1 a nd 2 t o maximize fi t wit h    The probabilit ies indicat e none of th e ordinat ion
simi lar o rdinat ion subspace in ( 1 3) :                      dimensions examined is signif icant .
          3             4        2            1         2
Ax is 2: 2.3248   -5.53962 -1.20902    6.53895   -1.20902

								
To top