APOSTILA:

Document Sample
APOSTILA: Powered By Docstoc
					Ferramentas Estatísticas em Controle Estatístico de Qualidade        Robert Wayne Samohyl Ph.D.       1



Capítulo 13. Regressão Simples
13.1 Introdução a regressão simples: causalidade e os erros de previsão.
13.2 Regressão simples com a variável tempo.
13.3 Minimizando os erros.
13.4 Exemplo: Previsão de vendas
13.5 Coeficiente de determinação - R2.
13.6 Natureza estatística da reta estimada
13.7 Normalidade, independência e a constância da variância dos erros residuais.
13.8 Desvio padrão (erro padrão) dos estimadores dos coeficientes e intervalo de confiança.
13.9 Exemplo de intervalo de confiança para os coeficientes a e b da regressão simples.
13.10 Teste de hipótese da representatividade da equação como um todo, a estatística F.
13.11 Outro exemplo do teste de hipótese com a estatística F: a dureza de Brinell.
13.12 Teste de hipótese, o exemplo de coeficientes individuais de regressão.
13.13 Não linearidade, e retornando ao exemplo do Boyle
13.14 Conclusões
13.15 Exercícios
13.16 Referências

Lista de figuras
Figura 13.1 - A reta estimada de regressão no gráfico de dispersão X-Y.
Figura 13.2 - A reta de regressão para a demanda de camisetas
Figura 13.3 – A reta de regressão e os erros total e da regressão
Figura 13.4 - A reta de regressão e a distribuição normal.
Figura 13.5 – Erros residuais bem comportados com média zero e desvio padrão constante.
Figura 13.6 – Erros residuais como a diferença entre volume e a previsão.
Figura 13.7 – Erros residuais para o modelo inversa de volume.
Figura 13.8 – Erros residuais para o modelo 1/VP = a(1/P) + b

Lista de tabelas
Tabela 13.1 – Vendas de camisetas e previsões
Tabela 13.2– Previsões para a venda de camisetas
Tabela 13.3 – Vendas de camisetas e PIB
Tabela 13.4 – Intervalo de confiança para as estimativas de a e b. Cálculos feitos e adaptados do Excel
(2002).
Tabela 13.5 – ANOVA. Teste de hipótese. Cálculos feitos e adaptados do Excel (2002)
Tabela 13.6 – Dureza de Brinell e tempo de secagem. Fonte: Tabela 12.1
Tabela 13.7 – Teste de hipótese para coeficientes individuais. Cálculos feitos e adaptados do Excel
(2002)
Tabela 13.8 – Resultados da regressão de pressão sob volume, adaptados do Excel (2002).
Tabela 13.9 – Resultados da regressão de pressão sob a inversa de volume, adaptados do Excel (2002).
Tabela 13.10 – Resultados da regressão 1/VP = a(1/P) + b, adaptados do Excel (2002).




                                                                                                      1
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade         Robert Wayne Samohyl Ph.D.       2



13.1 Introdução a regressão simples: causalidade e os erros de previsão.

O método de regressão, a estimação de parâmetros de uma equação, é cada vez mais divulgado e
utilizado para resolver problemas na fábrica e na administração das empresas. Na área de manutenção o
método oferece uma maneira de prever a degradação de ferramentas e a probabilidade de paradas da
linha de produção. O método avalia os prazos para garantias e a confiabilidade do produto. Com
regressão podemos ver mais claramente a relação entre certos insumos e a qualidade e quantidade da
produção. Mais recentemente ficou a ferramenta mais utilizada para previsão de demanda e o controle
de estoques. No capítulo 16, onde vamos apresentar a área de planejamento de experimentos tão
importante para o desenho e desenvolvimento de novos produtos, o método de regressão terá um papel
indispensável.

A regressão simples estima o relacionamento entre duas variáveis Yt e Xt. Na prática, esse tipo de
regressão com apenas duas variáveis é pouco usado, dado que no mundo real as situações quase sempre
envolvem relações entre mais de duas variáveis. A vantagem de apresentar a regressão simples, embora
não muito prático, é que didaticamente ela serve para esclarecer muitos conceitos importantes na
aplicação de regressão no mundo real, e conseqüentemente ajuda o pesquisador a aprender
procedimentos corretos. No próximo capitulo, a regressão múltipla muito utilizada no dia a dia da
empresa será apresentada, sendo que sua aplicação pode se estender a quase todas as ciências, exatas e
sociais e não menos as áreas de engenharia. É comum que as variáveis representem medidas como
altura, peso, volume, valor monetário ou número de unidades, entre outras coisas. Também é possível
construir variáveis com um sentido mais qualitativo e categórico, como homem/mulher, rico/pobre, alto
/baixo, dia da semana, mês, conforme/não conforme, etc. Essas variáveis, denominadas binárias, são
básicas no estudo de sazonalidade, assunto a ser apresentado com maior profundidade no capítulo 14 de
regressão múltipla.

A regressão demonstra quantitativamente a força atrás de uma causalidade ou um simples
relacionamento que ocorre de Xt para Yt. Nesse sentido, Yt é a variável dependente da variável Xt,
denominada variável independente. Quando o valor de Xt se altera por alguma razão, então, em
conseqüência, o valor de Yt se alterará. É também comum chamar Yt a variável explicada e Xt a
variável explicatória (ou explicativa). É importante enfatizar que a questão de causalidade entre
variáveis (influência da variável explicatória na variável explicada) deve ser determinada antes de
investigar a relação com regressão. As grandes questões da ciência como o posicionamento relativo da
terra, da lua e do sol ou a questão da curvatura da terra, ou as questões industriais sobre quais insumos
melhor criam valor e qualidade, são analisadas, primeiro, com a teoria e a lógica, e segundo, com
comprovações estatísticas através do método de regressão.

Contudo a causalidade não é necessariamente a razão atrás do relacionamento de variáveis. Vamos
relembrar a discussão sobre causa e efeito do último capítulo. Duas variáveis podem ser apenas
covariadas, se movendo conjuntamente, mas uma não necessariamente causa a outra. Quando foi
atribuída equivocadamente causalidade onde na realidade não existe, o resultado operacional de
controlar o irrelevante pode abocanhar em conclusões equivocadas. Por exemplo, num estudo da
estrutura salarial numa multinacional, descobriram que as mulheres ganharam menos que os homens,
até mesmo levando em conta anos de experiência na empresa, nível educacional, entre outras variáveis.
Se forem levadas em conta todas as variáveis que representam e der sustentação ao desempenho do
                                                                                                       2
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade          Robert Wayne Samohyl Ph.D.       3


funcionário, e o resultado da pesquisa continua com salário menor das mulheres, então a questão das
mulheres ganharem menos está ainda sem solução. Nesse caso, não seria correto dizer que as mulheres
causam os seus baixos níveis de rendimento, mas sim que há uma associação entre ser mulher e ser mal
paga; uma associação que precisa ser mais bem analisada.

Outro exemplo da complexidade da distinção entre causa e efeito é a relação entre a reflexão da
imagem no espelho e o objeto concreto sendo refletido. Uma alienígena de outro universo onde não
existem espelhos e nem reflexão, sem conhecimento sobre o funcionamento desse fenômeno,
certamente vai captar a forte correlação entre imagem e objeto, mas não necessariamente vai adivinhar
qual é a causa do outro.

A equação que representa a regressão simples é a seguinte:

                                            Yt = a + bXt + et

onde a e b são coeficientes a serem estimados, e o critério da estimação é a minimização do erro e t.
Vamos falar mais sobre a minimização do erro na terceira seção desse capitulo. É suficiente dizer agora
que o coeficiente a, o intercepto (interseção) no eixo vertical, e b, a inclinação da reta, são escolhidos
para localizar a reta estimada bem no meio da nuvem de dados no diagrama X-Y. É verdade que todos
os pontos não vão cair diretamente em cima da reta e então surge o erro et. O valor de et é o erro de
previsão: o desvio entre o valor previsto (valor que vem da reta) e o valor observado Yt. Para cada
valor escolhido de Xt, existe um valor correspondente para Yt. O valor previsto de Yt na literatura
técnica se veste um chapeuzinho, como os valores estimados de a e b, e a equação de regressão é
definida assim:
                              ˆ
                         Yt  Yt  et                      ˆ    ˆ ˆ
                                                           Yt  a  bXt


                               erros residuais
                               positivos et > 0




                                                                erros residuais
                                                                negativos et < 0




                Figura 13.1 - A reta estimada de regressão no gráfico de dispersão X-Y.



                                                                                                        3
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade                   Robert Wayne Samohyl Ph.D.               4


Fica muito claro então que o erro et é a diferença entre o valor observado e o valor previsto. Nas
engenharias, o valor previsto é chamado de sinal e o erro residual1 de ruído.

Na figura 13.1, o gráfico de dispersão X-Y, os pontos são os pares de dados, sendo que a reta que
representa esses dados é caracterizada por um único intercepto a e única inclinação b. Veja que os
pontos e a reta não são perfeitamente coincidentes. Existem alguns pontos que estão quase diretamente
em cima da reta, sem muito erro, no mesmo tempo que existem pontos longe da reta.

13.2 Regressão simples com a variável tempo.

Uma das maneiras mais fáceis de construir uma equação de regressão é através da utilização de uma
variável artificial que representa tempo como variável independente Xt. Imaginando por exemplo que
Yt represente o preço médio mensal de um quilo de banana (Preçot), durante um ano terá doze preços
mensais em seqüência. Para 12 meses, a variável Xt = t corresponderia à seqüência de

                                       t = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12

A equação de regressão seria a seguinte:
                                                    ˆ ˆ
                                           Preçot  a  bt + et

Para prever o valor do preço de banana no mês 13, deve-se inserir 13 na equação para a variável t e,
usando os valores estimados dos coeficientes a e b torna-se fácil calcular a previsão do Preçot. Esse
procedimento é chamado projeção linear. Não é recomendável para trabalho sério de previsão porque
não leva em conta a sazonalidade nem outros tipos de tendências que ocorrem nas séries temporais.
Tendências podem ser não-lineares e a estrutura de sazonalidade pode ser muito complexa. Esses
conceitos aplicados para analisar séries temporais serão comentados no próximo capítulo sobre
regressão múltipla e no capítulo sobre séries temporais.

Outro problema causado pela utilização da variável seqüencial t é que a variável independente deve ter
alguma associação direta ligada à variável dependente, o que não é o caso com tempo. Para evitar uma
discussão filosófica que não cabe neste livro, é suficiente dizer que na melhor das hipóteses o tempo é
uma variável “substituta” que refletiria e acompanharia o movimento de outra variável mais relevante.
É essa variável relevante e desconhecida que deve ser procurada pelo analista. Se a variável relevante
for colocada na equação, o resultado será muito mais satisfatório. No entanto, e principalmente em
aplicações empresariais de regressão, o custo envolvido em procurar variáveis relevantes é muito
grande e se a variável “tempo” funciona razoavelmente bem, produzindo previsões aceitáveis, então
existem argumentos operacionais para se adotar esta prática. No final, o uso de variáveis como tempo é
considerada pelos especialistas acadêmicos como duvidosa, mas, pelos praticantes na linha da batalha
no dia a dia da empresa, como mais que adequado. Veja o exemplo no final da próxima seção.

13.3 Minimizando os erros – a soma dos quadrados dos erros (SQE)

1
 Quando o erro residual da regressão é apenas um conceito teórico sem nenhum valor numérico nem estimado, a literatura
especializada o chama de erro. Por outro lado, um erro residual calculado depois que a regressão seja estimada e assim
possui valor numérico, os especialistas o chamam de resíduo.
                                                                                                                         4
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade                          Robert Wayne Samohyl Ph.D.   5



Como foi visto anteriormente, os valores dos coeficientes a e b são selecionados para minimizar o erro
                           ˆ    ˆ ˆ
                           Yt  a  bX t                                             ˆ
                                                                                Yt  Yt  e t
de previsão et. A idéia de minimizar os erros pode ser operacionalizado em vários sentidos e nem todos
funcionam para estimar os coeficientes. O erro de previsão foi definido como a diferença entre o valor
observado Yt e seu valor previsto pela equação
Em primeiro lugar, não seria possível minimizar cada erro individualmente, calculando um par de
coeficientes (a, b) para cada um deles. Assim, o problema associado à existência de muitos dados e
pouca definição seria transformado em um problema com muitos coeficientes e pouca definição. Sendo
assim, o procedimento correto seria minimizar alguma função dos erros como a soma, por exemplo. No
entanto, é fácil ver na figura 13.1 que alguns erros são positivos e outros erros negativos, o que implica
em uma soma tendendo ao valor zero. Conseqüentemente, erros muito grandes (positivos e negativos)
ainda podem resultar numa soma dos erros igual a zero e obviamente não são minimizados. Por várias
razões, os matemáticos do século XVIII decidiram usar a soma dos erros quadrados como função
critério a ser minimizada. Desta forma, elimina-se o problema de somar valores positivos e negativos
porque com o quadrado não há mais valores negativos. Mais uma vantagem é que as manipulações
algébricas de uma equação envolvendo a soma de termos quadrados são fáceis. Uma alternativa a soma
quadrática seria a matemática de valores absolutos, mas no século 18 ainda não estava muito bem
desenvolvida. Nasceu então na área de Estatística na época o método chamado de mínimos quadrados.
Esse procedimento está na base de quase todas as ferramentas teóricas e práticas da Estatística. O
método de mínimos quadrados pode ser resumido na seguinte expressão:

                                                       MIN  e
                                                                    2
                                                                    t
                                                           a ,b
Em palavras, a expressão significa procurar valores de a e b que minimizem a soma dos erros
quadrados. A soma dos erros quadrados é dada embaixo pela expressão Q:

                                                T                               T
                                         Q               Yt  a  bX t    
                                                                            2
                                                                                       et
                                                                                            2

                                                t 1                            t 1


onde T é o número total de observações em X e Y. O método para minimizar uma expressão como Q
envolve o cálculo de derivadas parciais, igualando-as a zero:

                                                  Q                Q
                                                     0                0
                                                  a                b
e averiguando se as segundas derivadas são positivas (condição necessária para caracterizar um valor
mínimo), e realizando algumas manipulações algébricas para desenvolver expressões para os
estimadores de a e b2. Vê-se que as derivadas parciais são construídas em termos das incógnitas de a e
b e não X e Y. Isso ocorre porque para o problema estatístico, as incógnitas não são as variáveis X e Y,
conhecidas já coletadas pelo analista. As incógnitas são os coeficientes a e b cujos valores são do

2
    Por exemplo, Q   Yt X t - a  X t - b X 2  0 .
                 b
                                                t


                                                                                                                    5
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade           Robert Wayne Samohyl Ph.D.   6


interesse do analista porque é através deles que a relação entre X e Y é revelada. Em outras palavras,
uma vez determinados os valores de a e b pelo método de mínimos quadrados, a posição da reta na
figura 13.1 é localizada.

Não é a intenção de o livro demonstrar matematicamente o desenvolvimento rigoroso das fórmulas
(tais demonstrações ficarão para alguns dos exercícios no final do capitulo). As equações chamadas de
estimadores são as seguintes (sempre notando que um estimador ou variável estimada por regressão e
mínimos quadrados é vestido por um chapeuzinho):


                   b   t t2  t  t 
                   ˆ T XY         X       Y covX t , Yt       S
                                                             rXY Y
                       T  X t   X t      varX t 
                                         2
                                                                 SX

Na equação, o estimador de b é dado por uma combinação de somatórios das variáveis X e Y, ou pela
covariância entre X e Y e a variância de X, ou ainda, por uma relação entre o coeficiente de correlação
e os desvios padrão de X e Y. O coeficiente de correlação foi assunto de capítulo 12. É interessante
notar que o estimador de b e o coeficiente de correlação são idênticas no caso de SY = SX. O estimador
de a é dado pela expressão:

                                 a
                                 ˆ     Y  b X
                                         t
                                            ˆ
                                                    t          ˆ
                                                         Yt  bX t
                                             T
O estimador do intercepto â é diretamente relacionado às médias de Y e X e ao estimador da
inclinação. Pode-se concluir a partir dessa equação que a reta estimada necessariamente passa pelas
médias de Y e X no diagrama X-Y.


13.4 Exemplo: Previsão de vendas

Uma empresa fabrica e vende camisetas e quer previsões para os próximos meses para melhor
programar a linha de produção. Os dados disponíveis são mensais de dois anos (24 observações no
total) relacionados na tabela 13.1.

                                        VENDAS       VENDAS             ERRO
                             MES
                                        MENSAIS     ESTIMADAS         RESIDUAL
                                    1       1102        -4195,17         -5297,17
                                    2       2030        -1681,17         -3711,17
                                    3       5838        832,8333         -5005,17
                                    4       6995        3346,833         -3648,17
                                    5       6283        5860,833         -422,167
                                    6       1719        8374,833         6655,833
                                    7      25263        10888,83         -14374,2
                                    8      19244        13402,83         -5841,17
                                    9      23171        15916,83         -7254,17
                                   10      19146        18430,83         -715,167
                                   11      37174        20944,83         -16229,2
                                   12      16691        23458,83         6767,833

                                                                                                     6
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade       Robert Wayne Samohyl Ph.D.      7

                                  13         4235       25972,83     21737,83
                                  14        15077       28486,83     13409,83
                                  15        11791       31000,83     19209,83
                                  16        17497       33514,83     16017,83
                                  17        11353       36028,83     24675,83
                                  18         3646       38542,83     34896,83
                                  19        56471       41056,83     -15414,2
                                  20        44973       43570,83     -1402,17
                                  21        66937       46084,83     -20852,2
                                  22        59371       48598,83     -10772,2
                                  23        84512       51112,83     -33399,2
                                  24        52661       53626,83     965,8333
                           Tabela 13.1 – Vendas de camisetas e previsões

Em forma de gráfico, figura 13.2, os dados mostram muita variabilidade, mas ainda é evidente uma
tendência de subida. Utilizando o procedimento de mínimos quadrados para minimizar os erros e achar
os melhores valores dos coeficientes a e b produz a seguinte equação:

                                           vendas = - 6709 + 2514 mês




                    Figura 13.2 - A reta de regressão para a demanda de camisetas

Na figura 13.2, a equação estimada é a linha reta que passa no meio dos dados. Os valores de a ( = -
6709) e b ( = 2514) são os melhores estimativos considerando o critério de minimização da soma dos
erros quadrados. Qualquer outra reta com outros valores de a e b será associada a uma soma de
quadrados dos erros residuais maior. Veja todas as vendas estimadas (dentro do período da amostra
observada) e os erros residuais na tabela 13.1. Para calcular previsões fora da amostra observada para
os meses 25 e 26, utiliza-se a equação estimada. O valor da previsão para o mês 25 é 56.140 camisetas

                                                                                                    7
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade                Robert Wayne Samohyl Ph.D.           8


(= - 6709 + 2514*25), e para mês 26, 58.654 camisetas. Veja tabela 13.2 para todas as previsões
referentes aos períodos 25 a 36.
                                               MES        VENDAS
                                                          FUTURAS
                                                     25      56140,0
                                                     26      58654,0
                                                     27      61168,0
                                                     28      63682,0
                                                     29      66196,0
                                                     30      68710,0
                                                     31      71224,0
                                                     32      73738,0
                                                     33      76252,0
                                                     34      78766,0
                                                     35      81280,0
                                                     36      83794,0
                              Tabela 13.2– Previsões para a venda de camisetas

13.5 Coeficiente de determinação - R2.

Calcular valores para os coeficientes é sem duvida importante para avaliar relações existentes entre
variáveis, mas até que ponto se pode confiar na precisão desses estimadores? No final das contas eles
definem uma única linha que representa inúmeros pares de dados das variáveis X e Y, e como foi visto
é raro quando um par de pontos cai exatamente em cima da reta estimada. Será que as estimativas
realmente medem a representatividade da linha estimada em relação aos dados observados? Imagine o
caso onde os dados são muito espalhados e aparentemente não há nenhuma relação bem definida.
Como no exemplo das vendas de camisetas, a reta mostra uma tendência crescente na média mas nota-
se que em alguns meses a tendência é plenamente negativa. A equação então tem apenas certo grau de
representatividade muito menor que a equação sem erro, mas esse grau de representatividade pode ser
avaliado quantitativamente.

A questão da autenticidade da reta estimada é muito grave. Sem a menor duvida, o método de mínimos
quadrados sempre produzirá os melhores valores estimados para a e b, mas deve ser claro que os
valores não representam perfeitamente os dados. Seria interessante medir a contribuição da reta através
dos valores estimados de a e b para explicar Yt em comparação a alguma teoria simplória, por exemplo
a média simples de Yt. Se a teoria simplória explicar melhor os dados, a equação de regressão com a e
b pode ser descartada como irrelevante.3 Para resolver este problema, se introduz a primeira medida
(muitas outras serão introduzidas neste capítulo, e em outros) para verificar se as estimativas de
mínimos quadrados são adequadas. É importante salientar que quase todo o trabalho de regressão tem
como base a busca e verificação de estimadores de coeficientes e testes de hipótese para comprovar a
representatividade da reta estimada em comparação com os dados amostrais e subseqüentemente com a
população.



3
 Esse procedimento metodológico é muito comum. É o princípio de Occam muito conhecido em metodologia científica: se
existir duas teorias que explicam igualmente bem o mesmo fenômeno, a teoria preferida deve ser a mais simples.
                                                                                                                  8
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade               Robert Wayne Samohyl Ph.D.   9


O coeficiente de determinação, R2, pondera matematicamente a separação de Yt nas suas duas partes
                                                 ˆ
distintas: a parte representada pela estimação ( Y ) e a parte advinda do erro et:
                              ˆ    ˆ ˆ
                              Yt  a  bX t                      ˆ
                                                            Yt  Yt  e t
Intuitivamente, quando o erro é muito grande em relação à estimativa, pode-se concluir que a regressão
não tem muita validade para representar os dados, ainda que fossem estimados coeficientes que
minimizem a soma dos erros quadrados. Por outro lado, se os erros fossem realmente pequenos (no
gráfico, com os pontos aparecendo mais próximos à reta), então a equação está representando bem os
dados. Para calcular o R2, utilizam-se mais uma vez a soma de valores quadrados, a expressão mais
importante da área.

O coeficiente de determinação R2 tem um ponto de referência que é a soma dos erros quadrados ao
redor da média dos Yt, denominada Soma de Quadrados Total SQT. Essa soma considera simplesmente
a diferença entre o valor médio de Yt e o valor observado.
                                          SQT   Yt  Y 
                                                  T
                                                               2

                                                 t 1

 Já vimos esta expressão em outro contexto no capítulo 2, no cálculo da variância e do desvio padrão,
                                                 n
                                                    (Y  Y)2
                            Variância = SY2 =  i            = SQT/(n – 1)
                                               i 1   n 1
Como foi colocada antes, a teoria simplória para explicar o valor de Yt é usar a sua média Y . No final,
a estimativa mais simples e mais direta é a média da variável em questão. Outra maneira de entender a
SQT é imaginar que o coeficiente b está sendo forçado a assumir o valor zero, assim eliminando o
efeito de Xt na equação.

A soma dos erros quadrados que resultam da minimização de Q utilizando Xt como variável
independente (explicatória) é chamada de Soma dos Quadrados dos Erros da regressão SQE, e tem a
seguinte forma:
                                                                  
                                                 T
                                         SQE   Yt  Yt
                                                      ˆ            2

                                                 t 1
SQE será sempre menor que SQT, a não ser no caso improvável de que a minimização dos erros
conduza à estimativa de b ser exatamente igual a zero. No mundo real da prática estatística, esse
fenômeno embora possível nunca ocorra. O decréscimo no valor do erro é justamente decorrente da
inclusão de Xt na equação. É a contribuição da variável Xt em explicar Yt. A diferença entre SQT e
SQE é chamada de Soma dos Quadrados da Regressão SQR. A diferença mede a contribuição da
regressão, quanto os erros diminuem em função da estimação de a e b. Conseqüentemente, pode-se
escrever:
                                        SQT - SQE = SQR

Na verdade, a matemática por trás dessa relação é bem mais complicada, mas a presente explicação tem
apelo intuitivo. Finalmente, o coeficiente de determinação pode ser definido como o R2:

                                R2 = SQR / SQT = (SQT – SQE)/SQT

O R2 varia no intervalo entre valores 0 e 1. Quando for zero, significa que a equação estimada é um
enorme fracasso. A inclusão de Xt na equação não contribuiu em absolutamente nada para explicar Yt.
                                                                                                  9
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade                 Robert Wayne Samohyl Ph.D. 10


SQR é zero, e SQE é igual à SQT. Nesse caso Yt é mais bem explicado pela própria média. por outro
lado, se porventura o R2 for igual a 1,0, então se alcançou à perfeição na estimação da equação. SQE é
necessariamente igual a zero. Em outras palavras, nesse caso todos os pontos observados estão
exatamente em cima da reta estimada. Na realidade, esses dois valores (0,00; 1,00) são extremos que
nunca aparecem como resultados na prática. Se algum analista oferece uma pesquisa onde R2 é igual a
um, então pode apostar que ele fez algo errado ou pior, ele fabricou os dados.

É uma situação infeliz para o analista, mas não existe um valor fixo de ponto de referência para o R2
para determinar qual valor é satisfatório e qual não é. Nas ciências exatas, onde experimentos são
controlados em laboratórios eliminando o efeito de outras variáveis e alcançando medidas feitas com
muita precisão, analistas querem ver valores de R2 próximos a um, pelo menos maiores que 0,90. Por
outro lado, nas ciências sociais onde as medidas não são muito precisas e não há controle sobre o
objeto sendo pesquisado, em muitos casos o comportamento humano, valores aceitáveis de R 2 podem
estar num patamar muito inferior (talvez 30% seja aceitável em alguns casos).




            12
                                                                  6; 11,2      8; 9,6            10; 11
            10                       ERRO
                                     REGRESSÀO                                            ERRO
             8                                                                            TOTAL
                                           3; 7,1
       Y     6
                                                                                        9; 5,3
                       2; 4,4                                        7; 5,9
                                            4; 5,8
             4
                            1; 2,7                   5; 3,5
             2
                     0; 1              X
             0
                 0      1       2      3      4       5       6      7        8     9      10      11

                                                          X

                     Figura 13.3 – A reta de regressão e o erro total e o da regressão

Na figura 13.3, visualiza-se os pares de dados (Xt, Yt) e os dois erros, da regressão e do total, e a parte
                                                         ˆ
da regressão que contribui para a explicação de Yt ( Y  Yt ). Nota-se que os pontos são mais próximos a

                                                                                                          10
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade        Robert Wayne Samohyl Ph.D. 11


reta de regressão do que a linha horizontal que representa a média de Y. A reta da regressão é
caracterizada por dois parâmetros que a média não possui, os coeficientes a e b, aprimorando a
localização da reta entre os dados. A distância do ponto (Xt,Yt) até a linha horizontal que representa a
média de Y ( Y = 6,08), é o erro total. Veja por exemplo o ponto (8; 9,6). O valor do erro total é
 Yt  Y  = 9,6 – 6,08 = 3,52. Cada ponto tem um erro total e todos são quadrados e somados para se
                                                                                                  ˆ
construir a SQT. O erro da regressão é a distância do ponto (Xt, Yt) até a reta estimada ( Yt  Yt ). Do
ponto (6; 11,2) por exemplo a distancia até a reta de regressão é o erro de regressão (11,2 – 6,2) = 5.
Mais uma vez, Cada ponto tem associado um erro de regressão e quando todos são quadrados e
somados pode se construir a SQE. É fácil ver que, na média, o erro da regressão é menor que o erro
total a não ser no caso específico de b = 0. Nesse caso, o intercepto coincide com a média de Yt.

O coeficiente de determinação é a medida mais utilizada para expressar a representatividade da reta
estimada. No entanto, existem várias desvantagens no seu uso que serão amplamente investigadas
posteriormente no próximo capitulo sobre regressão múltipla. Será visto que um R2 perto do valor 1
(um) não necessariamente significa que a equação é correta. Muito pelo contrário, a equação pode estar
totalmente errada ainda com R2 grande.

Outra definição do R2 relaciona a sua formação ao conhecido coeficiente de correlação r.
Matematicamente é possível mostrar que o R2 é um coeficiente de correlação quadrado entre as
                             ˆ
variáveis Yt observada e a Yt prevista. Quando as duas variáveis coincidem (valores observados
exatamente em cima da reta estimada) o coeficiente de correlação e o R2 serão praticamente iguais a
um, e quando são muito diferentes serão praticamente iguais a zero.

Vamos voltar para o exemplo da previsão de vendas das camisetas.
SQT   Yt  Y  = 1,3E+10
        T
                   2

        t 1




                  
        T
SQE   Yt  Yt
             ˆ     2
                       = 5,74E+09
       t 1


SQT - SQE = SQR = 7,27E+09


R2 = SQR / SQT = (SQT – SQE)/SQT = 7,27E+09/1,3E+10 = 0,559

O valor do R2 é 0,56. Aparentemente, a contribuição da regressão é 56% melhor do que a simples
média Y para explicar as variações em Yt; quer dizer, a variável “tendência” explica melhor as vendas
do que a explicação vinda apenas da média de vendas.

Há grande popularidade e aceitação do coeficiente de determinação R2 como medida de fidelidade da
reta aos dados. Mas tenha muito cuidado. No próximo capítulo sobre regressão múltipla serão
demonstradas algumas falhas no conceito que podem levar a conclusões equivocadas. O R2 deve ser


                                                                                                     11
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade                     Robert Wayne Samohyl Ph.D. 12


utilizado com muita cautela para não incorrer em graves erros de ajustes descabidos nos processos em
análise.

13.6 Natureza estatística da reta estimada

A variável Yt é uma variável aleatória e uma das suposições básicas desse tipo de regressão é de que a
mesma siga a distribuição normal. Isso garante que o erro residual tem distribuição normal, uma
suposição necessária não somente para testar hipóteses da significância dos coeficientes estimados, mas
também para construir intervalos de confiança, como vimos nos capítulos 5 e 6. Para amostras
pequenas, a distribuição t de Gosset (estudante) apresentada no capítulo 3, derivada diretamente da
distribuição normal, mostra-se mais adequada para as análises de estatística inferencial. No presente
capítulo, para facilitar a discussão, falaremos quase sempre na distribuição normal. Esse livro limita-se
a suposição de normalidade, ainda que às vezes os estimadores sofram transformações corretivas como
a de Box-Cox quando a “não normalidade” se apresenta numa maneira exagerada.

Por ser aleatória, a variável Yt tem uma média e um desvio padrão. O valor de Yt coletado numa
amostra por entrevistas ou algum outro levantamento amostral, por exemplo, de fontes secundárias em
revistas especializadas, é apenas a aparição entre infinitas possibilidades geradas pela distribuição
normal. Teoricamente falando, o conjunto amostral de números que representa a variável Yt é o
resultado de uma função geradora de dados, e essa função é a distribuição normal com a sua
característica mais importante, as maiores freqüências de valores são mais próximas da média do que
na parte fina da cauda da distribuição.

É comum supor que a variável Xt seja fixa e controlada pelo pesquisador, como um experimento
científico em laboratório. Na realidade isso não é sempre o caso, especificamente quando os dados vêm
de publicações especializadas como relatórios do IBGE e IPEA4. Embora dados que vêm de entrevistas
diretas ou de relatórios da linha de produção de uma fábrica também não seja controlada pelo
pesquisador, a variável Xt é considerada não aleatória. Essa suposição facilita a estimação dos
coeficientes a e b, sem causar grandes prejuízos na acurácia e precisão do procedimento.

Veja na Figura 13.4 a relação entre as variáveis Xt e Yt e a distribuição normal que está relacionada à
aleatoriedade de Yt. A equação colocada na base da figura no plano X-Y é Yt = f(Xt). Para cada valor
de Xt há um valor médio estimado de Yt,. Há também um desvio padrão associado à variabilidade de
Yt. O eixo vertical é o valor da distribuição normal. Geralmente, a relação entre variáveis em regressão
é mostrada no plano de X-Y e o eixo vertical Z é ignorado. Na figura 13.4, para um dado valor de X,
existe um valor de Y mais provável, mas em função de Y ser aleatória, outros valores de Y são
prováveis. Desde que a superfície da distribuição normal nunca toque no plano X-Y, é possível, mas
com pouca probabilidade, que valores de Y apareçam até mesmo nas caudas finas da distribuição,
longe do valor de Y mais provável. Como fica clara na figura 13.4, variabilidade é característica de Yt e
não Xt considerado fixo. Conseqüentemente, o erro da regressão (et) é oriundo exclusivamente da
aleatoriedade de Yt.




4
    Uma importante fonte de dados para a economia brasileira é IPEADATA, entre outras relacionadas no prefácio.
                                                                                                                  12
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade         Robert Wayne Samohyl Ph.D. 13




                       Figura 13.4 - A reta de regressão e a distribuição normal.

A normalidade dos erros residuais é discutida neste capítulo na seção seguinte 13.7. Desde que a
normalidade é a base dos testes de hipótese sobre a regressão e os intervalos de confiança, averiguar a
normalidade dos erros residuais é logicamente o primeiro teste aplicado.

13.7 Normalidade, independência e a constância da variância dos erros residuais.

Os testes de hipótese para normalidade foram apresentados no capítulo 6, especialmente seções 6.8 e
6.9. Foram apresentados os testes de Bera-Jarque e testes visuais como o da linha reta entre valores
teóricos e observados e o histograma. Na área de regressão é necessário comentar mais algumas
considerações importantes. Quando foi mencionado em cima que os resíduos devem ser aleatórios, isso
também significa a ausência de qualquer relacionamento do resíduo com as variáveis da equação, e
qualquer padrão repetitivo que pode ser visualizado graficamente. Em outras palavras, o gráfico dos
resíduos deve aparecer como uma nuvem de dados com média zero e desvio padrão constante. Veja a
figura 13.5.




                                                                                                    13
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade                      Robert Wayne Samohyl Ph.D. 14



                            4


                            3


                            2


                            1
          Erro residual




                            0


                           -1


                           -2


                           -3


                           -4




      Figura 13.5 – Erros residuais bem comportados com média zero e desvio padrão constante.

No eixo horizontal, pode ser colocada a seqüência natural dos dados, ou a variável Xt, ou Yt, ou o valor
          ˆ
previsto Yt . Em todos esses casos, o resíduo terá que ser aleatório, como na figura sem a presença de
nenhum relacionamento. Dentro do contexto da equação de regressão, os erros residuais não se
relacionam, e são aleatórios e independentes de quaisquer outras variáveis. A independência e
aleatoriedade dos erros, em conjunto com a normalidade, significam que a regressão é adequada
suficientemente para confiar nos resultados estatísticos. Na seção 13.13 (Não linearidade, e retornando
ao exemplo do Boyle), vamos voltar ao assunto da avaliação dos erros de regressão.

13.8 Desvio padrão (erro padrão) dos estimadores dos coeficientes e intervalo de confiança.

A estimativa dos coeficientes a e b resulta em parte da variável Yt por definição aleatória, possuindo
média e desvio padrão. Conseqüentemente, os coeficientes estimados também têm médias e desvio
padrão, chamado de erro padrão. O desvio padrão dos coeficientes tem uma relação direta com o desvio
padrão dos erros de regressão (et):

                                                          Y  Y 
                                                                ˆ               e
                                                                      2              2

                                                se          t    t
                                                                                    t

                                                            T2                 T2
onde T é o tamanho da amostra e T – 2 são os graus de liberdade, assunto que será comentado
futuramente. O desvio padrão do estimador do coeficiente a e do coeficiente b é o seguinte:

                                       1     X2                       sb  se
                                                                                     1
                          s aˆ  s e     
                                       T  X i  X 2                           X        X
                                                                       ˆ                      2
                                                                                       i

Esses elementos permitem a construção de intervalos de confiança para a e b. O intervalo de confiança
foi apresentado no capítulo 5 para o caso das médias, mas será repetido aqui para o caso dos
                                                                                                   14
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade                 Robert Wayne Samohyl Ph.D. 15


coeficientes de regressão por causa da importância analítica do conceito. Para simplificar a
apresentação, supomos agora que a nossa amostra seja muito grande, podendo-se usar a distribuição
normal para construir limites de confiança para os coeficientes estimados de a e b. Das figuras 3.3 de
capítulo 3, tem-se 68,26% de confiança (há pesquisadores que chamam isso de regra de dois terços) de
que o valor de b (ou a, se for o caso) verdadeiro populacional esteja entre os valores:
                                          ˆ
                                          b  sb                   ˆ
                                                                   b  sb
                                               ˆ                        ˆ
quer dizer, na média, para cada 3 amostras uma enganará o pesquisador porque o verdadeiro valor do
coeficiente não estará dentro dos limites de um desvio padrão da média. Em notação mais rigorosa
(veja capítulo 5):
                                     ˆ         ˆ
                                  P b  s  b  b  s  68,26%
                                            ˆ
                                            b              ˆ
                                                           b
                                                               
Em termos mais gerais, fixando o valor do nível de confiança em (1 - ) e usando a estatística t de
Gosset como a distribuição de referência, o intervalo de confiança para o coeficiente b é:
                           P b  t α , n  2s b  b  b  t α , n  2s b   (1- α)%
                            ˆ                 ˆ
                                                       ˆ
                                                                        ˆ 
                                    2                        2           
É muito comum utilizar um intervalo de confiança de 95% ou 99%. Para confiança de 95%, o intervalo
se baseia em aproximadamente dois desvios padrão da media. A expressão é:
                                 
                                 ˆ
                                        ˆ
                                                ˆ
                               P b  2s b  b  b  2s b  95%
                                                       ˆ              
onde o valor 2 representa o valor de estatística t de Gosset para confiança de 95% aos 60 graus de
liberdade (gl = n – 2 = 60). A tabela da estatística de t de Gosset está na tabela 3.3 no capitulo 3.
Um intervalo de confiança de 99% seria:
                                ˆ       ˆ
                                                 ˆ
                              P b  2,75sb  b  b  2,75sb  99%
                                                          ˆ               
O valor de 2,75 é para 30 graus de liberdade e  = 0,01. Notam-se quando a confiança aumenta, o
tamanho do intervalo também aumenta. E se formos analisar toda a tabela da estatística t de Gosset,
ficaria claro que quando a amostra aumenta em tamanho o valor da estatística t diminui, e
eventualmente converge para a distribuição normal. Em outras palavras, quando a amostra é grande o
intervalo de confiança tende a ser menor, resultado do fato de que mais dados proporcionam maior
confiança. Caso seja encontrado zero no intervalo de confiança, o pesquisador tem que aceitar a
possibilidade de que o coeficiente seja zero. É como se estivesse o valor zero contaminando o intervalo,
dominando todos os outros valores. No final, o pesquisador procura valores de coeficientes que não
sejam zero para comprovar que Xt tem realmente algum efeito no Yt. A presença de zero no intervalo
levanta a duvida de que não há nenhuma relação entre as duas variáveis. Esse raciocínio é muito
próximo à idéia de teste de hipótese, nosso assunto depois de apresentar alguns exemplos.

13.9 Exemplo de intervalo de confiança para os coeficientes a e b da regressão simples.

O gerente de previsão de vendas não ficou satisfeito com a utilização da variável artificial tempo na
equação para prever vendas de camisetas, dados e exemplos introduzidos no início do capítulo.
Procurou-se uma variável mais apropriada e decidiu substituir-lo pelo produto interno bruto (PIB) do
Brasil. Veja a tabela 13.3.

                                     mês/ano       PIB      VENDAS Yt
                                      jun-06       100        1102

                                                                                                        15
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade     Robert Wayne Samohyl Ph.D. 16


                                     jul-06 98,08        2030
                                   ago-06 108,97         5838
                                    set-06 107,19        6995
                                   out-06 108,08         6283
                                   nov-06   108,93       1719
                                   dez-06 112,18        25263
                                    jan-07 108,64       19244
                                   fev-07 108,17        23171
                                  mar-07    107,85      19146
                                   abr-07 105,66        37174
                                   mai-07 101,54        16691
                                   jun-07 100,37         4235
                                     jul-07  98,08      15077
                                   ago-07 109,47        11791
                                    set-07 107,06       17497
                                   out-07 107,59        11353
                                   nov-07   108,87       3646
                                   dez-07 110,44        56471
                                    jan-08 109,92       44973
                                   fev-08 108,75        66937
                                  mar-08    109,19      59371
                                   abr-08 108,25        84512
                                   mai-08 107,68        52661
                              Tabela 13.3 – Vendas de camisetas e PIB

Aplicamos mínimos quadrados e os resultados são esses:




                                                                                            16
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade            Robert Wayne Samohyl Ph.D. 17




                                                                  Inferior   Superior
                                  Coeficientes   Erro padrão        95%        95%
                    Interseção a = -220.156      s aˆ = 126.015   -481.496   41.183
                       PIB       b = 2294         s b = 1.180
                                                    ˆ            -152      4.742
Tabela 13.4 – Intervalo de confiança para as estimativas de a e b. Cálculos feitos e adaptados do Excel
                                                (2002).

O intervalo de confiança no nível de confiança de 95% para o coeficiente a é
                                                                    
                            P a  t 0,025, 22sa  a  a  t 0,025, 22sa  95%
                              ˆ               ˆ       ˆ               ˆ


                 P( -220.156 – 2,074*126.015 < a< -220.156 + 2,074*126.015) = 95%
                                   P(-481.496 < a < 41.183) = 95%

Embora o coeficiente estimado de a é muito menos que zero, o valor de zero está incluído no intervalo
de confiança. Assim somos obrigados a questionar que o valor de a na população seja diferente de zero.

O intervalo de confiança para o coeficiente b segue a mesma formulação:

              P( 2294 – 2,074*1.180 = -152 < b < -2294 + 2,074*1.180 = 4.742) = 95%

Mais uma vez o valor do intervalo inclui zero, levantando dúvidas sobre a relevância do coeficiente b e
de PIB na equação. O pesquisador não foi bem sucedido na montagem de uma equação para explicar
demanda mensal para camisetas, no entanto ele está apenas no início da sua pesquisa e deve agora
procurar outras variáveis explicativas.


Como já foi enfatizado várias vezes, é obrigatório que os erros residuais da regressão seguem a
distribuição normal. os testes de hipótese e os intervalos de confiança dependem disso
imprescindivelmente.

13.10 Teste de hipótese da representatividade da equação como um todo, a estatística F.

Embora a análise dos coeficientes através de intervalos de confiança seja uma pratica comum na área
de regressão, a metodologia de teste de hipótese apresentada no capítulo 6 domina as outras
ferramentas para comprovar a representatividade da equação estimada e as relações entre as variáveis.
A análise dos resultados deve começar com um teste de hipótese generalizada que compara o tamanho
dos erros da regressão com o tamanho do conhecimento ganho pela estimação da equação. A hipótese
nula é escrita assim,

H0: a equação estimada com Xt não explica adequadamente as variações da variável dependente Yt
H1: a equação estimada explica as variações da variável dependente Yt


                                                                                                     17
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade                             Robert Wayne Samohyl Ph.D. 18


As considerações a seguir são muito parecidas com o conceito de R2 elaborado no início do capítulo,
contudo a análise por teste de hipótese tem a vantagem de ter embasamento estatístico mais forte e
supera a desvantagem do R2 que não tem ponto de referência bem definida para validar ou não a
equação. Tudo depende da montagem da estatística F.5

Como na construção do R2, vamos usar os mesmos conceitos de SQT, SQE, SQR. Os cálculos foram
feitos com os dados apresentados na tabela 13.5. O nome da tabela é ANOVA, sigla para uma das mais
importantes ferramentas em toda a estatística Análise de Variância. Já vimos na seção sobre R2 que
SQT = SQR + SQE. A estatística F, que depende de graus de liberdade, ajuda na comparação entre
SQR e SQE. Os graus de liberdade associados a SQT é T-1, como já foi visto (SQT)/(T-1) é a variância
de Yt. Os graus de liberdade associados a SQR é k, o número de variáveis explicativas na equação,
nesse caso de regressão simples k = 1. O SQE dos erros residuais tem gl = T-k-1. Quando SQR/gl (uma
espécie de média dos quadrados, MQ na tabela ANOVA) é relativamente maior que SQE/gl, a
regressão explica bem a relação entre Xt e Yt produzindo erros menores e, portanto mais confiança nas
estimativas da equação. A estatística F expressa numericamente a relação entre a regressão e os erros
residuais remanescentes como,

                                                              2
                                                               2
                                                                              SQR
                                                                   gl2                k
                                            F(gl2 , gl1 )               
                                                              2
                                                                             SQE
                                                                                   T  k 1
                                                               1
                                                                   gl1

e no contexto de regressão simples

                                           F(1, T – 2) = (SQR/1) / (SQE/(T – 2) )

Este cálculo foi feito na tabela 13.5 e o resultado de 3,781 para F é acompanhado por um valor-p igual
a 0,065.

    ANOVA
                      graus de
                                                  SQ                           MQ                          F           valor P
                   liberdade (gl)
                                                                            SQR/k =            (SQR/gl) / (SQE/gl) =
    Regressão           k=1             SQR = 1.907.658.861                                                            0,065
                                                                         1.907.658.861                3,781
     Erros                                                                SQE/T-k-1 =
                     T-k-1 = 22        SQE = 11.099.781.778
    Residuais                                                            504.535.5356
                                                                           SQT/T-1 =
      Total           T-1 = 23         SQT = 13.007.440.639
                                                                          565.540.897
           Tabela 13.5 – ANOVA. Teste de hipótese. Cálculos feitos e adaptados do Excel (2002)

Relembrando a apresentação no capítulo 6 sobre testes de hipótese, um valor-p de 0,065 é considerado
alto demais para rejeitar a hipótese nula, especialmente nas áreas mais exatas como a engenharia. A


5
    A estatística F foi apresentada no final do capítulo 3.
6
    É a variância dos erros residuais, e se for aplicada a riz quadrada é o erro padrão dos erros residuais.
                                                                                                                          18
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade            Robert Wayne Samohyl Ph.D. 19


hipótese nula terá que ser aceita e a equação descartada pelo pesquisador, confirmando o resultado já
visto na luz da análise do intervalo de confiança.

13.11 Outro exemplo do teste de hipótese com a estatística F: a dureza de Brinell.

                                                      Yi -       Xi -
                                           (1)       Dureza    minutos
                                          OBSER.      em          de
                                                     Brinell   secagem
                                            1         199         16
                                            2         205        16
                                            3         196        16
                                            4         200        16
                                            5         218        24
                                            6         220        24
                                            7         215        24
                                            8         223        24
                                            9         237        32
                                            10        234        32
                                            11        235        32
                                            12        230        32
                                            13        250        40
                                            14        248        40
                                            15        253        40
                                            16        246        40
                                         SOMA =
                                         MÉDIA =      226        28
                Tabela 13.6 – Dureza de Brinell e tempo de secagem. Fonte:Tabela 12.1

13.12 Teste de hipótese, o exemplo de coeficientes individuais de regressão.

Um teste de hipótese pode ser montada para cada coeficiente individualmente, no caso de regressão
simples para a e b. A hipótese nula segue em geral o valor zero para o coeficiente sob investigação, por
exemplo,
                                              H0 : b = 0

A hipótese alternativa H1, para onde o pesquisador gostaria de apontar a verdade com suas conjecturas,
muitas vezes é simplesmente:
                                               H1: b ≠ 0

Dependendo do caso, H1 pode assumir outras formas como b > 0 ou b < 0. É importante na análise de
regressão, e Estatística em geral, que as hipóteses nulas e alternativas sejam bem definidas, e em áreas
de estudo como as engenharias ou as ciências exatas, que as hipóteses sejam colocadas nos relatórios e
artigos explicitamente e em destaque.

O teste para coeficientes individuais depende do cálculo da estatística t de Gosset. No caso da
                                                                                       ˆ
estimativa para a inclinação da reta, a estatística t é uma relação entre a estimativa b e a variabilidade

                                                                                                             19
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade         Robert Wayne Samohyl Ph.D. 20


da estimativa em termos do erro padrão s b . Erro padrão relativamente pequeno aumenta a confiança de
                                           ˆ

que o coeficiente é relevante diferente de zero. Para o coeficiente b e H0: b = 0, temos
                                                            bˆ
                                            estatística t   
                                                             sˆ 
                                                             b
Um estatística t calculada maior que 2 é forte indicação de relacionamento entre Yt e Xt.
                                                bˆ   
                                                       2
                                                sˆ   
                                                b    
Voltando para o exemplo da demanda para camisetas e o PIB, calculamos os valores da estatística t na
tabela 13.7. Os valores da estatística t são relativamente baixos, e os valores-p são altos por padrões

                                  Coeficientes Erro padrão estatística t valor-P
                       Interseção a = -220.156     126015       -1,747    0,094
                       PIB            b = 2294       1180        1,944    0,064
  Tabela 13.7 – Teste de hipótese para coeficientes individuais. Cálculos feitos e adaptados do Excel
                                               (2002)

tradicionais. Mais uma vez a análise converge para o resultado já visto acima; a equação não é
adequada como representação de vendas de camisetas. O pesquisador terá que buscar outras variáveis
para construir a sua equação de vendas. Como podemos ver no próximo capítulo sobre regressão
múltipla, tudo indica que a equação com apenas uma variável independente não reúne as condições
necessárias para explicar Yt. Pode ocorrer que no momento que outras variáveis são acrescentadas na
regressão, a variável PIB volta a reforçar a previsibilidade das vendas.

13.13 Não linearidade, e retornando ao exemplo do Boyle

 A linearidade na relação entre as variáveis é uma exigência do formato proposto na equação estimada
de regressão linear. No final, a expressão Y = a + bX segue a suposição que uma variação unitária em
X causa uma variação de valor b na variável dependente Y, ao longo de todos os valores de X. No
entanto, como no caso do coeficiente de correlação, a não linearidade pode ser incorporada na relação
através de uma transformação apropriada. Vamos voltar para os dados do Robert Boyle do capítulo
anterior, tabela 12.3.

Nesse exemplo, sabemos que há uma relação de causalidade entre pressão (P) e volume (V). A
causalidade pode ser verificada e quantificada com a estimação de regressão usando o procedimento de
mínimos quadrados. Adotamos então como primeira tentativa, a estimação da equação V = a + bP. Os
resultados preliminares são apresentados na tabela 13.8.




                                                                                                        20
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade        Robert Wayne Samohyl Ph.D. 21



           RESUMO DOS RESULTADOS

                Estatística de regressão
           R-Quadrado                    0,87
           Erro padrão                   4,06
           Observações                     25

           ANOVA
                                     gl           SQ          MQ           F        valor-p
           Regressão                       1     2627,43      2627,43     159,36        0,00
           Resíduo                        23      379,21        16,49
           Total                          24     3006,64

                                                Erro
                              Coeficientes padrão           Stat t    valor-p
          Interseção                 51,95         2,13        24,41      0,00
          PRESSÃO                     -0,40        0,03       -12,62      0,00
       Tabela 13.8 – Resultados da regressão de pressão sob volume, adaptados do Excel 2002.

Aparentemente, os resultados comprovam uma forte relação inversa entre pressão e volume. O R2 é
relativamente alto, mas talvez o pesquisador esperasse um valor até mesmo melhor pela natureza da
experiência cientifica que produziu os dados. O teste de F para a equação inteira oferece um valor-p de
0,00% indicando a rejeição da hipótese nula de nenhum relacionamento entre as variáveis da equação.
Finalmente o valor-p associado aos coeficientes leva a rejeição da hipótese nula de coeficientes zero.
Não é mostrado aqui, mas os erros residuais são normais, passando o teste de Bera-Jarque. Contudo,
falta uma análise melhor dos erros, a sua independência e a aleatoriedade sugerida na seção 13.7 sobre
o teste de hipótese da normalidade dos erros residuais. Na figura 13.6, nos primeiros valores do eixo
horizontal de pressão, volume previsto é sempre menor que volume observado e, portanto o resíduo é
sempre positivo. Para valores de pressão intermediários a situação se inverte para proporcionar resíduos
sempre negativos. Finalmente, para valores de pressão altos, os resíduos voltam a ser positivos.
Obviamente, os resíduos não são perfeitamente aleatórios. Conhecendo alguns erros em seqüência
oferece condições para prever os próximos valores em função de um padrão reconhecível nos dados.
Assim, os dados dos resíduos não são aleatórios, mas sim previsíveis.

Para resolver o problema da previsibilidade dos erros, podemos questionar em primeiro lugar a
linearidade da equação estimada. No capítulo 12 já vimos que a relação entre volume e pressão não é
linear e essa condição deve ser levada em conta para regressão simples. Vamos estimar então a equação
1/V = a + bP, explicitando que a pressão causa mais explicitamente a inversa de volume. Veja os
resultados em tabela 13.9.




                                                                                                     21
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade             Robert Wayne Samohyl Ph.D. 22


         60



         50



         40



         30
                                                                                     VOLUME
                                                                                     Previsto VOLUME
                                                                                     erro residual
         20



         10



          0
                    20                                  100         120        140

        -10




               Figura 13.6 – Erros residuais como a diferença entre volume e a previsão.

RESUMO DOS RESULTADOS

       Estatística de regressão
R-Quadrado                      0,9999
Erro padrão                     0,0002
Observações                    25,0000

ANOVA
                             gl              SQ          MQ                 F        valor-p
Regressão                          1,0000    0,0081       0,0081           210329       0,0000
Resíduo                           23,0000    0,0000       0,0000
Total                             24,0000    0,0081

                                             Erro
                         Coeficientes       padrão      Stat t            valor-p
Interseção                       0,0000      0,0001      -0,0163            0,9871
PRESSÃO                          0,0007      0,0000           459           0,0000

 Tabela 13.9 – Resultados da regressão de pressão sob a inversa de volume, adaptados do Excel 2002.

Comparando os resultados das tabelas 13.8 e 13.9, a utilização da inversa de volume melhora os
resultados em quase todas as categorias, principalmente na estatística F, de 159,36 para 210.329. Pelos
teste de hipótese nos coeficientes, a interseção a da equação é zero e o coeficiente b é 0,0007. A
                                                                                                       22
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade            Robert Wayne Samohyl Ph.D. 23


equação estimada então pode ser escrita como 1/V = 0,0007P, representando uma relação inversamente
proporcional entre volume e pressão.

O pesquisador deve ficar muito satisfeito com os resultados, mas em estatística é sempre importante
considerar todos os procedimentos para detectar problemas nas estimativas. No final, na indústria, por
exemplo, decisões que valem milhões são tomadas todos os dias na base de cálculos, e muitas vezes de
cálculos mau feitos, e as repercussões são catastróficas. Com esse intuito, vamos ver a figura dos erros
da regressão baseada na inversa de volume, figura 13.7. Os pontos são bem mais espalhados
aleatoriamente. Seria muito difícil achar um padrão que liga a seqüência dos dados, a imprevisibilidade
agora muito maior que antes. No entanto, veja que a variabilidade dos dados tende a aumentar com
pouca variabilidade no inicio dos dados e mais variabilidade no final. A não constância da variância, e
erro padrão, dos resíduos é chamada heterocedasticidade. Erros residuais constantes significa
homocedasticidade. Como foi mostrado nas equações para o erro padrão dos coeficientes e na
estatística F, o erro padrão dos resíduos se integram as expressões e se não for constante então a
funcionalidade dos cálculos se complica.

                                    0,0005
                                    0,0004
                                    0,0003
                                    0,0002
                         Resíduos




                                    0,0001
                                         0
                                    -0,0001 0   5   10    15        20   25    30
                                    -0,0002
                                    -0,0003
                                    -0,0004
                                    -0,0005
                                                     1/V previsto



                    Figura 13.7 – Erros residuais para o modelo inversa de volume.

A questão agora é como resolver esse problema de heterocedasticidade. Vamos procurar por alguma
transformação das variáveis que elimina a tendência o crescente do erro padrão. As possibilidades são
numerosas, mas uma das mais óbvias e fáceis de usar é a divisão de Yt e toda a equação por Xt, criando
uma nova variável dependente Yt/Xt = 1/VP e uma nova variável independente 1/P. Assim, a nova
equação de regressão seria
                                          1/VP = a(1/P) + b.

A transformação alterou o papel dos coeficientes a e b. O coeficiente b agora se tornou a interseção da
equação e o coeficiente a significa a inclinação da reta. Em primeiro lugar vamos ver os resultados do
procedimento de mínimos quadrados que estão na tabela 13.10, e em seguida o gráfico dos resíduos
para verificar a presença de heterocedasticidade (figura 13.8).


                                                                                                      23
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade         Robert Wayne Samohyl Ph.D. 24



             RESUMO DOS RESULTADOS

                Estatística de regressão
             R-Quadrado              0,0059
             Erro padrão         3,187E-06
             Observações                 25

             ANOVA
                                   gl             SQ        MQ       F    valor-p
             Regressão                    1      1,40E-12 1,4E-12 0,13756 0,71411
             Resíduo                     23      2,34E-10 1,02E-11
             Total                       24      2,35E-10

                             Coeficientes Erro padrão           Stat t  valor-P
             Interseção         b = 0,0007  1,701E-06               419 3,7E-46
             1/P             a = -3,02E-05  8,168E-05            -0,371   0,714

         Tabela 13.10 – Resultados da regressão 1/VP = a(1/P) + b, adaptados do Excel 2002.

Os resultados estatísticos da regressão parecem bastante negativos, porem comprovam fortemente os
princípios da lei de Robert Boyle. O valor de R2 é muito baixo (0,0059) já mostrando que a equação
estimada não representa bem os dados observados, o mesmo resultado vindo da estatística F
extremamente baixo (0,136) e com valor-p que não permite a rejeição da hipótese nula. Contudo, entre
os coeficientes, a interseção ficou extremamente significante, o valor-p praticamente zero. O resultado
empírico da regressão então é que a nossa mais nova equação pode ser resumida como 1/VP = b =
0,0007. Uma rápida inspeção desta equação revela a equivalência á regressão anterior; 1/V= 0,0007P.
Quando duas formulações proporcionam os mesmos resultados praticamente equivalentes, é evidencia
forte de que os resultados são consistentes com a hipótese original.

Finalmente, vamos inspecionar o gráfico dos resíduos para verificar a presença de heterocedasticidade.
Na Figura 13.8, não há nenhuma evidencia de padrões na variabilidade dos resíduos, se mostrando
perfeitamente imprevisíveis e independentes. A última transformação das variáveis conseguiu resolver
o problema do erro padrão crescente (heterocedasticidade), mas não afetou a conclusão anterior. Muito
pelo contrário, a nova formulação oferece elementos estatísticos mais seguros na escolha da equação
final.




                                                                                                     24
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade        Robert Wayne Samohyl Ph.D. 25




                                  0,000006
                                  0,000004
                                  0,000002

                       Resíduos
                                         0
                                  -0,000002
                                  -0,000004
                                  -0,000006
                                                  1/VP previsto


                    Figura 13.8 – Erros residuais para o modelo 1/VP = a(1/P) + b

Temos comprovada com muita confiança a teoria de Boyle utilizando estatística e regressão linear
simples. O volume de massas gasosas é inversamente proporcional a pressão, ou, em outras palavras, o
produto das duas variáveis, volume e pressão, é sempre um valor constante.

13.14 Conclusões

Este capítulo é essencialmente teórico no sentido de que a regressão linear simples é raramente
utilizada na pratica, restrita a relações entre no máximo duas variáveis, uma explicativa e independente
e a outra explicada e dependente. Infelizmente, o mundo real não funciona tão simples assim, pois as
relações interessantes sempre dependem de muitas variáveis numa maneira mais complexa com
interatividade e não linearidades desempenhado papeis relevantes. Porém, os conceitos básicos e
procedimentos corretos que determinam o uso apropriado da estatística de regressão estão todos
presentes nos modelos singelos de regressão simples, e é assim que se localiza o seu valor didático.

No próximo capítulo 14, os modelos de regressão múltipla apresentam uma solução para analises
praticas no dia a dia das fábricas, na administração e até mesmo nos laboratórios de grandes
universidades e multinacionais. No capítulo 15 a análise da regressão múltipla é aprimorada com
considerações sobre as características de series temporais e as previsões resultantes. E finalmente
terminamos o livro com o capítulo 16 sobre o planejamento de experimentos, baseada nos conceitos de
regressão dos últimos capítulos.

13.15 Exercícios

                              Q                     Q
1. Calcular a expressão para       0 . Juntando com      0 , fazer as manipulações algébricas
                              a                      b
apropriadas para isolar as expressões dos estimadores para a e b no texto.




                                                                                                     25
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade            Robert Wayne Samohyl Ph.D. 26


Resposta: Cada derivada parcial inclui como argumentos os parâmetros a e b. É mais fácil trabalhar
                         Q
primeiro com a expressão       0 para isolar o estimador de b.
                          b

2. Nesse exercício vamos investigar os resultados da seção 13.8 sobre o intervalo de confiança. Os
resultados podem ser claramente colocados graficamente, num diagrama de X-Y, confirmando a
conclusão de que a relação entre demanda para camisetas e PIB não é forte o suficiente como base de
previsões. Construir a figura sugerida.

Resposta: O intervalo de confiança proporciona valores limites para os coeficientes a e b. Para cada
coeficiente, existem limites inferiores e superiores. Assim sendo, quatro equações distintas podem ser
desenhadas e o espaço entre as equações definido graficamente. É fácil ver no gráfico que, dado
determinado valor do PIB, o valor de vendas varia entre meio milhão negativo e positivo, verificando a
péssima precisão da previsão e a fraqueza da equação como previsor.

3. Com os dados da tabela 13.1 – Vendas de camisetas e previsões, calcular os intervalos de confiança
para os coeficientes a e b com nível de confiança de 99% para a equação VENDAS = a + bMÊS.

Resposta: IC(99%, a) = (-25.892; 12.474). IC(99%, b) = (1171; 3856).

4. Usando os mesmos dados da tabela 13.1, calcular a estatística t e o valor-p para os coeficientes a e b.
Com esses resultados, qual é a sua avaliação dos coeficientes?

Resposta: Para o coeficiente a, a estatística t é igual a -0,98 e o valor-p 0,33. Esses resultados não
permitem a rejeição da hipótese nula de coeficiente nulo. Por outro lado, para o coeficiente b, a
estatística t é igual a 5,28 e o valor-p 0,0000, e portanto esses resultados permitem a rejeição da
hipótese nula de coeficiente nulo. A regressão oferece evidencia forte de que a interseção (a) da
equação pode ser eliminada, simplificando a expressão.

5. O coeficiente de determinação R2 e a estatística F usam alguns dos mesmos conceitos na sua
formulação, principalmente, SQR e SQE. Através de algumas manipulações algébricas, mostrar que F
pode ser escrito como função de R2.

6. O R2 pode ser definido como um coeficiente quadrado de correlação entre a variável Yt observada e
a previsão de Yt. Mostrar algebricamente esta relação.

Resposta: Essa demonstração é bem mais difícil do que a do exercício 5! Iniciar a demonstração com o
R2 definido como apenas o coeficiente de correlação rYY . Nota-se que os mesmos elementos presentes
                                                      ˆ
                                                           t

no coeficiente são presentes também em R2.

7. Com os dados da tabela 12.3, os resultados dos experimentos de Robert Boyle, converter as duas
variáveis em logaritmos naturais e estima a equação na forma linear: lnV = a + b*lnP. Comparar os
resultados com os resultados apresentados na tabela 13.10 – Resultados da regressão 1/VP = a(1/P) + b,
adaptados do Excel 2002. Comentar especialmente o valor do coeficiente b.


                                                                                                         26
Capítulo 13. Regressão Simples
Ferramentas Estatísticas em Controle Estatístico de Qualidade          Robert Wayne Samohyl Ph.D. 27


Resposta: Os resultados são quase idênticos em termos das implicações sobre o relacionamento entre V
e P. No final, não é para esperar nenhuma diferença considerando que o produto de variáveis (VP) se
torna a soma dos logaritmos (lnV + lnP).

13.16 Referências

Microsoft®Excel versão para estudantes (2002)


Capítulo 13:



Se algum analista oferece uma pesquisa onde R2 é igual a um, então ou ele fez algo errado ou
pior....?[IT5]

Não existe um valor fixo de referência para R2, qual valor é satisfatório e qual não é. Nas ciências




                                                                                                       27
Capítulo 13. Regressão Simples

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:673
posted:11/26/2011
language:Portuguese
pages:27