Acessibilidade / Reportar erro

CONSIDERAÇÕES A RESPEITO DE FUNÇÕES ESTIMÁVEIS FORNECIDAS PELO PROC GLM DO SAS PARA DADOS DESBALANCEADOS

Resumos

o procedimento GLM do sistema estatístico SAS apresenta quatro tipos de somas de quadrados para testar hipóteses sobre dados desbalanceados. Essas somas de quadrados são obtidas a partir de funções estimáveis construídas pelo SAS. Os mecanismos usados para a construção desses quatro tipos de funções estimáveis são aqui discutidas e ilustradas, passo a passo, em exemplos numéricos.

modelo linear; análise de variância; dados desbalanceados; SAS


The General Linear Models Procedure (PROC GLM) of the Statistical Analysis Sistem (SAS), presents four types of sums of squares for testing hypothesis on unbalanced data. These sums of squares are obtained from estimated functions built by SAS. The used mechanisms for the building up of these four types of estimated functions are illustred and discussed with numerical examples, step by step.

linear models; analysis of variance; unbalanced data; SAS


CONSIDERAÇÕES A RESPEITO DE FUNÇÕES ESTIMÁVEIS FORNECIDAS PELO PROC GLM DO SAS PARA DADOS DESBALANCEADOS

M. MONDARDO1; A.F. IEMMA2

1Estação Experimental de Caçador-EPAGRI, C.P. 591, CEP: 89500-000 - Caçador, SC.

2Depto. de Matemática e Estatística-ESALQ/USP, C.P. 9, CEP: 13418-900 - Piracicaba, SP.

RESUMO: o procedimento GLM do sistema estatístico SAS apresenta quatro tipos de somas de quadrados para testar hipóteses sobre dados desbalanceados. Essas somas de quadrados são obtidas a partir de funções estimáveis construídas pelo SAS. Os mecanismos usados para a construção desses quatro tipos de funções estimáveis são aqui discutidas e ilustradas, passo a passo, em exemplos numéricos.

Descritores: modelo linear, análise de variância, dados desbalanceados, SAS

CONSIDERATIONS ABOUT ESTIMABLE FUNCTIONS

PROVIDED BY PROC GLM OF SAS FOR UNBALANCED DATA

ABSTRACT: The General Linear Models Procedure (PROC GLM) of the Statistical Analysis Sistem (SAS), presents four types of sums of squares for testing hypothesis on unbalanced data. These sums of squares are obtained from estimated functions built by SAS. The used mechanisms for the building up of these four types of estimated functions are illustred and discussed with numerical examples, step by step.

Key Words: linear models, analysis of variance, unbalanced data, SAS

INTRODUÇÃO

Em se tratando de dados desbalanceados, as técnicas de análise de variância são amplamente conhecidas e divulgadas. Para dados desbalanceados, isso pode não ocorrer. Surge, então, a necessidade de se conhecer que hipóteses estão sendo testadas e se estas são de interesse para o pesquisador. Além disso, segundo Iemma (1995), podem ocorrer caselas vazias, dificultando ainda mais a interpretação das verdadeiras hipóteses.

O sistema estatístico entitulado "Statistical Analysis Sistem"(SAS) através de seu "General Linear Models Procedure" (PROC GLM), fornece quatro tipos de funções estimáveis e a partir delas, quatro tipos de somas de quadrados que segundo Searle (1987) são chamadas tipos I, II, III e IV e caracterizadas, respectivamente, como sequencial, cada efeito após todos os outros, S restrições e hipóteses. Miliken e Johnson (1984) acresentam que essas somas de quadrados em geral são diferentes quando os dados são desbalanceados.

Este trabalho tem o intuito de orientar e esclarecer os pesquisadores da área agronômica, usuários do SAS, sobre a análise de variância de dados desbalanceados, pois, neste caso, conforme Iemma (1993) as somas de quadrados fornecidas podem testar combinações lineares dos parâmetros que nem sempre são aquelas esperadas.

METODOLOGIA

1. O Modelo Linear: o manual do SAS, versão 1990, Capítulo 9, apresenta um conceito de estimabilidade dado por Rao (1945) no qual é sustentada a construção dos quatro tipos de funções estimáveis, que diz o seguinte: partindo-se de modelos tais como

Y=Xq + e, que tem E(Y)=Xq

o objetivo inicial é estimar os elementos de q ou alguma combinação linear de seus elementos. Isto é feito calculando-se combinações lineares dos componentes do vetor Y.

Ainda, segundo o Manual do SAS, versão 1990, capítulo 9, uma combinação linear dos componentes do vetor q, Lq é estimável se e somente se existe uma combinação linear dos componentes do vetor Y, cujo valor esperado é Lq. Qualquer combinação linear das observações Y, por exemplo, kY, terá como valor esperado E(kY)=kXq. Assim, o valor esperado de qualquer combinação linear dos componentes do vetor Y é igual a mesma combinação linear das linhas de X multiplicadas por q.

Portanto, as linhas de X formam um conjunto gerador do qual uma função linear estimável dos parâmetros, L, pode ser construída. Como X pode ser reconstruída das linhas de X'X, isto é, X = [X(X'X)G (X'X)], as linhas de X e de (X'X)G(X'X) formam um conjunto gerador do qual funções estimáveis L podem ser construídas.

O PROC GLM opta por calcular uma inversa generalizada (G2) de X'X tal que (X'X)G2 (X'X) contém numerosos zeros e que suas linhas não nulas são linearmente independentes. O GLM usa as linhas não nulas de (X'X)G2(X'X) para construir L. Através de Lq, obtém-se a forma geral de funções estimáveis fornecida pelo SAS.

Considera-se neste estudo o Modelo Superparametrizado Y = Xq + e, onde: Y é um vetor de observações de dimensão nx1; X é uma matriz conhecida de dimensão nxp; q é um vetor de parâmetros de dimensão px1; e é um vetor de erros de dimensão nx1, que assume a caracterização yijk = m + ai + bj + gij + eijk.

2. Funções Estimáveis do Tipo I: As funções estimáveis do tipo I são obtidas fazendo-se a devida partição na matriz X, de acordo com os parâmetros envolvidos no modelo, (a, b,g) , na ordem em que são apresentados e calculando-se:

G1 = (X1'X1 êX1 'X2 êX1 'X3 ) (1) G2 = (Æ ç X2 'M1 X2 ç X2 'M1 X3 ) (2) G3 = (Æ ç Æ ç X3 'M2 X3 ) (3) M1 = I - X1 (X1 'X1)1' (4) M2 = M1 - M1 X2 (X2'M1 X2) 2'M1 (5)

No procedimento GLM , as funções estimáveis tipo I, impressas quando a opção E1 é requerida são:

G1* = (X1 'X1`) 1 (6) G2* = (X2'M1 X2) 2 (7) G3* = (X3'M2 X3) 2 (8)

3. Funções Estimáveis do Tipo II: As funções estimáveis tipo II para um efeito F1 têm um L da seguinte forma:

- todas as colunas de L associadas com efeitos não contendo F1, (exceto F1), serão formadas por zeros;

- a submatriz de L associada com o efeito F1 será (X1'MX1) ( 1'MX1);

onde:

M = I - Xo (Xo'Xo) o'; Xo são as colunas de X cujos efeitos associados não contém F1; X1 corresponde as colunas de X associadas com F1;

- cada uma das submatrizes restantes de L associadas com um efeito F2 que contém F1 será: (X1'MX1) (X1'MX2);

onde X2 corresponde as colunas de X associadas com um efeito F2 que contém F1.

4. Funções Estimáveis do Tipo III: As funções estimáveis tipo III são construídas trabalhando-se com a forma geral de funções estimáveis, considerando-se os seguintes passos:

- para cada efeito no modelo, exceto F1 e aqueles efeitos que contém F1 , igualar os coeficientes na forma geral de funções estimáveis a zero. Se F1 não está contido em qualquer outro efeito, este passo define a hipótese tipo III. Se F1 está contido em outro efeito, seguir para o segundo passo;

- se necessário, criar símbolos novos e igualá-los a expressão composta no bloco F1 a fim de obter a forma mais simples para os coeficientes de F1;

- igualar todos os coeficientes simbólicos fora do bloco F1 à uma função linear dos símbolos no bloco F1 a fim de fazer a hipótese de F1 ortogonal as hipóteses associadas com os efeitos que contém F1.

5. Funções Estimáveis do Tipo IV: A construção das funções estimáveis tipo IV inicia-se com a construção das funções estimáveis tipo III através da forma geral de funções estimáveis. Em seguida, distribuir os coeficientes associados a F1 entre os coeficientes fora do bloco F1.

Exemplo Numérico

1. Considerações Iniciais: Considerou-se um experimento apresentado por Mondardo (1994) de dois fatores, com dois níveis do fator A (cultivares de macieira) e três níveis do fator B (espaçamentos entre plantas) e a estrutura de dados e número de observações por casela apresentados na TABELA 1. Considerando-se o Modelo Superpara-metrizado, que assume a seguinte caracterização para este experimento

yijk = m + ai + bj + gij + eijk

onde:

yijk é a observação referente a cultivar i, espaçamento j e k-ésima repetição; m é uma constante inerente aos dados; ai é o efeito da cultivar i (fator A); bj é o efeito do espaçamento j (fator B); gij é o efeito da interação entre a cultivar i e o espaçamento j (AxB); eijk é o erro aleatório associado a yijk , tal que, eijk ÇN(0, s2);

i = 1, 2; j = 1, 2, 3; k = 0, ... , nij é o número de observações por casela.

2. Forma Geral das Funções Estimáveis: Considerando o conjunto modelo-dados, do exemplo em questão, tem-se:

Para obtenção da matriz inversa generalizada (X'X)G2 , tomam-se as colunas linearmente independentes sequencialmente da matriz X como sendo a matriz X1. Obtém-se (X1'X1)-1 . A matriz (X'X)G2 é obtida, colocando-se as colunas da matriz (X1'X1)-1 em lugar das colunas linearmente independentes e intercalando-se com zeros as demais colunas.

desse modo,

Então, conforme descrito anteriormente,

A forma geral de funções estimáveis envolve todos os parâmetros do modelo e, a cada linha não nula, linearmente independente, de (X'X)G2(X'X) é associado um símbolo L. O número de símbolos L, neste caso cinco, representa o posto máximo da hipótese associada. Para tanto são atribuídos valores arbitrários aos L's;

A forma geral de funções estimáveis apresentada pelo PROC GLM do SAS quando a opção E é requerida é apresentada na TABELA 2.

3. Funções Estimáveis do Tipo I: Para a construção das funções estimáveis tipo I, para o exemplo em questão, a partição da matriz X é feita de forma a obter o ajuste sequencial.

que são formadas pelas colunas da matriz X correspondentes a m e ao fator A; colunas de X correspondentes ao fator B e colunas de X correspondentes à interação AxB, respectivamente.

Tem-se assim, conforme (1) e (6):

e então

G1* gera funções estimáveis do tipo I para o fator A. Atribuindo-se valores arbitrários aos símbolos L que aparecem nas funções estimáveis, obtém-se hipóteses tipo I .

As funções estimáveis tipo I para o fator A apresentadas pelo PROC GLM, quando a opção E1 é requerida são apresentadas na TABELA 3.

De acordo com (2), (4) e (7):

G2* gera funções estimáveis tipo I para o fator B. Atribuindo-se valores aos símbolos L que aparecem nas funções estimáveis, obtém-se hipóteses tipo I.

As funções estimáveis apresentadas pelo PROC GLM quando a opção E1 é requerida são apresentadas na TABELA 3.

Conforme (3), (5) e (8):

Da mesma forma, através de G3* obtém-se a hipótese tipo I para a interação AxB.

As funções estimáveis tipo I para a interação AxB fornecidas pelo PROC GLM quando a opção E1 é requerida são apresentadas na TABELA 3.

Atribuindo-se valor 1 a L2 obtém-se a hipótese tipo I para A:

Ho(1): a1 - a2 + 1/4 b1 -5/12 b2 + 1/6 b3 + 1/4 g11 + 1/4 g12 + 1/2 gg12 - 2/3 gg22 -1/3 g23

Atribuindo-se valores 1 para L4 e 0 para L5 para a primeira linha e 0 para L4 e 1 para L5 na segunda linha, obtém-se a hipótese Tipo I para B:

Atribuindo-se valor 1 a L8 , obtém-se a hipótese tipo I para a interação AxB:

Ho(7) : g12 - g13 - g22 + g23

4. Funções Estimáveis Tipo II: Para obtenção das funções estimáveis tipo II para o fator A, deve-se considerar que:

- o efeito do fator A está contido no efeito da interação AxB;

- o efeito do fator A não está contido no efeito do fator B.

Assim, as funções estimáveis tipo II para A são construídas da seguinte forma:

- as colunas de L associadas ao fator B serão preenchidas por zeros;

- a submatriz associada com o fator A será (X1'MX1) ( 1'MX2);

- a submatriz associada à interação AxB será (X1'MX1) (1'MX2).

X0 equivale as colunas de X associadas à m e ao fator B; X1 equivale as colunas de X associadas ao fator A; X2 equivale as colunas de X associadas a interação AxB que contém A.

As funções estimáveis tipo II para o fator A fornecidas pelo PROC GLM, quando a opção E2 é requerida são apresentadas na TABELA 4.

Fazendo-se Lq e atribuindo-se valores à L2 obtém-se as hipóteses tipo II para o fator A.

Da mesma forma, para obtenção das funções estimáveis tipo II para B, considera-se que o efeito do fator B está contido no efeito da interação AxB e não está contido no efeito do fator A.

Portanto

Obtendo-se Lq e atribuindo-se valores a L4 e L5 obtém-se as hipóteses tipo II para o fator B.

As funções estimáveis tipo II para o fator B fornecidas pelo PROC GLM, são apresentadas na TABELA 4.

Para obtenção da funções estimáveis tipo II para a interação AxB, basta tomar o L referente à forma geral de funções estimáveis e tornar as linhas correspondentes à L1, L2, L4 e L5 nulas. O L resultante gera as funções estimáveis tipo II (e tipos III e IV) para a interação AxB que se equivale às funções estimáveis do tipo I, apresentadas na TABELA 3.

Atribuindo-se valor 1 a L2 obtém-se a hipótese tipo II para A:

Ho(2) : a1 - a2 + 1/2 g12 + 1/2 g13 - 1/2 g22 -1/2 g23

Atribuindo-se valores 1 para L4 e 0 para L5 para a primeira linha e 0 para L4 e 1 para L5 na segunda linha, obtém-se a hipótese Tipo II para B:

Atribuindo-se valor 1 a L8 , obtém-se a hipótese tipo II para a interação AxB:

Ho(3) : g12 - g13 - g22 + g23

5. Funções Estimáveis do Tipo III: Para o obtenção das funções estimáveis tipo III para o fator A também tomar-se-á o L referente a forma geral de funções estimáveis tornando-se as linhas L1 , L4 e L5 nulas.

A partir disso, escrever L8 (coeficiente fora do bloco do fator A) em função de L2 a fim de tornar a hipótese de A ortogonal à hipótese de AxB (conhecida).

Assim, tomando-se L8 = ½ L2 , obtém-se as funções estimáveis tipo III para o fator A, fornecidas pelo PROC GLM do SAS quando a opção E3 é requerida e apresentadas na TABELA 4.

Para obter-se as funções estimáveis tipo III para o fator B também se irá tomar o L da forma geral e tornar as linhas L1 e L2 nulas.

Em seguida, obter L8 em função de L4 e L5 a fim de tornar a hipótese do fator B ortogonal à hipótese da interação AxB, da seguinte forma:

Multiplicando-se os coeficientes de cada parâmetro nas duas linhas, somando-se e igualando-se a zero, obtém-se

L8 = -1/4 L4 + 1/2 L5

Obtém-se assim as funções estimáveis tipo III para o fator B, fornecidas pelo PROC GLM, quando a opção E3 é requerida, apresentadas na TABELA 5.

Atribuindo-se valor 1 a L2 obtém-se a hipótese tipo III para A:

Ho(3) : a1 - a2 + 1/2g12 - 1/2g13 - 1/2g22 - 1/2 g23

Atribuindo-se valores 1 para L4 e 0 para L5 para a primeira linha e 0 para L4 e 1 para L5 na segunda linha, obtém-se a hipótese Tipo III para B:

Atribuindo-se valor 1 a L8 , obtém-se a hipótese tipo III para a interação AxB:

Ho(7) : g12 - g13 - g22 + g23

6. Funções Estimáveis do Tipo IV: Da mesma forma, para obter as funções estimáveis tipo IV para o fator A, tornar L1, L4 e L5 nulas. Feito isto, basta distribuir equitativamente os coeficientes dos parâmetros referentes ao fator A entre os parâmetros da interação AxB que não apresentam coeficiente zero.

Assim, fazendo-se L8 = ½ L2 obtém-se a função estimável tipo IV para A. Atribuindo-se valores a L2 obtém-se uma hipótese tipo IV.

Para o fator B, tornar, como no tipo III L1 e L2 nulas. A seguir, distribuir equitativamente os coeficientes dos parâmetros referentes a cada nível do fator B entre os parâmetros da interação correspondentes. Assim, se L8 = ½ L5 a função estimável tipo IV para o fator B estará construída.

As funções estimáveis fornecidas pelo PROC GLM quando a opção E4 é requerida são apresentadas na TABELA 6.

Atribuindo-se valor 1 a L2 obtém-se a hipótese tipo IV para A:

Ho(8) : a1 - a2 + 1/2 g12 + 1/2 g13 - 1/2 g22 -1/2 g23

Atribuindo-se valores 1 para L4 e 0 para L5 para a primeira linha e 0 para L4 e 1 para L5 na segunda linha, obtém-se a hipótese Tipo IV para B:

Atribuindo-se valor 1 a L8, obtém-se a hipótese tipo IV para a interação AxB:

Ho(7) : g12 - g13 - g22 + g23

CONSIDERAÇÕES FINAIS

Diante do exposto, o usuário do SAS terá condições de responder questões como: a procedência dos quatro tipos de somas de quadrados que o programa fornece, e os mecanismos para obter as funções estimáveis oferecidas pelo SAS quando as opções E do PROC GLM são requeridas.

Conhecendo os mecanismos que o SAS utiliza para compor seus quatro tipos de somas de quadrados e construindo suas funções estimáveis, o usuário terá condições de fazer sua opção e sem dúvida, realizar sua análise de forma mais adequada e consciente.

Recebido para publicação em 21.03.96

Aceito para publicação em 07.02.97

  • IEMMA, A.F. Análisis de varianza de experimentos com celdas vácias. Córdoba: Argentina, 1993. 102p.
  • IEMMA, A.F. Que hipóteses testamos através do SAS em presença de caselas vazias? Scientia Agricola, v.52, n.2, p.210-220, 1995.
  • MILLIKEN, G.A. ; JOHNSON, D.E. Analysis of messy data. New York: Van Nostrand Reinhold, 1984. 437p.
  • MONDARDO, M. Estimabilidade de funçőes paramétricas com dados desbalanceados através do PROC GLM do SAS: aplicaçőes ŕ pesquisa agropecuária. Piracicaba: ESALQ, 1994. 166p.
  • RAO, C.R. On the linear combination of observations and the general theory of least squares. Sankhyă, v.7, n.3, p.237-56, 1945.
  • SAS User's guide: statistics version. Cary: SAS Institute, 1990. 846p.
  • SEARLE, S.R. Linear models for unbalanced data. New York: Wiley, 1987. 536p.

Datas de Publicação

  • Publicação nesta coleção
    04 Fev 1999
  • Data do Fascículo
    Maio 1998

Histórico

  • Recebido
    21 Mar 1996
  • Aceito
    07 Fev 1997
Escola Superior de Agricultura "Luiz de Queiroz" USP/ESALQ - Scientia Agricola, Av. Pádua Dias, 11, 13418-900 Piracicaba SP Brazil, Phone: +55 19 3429-4401 / 3429-4486 - Piracicaba - SP - Brazil
E-mail: scientia@usp.br