25 de junho de 2008

Estatística: Análise descritiva das séries temporais com creme de milho

A maneira mais comum para caracterizar as séries temporais é computar os índices numéricos, que são valores que medem a mudança da variável no tempo relativamente ao valor da variável fixada num período base específico. Nesta postagem apresentaremos somente três índices: Simple Index Number, Composite Index Number (Simple Composite Index), Weighted Composite Index Number (Laspeyres Index e Paasche Index).

Simple Index Number mede as mudanças relativas de preço ou quantidade de uma única commodity no tempo.

Composite Index Number mede a variação do preço total ou quantidade total de duas ou mais commodities no tempo. Para isso, deve-se somar todos os valores das commodities no tempo t e divide pelo somatório dos valores dessas commodities no período base, multiplicando por 100 e comparando o valor dado com cem para saber quanto variou.

Weighted Composite Index Number mede os preços através de quantidades adquiridas antes de calcular o total para cada período de tempo, podendo ser Laspeyres Index (faz uso de quantidades do período base com os pesos, isto é, tanto o numerador quanto o denominador usam quantidades no período base) ou Paasche Index (parecido com o Laspeyres, porém pondera pelas quantidades vendidas no período comparado ao base, isto é, só o denominador utiliza as quantidades no período base).



Para saber mais:
McClave, JT; Benson, PG; Sincich, T. Statistics for business and economics (9th edition). Prentice Hall, 2004.

Imagem:
http://www.stat.go.jp/english/data/cpi/img/4-1-2.gif

24 de junho de 2008

Estatística: Séries Temporais com creme de aspargos


Séries temporais é a classe de fenômenos cujo processo observacional e conseqüente quantificação numérica gera uma seqüência de dados distribuídos no tempo, onde pode-se aprender muito sobre o comportamento passado e futuro do processo.

Existe uma grande variedade de métodos de previsão de séries temporais, cada qual com suas capacidades e limitações, onde dependendo do número de séries temporais envolvidas no processo, os métodos de previsão podem ser classificados em univariados, funções de transferência e multivariados.

Os métodos univariados consideram somente uma única série para a realização de previsões (compreendem a maior parte dos métodos de previsão). Essas previsões podem estar relacionadas às informações contidas na série histórica de interesse (estatística clássica) ou supostamente relevantes, isto é, que não estão contidas na série analisada (estatística bayesiana).

Já as funções de transferência, estão baseadas em séries de interesse explicadas não só pelo passado histórico, mas também por outras séries temporais não-correlatas entre si. As funções envolvem mais de uma série temporal, onde a relação de causalidade é conhecida.

Nos métodos multivariados, os procedimentos de previsão associados a mais de uma série temporal na efetivação de prognósticos não possuem qualquer relação de causalidade entre essas séries.

Para saber mais:
McClave, JT; Benson, PG; Sincich, T. Statistics for business and economics (9th edition). Prentice Hall, 2004.

Souza, R.C. Modelos estruturais para previsão de séries temporais: Abordagens clássica e bayesiana. Rio de Janeiro, IMPA, 1989.

Imagem:
http://www.awardbrasil.com.br/Minitab2.gif

23 de junho de 2008

Estatística: Teste de Bonferroni (post-hoc) com salada tropical


Ao se rejeitar a hipótese nula, verifica-se que é provável haver uma diferença entre as médias dos tratamentos, pode-se buscar saber quais dentre as médias apresentam diferenças significativas. A partir disso, os procedimentos serão conduzidos de múltiplas comparações de médias, onde o teste de Bonferroni (ou post-hoc), na maior parte dos "design experiments", é muito útil.

Caso os intervalos de confiança par a par (g comparações) devem ser feitos, cada uma com coeficiente de confiança (1- alfa sobre g), então a probabilidade geral de fazer um ou mais erros do tipo I é no máximo igual a alfa. O conjunto de intervalos construídos usando o método de Bonferroni produz um nível de confiança geral de pelo menos (1 menos alfa).

Quando aplicado para comparação par a par das médias de tratamento, a técnica Bonferroni pode ser utilizada comprando-se a diferença entre as duas médias de tratamentos (Yi-Yj) com uma diferença crítica Bij.

Para saber mais:
McClave, JT; Benson, PG; Sincich, T. Statistics for business and economics (9th edition). Prentice Hall, 2004.


Imagem:
http://vejasaopaulo.abril.com.br/arquivos/2019/recomenda1.jpg

22 de junho de 2008

Estattística: Efeito de interação com salada caprese


Em ANOVA, o efeito de interação se dá quando a diferença entre as médias dos níveis do fator A dependem dos diferentes níveis de B. Caso haja interação, não há como interpretar cada fator separadamente.


Podemos fazer uso de quatro testes que podem ser conduzidos para two-way ANOVA:

1) Teste para saber se as médias dos tratamentos diferem
- Hipótese nula: não há diferença entre as médias dos AB tratamentos. ua1b1=ua2b2=ua3b3=ua4b4
- Hipótese alternativa: ao menos duas das médias dos tratamentos diferem.

Ao passar por esse teste geral (igual ao teste do one-way ANOVA), é preciso verificar se: os fatores interagem? os dois fatores estão afetando a resposta ou só um afeta? Se forem os dois, eles afetam a resposta independentemente ou interagem?

Então, o segundo teste a ser conduzido é o de interação.

2) Teste para a interação de fatores
- Hipótese nula: fator A e B não interagem para afetar a resposta (média)
- Hipótese alternativa: fator A e B interagem

Caso não rejeitemos a hipótese nula, isto é, se não houver interação entre A e B, pode-se conduzir o teste para cada fator individualmente.
Caso rejeitemos a hipótese nula, ou seja, se houver interação, não se têm os efeitos principais de A e B individualmente. Neste caso, parte-se para a comparação das médias dos tratamentos para tentar entender a natureza da interação, comparando-se os tratamentos par a par.

3) Teste do efeito principal de A
- Hipótese nula: não há diferença entre as médias do fator A.
- Hipótese alternativa: ao menos duas médias do fator A diferem.

4) Teste do efeito principal de B
- Hipótese nula: não há diferença entre as médias do fator B.
- Hipótese alternativa: ao menos duas médias do fator B diferem.

Rejeitando-se a hipótese nula, conclui-se que os fatores individualmente afetam a resposta. Portanto, usa-se a múltipla comparação para comparar os pares da médias correspondentes aos níveis dos fatores significantes.

Para saber mais:
McClave, JT; Benson, PG; Sincich, T. Statistics for business and economics (9th edition). Prentice Hall, 2004.

21 de junho de 2008

Estatística: "Design Experiments" com caesar salad


Podemos dividir os "design experiments" em três tipos:

1) Completely Randomized Design (one-way ANOVA)
2) Randomized Block Design
3) Complete Two-factor Factorial Experiment (two-way ANOVA)

O "Completely Randomized Design (one-way ANOVA)" envolve a comparação de médias de k tratamentos, baseados em amostras aleatórias independentes n1, n2, ..., nk observações. Neste caso, os tratamentos são designados aleatoriamente para as amostras independentes ou unidades experimentais, retiradas de cada uma das k populações alvo. Então, com o cálculo do teste estatístico F entre amostras e dentro de cada amostra, pode-se determinar se existe diferença entre as médias populacionais. Quanto maior a diferença nas variações, maior será a evidência para indicar a diferença em pelo menos duas das médias da população.

Já o "Randomized Block Design", é um design no qual são comparados os k tratamentos dentro de cada um do b blocos. Os k tratamento são aleatoriamente designados, um para cada uma das unidades dentro de cada bloco. Neste caso, realizamos dois tipos de teste: um para saber se há diferença entre as médias do tratamento e outro para saber se blocar em itens foi efetivo para reduzir a variação item a item.

No "Complete Two-factor Factorial Experiment (two-way ANOVA)", o objetivo é investigar o efeito de duas variáveis (fatores) no valor médio da variável dependente (resposta). As unidades experimentais são medidas para várias combinações dos níveis dos fatores, onde cada combinação entre níveis de diferentes fatores é um tratamento. Portanto, um experimento com um fator de três níveis e outro fator com dois níveis terá seis tratamentos a serem trabalhados.

Para saber mais:
McClave, JT; Benson, PG; Sincich, T. Statistics for business and economics (9th edition). Prentice Hall, 2004.

Imagem:
http://www.tj.rs.gov.br/site_php/noticias/imagem.php?codigo=1746

20 de junho de 2008

Estatística: Resumo ANOVA



Como vimos anteriormente, o objetivo da ANOVA é saber se diferentes níveis das variáveis independentes afetam a variável dependente. Para que essa avaliação seja feita, é necessário que se faça o delineamento ou "design experiments". Nela são usadas informações da amostra para fazer inferências sobre as médias da população com relação aos vários tratamentos.


Nos "design experiments", o pesquisador tenta controlar os níveis de uma ou mais variáveis independendentes para determinar o efeito na variável dependente (resposta, aquela a ser medida no experimento).

Os fatores dos "design experiments" são as variáveis independentes, que podem ser qualitativas ou quantitativas. Cada fator possui um nível, que são valores dos fatores utilizados no experimento. Por exemplo: níveis do fator gênero (qualitativo) - feminino e masculino ou níveis de número de vendedores na loja (quantitativo) - 1, 2, 3, 4 e 5.

As unidades experimentais são os objetos os quais a variável dependente (resposta) e os fatores são observados. Já os tratamentos, são as combinações particulares dos níveis dos fatores envolvidos em um experimento.

Imagem:
http://www.jornalaldrava.com.br/images/gif/don_a_maquina_abstrata.gif



14 de junho de 2008

Estatística: Análise de Variância 2 à moda do chefe

Análise de variância (ANOVA) – Parte 2

A variação entre grupos experimentais ou tratamentos é estimada pela variância entre tratamentos ou simplesmente Variância Entre. A variação dentro do mesmo tratamento é estimada pela média das variâncias de cada grupo: é por isso chamada de variância média dentro dos grupos ou Variância Dentro. Como ela representa também a fração da variabilidade que não é explicada pelo efeito dos tratamentos, é também chamada Variância Residual ou, ainda, Variância do Erro Experimental.

O teste de comparação entre os efeitos dos tratamentos baseia-se na presuposição de que os K tratamentos A, B, C, ... podem originar médias diferentes, mas variação entre os indivíduos é igual em todas as populações que estão sendo comparadas. Em outras palavras, deseja-se testar a hipótese de igualdade entre médias supondo homocedasticidade.

Ho = ua = ub = ... = uk


Deduz-se daí que se houver efeito diferencial entre tratamentos, a variação entre eles deve ser maior que a variação dentro do mesmo tratamento. Ou seja, a Variância Entre deve ser maior do que a Dentro. Isso equivale a dizer que se houver diferença entre grupos, o resultado da divisão da Variância Entre pela Variância Dentro deve ser maior do que 1. Esse cálculo é chamado de razão F de variâncias e seu resultado é comparado com um valor tabelado para então se rejeitar ou não Ho.


Para saber mais:

Sidia M. Callegari-Jacques. Bioestatística. Princípios e Aplicações. Porto Alegre: Artmed, 2003.


Imagem:

http://br.artmajeur.com/0/images/images_home/dianadoctorovich_abstrato.jpg

13 de junho de 2008

Estatística: Análise de Variância (ANOVA) à moda do chefe

Análise de variância (ANOVA) – Parte 1

A análise de variância é um teste estatístico muito utilizado nas pesquisas de psicologia, onde o pesquisador deseja comparar mais do que dois grupos experimentais com relação a uma variável quantitativa. Ela verifica se existe uma diferença significativa entre as médias e se os fatores exercem influência em alguma variável dependente. Isto é, caso sejam comparados quatro grupos em um mesmo experimento, a hipótese nula a ser testada é:

Ho = ua = ub = uc = ud

Na ANOVA, um dos modelos mais simples é a que analisa os dados de um delineamento completamente causalizado ou ANOVA a um critério de classificação (One Way ANOVA). No caso deste modelo, a variação global é subdividida em duas partes. A primeira é a variação entre as médias dos vários grupos, quando comparadas com a média geral de todos os indivíduos do experimento e representa o efeito dos diferentes tratamentos. A outra variação observada entre as unidades experimentais de um mesmo grupo ou tratamento, com relação à média desse grupo: diz respeito às diferenças individuais ou aleatórias nas respostas.


Variação total = variação entre tratamentos + variação dentro dos tratamentos


Para saber mais:

Sidia M. Callegari-Jacques. Bioestatística. Princípios e Aplicações. Porto Alegre: Artmed, 2003.

Imagem:

http://www.faap.br/museu/acervo/images/abstrato.jpg

7 de junho de 2008

Estatística: Variáveis quantitativas e qualitativas ao molho madeira

Desmistificando a estatística - parte 2 !

Ao trabalhar com dados em uma pesquisa, precisamos ter conhecimento das possíveis variáveis que podem estar relacionadas. A principal divisão ocorre entre variáveis quantitativas e qualitativas.


Variáveis quantitativas são aquelas cujos dados são valores numéricos que expressam quantidades, como idade e estatura das pessoas. Elas podem ser classificadas em:



a) Variáveis quantitativas discretas – são aquelas em que os dados somente podem apresentar determinados valores, em geral, números inteiros. Por exemplo: número de filhos nascidos vivos, número de obras catalogadas.

b) Variáveis quantitativas contínuas – são aqueles cujos dados podem apresentar qualquer valor dentro de um intervalo de variação possível. Por exemplo: como valor de 1,67 cm de altura.

A distinção entre uma variável contínua e uma discreta é que nesta não existe a possibilidade, mesmo teórica, de se observar um valor fracionário.


Variáveis qualitativas (ou variáveis categóricas ou atributos) são as que fornecem dados de natureza não-numérica, como o sexo de um paciente e estado civil. Mesmo que os dados possam ser codificados numericamente (masculino = 1, feminino = 2), os números aqui são apenas símbolos sem valor quantitativo. Essas variáveis podem ter dois níveis de mensuração:

a) Nível nominal – nesse nível diferencia-se uma categoria de outra somente por meio da denominação da categoria. Por exemplo: sexo de um sujeito, masculino ou feminino, ou um paciente psicótico ou neurótico.

b) Nível ordinal – nesse nível não é possível identificar diferentes categorias nem reconhecer graus de intensidade entre elas, o que possibilita uma ordenação das várias categorias. É necessário, no entanto, que a gradação seja inerente à variável e não imposta por conveniência do pesquisador. Por exemplo: nível de satisfação de uma aula pode variar desde “o pior” até “o melhor”.


Para saber mais:
Sidia M. Callegari-Jacques. Bioestatística. Princípios e Aplicações. Porto Alegre: Artmed, 2003.

Imagem:
http://www.flickr.com/photos/peixdeterra/2465118670/

6 de junho de 2008

Estatística: Conceitos estatísticos à vinagrete

Desmistificando a estatística!


Estatística é a ciência que tem por objetivo orientar a coleta, o resumo, a apresentação, a análise e a interpretação de dados. Nesta ciência, podemos identificar duas grandes áreas de atuação: estatística descritiva (relaciona-se com o resumo e apresentação dos dados) e inferencial (ajuda a concluir sobre conjuntos maiores de dados/populações quando apenas partes desses conjuntos (amostras) foram estudadas. Os métodos de estatística inferencial são ferramentas imprescindíveis no teste das hipóteses científicas.


Unidade Experimental e de Observação são a menor unidade a fornecer uma informação. As unidades podem ser pessoas, animais, plantas, objetos. Unidade experimental são indivíduos que participam de uma situação de experimento controlado. Em uma situação experimental, o pesquisador interfere no processo, controlando não só os fatores intervenientes como temperatura, idade, como a designação dos indivíduos às diferentes condições experimentais. Já a unidade de observação, os levantamentos são planejados, onde se limita a registrar o que ocorre, sem interferir.


Dados são informações que podem ser numéricas ou não, obtidas de uma unidade experimental ou de observação. Por exemplo: “O sujeito tem 20 anos e é diabético”, os dados são “20 anos” e “diabético”. Ou quando se comenta que um acidente de trânsito com morte de uma pessoa, a unidade (observacional) é o assalto e o dado, a modalidade de acidente (com morte).


Variável é toda característica observada em uma unidade experimental, podendo variar de um indivíduo para o outro (no caso de pesquisas em humanos). Por exemplo: a idade de uma pessoa e seus hábitos quanto ao fumo, a cor de sementes de uma espiga de milho, o nível de hemoglobina no sangue.


Para saber mais:
Sidia M. Callegari-Jacques. Bioestatística. Princípios e Aplicações. Porto Alegre: Artmed, 2003.

Imagem:
http://www.flickr.com/photos/malota/2232228809/