Arquivo

Archive for the ‘dados’ Category

Crescimento micelial por análise de imagens

Tamanho da colônia micelial (cm²) determinada pela análise de imagem com funções do pacote EBImage.

Nessa matéria vou apresentar os procedimentos em R para determinar o tamanho de uma colônia de micélios em placa de petri. Os resultados são baseados em numa calibração que consistiu em escolher melhor fundo, iluminação e demais parâmetros fotográficos para uma boa recuperação da informação via análise de imagem pelo pacote EBImage. Em outras palavras, como obter uma boa foto para cálculo do crescimento micelial. Esta foi uma epata preliminar de um estudo que vai comparar a determinação do crescimento micelial por análise de imagens e pelo método padrão, via uso de paquímetros.

As fotos foram obtidas com uma câmera fotográfica Canon Ti preza em um suporte de madeira com distância fixa da placa de petri. A iluminção foi ambiente. Fotografamos a placa de petri aberta. Inicialmente nós usamos um fundo azul mas que não foi adequado por não apresentar diferenças em tons na escala cinza da região micelial. Então substituímos por um fundo preto para aumentar esse contraste de tons. Superado isso, tivemos problemas com o brilho da borda da placa de petri. Isso foi resolvido com seleção de pixels dentro de um círculo que não contivesse tal borda. Vai ficar mais claro no CMR abaixo cada etapa do processo. Por fim, determinamos a área, perímetro, e diâmetros da colônia com as funções do pacote EBImage.

Por fim, tenho que deixar os créditos ao acadêmico de Doutorado em Agronomia (UFPR) Paulo Lichtemberg que é o responsável pelo estudo de crescimento de fungos por análise de imagens, membro do LEMID (Laboratório de Epidemiologia e Manejo Integrado de Doenças) e orientado da Professora Larissa May De Mio.

#-----------------------------------------------------------------------------
# carrega o pacote

require(EBImage)

#-----------------------------------------------------------------------------
# lendo o arquivo

# lê imagem, imagem original com resolução de 2352x1568 foi recortada e
# reduzida para 400x400 pixel de dimensão

f0 <- readImage("http://www.leg.ufpr.br/~walmes/ridiculas/micelio.JPG")
str(f0)

display(f0) # vê a imagem
hist(f0)    # histograma dos componentes verde, vermelho e azul

par(mfrow=c(3,1)) # gráfico de densidade do vermelho, verde e azul
apply(f0, MARGIN=3, function(x) plot(density(x), xlim=c(0,1)))
layout(1)

#-----------------------------------------------------------------------------
# tratamento para escala cinza

f1 <- imageData(channel(f0, mode="red")) # vermelho parece separar melhor
f1 <- 1-f1                               # inverte as tonalidades
plot(density(f1), xlim=c(0,1))
b <- 0.47
abline(v=b)

filled.contour(f1, asp=1)
display(f1) # escala cinza com claro sendo a folha

#-----------------------------------------------------------------------------
# dicotomiza para branco e preto

f2 <- f1
f2[f1<b] <- 1
f2[f1>=b] <- 0
display(f2) # ops! temos a borda da placa presente, removê-la!
            # selecionar só pixels dentro de um círculo que exclui tal borda

# usado para selecionar pontos detro um círculo de certo raio
mx <- nrow(f1)/2; my <- ncol(f1)/2 # centro da imagem

# matriz de distâncias de cada pixel a partir do centro
M <- outer(1:nrow(f1), 1:ncol(f1),
           function(i,j) sqrt((i-mx)^2+(j-my)^2))
str(M)

f2 <- f1
f2[f1<b] <- 1
f2[f1>=b] <- 0
f2[M>155] <- 0
display(f2) # ok! região do micélio

f3 <- f1
f3[f1<0.65] <- 1
f3[f1>=0.65] <- 0
display(f3) # região do interior da placa de petri

#-----------------------------------------------------------------------------
# tratamento que remove pontos pretos dentro das regiões brancas

f2 <- bwlabel(f2)  # identifica os conjuntos brancos
f2 <- fillHull(f2) # elimina pontos pretos dentro do branco
f3 <- fillHull(f3)

display(f2)
display(f3)

kern <- makeBrush(3, shape="disc", step=FALSE) # remove 1 px

f2 <- erode(f2, kern) # remove alguns ruídos
f3 <- erode(f3, kern)

display(f2)
display(f3)

#-----------------------------------------------------------------------------
# calcula as dimensões e converte para cm pois o diâmetro da placa é 10cm

dimen <- c(area=pi*5^2, peri=2*pi*5, 5, 5, 5) # em cm
micel <- computeFeatures.shape(f2)
placa <- computeFeatures.shape(f3)

cm <- micel*dimen/placa
cm # área em cm² e demais em cm

#-----------------------------------------------------------------------------
# prepara para exportação (escolher preenchido ou borda)

f4 <- paintObjects(f2, f0, opac=c(NA, 0.45), col=c(NA, "red")) # preenchido
f4 <- paintObjects(f2, f0, opac=c(1, NA), col=c("black", NA))  # borda
display(f4)

xy <- computeFeatures.moment(f2, f0)[, c("m.cx", "m.cy")] # centro de massa
font <- drawfont(weight=600, size=15)
f5 <- drawtext(f4, xy=xy,
               labels=paste(format(cm[,"s.area"], digits=4), "cm²"),
               font=font, col="black")
display(f5)

writeImage(f5, "f042.jpg")

#-----------------------------------------------------------------------------
Categorias:dados Tags:

Cálculo de área foliar ocupada por cochonilhas

Área foliar (limão) ocupada por cochonilhas (%). As determinações de área foram feitas com funções disponíveis no pacote EBImage.

No post passado (Cálculo de área foliar) eu mostrei como calcular área foliar com o pacote EBImage do R, desenvolvido por Oleg Sklyar, Gregoire Pau, Mike Smith e Wolfgang Huber. O segundo mencionado é o mantenedor do pacote. Atualmente estou fazendo testes com o pacote porque considero promissor o seu uso em experimentos agronômicos, mais precisamente àqueles de fitopatologia, entomologia e solos. O R por ser livre pode ser usado em todas as etapas do experimento, a saber, a de aquisição dos dados considerando o processamento das imagens e de processamento de dados considerando a análise estatística. Dessa forma, alguém pode desenvolver procedimentos para análise de doenças em escalas diagramáticas avaliadas por computador, eliminando o traço de subjetividade e não reproducibilidade que existe nas notas dadas por um avaliador. E sei que os avaliadores são treinados para tal tarefa, não é qualidade desse trabalho que estou pontuando. O que considero desvantajoso nas escalas é que elas são sempre com poucos níveis (unitária de 0 à 5, por exemplo). Isso implica numa aproximação grosseira de métodos de análise de dados, principalmente porque os métodos de inferência frequentemente aplicados à esses casos supõem normalidade. A avaliação feita pelo computador gera medidas contínuas e isso é bom.

Aqui eu determino a área ocupada por cochonilha em duas folhas de limoeiro (uma planta que tenho no quintal de casa). Eu escolhi uma folha muito ocupada e outra pouco ocupada. O CMR abaixo apresenta todos os passos. Na figura que acompanha essa matéria você vê o resultado final das análises. Quando fiz minha avaliação visual das folhas eu chutei 5% e 40% de ocupação e confesso que fiquei surpreso com os resultados (errei feio). De fato, não temos boa capacidade de avaliar área em situações de distribuição pontual como essa. Por isso que acredito que uma avaliação de área pelo computador seria melhor que a de avaliadores treinados. Alguém se arrisca a submeter isso ao teste? Outro ponto importante nessa minha análise de brincadeira é que só foram consideradas as cochonilhas brancas, não me preocupei com as vermelhas. Algum esforço seria necessário para considerá-las, ou seja, para juntar o vermelho ao branco e separar do verde. Até a próxima ridícula.

#-----------------------------------------------------------------------------
# carrega o pacote

require(EBImage)

#-----------------------------------------------------------------------------
# lê imagem com folhas digitalizadas

fol <- readImage("http://www.leg.ufpr.br/~walmes/ridiculas/folhas3.jpg")
str(fol)

display(fol) # vê a imagem
hist(fol)    # histograma dos componentes verde, vermelho e azul

#-----------------------------------------------------------------------------
# tratamento

fol2 <- imageData(channel(fol, mode="blue")) # seleciona um canal
fol2 <- 1-fol2                               # inverte as tonalidades
hist(fol2)                                   # histograma dos tons de cinza

display(fol2) # escala cinza com claro sendo a folha

#-----------------------------------------------------------------------------
# dicotomiza para branco e preto

fol2[fol2<0.5] <- 0
fol2[fol2>=0.5] <- 1

display(fol2)

#-----------------------------------------------------------------------------
# mais tratamento

fol3 <- bwlabel(fol2)     # coloca os rótulos nas regiões disjuntas
fol4 <- fillHull(fol3)    # remove os pontos pretos dentro do branco

display(fol3)
display(fol4)

#-----------------------------------------------------------------------------
# cálculos

f.ocu <- computeFeatures.shape(fol3) # folha ocupada
f.tot <- computeFeatures.shape(fol4) # folha total

p <- f.ocu[, "s.area"]/f.tot[, "s.area"]
p <- p[p<1]
p <- 1-p
100*p # áreas ocupadas nas folhas (%)

#-----------------------------------------------------------------------------
# prepara para exportação

fol5 <- paintObjects(fol3, fol, opac=c(NA, 0.45), col=c(NA, "blue"))
display(fol5)

xy <- computeFeatures.moment(fol3, fol)[, c("m.cx", "m.cy")] # centróides
font <- drawfont(weight=600, size=15)
fol5 <- drawtext(fol5, xy=xy, labels=paste(format(100*p, digits=3), "%"),
                 font=font, col="yellow")
display(fol5)

writeImage(fol5, "f039.jpg")

#-----------------------------------------------------------------------------
Categorias:dados Tags:,

Cálculo de área foliar

Áreas foliares (cm²)

Área foliar calculada com funções do pacote EBImage.

Sinceramente, eu vi no r-bloggers e não acreditei. É possível calcular área de figuras geométricas no R. Bem isso sempre foi possível, basta ter as coordenadas do polígono. Mas não estou falando de áreas geográficas das quais possuímos os mapas. Estou falando de áreas de figuras digitalizadas, como por exemplo a folha de uma planta, as asas de uma borboleta, um torrão de solo, uma pedra, a seção de de um tronco, uma semente. Enfim, as possibilidades são infinitas.

Em agronomia, a análise de imagens é algo que vem se tornando mais comum. Determinações de volume/comprimento/diâmetro de raízes, dimensão de agregados do solo (diâmetros, rendondezas, perimentros), porcentagem de área ocupada por doença ou atacada por inseto são alguns exemplos de aplicação. Alguns aplicativos para essas tarefas são disponíveis. Alguns deles são pagos. E todos eles não permitem automatizar o trabalho, pois requerem em alguma altura do processo, intervenção do usuário via mouse. Imagine ter que calcular a área de 3000 folhas fazendo o trabalho uma a uma? Não dá né?

Nessa matéria eu calculo área de algumas folhas que encontrei no chão, embaixo de algumas árvores. Para ter a medidas das folhas em cm² eu coloquei um quadrado de papel de área conhecida como referência. Nos vamos usar funções disponíveis no pacote EBImage. O meu tutorial não é muito diferente do original que me motivou (leaf area measuring — R package “EBImage”). O fato é que não me contentei em apenas ler mencionada matéria, tive que ver com meus próprios olhos, e já que foi assim, está qui o código que produzi. Até a próxima ridícula.

#-----------------------------------------------------------------------------
# página de desenvolvimento do pacote
# http://www.bioconductor.org/packages/devel/bioc/html/EBImage.html

# instalação no linux, no terminal do linux, fazer
# sudo apt-get install libmagickcore-dev libmagickwand-dev

# instalando do bioconductor
source("http://bioconductor.org/biocLite.R")
biocLite("EBImage") # pacote EBImage, permite determinar área foliar

# instalando do tar.gz, pegar o link da página e rodar no terminal
# R CMD INSTALL EBImage_xxxxx.tar.gz # xxx representa a versão

#-----------------------------------------------------------------------------
# carrega o pacote

require(EBImage)

#-----------------------------------------------------------------------------
# lendo o arquivo

# lê imagem com folhas digitalizadas
fol <- readImage("http://www.leg.ufpr.br/~walmes/ridiculas/folhas.jpg")
str(fol)

display(fol) # vê a imagem
hist(fol)    # histograma dos componentes verde, vermelho e azul
             # picos de azul estão mais afastados, separam melhor

#-----------------------------------------------------------------------------
# tratamento

fol2 <- imageData(channel(fol, mode="blue")) # seleciona um canal
fol2 <- 1-fol2                               # inverte as tonalidades
hist(fol2)                                   # histigrama dos tons de cinza

display(fol2) # escala cinza com claro sendo a folha

#-----------------------------------------------------------------------------
# dicotomiza para branco e preto

fol2[fol2<0.5] <- 0
fol2[fol2>=0.5] <- 1

display(fol2)

#-----------------------------------------------------------------------------
# calcula atributos de cada região

fol3 <- bwlabel(fol2)     # coloca os rótulos nas regiões disjuntas
kern <- makeBrush(3, shape="disc", step=FALSE)
fol3 <- erode(fol3, kern) # remove alguns ruídos

display(fol3)

forma <- computeFeatures.shape(fol3)
area <- forma[, "s.area"]
area

# áreas foliares
areacm <- 25*area/min(area) # quadrado de área conhecida 25 cm²

#-----------------------------------------------------------------------------
# prepara para exportação

fol4 <- paintObjects(fol3, fol, opac=c(NA, 0.45), col=c(NA, "red"))
display(fol4)

xy <- computeFeatures.moment(fol3, fol)[, c("m.cx", "m.cy")] # centróides
font <- drawfont(weight=600, size=15)
fol5 <- drawtext(fol4, xy=xy, labels=paste(format(areacm, digits=4), "cm²"),
                 font=font, col="white")
display(fol5)

writeImage(fol5, "f038.jpg")

#-----------------------------------------------------------------------------
Categorias:dados Tags:,

Fuzzy c-means, um exemplo!

Pois bem, por sugestão do Professor Julio da Motta Singer apresentarei um script para realizar uma análise de agrupamento no escopo da lógica fuzzy. Seja um experimento fatorial (a mesma natureza dos dados aqui disponibilizados) a seguinte implementação realiza a clusterização de uma dado fator marginalmente ao outro fator.

A heurística da lógica fuzzy tem um incremento interpretativo de, ao contrário do agrupamento k-means, que é dicotômico, associar a cada cluster uma “probabilidade” de associação. Todavia, no método arbitramos uma constante (m) de fuzzyficação. Assim o seguinte script realiza o agrupamento fuzzy (por intermédio da função cmeans() da biblioteca e1071) para vários valores m assim é possível observar o comportamento (decaimento) do erro associado a clusterização e também a disposição dos fatores em relação ao cluster.

Infelizmente (ou para alegria geral) não vou me atrever a discorrer da teoria envolvida nessa análise e um estudo específico deixo a cargo dos maiores interessados.

Todo esse mise en cene, me soa um pouco genérico demais, eu sei (–Me desculpem!). Mas acredito que o script possa ser útil de alguma forma.

Aproveito o ensejo para agradecer as sugestões do Prof Julio da Motta Singer ao trabalho e o incentivo a esse post. Também deixo um alô ao colegas que participaram, de uma forma ou de outra!

Vamos ao trabalho, primeiro instalando (para quem ainda não o fez) e carregando a biblioteca e o conjunto de dados!

## install.packages('e1071')
library(e1071) # carrega pacote com implementação 'c-means'

dados <- transform(read.table("http://dl.dropbox.com/u/38195533/fac_exemplo.txt", # arquivo
                              header = TRUE,
                              sep = '\t',
                              na.string = '.',
                              dec = ','),
                   fatorA = factor(fatorA),
                   fatorB = factor(fatorB))

str(dados)

ajuste <- lm(resp ~ fatorA + fatorB, data = dados)
anova(ajuste) # ANOVA

matriz <- tapply(dados$resp, list(dados$fatorB, dados$fatorA), mean)

A primeira etapa foi realizada. Não posso passar ou próximo trecho sem deixa-los a par do quem está por vir! O agrupamento que “tentamos” é com relação ao um padrão de comportamento do fator sob análise, em relação ao outro fator, assim constituímos ideótipos e assim procedemos. O modo como constituimos esses ideótipos é aplicado unicamente a natureza desse conjunto de dados, mas outros ideótipos, ao seu critério podem ser usados, fique a vontade!

Antes de passarmos agora a análise em si manipulamos os dados e constituímos os centróides:

FinWil <- apply(matriz, 2, mean) - mean(matriz) # Finlay & Wilkinson

altos <- which(FinWil >= 0) # ambientes acima da media
baixo <- which(FinWil < 0) # ambientes abaixo da media

medias <- cbind(apply(matriz[, altos], 1, mean),
                apply(matriz[, baixo], 1, mean))

##--------------------------------------------------------------------
## IDEOTIPOS
## I   - maximo em todos 
## II  - maximo nos altos minimo nos baixos
## III - minimo nos altos maximo nos baixos
## IV  - minimo em todos 
## ADICIONAIS:
## V   - media em todos
## VI  - maximo nos altos e media nos baixos
## VII  - media nos altos maximo nos baixos

I <- c(max(matriz[, altos]), max(matriz[, baixo]))
II <- c(max(matriz[, altos]), min(matriz[, baixo]))
III <- c(min(matriz[, altos]), max(matriz[, baixo]))
IV <- c(min(matriz[, altos]), min(matriz[, baixo]))
V <- c(mean(matriz[, altos]), mean(matriz[, baixo]))
VI <- c(max(matriz[, altos]), mean(matriz[, baixo]))
VII <- c(mean(matriz[, altos]), max(matriz[, baixo]))

centroides <- rbind(I, II, III, IV, V, VI, VII) # centróides

Resta agora realizar a análise em si, veja que o laço for() repete a análise para vários valores da constante m e de cada uma, armazena as “probabilidades” de associação a cada centróide e o erro do ajustamento!


ms <- seq(1.2, 10, by = .1)
lista <- array(NA, dim = c(nlevels(dados$fatorB), 
                           nrow(centroides), 
                           length(ms)))
erros <- matrix(NA, nrow = length(ms), ncol = 1)
dimnames(lista) <- list(levels(dados$TRAT), 
                        c('I', 'II', 'III', 'IV', 'V', 'VI', 'VII'), 
                        ms)

for(i in 1:length(ms))
  {
    j <- ms[i]
    ## função de cluster 'fuzzy c-means'
    grupamentos <- cmeans(medias, # matriz dos dados
                          centroides, # centróides dos clusters
                          verbose = FALSE, # não imprime histórico
                          dist = 'euclidean', # distância empregada
                          m = j, # constante de desfuzzyficação
                          method = 'cmeans') # método
    lista[,,i] <- grupamentos$membership
    erros[i,] <- grupamentos$withinerror
  }

Pronto… feito, quer dizer, quase! Realizamos portanto a análise para os vários valores de m resta agora “escolher” um deles e partir para o resto! Até a próxima…

PCA de três dimensões

Olá a todos. O objetivo desse post é mostrar como fazer a análise de componentes principais em três dimensões. Mas esse post tem o destaque não ter sido escrito sozinho… Sem a participação da Msc Thalita (ou “Hermínia”, ninguém vai entender!) não teria post. Agradeçam a ela, mas reclamem comigo! Pois bem, Vamos usar como exemplo dados de um estudo com fatorial duplo (4 \times 4), em que foram tomadas quatro características (dados disponíveis para teste!).

Vou aproveitar e deixar aqui também um alô para o Dsc Guilherme pela ajuda nos detalhes do script, Valeu!

Um pouco de teoria:

Experimentos fatoriais (n \times n) caracterizam-se pela apresentação dos dados em tabelas de duas entradas (matriz), sendo que cada casela da tabela contém a resposta média de cada combinação dos fatores sob análise. Todas possibilidades desses experimentos estão fora do escopo desse post, por isso vamos um pouco além…

Acrescentando-se um outro fator, ou ainda outra característica (n \times n \times n, por exemplo), com 3 interações duplas e uma tripla, isso fica um pouco mais complexo. Neste caso, os dados são organizados em “CUBO” (arranjo de três entradas).

Nesta situação não é possível aplicar a análise de componentes principais usual. Uma alternativa é a utilização da decomposição PCAn, proposta por Tuckey em 1964.

Portanto nesse post pretendemos (afinal esse foi um trabalho em equipe) mostrar como realizar a decomposição de um arranjo de três entradas (CUBO). E mais que isso, mostrar uma função que realiza a escolha entre os vários modelos possíveis que variam conforme a dimensão dos dados.

Vamos ao código… mas calma, primeiro preparamos os dados!

Veja que usamos um pacote (PTAk, disponível no CRAN). Caso você não o tenha, proceda com install.packages(‘PTAk’)!

require(PTAk) # pacote analises pscicrometricas

## le e transforma os dados em fatores
dados <- transform(read.table("http://dl.dropbox.com/u/38195533/dados.txt")
                              na.string = '.',
                              header = TRUE,
                              dec = ',',
                              sep = '\t'),
                   elemento = factor(elemento),
                   residuo = factor(residuo),
                   metodo = factor(metodo))

CUBO.inicial <- with(dados,
                     tapply(conc, list(residuo, elemento, metodo),
                            mean, na.rm = TRUE))
## padronização dos dados
CUBO.standard <- apply(CUBO.inicial, 2, scale, center = FALSE)

## reconstrucao da planilha
estrutura <- expand.grid(elemento = factor(1:4),
                         residuo = factor(1:4),
                         metodo = factor(1:4))

plan <- data.frame(estrutura, conc = c(CUBO.standard)) ## dados

ajuste <- aov(conc ~ elemento * residuo * metodo - elemento:residuo:metodo,
              data = plan)
erros <- ajuste$residuals

## CUBO
Z <- tapply(erros, list(plan$residuo, plan$elemento, plan$metodo), mean) 

Nesse trecho são lidos os dados, na forma usual de uma planilha de dados (uma coluna para cada variável). Pela natureza dos dados, estes são padronizados (N(\mu = 0, \sigma^2 = 1)). Depois a panilha de dados é “reconstruída” e feito o ajuste do modelo linear respectivo (sem a interação tripla — objeto do nosso estudo!). Do resultado da análise extraímos os resíduos e construímos o CUBO.

Quase tudo pronto! O próximo trecho é a função que efetivamente faz os vários ajustes possíveis (isso é função da dimensão dos dados).

otimim.PCAn <- function(cubo) {
  dimensoes <- dim(Z) - 1
  diagnostico <- vector('list', length = prod(dimensoes - 1))
  ajustes <- vector('list', length = prod(dimensoes - 1))
  contador <- 0
  for(i in 2:dimensoes[ 1 ])
    {
      for(j in 2:dimensoes[ 2 ])
        {
          for(k in 2:dimensoes[ 3 ])
            {
              modelo <- c(i, j, k)
              tamanho <- sum(modelo)
              ## decomposicao Tucker -- PTAk
              tucker <- PCAn(Z, # array
                             dim = modelo, # dimensoes
                             test = 1E-12,
                             Maxiter = 1000,
                             smoothing = FALSE,
                             verbose = FALSE,
                             file = NULL)
              ## diagnostico
              porcentagem <- tucker[[ 3 ]]$pct # % explicada
              contador <- contador + 1
              ajustes[[ contador ]] <- tucker
              diagnostico[[ contador ]] <- c(modelo, tamanho, porcentagem)
            }
        }
    }
  ## diagnosticos dos ajustes
  tab.ajustes <- data.frame(do.call(rbind, diagnostico))
  tab.ajustes <- tab.ajustes[order(-tab.ajustes[, 4], -tab.ajustes[, 5]), ]
  por.total <- split(tab.ajustes, tab.ajustes[, 4])
  melhores <- vector('list', length = length(por.total))
  for(i in 1:length(melhores))
    {
      melhores[[i]] <- por.total[[i]][1, ]
    }
  ## melhores ajustes por dimensao
  tab.melhores <- do.call(rbind, melhores)
  tab.melhores <- tab.melhores[order(-tab.melhores[, 4]), ]
  ## melhor modelo
  melhor <- tab.melhores[(which((tab.melhores[,5]-
                          c(tab.melhores[,5][-1],0))>=5)[1]+1),]
  ## resposta -- melhor ajuste
  return(list(escolhido = melhor,
              resposta = ajustes[[ as.numeric(rownames(melhor)) ]]))
}

UFA!

Feita a função agora é só usa-lá (simples não?). Um uso possível dessa decomposição é representar e interpretar os dados graficamente em um biplot. Nessa condição de arranjos de três entradas são possíveis diferentes formas de gráficos biplots. Mas o objetivo do nosso post não é apresentá-los.

O trecho final aplica a função recém-construída (e retorna um controle de tempo de cada ajuste). Mostramos também como extrair as matrizes (A, B e C) e o arranjo G do melhor ajuste.

As matrizes de resposta e o arranjo G é que são úteis na construção dos gráficos. Aproveitem!

ajuste.PCA <- otimim.PCAn(Z)

A <- ajuste.PCA$resposta[[1]]$v
B <- ajuste.PCA$resposta[[2]]$v
C <- ajuste.PCA$resposta[[3]]$v

G <- ajuste.PCA$resposta[[3]]$coremat

summary(ajuste) # ANOVA do modelo
summary.PTAk(ajuste.PCA$resposta) # quanto cada componente explica

Voi lá…, Até mais pessoal!

Paralelização de Processos II

Dando continuidade ao que foi apresentado no post sobre paralelização de processos e motivado pelo comentário do colega J. Franky e fundamentalmente com a ajuda de Benilton Carvalho (aos quais deixo meu agradecimento), nesse “fast-post” vou mostrar uma outra implementação em paralelo.

O cenário é exatamente o mesmo do apresentado no post anterior (veja para entender). Agora, entretanto o processamento paralelo se dará em dois “níveis”, a saber: As nsmc simulações correm como um fork, ou seja, cópias do mesmo processo. Elas são implementadas como uma função e “correm” com a função mclapply(), o argumento mc.set.seed = TRUE garante que cada uma das nsmc terá uma semente geradora de números diferente.

Dentro de cada simualação temos ainda dois processos independentes dentro de cada ciclo (as duas estratégias de amostragem). Para um caso em que cada uma dessas estratégias demore um tempo grande, ao invés de esperar que a primeira termine para então começar a segunda, usamos uma versão de thread, com as funções parallel() e collect() e paralelizamos as duas estratégias.

O argumento mc.set.seed = TRUE tem o mesmo propósito que anteriormente, o argmento name = ‘foo’ é um grande facilitador… Vocês vão entender! Ao passar uma tarefa (a estratégia de amostragem) pela função parallel() é mesmo que dar um comando no terminal com um ‘nohup &’, ou seja, o computador executa a tarefa mas não “bloqueia” tal terminal para outro comando.

Depois de paralelizados, os processos são coletados pela função collect() na estrutura de uma lista, temos como argumentos da função (que não estão sendo usados, veja a documentação) o wait, ele é muito útil quando queremos que se espera ‘X’ tempo pelo fim das tarefas, após esse tempo, o processo continua.

A vantagem do uso do argumento name = ‘foo’ é que por default os nomes na estrutura da lista do collect recebem o número PID do processo, ao atribuir um nome fica muito mais fácil distribuir o que foi paralelizado.

Espero que tenham gostado… Lembrando que este é um exemplo puramente didático, que provavelmente não se aplica ao uso desses procedimentos. Segue portando código da terceira implementação, agora com o uso de paralelização em dois níveis.

#-----------------------------------------------------------------------------
## PARAMETROS DA SIMULAÇÃO -- usar os mesmo para as duas situações
n <- 5000 # numero de individuos
ciclos <- 30 # numero de ciclos
nsmc <- 100 # numero de simulacoes

## SEGUNDO CASO -- paralelizada
#-----------------------------------------------------------------------------
## IDEM (realiza um simulacao de 'nsmc')
simula.ii <- function(x) { # inicio da funcao -- sem argumentos
  ## mesmos comentarios do caso acima
  resultados <- matrix(NA, ciclos, 4) 
  p0 <- sample(c(0, 1, 2), n, replace = TRUE, prob = c(.25, .5, .25))
  resultados[1, ] <- rep(c(mean(p0), var(p0)), times = 2)
  estrA <- sample(p0, n/5, replace = FALSE)
  estrB <- p0[seq(1, 5000, 5)]
  resultados[2, ] <- c(mean(estrA), var(estrA), mean(estrB), var(estrB))
  for(k in 3:ciclos) {
    ## pA e pB paralelizados em 'thread'
    pA <- parallel(tipoA(estrA), name = 'A', mc.set.seed = TRUE)
    pB <- parallel(tipoB(estrB), name = 'B', mc.set.seed = TRUE)
    estrG <- collect(list(pA, pB)) # coleta dos processos paralelizados
    estrA <- estrG$A; estrB <- estrG$B # redistribui os processos
    resultados[k, ] <- c(mean(estrA), var(estrA), mean(estrB), var(estrB))
  }
  return(resultados) # retorna uma simulacao
}

tempoC <- system.time({ # armazena o tempo de processamento
saida3 <- mclapply(1:nsmc, # numero de nsmc
# aplica a funcao -- faz a simulacao
                   simula.ii,
                   mc.preschedule = FALSE,
                   # 'expande' quantos processos forem possiveis
                   mc.set.seed = TRUE,
                   # uma semente para cada processo
                   mc.cores = getOption('cores'))
                   # usa quantos processadores forem possiveis
})

## TEMPO
tempoC[3]

Até a próxima!

Gerando seus próprios dados

Se você está prestes a ficar louco por causa dos seus dados que não ficaram bons ou porque você perdeu tudo! Esse post vem bem de encontro as suas expectativas.

Vamos mostrar agora como gerar seus próprios dados! Isso vai ser feito pelo uso das funções de geração de números aleatórios (pseudo aleatórios) do R, especialmente a rnorm().

É claro que é brincadeira que você vai usar os dados simulados como os dados verdadeiramente obtidos. Mas pretendemos com a demonstração da geração de dados mostrar uma boa funcionalidade do programa R.

E sem dúvida sempre que você abstrair um pouco para imaginar como gerar dados é um ótima forma de melhor compreender a mecânica envolvida no processo. Outra coisa é que a simulação é uma “bonita” forma de realizar testes, se você por acaso tiver uma idéia (ou hipótese) a testar mas ela seja meio difícil de se fazer experimentalmente a simulação é uma boa alternativa!

Para começar vamos apresentar a função rnorm(). É com ela que geramos os números pseudo-aleatórios. seus argumentos são n que é número de valores que serão gerados e depois vem os parâmetros da normal sob o qual os valores serão gerados mean e sd. Se você não especificar esses parâmetros serão gerado valores de uma distribuição normal padrão, media 0 e desvio padrão 1. O R tem função para geração de dados de outras distribuições, poisson, binomial, gamma, beta, etc. Procure a documentação!

Assim, primeiro temos que postular o que queremos simular. No nosso exemplo (CMR) vamos mostrar como gerar dados de um experimento em DIC, qualquer (qualquer mesmo…). Teremos então t tratamentos, r repetições e uma média geral mu, especificamos qual deva ser a variância entre tratamentos (sg.t) e uma variância do erro (sg.e).

Veja o CMR:

t <- 20 # número de tratamentos

r <- 10 # número de repetições

mu <- 100
sg.t <- 15
sg.e <- 9 # parâmetros (média geral, var de trat e var do erro)

a.dat <- matrix(rnorm(t, 0, sqrt(sg.t)),
                nrow = t,
                ncol = r) # iésimo efeito de tratamento

e.dat <- matrix(rnorm(t*r, 0, sqrt(sg.e)),
                nrow = t,
                ncol = r) # iésimo efeito aleatório

plan <- transform(data.frame(expand.grid(trat = 1:t, rep = 1:r), # dados
                            obs = c(round(mu + a.dat + e.dat))),
                 trat = factor(trat),
                 rep = factor(rep))

Esse conjunto de dados gerados é (digamos assim) “único”. A chance de você rodando novamente esse código obter exatamente os mesmos dados é bem improvável. Se você quiser repetir exatamente esses valores você pode especificar a semente que gera os dados, isso é feito pela função set.seed(). Faça o teste!

O modelo de DIC é: y_{ij} = \mu + t_i + \varepsilon_{ij} Portanto depois de especificar os parâmetros do nosso modelo criamos matrizes, com as dimensões do experimento que contêm simulações geradas com esses parâmetros.

Inspecione a matriz de nome a.dat, veja que a dimensão da matriz é t por r, mas são gerados apenas t simulações, assim todas células da mesma linha terão os mesmos valores, que serão os efeitos de tratamentos.

Por outro lado, a matriz e.dat tem todos os valores diferentes. Que são os desvios aleatórios. Como os efeitos de tratamentos e do erro são independentes somando-se as células dessas matrizes obtemos os dados.

É claro que esse é apenas uma simulação, é extremamente simples, mas ela serve como exemplo de como realizar uma simulação mais complexa, que envolva um outro delineamento diferente. E se você pretende usar a simulação para testar outras hipóteses seria interessante realizar mais de um conjunto de dados. E realizar alguns “testes” sobre os conjuntos gerados para verificar a consistência dos dados gerados. Mas vamos deixar isso para outro post!

Veja por exemplo que se você realizar uma análise sobre esse conjunto de dados as variâncias que você obterá não serão exatamente os parâmetros que você estipulou, isso ocorre pois como o exemplo tem uma dimensão pequena ocorrem alguns desvios devido ao processo de amostragem inerente.