Saturday 7 April 2018

Period centered moving average


Ao computar uma média móvel, colocar a média no meio período faz sentido. No exemplo anterior calculamos a média dos três primeiros períodos de tempo e a colocamos ao lado do período 3. Poderíamos ter colocado a média no meio do período. intervalo de tempo de três períodos, isto é, próximo ao período 2. Isso funciona bem com períodos de tempo ímpares, mas não tão bons para períodos de tempo pares. Então onde colocaríamos a primeira média móvel quando M 4 Tecnicamente, a Média Móvel cairia em t 2,5, 3,5. Para evitar esse problema, suavizamos os MAs usando M 2. Assim, suavizamos os valores suavizados Se calcularmos a média de um número par de termos, precisamos suavizar os valores suavizados A tabela a seguir mostra os resultados usando M 4.David, Yes, MapReduce is destinado a operar em uma grande quantidade de dados. E a ideia é que, em geral, o mapa e as funções de redução não devem importar quantos mapeadores ou quantos redutores existem, apenas otimização. Se você pensar cuidadosamente sobre o algoritmo que eu postei, você pode ver que não importa qual mapeador recebe quais partes dos dados. Cada registro de entrada estará disponível para cada operação de redução que precisar dele. Na melhor das hipóteses, a média móvel não é bem mapeada para o paradigma MapReduce, já que seu cálculo é essencialmente uma janela deslizante sobre dados ordenados, enquanto MR é o processamento de intervalos não interseccionados de dados ordenados. A solução que vejo é a seguinte: a) Para implementar o particionador personalizado para poder fazer duas partições diferentes em duas execuções. Em cada execução, seus redutores obterão diferentes faixas de dados e calcularão a média móvel, quando apropriado tentaremos ilustrar: Na primeira execução, os dados para redutores devem ser: R1: Q1, Q2, Q3, Q4 R2: Q5, Q6, Q7, Q8 . aqui você vai calcular a média móvel para alguns Qs. Na próxima execução, seus redutores devem obter dados como: R1: Q1. Q6 R2: Q6. Q10 R3: Q10..Q14 E calcule o resto das médias móveis. Então você precisará agregar resultados. Idéia do particionador personalizado que terá dois modos de operação - cada vez dividindo-se em intervalos iguais, mas com algum deslocamento. Em um pseudocódigo, ficará assim. partição (keySHIFT) / (MAXKEY / numOfPartitions) onde: SHIFT será retirado da configuração. Valor máximo de MAXKEY da chave. Eu assumo pela simplicidade que eles começam com zero. RecordReader, IMHO não é uma solução, uma vez que é limitado a divisão específica e não pode deslizar sobre o limite de divisões. Outra solução seria implementar lógica customizada de dados de entrada de divisão (faz parte do InputFormat). Isso pode ser feito para fazer dois slides diferentes, semelhantes ao particionamento. As médias móveis e as médias móveis centradas Alguns pontos sobre a sazonalidade em uma série temporal devem se repetir, mesmo que pareçam óbvios. Uma é que o termo 8220season8221 não se refere necessariamente às quatro estações do ano que resultam da inclinação do eixo Earth8217s. Na análise preditiva, a 8220season8221 muitas vezes significa precisamente isso, porque muitos dos fenômenos que estudamos variam com a progressão da primavera até o inverno: vendas de equipamentos de inverno ou de verão, incidência de certas doenças generalizadas, eventos climáticos causados ​​pela localização da doença. fluxo de jato e mudanças na temperatura da água no leste do oceano Pacífico, e assim por diante. Da mesma forma, eventos que ocorrem regularmente podem agir como estações meteorológicas, mesmo que tenham apenas uma conexão tênue com os solstícios e equinócios. Deslocamentos de oito horas em hospitais e fábricas muitas vezes se expressam na incidência de ingestões e gastos de energia lá, uma estação tem oito horas de duração e as estações do ciclo todos os dias, não todos os anos. As datas de vencimento dos impostos sinalizam o início de uma enxurrada de dólares em títulos municipais, estaduais e federais, a estação pode ser de um ano (imposto de renda pessoal), seis meses (impostos imobiliários em muitos estados), trimestral (muitos impostos corporativos ), e assim por diante. É um pouco estranho que tenhamos a palavra 8220season8221 para se referir geralmente ao período de tempo regularmente recorrente, mas nenhum termo geral para o período de tempo durante o qual ocorre uma volta completa das estações. 8220Cycle8221 é possível, mas em analítica e previsão esse termo é normalmente considerado como um período de duração indeterminada, como um ciclo de negócios. Na ausência de um termo melhor, eu usei o período 8220encompassing8221 neste e nos capítulos subseqüentes. Isso não é apenas uma reflexão terminológica. As formas pelas quais identificamos as estações e o período de tempo durante o qual as estações do ano se transformam têm implicações reais, ainda que menores, na maneira como medimos seus efeitos. As seções a seguir discutem como alguns analistas variam a maneira de calcular as médias móveis de acordo com o número de temporadas par ou ímpar. Usando médias móveis em vez de médias simples Suponha que uma cidade grande esteja considerando a realocação de sua polícia de trânsito para melhor abordar a incidência de dirigir com deficiência, o que a cidade acredita estar aumentando. Quatro semanas atrás, nova legislação entrou em vigor, legalizando a posse e o uso recreativo da maconha. Desde então, o número diário de detenções de trânsito por DWI parece estar em alta. Para complicar a situação, é o fato de que o número de prisões parece aumentar às sextas-feiras e sábados. Para ajudar a planejar os requisitos de mão-de-obra no futuro, você gostaria de prever qualquer tendência subjacente que estivesse sendo estabelecida. You8217d também gosta de tempo a implantação de seus recursos para ter em conta qualquer sazonalidade relacionada com o fim de semana que 8217s estão ocorrendo. A Figura 5.9 tem os dados relevantes com os quais você deve trabalhar. Figura 5.9 Com esse conjunto de dados, cada dia da semana constitui uma temporada. Mesmo olhando apenas o gráfico da Figura 5.9. Você pode dizer que a tendência do número de prisões diárias está em alta. Você tem que planejar para expandir o número de oficiais de tráfego, e espero que a tendência se estabilize em breve. Além disso, os dados confirmam a noção de que mais prisões ocorrem rotineiramente às sextas e sábados, portanto, a alocação de recursos precisa lidar com esses picos. Mas você precisa quantificar a tendência subjacente, para determinar quantos policiais adicionais você terá que usar. Você também precisa quantificar o tamanho esperado dos picos de fim de semana, para determinar quantos policiais adicionais você precisa assistir a pilotos erráticos nesses dias. O problema é que, até o momento, você não sabe quanto do aumento diário é devido à tendência e quanto é devido a esse efeito no fim de semana. Você pode começar por prejudicar a série temporal. No início deste capítulo, em 8220Simples Seasonal Averages, 8221 você viu um exemplo de como desfazer uma série temporal a fim de isolar os efeitos sazonais usando o método das médias simples. Nessa seção, você verá como fazer isso usando médias móveis. É provável que a abordagem de médias móveis seja usada com mais frequência na análise preditiva do que a abordagem de médias simples. Há várias razões para a maior popularidade das médias móveis, entre elas, que a abordagem de médias móveis não pede que você colapse seus dados no processo de quantificação de uma tendência. Lembre-se de que o exemplo anterior tornou necessário reduzir as médias trimestrais para as médias anuais, calcular uma tendência anual e depois distribuir um quarto da tendência anual em cada trimestre do ano. Esse passo foi necessário para remover a tendência dos efeitos sazonais. Em contraste, a abordagem de médias móveis permite que você desvie a série temporal sem recorrer a esse tipo de maquinação. A Figura 5.10 mostra como a abordagem de médias móveis funciona no presente exemplo. Figura 5.10 A média móvel no segundo gráfico esclarece a tendência subjacente. A Figura 5.10 adiciona uma coluna de média móvel e uma coluna para sazonais específicas. para o conjunto de dados na Figura 5.9. Ambas as adições requerem alguma discussão. Os picos nas prisões nos finais de semana lhe dão motivos para acreditar que você está trabalhando com temporadas que se repetem uma vez por semana. Portanto, comece por obter a média para o período abrangente, ou seja, as primeiras sete temporadas, de segunda a domingo. A fórmula para a média na célula D5, a primeira média móvel disponível, é a seguinte: Essa fórmula é copiada e colada na célula D29, portanto, você tem 25 médias móveis com base em 25 execuções de sete dias consecutivos. Observe que, para mostrar a primeira e a última poucas observações na série temporal, ocultei as linhas de 10 a 17. Você pode mostrá-las, se desejar, nesta pasta de trabalho chapter8217s, disponível no site publisher8217s. Faça uma seleção múltipla de linhas visíveis 9 e 18, clique com o botão direito do mouse em um dos cabeçalhos de linha e escolha Mostrar no menu de atalho. Quando você oculta as linhas de uma worksheet8217s, como I8217ve feito na Figura 5.10. qualquer dado gráfico nas linhas ocultas também é oculto no gráfico. Os rótulos do eixo x identificam apenas os pontos de dados que aparecem no gráfico. Como cada média móvel na Figura 5.10 abrange sete dias, nenhuma média móvel é emparelhada com as três primeiras ou últimas três observações reais. Copiando e colando a fórmula na célula D5 um dia para cima, para a célula D4, você sai das observações8212, não há nenhuma observação registrada na célula C1. Da mesma forma, não há média móvel registrada abaixo da célula D29. Copiar e colar a fórmula em D29 em D30 exigiria uma observação na célula C33, e nenhuma observação está disponível para o dia que a célula representaria. Seria possível, é claro, encurtar o comprimento da média móvel para, digamos, cinco em vez de sete. Assim, isso significaria que as fórmulas de média móvel na Figura 5.10 poderiam começar na célula D4 em vez de D5. No entanto, nesse tipo de análise, você deseja que a duração da média móvel seja igual ao número de estações: sete dias por semana para eventos que se repetem semanalmente, o que implica uma média móvel de sete e quatro trimestres em um ano para eventos que Recorrem anualmente implica uma média móvel de comprimento quatro. Em linhas similares, geralmente quantificamos os efeitos sazonais de tal forma que eles totalizam zero dentro do período de tempo abrangente. Como você viu nesta primeira seção do Chapter8217s, em médias simples, isso é feito calculando a média de (digamos) os quatro trimestres de um ano e depois subtraindo a média do ano de cada figura trimestral. Isso garante que o total dos efeitos sazonais seja zero. Por sua vez, isso é útil porque põe os efeitos sazonais em um efeito comum de verão de 11 está longe da média como um efeito de inverno de 821111. Se você quiser calcular a média de cinco estações em vez de sete para obter sua média móvel, é melhor fora de encontrar um fenômeno que se repete a cada cinco estações, em vez de cada sete. No entanto, quando você tira a média dos efeitos sazonais mais tarde no processo, é improvável que essas médias somam zero. É necessário, nesse ponto, recalibrar ou normalizar. as médias para que sua soma seja zero. Quando isso é feito, as médias sazonais médias expressam o efeito em um período de tempo de pertencer a uma estação específica. Uma vez normalizadas, as médias sazonais são denominadas índices sazonais que este capítulo já mencionou várias vezes. Você verá como funciona mais adiante neste capítulo, em 8220Detrando a Série com Médias Móveis.8221 Entendendo Sazões Específicas A Figura 5.10 também mostra o que chamamos de sazonais específicos na coluna E. Eles são o que restou depois de subtrair a média móvel da observação real. Para ter uma ideia do que as sazonais específicas representam, considere a média móvel na célula D5. É a média das observações em C2: C8. Os desvios de cada observação da média móvel (por exemplo, C2 8211 D5) têm a garantia de somar a zero8212que8217s é uma característica de uma média. Portanto, cada desvio expressa o efeito de estar associado a esse dia específico naquela semana específica. Ele é específico de uma determinada época, então não é específico porque o desvio se aplica àquela segunda ou terça-feira em particular, e assim por diante, e sazonal, porque nesse exemplo estamos tratando cada dia como se fosse uma estação no período abrangente de uma semana. Como cada estação sazonal específica mede o efeito de estar nessa estação em relação à média móvel para esse grupo de (aqui) sete temporadas, é possível calcular a média das sazonais específicas de uma determinada estação (por exemplo, todas as sextas-feiras em sua estação). séries temporais) para estimar que a temporada8217s é um efeito geral, e não específico. Essa média não é confundida por uma tendência subjacente na série temporal, porque cada estação específica expressa um desvio de sua média móvel particular. Alinhando as médias móveis Há também a questão de alinhar as médias móveis com o conjunto de dados original. Na Figura 5.10. Eu alinhei cada média móvel com o ponto médio do intervalo de observações que ela inclui. Assim, por exemplo, a fórmula na célula D5 calcula a média das observações em C2: C8, e eu a alinhei com a quarta observação, o ponto médio da faixa média, colocando-a na linha 5. Esse arranjo é chamado de média móvel centralizada . e muitos analistas preferem alinhar cada média móvel com o ponto médio das observações que ela calcula. Tenha em mente que, nesse contexto, 8220midpoint8221 refere-se ao meio de um intervalo de tempo: quinta-feira é o ponto médio de segunda a domingo. Não se refere à mediana dos valores observados, embora, é claro, possa funcionar dessa maneira na prática. Outra abordagem é a média móvel à direita. Nesse caso, cada média móvel é alinhada com a observação final de que ele calcula a média e, portanto, fica atrás de seus argumentos. Geralmente, esse é o arranjo preferencial se você quiser usar uma média móvel como uma previsão, como é feito com suavização exponencial, porque a média móvel final ocorre de forma coincidente com a observação final disponível. Médias móveis centradas com números pares de temporadas Geralmente adotamos um procedimento especial quando o número de estações é par e não ímpar. Isso é o estado de coisas típico: tende a haver números pares de estações no período abrangente para estações típicas, como meses, trimestres e períodos quadrienais (para eleições). A dificuldade com um número par de temporadas é que não há ponto médio. Dois não é o ponto médio de um intervalo começando em 1 e terminando em 4, e nenhum deles é 3 se pudermos dizer que tem um, seu ponto médio é 2.5. Seis não é o ponto médio de 1 a 12, e nenhum deles é 7, seu ponto médio puramente teórico é 6,5. Para agir como se houvesse um ponto médio, você precisa adicionar uma camada de média sobre as médias móveis. Veja a Figura 5.11. Figura 5.11 O Excel oferece várias maneiras de calcular uma média móvel centralizada. A idéia por trás dessa abordagem para se obter uma média móvel centrada em um ponto médio existente, quando há um número par de temporadas, é puxar esse ponto médio para frente em meio período. Você calcula uma média móvel que seria centralizada, digamos, no terceiro ponto no tempo se cinco estações ao invés de quatro constituíssem uma volta completa do calendário. Isso é feito tomando duas médias móveis consecutivas e calculando a média delas. Então, na Figura 5.11. Há uma média móvel na célula E6 que calcula a média dos valores em D3: D9. Como há quatro valores sazonais em D3: D9, a média móvel em E6 é pensada como centrada na temporada imaginária 2,5, meio ponto antes da primeira temporada disponível de candidato, 3. (as temporadas 1 e 2 estão indisponíveis como pontos médios para falta de dados para média antes da primeira temporada.) Note, porém, que a média móvel na célula E8 calcula a média dos valores em D5: D11, o segundo até o quinto na série temporal. Essa média está centrada no (imaginário) ponto 3.5, um período completo à frente da média centrado em 2,5. Ao calcular a média das duas médias móveis, o raciocínio prossegue, você pode puxar o ponto central da primeira média móvel para frente em meio ponto, de 2,5 para 3. Isso é o que as médias da coluna F da Figura 5.11 fazem. A célula F7 fornece a média das médias móveis em E6 e E8. E a média em F7 está alinhada com o terceiro ponto de dados na série temporal original, na célula D7, para enfatizar que a média é centrada naquela estação. Se você expandir a fórmula na célula F7, bem como as médias móveis nas células E6 e E8, verá que se trata de uma média ponderada dos cinco primeiros valores da série temporal, com o primeiro e o quinto valor tendo um peso de 1, e do segundo ao quarto valores, dado um peso de 2. Isso nos leva a uma maneira mais rápida e simples de calcular uma média móvel centralizada com um número par de estações. Ainda na Figura 5.11. os pesos são armazenados no intervalo H3: H11. Essa fórmula retorna a primeira média móvel centralizada, na célula I7: Essa fórmula retorna 13,75. que é idêntico ao valor calculado pela fórmula de média dupla na célula F7. Fazendo a referência aos pesos absolutos, por meio dos cifrões em H3: H11. você pode copiar a fórmula e colá-la o quanto for necessário para obter o restante das médias móveis centralizadas. Determine a Série com Médias Móveis Quando você subtraiu as médias móveis das observações originais para obter as sazonais específicas, você removeu a tendência subjacente da série. O que se deixa nas temporadas específicas é normalmente uma série horizontal estacionária com dois efeitos que fazem com que os sazonais específicos partam de uma linha absolutamente reta: os efeitos sazonais e o erro aleatório nas observações originais. A Figura 5.12 mostra os resultados para este exemplo. Figura 5.12 Os efeitos sazonais específicos para sexta e sábado permanecem claros nas séries retificadas. O gráfico superior da Figura 5.12 mostra as observações diárias originais. Tanto a tendência geral de alta quanto os picos sazonais de fim de semana são claros. O gráfico inferior mostra as sazonais específicas: o resultado de prejudicar a série original com um filtro de média móvel, como descrito anteriormente em 8220Entendendo épocas específicas.8221 Você pode ver que a série retraída é agora virtualmente horizontal (uma linha de tendência linear para os sazonais específicos tem um ligeiro desvio para baixo), mas os picos sazonais de sexta-feira e sábado ainda estão em vigor. O próximo passo é ir além dos sazonais específicos para os índices sazonais. Veja a Figura 5.13. Figura 5.13 Os efeitos sazonais específicos são primeiro calculados e depois normalizados para atingir os índices sazonais. Na Figura 5.13. os sazonais específicos da coluna E são rearranjados na forma tabular mostrada na faixa H4: N7. O objetivo é simplesmente facilitar o cálculo das médias sazonais. Essas médias são mostradas em H11: N11. No entanto, os números em H11: N11 são médias, não desvios de uma média e, portanto, não podemos esperar que eles sejam somados a zero. Ainda precisamos ajustá-los para que eles expressem desvios de uma grande média. Essa grande média aparece na célula N13 e é a média das médias sazonais. Podemos chegar aos índices sazonais subtraindo a grande média em N13 de cada uma das médias sazonais. O resultado está no intervalo H17: N17. Esses índices sazonais não são mais específicos de uma média móvel específica, como é o caso dos sazonais específicos da coluna E. Como eles são baseados em uma média de cada instância de uma determinada estação, eles expressam o efeito médio de uma determinada estação em toda a região. quatro semanas na série temporal. Além disso, são medidas de uma época, em um dia de paralisação das detenções de trânsito em comparação com a média de um período de sete dias. Agora podemos usar esses índices sazonais para dessazonalizar a série. We8217ll usar a série dessazonalizada para obter previsões por meio de regressão linear ou método de Holt8217s de suavização de séries de tendência (discutido no Capítulo 4). Então, simplesmente adicionamos os índices sazonais de volta às previsões para ressazalizá-los. Tudo isso aparece na Figura 5.14. Figura 5.14 Depois de ter os índices sazonais, os últimos retoques aqui aplicados são os mesmos do método das médias simples. As etapas ilustradas na Figura 5.14 são basicamente as mesmas das Figuras 5.6 e 5.7. discutido nas seções seguintes. Desseasonalizando as Observações Subtraia os índices sazonais das observações originais para dessazonalizar os dados. Você pode fazer isso conforme mostrado na Figura 5.14. em que as observações originais e os índices sazonais são organizados como duas listas começando na mesma linha, colunas C e F. Esse arranjo torna um pouco mais fácil estruturar os cálculos. Você também pode fazer a subtração conforme mostrado na Figura 5.6. em que as observações trimestrais originais (C12: F16), os índices trimestrais (C8: F8) e os resultados dessazonalizados (C20: F24) são mostrados em um formato tabular. Esse arranjo torna um pouco mais fácil se concentrar nos índices sazonais e nos trimestrais dessazonados. Previsão das observações dessazonalizadas na figura 5.14. as observações dessazonalizadas estão na coluna H e na Figura 5.7 estão na coluna C. Independentemente de você querer usar uma abordagem de regressão ou uma aproximação de suavização da previsão, é melhor organizar as observações dessazonalizadas em uma lista de coluna única. Na Figura 5.14. as previsões estão na coluna J. A seguinte fórmula de matriz é inserida no intervalo J2: J32. Anteriormente neste capítulo, observei que, se você omitir o argumento x-values ​​dos argumentos TREND () function8217s, o Excel fornecerá os valores padrão 1. 2 n. onde n é o número de valores y. Na fórmula que acabamos de mencionar, H2: H32 contém 31 valores y. Como o argumento que normalmente contém os valores x está ausente, o Excel fornece os valores padrão 1. 2 31 Esses são os valores que gostaríamos de usar de qualquer maneira, na coluna B, então a fórmula como dada é equivalente a TREND (H2: H32, B2: B32). E essa é a estrutura usada em D5: D24 da Figura 5.7: Fazendo a Previsão One-Step-Ahead Até aqui você organizou as previsões da série temporal dessazonalizada de t 1 a t 31 na Figura 5.14. e de t 1 a t 20 na Figura 5.7. Essas previsões constituem informações úteis para diversos fins, incluindo a avaliação da precisão das previsões por meio de uma análise do RMSE. Mas seu objetivo principal é prever pelo menos o próximo período de tempo, ainda não observado. Para obter isso, você pode primeiro prever a partir da função TREND () ou PROJ. LIN () se estiver usando a regressão, ou da fórmula de suavização exponencial se estiver usando o método Holt8217s. Em seguida, você pode adicionar o índice sazonal associado à previsão de regressão ou suavização para obter uma previsão que inclua a tendência e o efeito sazonal. Na Figura 5.14. você obtém a previsão de regressão na célula J33 com esta fórmula: Nesta fórmula, os valores y em H2: H32 são os mesmos que nas outras fórmulas TREND () na coluna J. Assim são os valores-x (padrão) de 1 através de 32. Agora, no entanto, você fornece um novo x-value como o terceiro argumento da function8217s, que você diz a TREND () para procurar na célula B33. It8217s 32. o próximo valor de t. E o Excel retorna o valor 156,3 na célula J33. A função TREND () na célula J33 está informando o Excel, com efeito, 8220Calcular a equação de regressão para os valores em H2: H32 regredidos nos valores t 1 a 31. Aplique essa equação de regressão ao novo valor x de 32 e retorne o resultado.8221 Você encontrará a mesma abordagem tomada na célula D25 da Figura 5.7. onde a fórmula para obter a previsão de um passo à frente é a seguinte: Adicionando os Índices Sazonais Back In O passo final é rever as previsões adicionando os índices sazonais às previsões de tendência, revertendo o que você fez quatro etapas quando subtraiu o índices das observações originais. Isso é feito na coluna F na Figura 5.7 e na coluna K na Figura 5.14. Não esqueça de acrescentar o índice sazonal apropriado para a previsão de um passo à frente, com os resultados mostrados na célula F25 na Figura 5.7 e na célula K33 na Figura 5.14. (I8217ve sombreado as células de um passo à frente na Figura 5.7 e na Figura 5.14 para destacar as previsões.) Você pode encontrar gráficos de três representações dos dados de parada de tráfego na Figura 5.15. a série dessazonalizada, a previsão linear a partir dos dados dessazonalizados e as previsões ressisionalizadas. Observe que as previsões incorporam a tendência geral dos dados originais e seus picos de sexta-feira / sábado. Figura 5.15 Criando gráficos das previsões.

No comments:

Post a Comment