David, Sim, MapReduce é destinado a operar em uma grande quantidade de dados. E a ideia é que, em geral, o mapa e as funções de redução não devem importar quantos mapeadores ou quantos redutores existem, apenas otimização. Se você pensar cuidadosamente sobre o algoritmo que eu postei, você pode ver que não importa qual mapeador recebe quais partes dos dados. Cada registro de entrada estará disponível para cada operação de redução que precisar dele. Na melhor das hipóteses, a média móvel não é bem mapeada para o paradigma MapReduce, já que seu cálculo é essencialmente uma janela deslizante sobre dados ordenados, enquanto MR é o processamento de intervalos não interseccionados de dados ordenados. A solução que vejo é a seguinte: a) Para implementar o particionador personalizado para poder fazer duas partições diferentes em duas execuções. Em cada execução, seus redutores obterão diferentes faixas de dados e calcularão a média móvel, quando apropriado tentaremos ilustrar: Na primeira execução, os dados para redutores devem ser: R1: Q1, Q2, Q3, Q4 R2: Q5, Q6, Q7, Q8 . aqui você vai calcular a média móvel para alguns Qs. Na próxima execução, seus redutores devem obter dados como: R1: Q1. Q6 R2: Q6. Q10 R3: Q10..Q14 E calcule o resto das médias móveis. Então você precisará agregar resultados. Idéia do particionador personalizado que terá dois modos de operação - cada vez dividindo-se em intervalos iguais, mas com algum deslocamento. Em um pseudocódigo, ficará assim. partição (keySHIFT) / (MAXKEY / numOfPartitions) onde: SHIFT será retirado da configuração. Valor máximo de MAXKEY da chave. Eu assumo pela simplicidade que eles começam com zero. RecordReader, IMHO não é uma solução, uma vez que é limitado a divisão específica e não pode deslizar sobre o limite de divisões. Outra solução seria implementar lógica customizada de dados de entrada de divisão (faz parte do InputFormat). Isso pode ser feito para fazer dois slides diferentes, semelhantes ao particionamento. Ao calcular uma média móvel, colocar a média no período de tempo médio faz sentido. No exemplo anterior calculamos a média dos três primeiros períodos de tempo e a colocamos ao lado de período 3. Poderíamos ter colocado a média no meio do intervalo de tempo de três períodos, ou seja, próximo ao período 2. Isso funciona bem com períodos de tempo ímpares, mas não tão bons para períodos de tempo pares. Então onde colocaríamos a primeira média móvel quando M 4 Tecnicamente, a Média Móvel cairia em t 2,5, 3,5. Para evitar esse problema, suavizamos os MAs usando M 2. Assim, suavizamos os valores suavizados Se calcularmos a média de um número par de termos, precisamos suavizar os valores suavizados A tabela a seguir mostra os resultados usando M 4.6.2 Médias móveis ma 40 elecsales , order 5 41 Na segunda coluna dessa tabela, uma média móvel da ordem 5 é mostrada, fornecendo uma estimativa do ciclo de tendência. O primeiro valor nesta coluna é a média das cinco primeiras observações (1989-1993). O segundo valor na coluna 5-MA é a média dos valores 1990-1994 e assim por diante. Cada valor na coluna 5-MA é a média das observações no período de cinco anos centrada no ano correspondente. Não há valores para os dois primeiros anos ou últimos dois anos porque não temos duas observações em nenhum dos lados. Na fórmula acima, a coluna 5-MA contém os valores de hat com k2. Para ver como é a estimativa do ciclo de tendência, plotamos isso junto com os dados originais da Figura 6.7. enredo 40 elecsales, main "Electricidade salentica residual, ylab" GWhquot. xlab quotYear 41 linhas 40 ma 40 elecsales, 5 41. col quotredot 41 Observe como a tendência (em vermelho) é mais suave do que os dados originais e captura o movimento principal da série temporal sem todas as pequenas flutuações. O método da média móvel não permite estimativas de T onde t está próximo das extremidades da série, portanto a linha vermelha não se estende às bordas do gráfico em nenhum dos lados. Posteriormente, usaremos métodos mais sofisticados de estimativa de ciclo de tendência, que permitem estimativas próximas aos pontos finais. A ordem da média móvel determina a suavidade da estimativa do ciclo de tendência. Em geral, uma ordem maior significa uma curva mais suave. O gráfico a seguir mostra o efeito de alterar a ordem da média móvel para os dados de vendas de eletricidade residencial. Médias móveis simples como estas são geralmente de ordem ímpar (por exemplo, 3, 5, 7, etc.) Isso é para que elas sejam simétricas: em uma média móvel de ordem m2k1, há k observações anteriores, k observações posteriores e observação intermediária que são calculados Mas, se estivesse nivelado, não seria mais simétrico. Médias móveis de médias móveis É possível aplicar uma média móvel a uma média móvel. Uma razão para fazer isso é fazer uma média móvel de ordem regular simétrica. Por exemplo, podemos pegar uma média móvel de ordem 4 e, em seguida, aplicar outra média móvel de ordem 2 aos resultados. Na Tabela 6.2, isso foi feito nos primeiros anos dos dados trimestrais australianos de produção de cerveja. beer2 lt - window 40 ausbeer, start 1992 41 ma4 lt ma 40 beer2, order 4. center FALSO 41 ma2x4 lt - ma 40 beer2, order 4. centro TRUE 41 A notação 2x4-MA na última coluna significa um 4-MA seguido por um 2-MA. Os valores da última coluna são obtidos pela média móvel da ordem 2 dos valores da coluna anterior. Por exemplo, os dois primeiros valores na coluna 4-MA são 451,2 (443410420532) / 4 e 448,8 (410420532433) / 4. O primeiro valor na coluna 2x4-MA é a média destes dois: 450,0 (451,2448,8) / 2. Quando um 2-MA segue uma média móvel de ordem uniforme (como 4), é chamado de média móvel centralizada de ordem 4. Isso ocorre porque os resultados agora são simétricos. Para vermos que este é o caso, podemos escrever o 2times4-MA da seguinte forma: begin hat amp frac Bigfrac (y y y y) frac (y y yy) Big amp frac fry frac14y frac14y frac18y. end É agora uma média ponderada de observações, mas é simétrica. Outras combinações de médias móveis também são possíveis. Por exemplo, um 3 x 3-MA é freqüentemente usado, e consiste de uma média móvel de ordem 3 seguida por outra média móvel de ordem 3. Em geral, um MA de ordem regular deve ser seguido por um MA de ordem uniforme para torná-lo simétrico. Da mesma forma, uma ordem ímpar MA deve ser seguida por uma ordem ímpar MA. Estimando o ciclo de tendência com dados sazonais O uso mais comum de médias móveis centralizadas é estimar o ciclo de tendência a partir de dados sazonais. Considere os 2 x 4-MA: chapéu fracamente frac14y frac14y frac14y frac18y. Quando aplicado aos dados trimestrais, cada trimestre do ano é dado o mesmo peso que o primeiro e o último termos se aplicam ao mesmo trimestre em anos consecutivos. Consequentemente, a variação sazonal será calculada na média e os valores resultantes de hat t terão pouca ou nenhuma variação sazonal restante. Um efeito semelhante seria obtido usando 2 x 8-MA ou 2 x 12-MA. Em geral, 2 x m-MA é equivalente a uma média móvel ponderada de ordem m1 com todas as observações tomando peso 1 / m, exceto pelo primeiro e último termos que levam pesos 1 / (2m). Então, se o período sazonal é par e de ordem m, use 2 vezes m-MA para estimar o ciclo de tendência. Se o período sazonal é ímpar e da ordem m, use um m-MA para estimar o ciclo de tendência. Em particular, um 2 x 12-MA pode ser usado para estimar o ciclo de tendência de dados mensais e um 7-MA pode ser usado para estimar o ciclo de tendência de dados diários. Outras escolhas para a ordem da MA geralmente resultarão em estimativas de ciclos de tendência sendo contaminadas pela sazonalidade nos dados. Exemplo 6.2 Manufatura de equipamentos elétricos A Figura 6.9 mostra 2 x 12-MA aplicada ao índice de pedidos de equipamentos elétricos. Observe que a linha suave não mostra sazonalidade, é quase o mesmo que o ciclo de tendência mostrado na Figura 6.2, que foi estimado usando um método muito mais sofisticado do que as médias móveis. Qualquer outra escolha para a ordem da média móvel (exceto 24, 36, etc.) teria resultado em uma linha suave que mostra algumas flutuações sazonais. conspiração 40 elecequip, ylab quotNew orders indexquot. col quotgrayquot, main quotEquipamento de equipamentos elétricos (área do euro) 41 linhas 40 ma 40 elecequip, order 12 41. col quotredot 41 Médias móveis ponderadas As combinações de médias móveis resultam em médias móveis ponderadas. Por exemplo, o 2x4-MA discutido acima é equivalente a um 5-MA ponderado com pesos dados por frac, frac, frac, frac, frac. Em geral, um m-MA ponderado pode ser escrito como hat t soma k ajy, onde k (m-1) / 2 e os pesos são dados por a, dots, ak. É importante que os pesos sejam somados a um e que sejam simétricos para que aj a. O simples m-MA é um caso especial em que todos os pesos são iguais a 1 / m. Uma grande vantagem das médias móveis ponderadas é que elas geram uma estimativa mais suave do ciclo de tendência. Em vez de observações entrando e saindo do cálculo com o peso total, seus pesos são aumentados lentamente e então lentamente diminuídos, resultando em uma curva mais suave. Alguns conjuntos específicos de pesos são amplamente utilizados. Alguns destes são dados na Tabela 6.3.
No comments:
Post a Comment