Introduksjon til ARIMA: nonseasonal modeller ARIMA (p, d, q) prognoser likning: ARIMA modeller er i teorien den mest generelle klassen av modeller for å prognose en tidsserie som kan gjøres til å være 8220stationary8221 ved differensiering (om nødvendig), kanskje i forbindelse med ikke-lineære transformasjoner som logging eller deflatering (om nødvendig). En tilfeldig variabel som er en tidsserie er stasjonær hvis dens statistiske egenskaper er konstante over tid. En stasjonær serie har ingen trend, dens variasjoner rundt sin gjennomsnitt har en konstant amplitude, og den svinger på en konsistent måte. det vil si at kortsiktige tilfeldige tidsmønstre alltid ser like ut i statistisk forstand. Den sistnevnte tilstanden betyr at dets autokorrelasjoner (korrelasjoner med sine egne tidligere avvik fra gjennomsnittet) forblir konstante over tid, eller tilsvarende, at dets effektspektrum forblir konstant over tid. En tilfeldig variabel av dette skjemaet kan ses som en kombinasjon av signal og støy, og signalet (hvis det er tydelig) kan være et mønster av rask eller saksom gjennomsnittlig reversering eller sinusformet svingning eller rask veksling i skiltet , og det kan også ha en sesongbestemt komponent. En ARIMA-modell kan ses som en 8220filter8221 som forsøker å skille signalet fra støyen, og signalet blir deretter ekstrapolert inn i fremtiden for å oppnå prognoser. ARIMA-prognose-ligningen for en stasjonær tidsserie er en lineær (dvs. regresjonstype) ekvation hvor prediktorene består av lag av de avhengige variable ogor lagene av prognosefeilene. Det er: Forutsigbar verdi for Y en konstant og en vektet sum av en eller flere nylige verdier av Y og eller en vektet sum av en eller flere nylige verdier av feilene. Hvis prediktorene kun består av forsinkede verdier av Y. Det er en ren autoregressiv (8220self-regressed8221) modell, som bare er et spesielt tilfelle av en regresjonsmodell, og som kunne være utstyrt med standard regresjonsprogramvare. For eksempel er en førsteordens autoregressiv (8220AR (1) 8221) modell for Y en enkel regresjonsmodell der den uavhengige variabelen bare er Y forsinket med en periode (LAG (Y, 1) i Statgraphics eller YLAG1 i RegressIt). Hvis noen av prediktorene er lags av feilene, er en ARIMA-modell det IKKE en lineær regresjonsmodell, fordi det ikke er mulig å spesifisere 8220last period8217s error8221 som en uavhengig variabel: feilene må beregnes fra tid til annen når modellen er montert på dataene. Fra et teknisk synspunkt er problemet med å bruke forsinkede feil som prediktorer at modellen8217s spådommer ikke er lineære funksjoner av koeffisientene. selv om de er lineære funksjoner av tidligere data. Så koeffisienter i ARIMA-modeller som inkluderer forsinkede feil må estimeres ved ikke-lineære optimaliseringsmetoder (8220hill-klatring8221) i stedet for bare å løse et system av ligninger. Akronymet ARIMA står for Auto-Regressive Integrated Moving Average. Lags av den stationære serien i prognosekvotasjonen kalles kvotoregressivequot-termer. Lags av prognosefeilene kalles quotmoving averagequot vilkår, og en tidsserie som må differensieres for å bli stillestående, sies å være en quotintegratedquot-versjon av en stasjonær serie. Tilfeldige gange og tilfeldige trendmodeller, autoregressive modeller og eksponentielle utjevningsmodeller er alle spesielle tilfeller av ARIMA-modeller. En nonseasonal ARIMA-modell er klassifisert som en quotARIMA (p, d, q) kvotemodell hvor: p er antall autoregressive termer, d er antall ikke-sekundære forskjeller som trengs for stasjonar, og q er antall forsinkede prognosefeil i prediksjonsligningen. Forutsigelsesligningen er konstruert som følger. Først, la y betegne den d forskjellen på Y. Det betyr: Merk at den andre forskjellen på Y (d2-saken) ikke er forskjellen fra 2 perioder siden. Snarere er det den første forskjellen-av-første forskjellen. som er den diskrete analogen til et andre derivat, det vil si den lokale akselerasjonen av serien i stedet for sin lokale trend. Når det gjelder y. Den generelle prognosekvasjonen er: Her er de bevegelige gjennomsnittsparametrene (9528217s) definert slik at deres tegn er negative i ligningen, etter konvensjonen innført av Box og Jenkins. Noen forfattere og programvare (inkludert R programmeringsspråket) definerer dem slik at de har pluss tegn i stedet. Når faktiske tall er koblet til ligningen, er det ingen tvetydighet, men det er viktig å vite hvilken konvensjon programvaren bruker når du leser utgangen. Ofte er parametrene benevnt der av AR (1), AR (2), 8230 og MA (1), MA (2), 8230 etc. For å identifisere den aktuelle ARIMA modellen for Y. begynner du ved å bestemme differensordren (d) trenger å stasjonærisere serien og fjerne bruttoegenskapene til sesongmessighet, kanskje i forbindelse med en variansstabiliserende transformasjon som logging eller deflating. Hvis du stopper på dette punktet og forutsier at den forskjellige serien er konstant, har du bare montert en tilfeldig tur eller tilfeldig trendmodell. Den stasjonære serien kan imidlertid fortsatt ha autokorrelerte feil, noe som tyder på at noen antall AR-termer (p 8805 1) og eller noen nummer MA-termer (q 8805 1) også er nødvendig i prognosekvasjonen. Prosessen med å bestemme verdiene p, d og q som er best for en gitt tidsserie, vil bli diskutert i senere avsnitt av notatene (hvis koblinger er øverst på denne siden), men en forhåndsvisning av noen av typene av nonseasonal ARIMA-modeller som ofte oppstår, er gitt nedenfor. ARIMA (1,0,0) førstegangs autoregressiv modell: Hvis serien er stasjonær og autokorrelert, kan den kanskje forutsies som et flertall av sin egen tidligere verdi, pluss en konstant. Forutsigelsesligningen i dette tilfellet er 8230 som er Y regressert i seg selv forsinket med en periode. Dette er en 8220ARIMA (1,0,0) constant8221 modell. Hvis gjennomsnittet av Y er null, vil ikke det konstante begrepet bli inkludert. Hvis hellingskoeffisienten 981 1 er positiv og mindre enn 1 i størrelsesorden (den må være mindre enn 1 i størrelsesorden dersom Y er stasjonær), beskriver modellen gjennomsnittsreferanseadferd hvor neste periode8217s verdi skal anslås å være 981 1 ganger som langt unna gjennomsnittet som denne perioden8217s verdi. Hvis 981 1 er negativ, forutser det middelreferanseadferd med skifting av tegn, dvs. det forutsier også at Y vil være under gjennomsnittlig neste periode hvis den er over gjennomsnittet denne perioden. I en andre-ordregivende autoregressiv modell (ARIMA (2,0,0)), ville det være et Y t-2 begrep til høyre også, og så videre. Avhengig av tegnene og størrelsene på koeffisientene, kunne en ARIMA (2,0,0) modell beskrive et system hvis gjennomsnitts reversering foregår i sinusformet oscillerende mote, som bevegelse av en masse på en fjær som er utsatt for tilfeldige støt . ARIMA (0,1,0) tilfeldig tur: Hvis serien Y ikke er stasjonær, er den enkleste modellen for den en tilfeldig turmodell, som kan betraktes som et begrensende tilfelle av en AR (1) modell der autoregressive koeffisienten er lik 1, det vil si en serie med uendelig sakte gjennomsnittlig reversering. Forutsigelsesligningen for denne modellen kan skrives som: hvor den konstante sikt er den gjennomsnittlige perioden til periode-endringen (dvs. den langsiktige driften) i Y. Denne modellen kan monteres som en ikke-avskjæringsregresjonsmodell der Første forskjell på Y er den avhengige variabelen. Siden den inneholder (bare) en ikke-soneforskjell og en konstant periode, er den klassifisert som en quotARIMA (0,1,0) modell med constant. quot. Den tilfeldig-walk-uten-drift-modellen ville være en ARIMA (0,1, 0) modell uten konstant ARIMA (1,1,0) forskjellig førsteordens autoregressiv modell: Hvis feilene i en tilfeldig turmodell er autokorrelert, kan problemet løses ved å legge til et lag av den avhengige variabelen til prediksjonsligningen - - dvs ved å regresse den første forskjellen på Y i seg selv forsinket med en periode. Dette vil gi følgende prediksjonsligning: som kan omarrangeres til Dette er en førsteordens autoregressiv modell med en rekkefølge av ikke-soneforskjeller og en konstant term, dvs. en ARIMA (1,1,0) modell. ARIMA (0,1,1) uten konstant enkel eksponensiell utjevning: En annen strategi for korrigering av autokorrelerte feil i en tilfeldig gangmodell er foreslått av den enkle eksponensielle utjevningsmodellen. Husk at for noen ikke-stationære tidsserier (for eksempel de som viser støyende svingninger rundt et sakte varierende gjennomsnitt), utfører ikke den tilfeldige turmodellen så vel som et glidende gjennomsnittsverdier av tidligere verdier. Med andre ord, i stedet for å ta den nyeste observasjonen som prognosen for neste observasjon, er det bedre å bruke et gjennomsnitt av de siste observasjonene for å filtrere ut støy og mer nøyaktig anslå det lokale gjennomsnittet. Den enkle eksponensielle utjevningsmodellen bruker et eksponentielt vektet glidende gjennomsnitt av tidligere verdier for å oppnå denne effekten. Forutsigelsesligningen for den enkle eksponensielle utjevningsmodellen kan skrives i en rekke matematisk ekvivalente former. hvorav den ene er den såkalte 8220error correction8221 skjemaet, der den forrige prognosen er justert i retning av feilen den gjorde: Fordi e t-1 Y t-1 - 374 t-1 per definisjon kan dette omskrives som : som er en ARIMA (0,1,1) - out-konstant prognosekvasjon med 952 1 1 - 945. Dette betyr at du kan passe en enkel eksponensiell utjevning ved å angi den som en ARIMA (0,1,1) modell uten konstant, og den estimerte MA (1) - koeffisienten tilsvarer 1-minus-alfa i SES-formelen. Husk at i SES-modellen er gjennomsnittsalderen for dataene i 1-periode fremover prognosene 1 945. Det betyr at de vil ha en tendens til å ligge bak trender eller vendepunkter med ca 1 945 perioder. Det følger at gjennomsnittlig alder av dataene i 1-periode fremover prognosene for en ARIMA (0,1,1) uten konstant modell er 1 (1 - 952 1). For eksempel, hvis 952 1 0,8 er gjennomsnittsalderen 5. Når 952 1 nærmer seg 1, blir ARIMA (0,1,1) uten konstant modell et veldig langsiktig glidende gjennomsnitt og som 952 1 nærmer seg 0 blir det en tilfeldig tur uten drivmodell. What8217s den beste måten å korrigere for autokorrelasjon: legge til AR-vilkår eller legge til MA-vilkår I de to foregående modellene ble problemet med autokorrelerte feil i en tilfeldig turmodell løst på to forskjellige måter: ved å legge til en forsinket verdi av differensierte serier til ligningen eller legge til en forsinket verdi av prognosen feil. Hvilken tilnærming er best En tommelfingerregel for denne situasjonen, som vil bli nærmere omtalt senere, er at positiv autokorrelasjon vanligvis behandles best ved å legge til et AR-uttrykk for modellen og negativ autokorrelasjon vanligvis behandles best ved å legge til en MA term. I forretnings - og økonomiske tidsserier oppstår negativ autokorrelasjon ofte som en artefakt av differensiering. (Generelt reduserer differensiering positiv autokorrelasjon og kan til og med føre til en bryter fra positiv til negativ autokorrelasjon.) Så, ARIMA (0,1,1) modellen, der differensiering er ledsaget av en MA-term, brukes hyppigere enn en ARIMA (1,1,0) modell. ARIMA (0,1,1) med konstant enkel eksponensiell utjevning med vekst: Ved å implementere SES-modellen som en ARIMA-modell, får du faktisk en viss fleksibilitet. Først og fremst er estimert MA (1) - koeffisient tillatt å være negativ. Dette tilsvarer en utjevningsfaktor som er større enn 1 i en SES-modell, som vanligvis ikke er tillatt i SES-modellprosedyren. For det andre har du muligheten til å inkludere en konstant periode i ARIMA-modellen hvis du ønsker det, for å estimere en gjennomsnittlig ikke-null trend. ARIMA-modellen (0,1,1) med konstant har prediksjonsligningen: Forventningene for en periode fremover fra denne modellen er kvalitativt lik SES-modellen, bortsett fra at bane av de langsiktige prognosene vanligvis er en skrånende linje (hvis skråning er lik mu) i stedet for en horisontal linje. ARIMA (0,2,1) eller (0,2,2) uten konstant lineær eksponensiell utjevning: Linjære eksponentielle utjevningsmodeller er ARIMA-modeller som bruker to ikke-soneforskjeller i sammenheng med MA-termer. Den andre forskjellen i en serie Y er ikke bare forskjellen mellom Y og seg selv forsinket av to perioder, men det er den første forskjellen i den første forskjellen - dvs. Y-endringen i Y i periode t. Således er den andre forskjellen på Y ved periode t lik (Y t - Y t-1) - (Y t-1 - Y t-2) Y t - 2Y t-1 Y t-2. En annen forskjell på en diskret funksjon er analog med et andre derivat av en kontinuerlig funksjon: den måler kvoteringsberegningsquot eller kvoturvitaquot i funksjonen på et gitt tidspunkt. ARIMA-modellen (0,2,2) uten konstant forutser at den andre forskjellen i serien er lik en lineær funksjon av de to siste prognosefeilene: som kan omarrangeres som: hvor 952 1 og 952 2 er MA (1) og MA (2) koeffisienter. Dette er en generell lineær eksponensiell utjevningsmodell. i hovedsak det samme som Holt8217s modell, og Brown8217s modell er et spesielt tilfelle. Den bruker eksponensielt vektede glidende gjennomsnitt for å anslå både et lokalt nivå og en lokal trend i serien. De langsiktige prognosene fra denne modellen konvergerer til en rett linje hvis skråning avhenger av den gjennomsnittlige trenden observert mot slutten av serien. ARIMA (1,1,2) uten konstant fuktet trend lineær eksponensiell utjevning. Denne modellen er illustrert i de tilhørende lysbildene på ARIMA-modellene. Den ekstrapolerer den lokale trenden i slutten av serien, men flater ut på lengre prognoshorisonter for å introdusere et konservatismedokument, en praksis som har empirisk støtte. Se artikkelen om hvorfor Damped Trend worksquot av Gardner og McKenzie og quotgolden Rulequot-artikkelen av Armstrong et al. for detaljer. Det er generelt tilrådelig å holde fast i modeller der minst en av p og q ikke er større enn 1, dvs. ikke prøv å passe på en modell som ARIMA (2,1,2), da dette sannsynligvis vil føre til overfitting og kvadrat-faktorquot problemer som er omtalt nærmere i notatene om den matematiske strukturen til ARIMA-modellene. Implementering av regneark: ARIMA-modeller som de som er beskrevet ovenfor, er enkle å implementere på et regneark. Forutsigelsesligningen er bare en lineær ligning som refererer til tidligere verdier av originale tidsserier og tidligere verdier av feilene. Dermed kan du sette opp et ARIMA prognose regneark ved å lagre dataene i kolonne A, prognoseformelen i kolonne B, og feilene (data minus prognoser) i kolonne C. Forutsigelsesformelen i en typisk celle i kolonne B ville ganske enkelt være et lineært uttrykk som refererer til verdier i de foregående radene av kolonne A og C, multiplisert med de relevante AR - eller MA-koeffisientene lagret i celler andre steder på regnearket.11.2: Vector Autoregressive modeller VAR (p) modeller VAR-modeller (vektor autoregressive modeller) brukes for multivariate tidsserier. Strukturen er at hver variabel er en lineær funksjon av tidligere lag i seg selv og tidligere lag av de andre variablene. Som et eksempel, anta at vi måler tre forskjellige tidsserievariabler, betegnet med (x), (x) og (x). Vektor-autoregressiv modell av rekkefølge 1, betegnet som VAR (1), er som følger: Hver variabel er en lineær funksjon av lag 1-verdiene for alle variabler i settet. I en VAR (2) - modell legges lag 2-verdiene for alle variabler til høyre side av ligningene. I tilfelle av tre x-variabler (eller tidsserier) ville det være seks prediktorer på høyre side av hver ligning , tre lag 1 vilkår og tre lag 2 vilkår. Generelt, for en VAR (p) modell, vil de første p lagene av hver variabel i systemet bli brukt som regresjonsspådommer for hver variabel. VAR-modeller er et spesifikt tilfelle av mer generelle VARMA-modeller. VARMA-modeller for multivariate tidsserier inkluderer VAR-strukturen ovenfor sammen med bevegelige gjennomsnittlige vilkår for hver variabel. Mer generelt, men dette er spesielle tilfeller av ARMAX-modeller som tillater tillegg av andre prediktorer som ligger utenfor det multivariate settet av hovedinteresse. Her, som i avsnitt 5.8 i teksten, fokuserer godt på VAR-modeller. På side 304 passer forfatterne til modellen av skjemaet mathbf t Gamma mathbf t phi mathbf mathbf t hvor (mathbf t (1, t)) inneholder termer som samtidig passer til konstanten og trenden. Det stammer fra makroøkonomiske data der store endringer i dataene permanent påvirker nivået på serien. Det er en ikke så subtil forskjell her fra tidligere leksjoner ved at vi nå tilpasser en modell til data som ikke trenger å være stillestående. I tidligere versjoner av teksten deforfattere separatene hver serie med en lineær regresjon med t, tidsindeksen, som prediktorvariabelen. De de-trended verdiene for hver av de tre seriene er residualene fra denne lineære regresjonen på t. De-trending er nyttig konseptuelt fordi den tar bort den vanlige styrken som tiden kan ha på hver serie og skapt stasjonar som vi har sett i tidligere leksjoner. Denne tilnærmingen resulterer i liknende koeffisienter, men litt annerledes, siden vi samtidig tilpasser intervallet og trenden sammen i en multivariabel OLS-modell. R fresh biblioteket forfattet av Bernhard Pfaff har evnen til å passe denne modellen med trend. La oss se på 2 eksempler: En forskjellstasjonær modell og en trendstasjonær modell. Forskjell-Stasjonær modell Eksempel 5.10 fra teksten er en forskjellstasjonær modell ved at de første forskjellene er stasjonære. Lar oss undersøke koden og eksemplet fra teksten ved å tilpasse modellen ovenfor: install. packages (vars) Hvis ikke allerede installert install. packages (astsa) Hvis ikke allerede installert biblioteket (vars) biblioteket (astsa) x cbind (cmort, tempr, del) plot. ts (x. main, xlab) sammendrag (VAR (x, p1, typeboth)) De to første kommandoene laster inn de nødvendige kommandoene fra vars biblioteket og nødvendige data fra vårt tekstbibliotek. Cbind-kommandoen lager en vektor av responsvariabler (et nødvendig trinn for multivariate responser). VAR-kommandoen gjør estimering av AR-modeller ved bruk av vanlige minstefirkanter, samtidig som trenden, avskjæringen og ARIMA-modellen tilpasses. Argumentet p 1 ber om en AR (1) struktur, og begge passer konstant og trend. Med vektoren av svarene er det faktisk en VAR (1). Følgende er utdata fra VAR-kommandoen for variabelen tempr (teksten gir utdata for cmort): Koeffisientene for en variabel er oppført i Estimate-kolonnen..l1 knyttet til hvert variabelt navn indikerer at de er lag 1-variabler. Ved bruk av notasjon T temperatur, ttime (samlet ukentlig), M dødelighet og P forurensning, er likningen for temperatur hue t 67.586 - .007 t - 0.244 M 0.487 T - 0.128 P Ligningen for dødelighet er hue t 73.227 0.014 t 0.465 M - 0.361 T 0.099 P Forholdet til forurensning er hue t 67.464 - .005 t - 0.125 M - 0.477 T 0.581 P. Kovariansmatrisen av residuene fra VAR (1) for de tre variablene skrives under estimeringsresultatene. Avvikene er nede diagonal og kan muligens brukes til å sammenligne denne modellen med høyere ordre VAR. Bestemmelsen av denne matrisen brukes i beregningen av BIC-statistikken som kan brukes til å sammenligne modellens passform til passformen til andre modeller (se formler 5,89 og 5,90 i teksten). For ytterligere referanser til denne teknikken, se Analyse av integrerte og samintegrerte tidsserier med R av Pfaff og også Campbell og Perron 1991. I eksempel 5.11 på side 307 gir forfatterne resultater for en VAR (2) modell for dødelighetsdata . I R kan du passe på VAR (2) modellen med kommandobeskrivelsen (VAR (x, p2, typeboth)) Utgangen, som vist av VAR-kommandoen, er som følger: Igjen er koeffisientene for en bestemt variabel oppført i kolonnen Estimate. Som et eksempel er estimert ligning for temperaturen t 49.88 - .005 t - 0.109 M 0.261 T 0.051 P - 0.041 M 0.356 T 0.095 P Vi vil diskutere informasjonskriteriumstatistikk for å sammenligne VAR-modeller av forskjellige ordrer i leksene. Residualer er også tilgjengelige for analyse. For eksempel, hvis vi tildeler VAR-kommandoen til en objekt med tittelen fitvar2 i vårt program, har fitvar2 VAR (x, p2, typeboth) da tilgang til matrixresidensene (fitvar2). Denne matrisen vil ha tre kolonner, en kolonne med rester for hver variabel. For eksempel kan vi bruke for å se ACF av residualene for dødelighet etter å ha montert VAR (2) modellen. Følgende er ACF som resulterte fra kommandoen som nettopp er beskrevet. Det ser bra ut for en gjenværende ACF. (Den store spissen i begynnelsen er den ubetydelige lag 0 korrelasjonen.) Følgende to kommandoer vil opprette ACF for residuals for de andre to variablene. De ligner også hvit støy. Vi kan også undersøke disse plottene i krysskorrelasjonsmatrisen som er gitt av acf (residuals (fitvar2)): Plottene langs diagonalen er de individuelle ACFene for hver modellresidens som vi nettopp diskuterte ovenfor. I tillegg ser vi nå krysskorrelasjonsplottene for hvert sett av rester. Ideelt sett vil disse også ligne hvit støy, men vi ser gjenværende krysskorrelasjoner, spesielt mellom temperatur og forurensning. Som våre forfattere noterer, tar denne modellen ikke tilstrekkelig tilnærming av den fullstendige foreningen mellom disse variablene i tide. Trendstasjonær modell Lar oss utforske et eksempel der originaldataene er stasjonære og undersøke VAR-koden ved å montere modellen ovenfor med både en konstant og trend. Ved å bruke R simulerte vi n 500 prøveverdier ved hjelp av VAR (2) modellen. Bruk VAR-kommandoen som er forklart ovenfor: y1scan (var2daty1.dat) y2scan (var2daty2.dat) sammendrag (VAR (bind (y1, y2), p2, typeboth) ) Vi oppnår følgende utgang: Estimatene ligger svært nær de simulerte koeffisientene, og trenden er ikke signifikant, som forventet. For stasjonære data, når detrunding er unødvendig, kan du også bruke ar. ols-kommandoen til å passe til en VAR-modell: fitvar2 ar. ols (bind (y1, y2), rekkefølge2) I den første matrisen som er gitt, les over en rad for å få koeffisientene for en variabel. De foregående kommaene etterfulgt av 1 eller 2 angir hvorvidt koeffisientene er henholdsvis lag 1 eller lag 2-variabler. Avbruddene av ligningene er gitt under x. intercept en avskjæring per variabel. Matrisen under var. pred gir varians-kovariansmatrisen av residuene fra VAR (2) for de to variablene. Avvikene er nede diagonalen og kan muligens brukes til å sammenligne denne modellen med høyere ordre VAR som angitt ovenfor. Standardfeilene til AR-koeffisientene er gitt av fitvar2asy. se. coef-kommandoen. Utgangen er Som med koeffisientene, les over rader. Den første raden gir standardfeilene til koeffisientene for lag 1-variablene som forutsier y1. Den andre raden gir standardfeilene for koeffisientene som forutsier y2. Du kan merke seg at koeffisientene ligger nær VAR-kommandoen bortsett fra avskjæringen. Dette skyldes at ar. ols anslår modellen for x-mean (x). For å matche intervallet som er gitt av sammendraget (VAR (bind (y1, y2), p2, typeconst)), må du beregne avskjæringen som følger: I vårt eksempel er intervallet for den simulerte modellen for yt, 1 lig med -0,043637 -2.733607 (1-0.29300.4523) 15.45479 (-0.1913-0.6365) 9.580768, og den estimerte ligningen for yt, 1 Estimering med Minitab For Minitab brukere, heres den generelle flyt av hva du skal gjøre. Les dataene i kolonner. Bruk Time Series gt Lag for å lage de nødvendige lagde kolonnene av de stasjonære verdiene. Bruk Stat gt ANOVA gt General MANOVA. Skriv inn listen over nåværende tidsvariabler som svarvariablene. Skriv inn de forsinkede x-variablene som kovariater (og som modell). Klikk på Resultater og velg Univariate Analysis (for å se estimerte regresjonskoeffisienter for hver ligning). Hvis ønskelig, klikk Lagring og velg Residuals andor Fits. NavigationA RIMA står for Autoregressive Integrated Moving Average-modeller. Univariate (single vector) ARIMA er en prognose teknikk som projiserer fremtidens verdier av en serie basert helt på egen treghet. Hovedapplikasjonen er i området for kortsiktig prognose som krever minst 40 historiske datapunkter. Det fungerer best når dataene dine viser et stabilt eller konsistent mønster over tid med et minimum av utelukker. Noen ganger kalt Box-Jenkins (etter de opprinnelige forfatterne), er ARIMA vanligvis overlegen mot eksponensiell utjevningsteknikker når dataene er rimelig lange og korrelasjonen mellom tidligere observasjoner er stabil. Hvis dataene er korte eller svært volatile, kan noen utjevningsmetode virke bedre. Hvis du ikke har minst 38 datapunkter, bør du vurdere en annen metode enn ARIMA. Det første trinnet i å anvende ARIMA-metoden er å sjekke for stasjonar. Stasjonaritet innebærer at serien forblir på et relativt konstant nivå over tid. Hvis det finnes en trend, som i de fleste økonomiske eller forretningsmessige applikasjoner, er dataene dine ikke stasjonære. Dataene skal også vise en konstant variasjon i sine svingninger over tid. Dette er lett å se med en serie som er tungt sesongmessig og vokser i raskere takt. I et slikt tilfelle vil oppturer og nedturer i sesongmessigheten bli mer dramatisk over tid. Uten disse stasjonarforholdene blir oppfylt, kan mange av beregningene som er knyttet til prosessen ikke beregnes. Hvis en grafisk oversikt over dataene indikerer ikke-stationaritet, bør du forskjellere serien. Differensiering er en utmerket måte å transformere en ikke-stationær serie til en stasjonær en. Dette gjøres ved å trekke observasjonen i den nåværende perioden fra den forrige. Hvis denne transformasjonen bare er gjort en gang til en serie, sier du at dataene først er forskjellig. Denne prosessen eliminerer i hovedsak trenden hvis serien din vokser til en forholdsvis konstant hastighet. Hvis den vokser i økende grad, kan du bruke samme prosedyre og forskjell dataene igjen. Dine data vil da bli annerledes forskjellig. Autokorrelasjoner er numeriske verdier som angir hvordan en dataserie er relatert til seg selv over tid. Nærmere bestemt måler det hvor sterkt dataverdier på et spesifisert antall perioder fra hverandre er korrelert til hverandre over tid. Antallet perioder fra hverandre kalles vanligvis laget. For eksempel måler en autokorrelasjon ved lag 1 hvordan verdier 1 periode fra hverandre er korrelert til hverandre gjennom serien. En autokorrelasjon ved lag 2 måler hvordan dataene to perioder fra hverandre er korrelert gjennom hele serien. Autokorrelasjoner kan variere fra 1 til -1. En verdi nær 1 indikerer en høy positiv korrelasjon, mens en verdi nær -1 innebærer en høy negativ korrelasjon. Disse tiltakene blir oftest vurdert gjennom grafiske tomter kalt correlagrams. Et korrelagram plotter automatisk korrelasjonsverdiene for en gitt serie på forskjellige lag. Dette kalles autokorrelasjonsfunksjonen og er svært viktig i ARIMA-metoden. ARIMA-metodikken forsøker å beskrive bevegelsene i en stasjonær tidsserie som en funksjon av det som kalles autoregressive og bevegelige gjennomsnittsparametere. Disse refereres til som AR parametere (autoregessive) og MA parametere (glidende gjennomsnitt). En AR-modell med bare 1 parameter kan skrives som. X (t) A (1) X (t-1) E (t) hvor X (t) tidsserier under undersøkelse A (1) den autoregressive parameteren i rekkefølge 1 X (t-1) tidsseriene forsinket 1 periode E (t) feilmodellen til modellen Dette betyr ganske enkelt at en gitt verdi X (t) kan forklares med en funksjon av sin tidligere verdi, X (t-1), pluss noe uforklarlig tilfeldig feil, E (t). Hvis den estimerte verdien av A (1) var .30, ville dagens verdi av serien være relatert til 30 av verdien 1 periode siden. Selvfølgelig kan serien være relatert til mer enn bare en fortid verdi. For eksempel, X (t) A (1) X (t-1) A (2) X (t-2) E (t) Dette indikerer at dagens verdi av serien er en kombinasjon av de to umiddelbart foregående verdiene, X (t-1) og X (t-2), pluss noen tilfeldig feil E (t). Vår modell er nå en autoregressiv modell av rekkefølge 2. Flytende gjennomsnittsmodeller: En annen type Box-Jenkins-modell kalles en bevegelig gjennomsnittsmodell. Selv om disse modellene ser veldig ut som AR-modellen, er konseptet bak dem ganske annerledes. Flytte gjennomsnittlige parametere relaterer til hva som skjer i periode t bare til de tilfeldige feilene som oppstod i tidligere tidsperioder, dvs. E (t-1), E (t-2) osv. I stedet for til X (t-1), X t-2), (Xt-3) som i de autoregressive tilnærmingene. En glidende gjennomsnittsmodell med en MA-term kan skrives som følger. X (t) - B (1) E (t-1) E (t) Betegnelsen B (1) kalles en MA i rekkefølge 1. Det negative tegnet foran parameteren brukes kun til konvensjon og skrives vanligvis ut ut automatisk ved de fleste dataprogrammer. Ovennevnte modell sier bare at en gitt verdi av X (t) er direkte relatert til den tilfeldige feilen i den forrige perioden, E (t-1) og til dagens feilperiode, E (t). Som i tilfelle av autoregressive modeller, kan de bevegelige gjennomsnittlige modellene utvides til høyere ordningsstrukturer som dekker forskjellige kombinasjoner og bevegelige gjennomsnittslengder. ARIMA-metoden lar også modeller bygges som inneholder både autoregressive og bevegelige gjennomsnittsparametre sammen. Disse modellene kalles ofte blandede modeller. Selv om dette gir et mer komplisert prognoseverktøy, kan strukturen faktisk simulere serien bedre og gi en mer nøyaktig prognose. Rene modeller innebærer at strukturen kun består av AR eller MA parametere - ikke begge deler. Modeller utviklet av denne tilnærmingen kalles vanligvis ARIMA-modeller fordi de bruker en kombinasjon av autoregressiv (AR), integrasjon (I) - refererer til omvendt prosess av differensiering for å produsere prognosen og flytte gjennomsnittlige (MA) operasjoner. En ARIMA-modell er vanligvis oppgitt som ARIMA (p, d, q). Dette representerer rekkefølgen på de autoregressive komponentene (p), antall differensieringsoperatører (d) og den høyeste rekkefølgen av den bevegelige gjennomsnittlige termen. For eksempel betyr ARIMA (2,1,1) at du har en andre ordre autoregressiv modell med en første rekkefølge som beveger gjennomsnittlig komponent hvis serie er forskjellig en gang for å indusere stasjonar. Plukker riktig spesifikasjon: Hovedproblemet i klassiske Box-Jenkins prøver å bestemme hvilken ARIMA-spesifikasjon som skal brukes - i. e. hvor mange AR og eller MA parametere som skal inkluderes. Dette er hvor mye Box-Jenkings 1976 var viet til identifikasjonsprosessen. Det var avhengig av grafisk og numerisk vurdering av prøveautokorrelasjonen og delvise autokorrelasjonsfunksjoner. Vel, for dine grunnleggende modeller, er oppgaven ikke for vanskelig. Hver har autokorrelasjonsfunksjoner som ser på en bestemt måte. Men når du går opp i kompleksitet, er mønstrene ikke så lett oppdaget. For å gjøre saken vanskeligere representerer dataene bare en prøve av den underliggende prosessen. Dette betyr at prøvetakingsfeil (utjevningsmidler, målefeil, etc.) kan forvride den teoretiske identifikasjonsprosessen. Derfor er tradisjonell ARIMA-modellering en kunst heller enn en vitenskap.
No comments:
Post a Comment