Friday 17 November 2017

Autoregressive Gleitende Durchschnittliche Modell Excel


ARMA Unplugged Dies ist der erste Eintrag in unserer Serie von Unplugged-Tutorials, in dem wir uns mit den Details der einzelnen Zeitreihenmodelle vertraut machen, die Sie bereits kennen und die zugrunde liegenden Annahmen hervorheben und die Intuitionen hinter sich heimführen. In dieser Ausgabe beschäftigen wir uns mit dem ARMA-Modell als Grundpfeiler der Zeitreihenmodellierung. Im Gegensatz zu früheren Analyse-Problemen werden wir hier mit der ARMA-Prozessdefinition beginnen, die Eingaben, Ausgänge, Parameter, Stabilitätsbeschränkungen, Annahmen und schließlich einige Richtlinien für den Modellierungsprozess angeben. Hintergrund Nach Definition ist der auto-regressive gleitende Durchschnitt (ARMA) ein stationärer stochastischer Prozess, der sich aus Summen autoregressiver Excel und gleitender durchschnittlicher Komponenten zusammensetzt. Alternativ, in einer einfachen Formulierung: Annahmen Lassen Sie uns näher auf die Formulierung. Das ARMA-Verfahren ist einfach eine gewichtete Summe der bisherigen Output-Beobachtungen und Schocks mit wenigen Annahmen: Was bedeuten diese Annahmen? Ein stochastischer Prozess ist ein Gegenstück eines deterministischen Prozesses, der die Entwicklung einer Zufallsvariablen über die Zeit beschreibt. In unserem Fall ist die Zufallsvariable Das ARMA-Verfahren erfasst nur die serielle Korrelation (d. h. Autokorrelation) zwischen den Beobachtungen. In einfachen Worten fasst der ARMA-Prozess die Werte der vergangenen Beobachtungen zusammen, nicht ihre quadratischen Werte oder ihre Logarithmen usw. Die Abhängigkeitsordnung höherer Ordnung erfordert einen anderen Prozess (z. B. ARCHGARCH, nichtlineare Modelle usw.). Es gibt zahlreiche Beispiele für einen stochastischen Prozess, bei dem vergangene Werte aktuelle beeinflussen. Beispielsweise werden in einem Verkaufsbüro, das laufend Anfragen erhält, manche umsatzgewonnen, teils umsatzvermindert und ein paar in den nächsten Monat verschüttet. Als Ergebnis, in einem bestimmten Monat, einige der verkauften Fälle stammen als Anfragen oder sind Wiederholungen Verkäufe aus den vorherigen Monaten. Was sind die Schocks, Innovationen oder Fehlerbegriffe Das ist schwierige Frage, und die Antwort ist nicht weniger verwirrend. Dennoch können wir es versuchen: In einfachen Worten, ist der Fehler Begriff in einem gegebenen Modell ein catch-all Eimer für alle Variationen, die das Modell nicht erklärt. Noch verloren Nehmen wir ein Beispiel. Für einen Aktienkursprozess gibt es möglicherweise Hunderte von Faktoren, die das Preisniveau aktualisieren, einschließlich: Dividenden und Split-Ankündigungen Vierteljährliche Ergebnisberichte Fusion und Akquisition (MampA) Aktivitäten Gesetzliche Ereignisse, z. B. Die Drohung von Sammelklagen. Andere Ein Modell, durch Design, ist eine Vereinfachung einer komplexen Realität, so dass, was auch immer verlassen wir außerhalb des Modells automatisch in den Fehler Begriff gebündelt wird. Der ARMA-Prozess geht davon aus, dass der kollektive Effekt all dieser Faktoren mehr oder weniger wie das Gaußsche Rauschen wirkt. Warum kümmern wir uns um vergangene Schocks Anders als ein Regressionsmodell kann das Auftreten eines Stimulus (z. B. Schock) einen Einfluss auf das aktuelle Niveau und eventuell zukünftige Ebenen haben. Zum Beispiel wirkt sich ein Unternehmensereignis (z. B. MampA-Aktivität) auf den Aktienkurs der Underling-Gesellschaften aus, aber die Änderung kann eine gewisse Zeit dauern, bis die Marktteilnehmer die verfügbaren Informationen analysieren und entsprechend reagieren. Dies wirft die Frage auf: Dont die Vergangenheit Werte der Ausgabe haben bereits die Schocks Vergangenheit Informationen JA, die Schocks Geschichte ist bereits in den letzten Ausgangspegeln berücksichtigt. Ein ARMA-Modell kann nur als reines autoregressives (AR) Modell dargestellt werden, aber der Speicherbedarf eines solchen Systems in unendlich. Dies ist der einzige Grund, die MA-Komponente einzuschließen: um Speicherplatz zu sparen und die Formulierung zu vereinfachen. Auch hier muss das ARMA-Verfahren stationär sein, damit die marginale (unbedingte) Varianz existiert. Anmerkung: In meiner Diskussion unterscheide ich nicht zwischen der bloßen Abwesenheit einer Einheitswurzel in der charakteristischen Gleichung und der Stationarität des Prozesses. Sie sind verwandt, aber das Fehlen einer Einheit Wurzel ist keine Garantie der Stationarität. Dennoch muss die Einheitswurzel innerhalb des Einheitskreises liegen, um genau zu sein. Fazit Lasst uns rekapitulieren, was wir bisher getan haben. Zuerst untersuchten wir einen stationären ARMA Prozess, zusammen mit seiner Formulierung, Eingaben, Annahmen und Speicheranforderungen. Als nächstes haben wir gezeigt, dass ein ARMA-Prozess seine Ausgangswerte (Autokorrelation) und Schocks enthält, die es früher in der aktuellen Ausgabe erfahren hat. Schließlich haben wir gezeigt, dass das stationäre ARMA-Verfahren eine Zeitreihe mit einem stabilen langfristigen Mittelwert und Varianz erzeugt. In unserer Datenanalyse sollten wir, bevor wir ein ARMA-Modell vorschlagen, die Stationaritätsannahme und den endlichen Speicherbedarf verifizieren. Für den Fall, dass die Datenreihe einen deterministischen Trend aufweist, müssen wir sie zuerst entfernen (de-Trend) und dann die Residuen für ARMA verwenden. Für den Fall, dass der Datensatz einen stochastischen Trend (z. B. zufällige Wanderung) oder Saisonalität aufweist, müssen wir ARIMASARIMA unterhalten. Schließlich kann das Korrelogramm (d. h. ACFPACF) verwendet werden, um den Speicherbedarf des Modells zu messen, von dem erwartet wird, daß entweder ACF oder PACF schnell nach einigen Verzögerungen abklingen. Wenn nicht, kann dies ein Zeichen der Nichtstationarität oder eines Langzeitmusters sein (z. B. ARFIMA).Einführung in ARIMA: Nichtseasonalmodelle ARIMA (p, d, q) Vorhersagegleichung: ARIMA-Modelle sind in der Theorie am allgemeinsten Klasse von Modellen zur Prognose einer Zeitreihe, die durch Differenzierung (falls nötig), eventuell in Verbindung mit nichtlinearen Transformationen, wie etwa Protokollierung oder Abscheidung (falls erforderlich), 8220 stationär8221 gemacht werden kann. Eine Zufallsvariable, die eine Zeitreihe ist, ist stationär, wenn ihre statistischen Eigenschaften alle über die Zeit konstant sind. Eine stationäre Reihe hat keinen Trend, ihre Variationen um ihren Mittelwert haben eine konstante Amplitude, und sie wackelt in einer konsistenten Weise. D. h. seine kurzzeitigen Zufallszeitmuster sehen immer im statistischen Sinne gleich aus. Die letztgenannte Bedingung bedeutet, daß ihre Autokorrelationen (Korrelationen mit ihren eigenen vorherigen Abweichungen vom Mittelwert) über die Zeit konstant bleiben oder daß ihr Leistungsspektrum über die Zeit konstant bleibt. Eine zufällige Variable dieser Form kann (wie üblich) als eine Kombination von Signal und Rauschen betrachtet werden, und das Signal (wenn eines offensichtlich ist) könnte ein Muster einer schnellen oder langsamen mittleren Reversion oder einer sinusförmigen Oszillation oder eines schnellen Wechsels im Vorzeichen sein , Und es könnte auch eine saisonale Komponente. Ein ARIMA-Modell kann als ein 8220filter8221 betrachtet werden, der versucht, das Signal vom Rauschen zu trennen, und das Signal wird dann in die Zukunft extrapoliert, um Prognosen zu erhalten. Die ARIMA-Vorhersagegleichung für eine stationäre Zeitreihe ist eine lineare Gleichung (d. H. Regressionstyp), bei der die Prädiktoren aus Verzögerungen der abhängigen Variablen und oder Verzögerungen der Prognosefehler bestehen. Das heißt: Vorhergesagter Wert von Y eine Konstante undeine gewichtete Summe aus einem oder mehreren neuen Werten von Y und einer gewichteten Summe aus einem oder mehreren neuen Werten der Fehler. Wenn die Prädiktoren nur aus verzögerten Werten von Y bestehen, handelt es sich um ein reines autoregressives Modell (8220 selbst-regressed8221), das nur ein Spezialfall eines Regressionsmodells ist und mit einer Standard-Regressions-Software ausgestattet werden kann. Beispielsweise ist ein autoregressives Modell erster Ordnung (8220AR (1) 8221) für Y ein einfaches Regressionsmodell, bei dem die unabhängige Variable nur um eine Periode (LAG (Y, 1) in Statgraphics oder YLAG1 in RegressIt) verzögert ist. Wenn einige der Prädiktoren Verzögerungen der Fehler sind, handelt es sich bei einem ARIMA-Modell nicht um ein lineares Regressionsmodell, da es keine Möglichkeit gibt, 8220last period8217s error8221 als unabhängige Variable festzulegen: Die Fehler müssen auf einer Periodenperiode berechnet werden Wenn das Modell an die Daten angepasst ist. Aus technischer Sicht ist das Problem der Verwendung von verzögerten Fehlern als Prädiktoren, dass die Vorhersagen von model8217s keine linearen Funktionen der Koeffizienten sind. Obwohl es sich um lineare Funktionen der vergangenen Daten handelt. Daher müssen Koeffizienten in ARIMA-Modellen, die verzögerte Fehler enthalten, durch nichtlineare Optimierungsmethoden (8220hill-climbing8221) abgeschätzt werden, anstatt nur ein Gleichungssystem zu lösen. Das Akronym ARIMA steht für Auto-Regressive Integrated Moving Average. Lags der stationären Reihe in der Prognose-Gleichung werden als autoregressiveQuot-Terme bezeichnet, die Verzögerungen der Prognosefehler werden als mittlere Mittelwert-Terme bezeichnet und eine Zeitreihe, die differenziert werden muß, um stationär gemacht zu werden, wird als eine integrierte quotierte Version einer stationären Reihe bezeichnet. Random-walk und random-trend Modelle, autoregressive Modelle und exponentielle Glättungsmodelle sind alle Sonderfälle von ARIMA Modellen. Ein nicht-saisonales ARIMA-Modell wird als ein quotarIMA-Modell (p, d, q) klassifiziert, wobei p die Anzahl der autoregressiven Terme ist, d die Anzahl der für die Stationarität benötigten nicht-seasonalen Differenzen ist und q die Anzahl der verzögerten Prognosefehler ist Die Vorhersagegleichung. Die Vorhersagegleichung ist wie folgt aufgebaut. Zuerst bezeichne y die d - te Differenz von Y. Das bedeutet, daß die zweite Differenz von Y (der Fall d2) nicht die Differenz von 2 Perioden ist. Es ist vielmehr die erste Differenz der ersten Differenz. Was das diskrete Analogon einer zweiten Ableitung ist, d. h. die lokale Beschleunigung der Reihe anstatt ihres lokalen Takts. In Bezug auf y. Ist die allgemeine Prognosegleichung: Hier sind die gleitenden Durchschnittsparameter (9528217s) so definiert, daß ihre Vorzeichen in der Gleichung negativ sind, und zwar nach der Konvention von Box und Jenkins. Einige Autoren und Software (einschließlich der Programmiersprache R) definieren sie so, dass sie stattdessen Pluszeichen haben. Wenn tatsächliche Zahlen in die Gleichung gesteckt werden, gibt es keine Mehrdeutigkeit, aber es ist wichtig zu wissen, welche Konvention Ihre Software verwendet, wenn Sie die Ausgabe lesen. Oft werden dort die Parameter mit AR (1), AR (2), 8230 und MA (1), MA (2), 8230 usw. bezeichnet. Um das entsprechende ARIMA-Modell für Y zu identifizieren, beginnt man die Reihenfolge der Differenzierung zu bestimmen (D) Notwendigkeit, die Serie zu stationarisieren und die Brutto-Merkmale der Saisonalität zu beseitigen, möglicherweise in Verbindung mit einer variationsstabilisierenden Transformation, wie beispielsweise Protokollierung oder Entleerung. Wenn Sie an diesem Punkt anhalten und voraussagen, dass die differenzierten Serien konstant sind, haben Sie lediglich ein zufälliges oder zufälliges Trendmodell platziert. Die stationäre Reihe kann jedoch weiterhin autokorrelierte Fehler aufweisen, was nahe legt, daß in der Vorhersagegleichung auch einige Anzahl von AR-Terme (p 8805 1) und einige MA-MA-Terme (q 8805 1) benötigt werden. Der Prozess der Bestimmung der Werte von p, d und q, die für eine gegebene Zeitreihe am besten sind, werden in späteren Abschnitten der Notizen (deren Links oben auf dieser Seite sind), aber eine Vorschau von einigen der Typen erörtert Von nicht-saisonalen ARIMA-Modellen, die üblicherweise angetroffen werden, ist unten angegeben. ARIMA (1,0,0) erstes autoregressives Modell: Wenn die Serie stationär und autokorreliert ist, kann sie vielleicht als ein Vielfaches ihres eigenen vorherigen Wertes plus einer Konstante vorhergesagt werden. Die Prognose-Gleichung ist in diesem Fall 8230, die Y auf sich selbst zurückgeblieben um eine Periode zurückgeblieben ist. Dies ist ein 8220ARIMA (1,0,0) constant8221 Modell. Wenn der Mittelwert von Y Null ist, dann würde der konstante Term nicht eingeschlossen werden. Wenn der Steigungskoeffizient 981 & sub1; positiv und kleiner als 1 in der Grße ist (er muß kleiner als 1 in der Grße sein, wenn Y stationär ist), beschreibt das Modell ein Mittelrücksetzverhalten, bei dem der nächste Periodenblockwert 981 1 mal als vorhergesagt werden sollte Weit weg vom Durchschnitt, wie dieser Zeitraum8217s Wert. Wenn 981 & sub1; negativ ist, prognostiziert es ein Mittelwert-Wiederherstellungsverhalten mit einer Veränderung von Vorzeichen, d. h. es sagt auch voraus, daß Y unterhalb der mittleren nächsten Periode liegt, wenn sie über dem Mittel dieser Periode liegt. In einem autoregressiven Modell zweiter Ordnung (ARIMA (2,0,0)), würde es auch einen Yt-2-Term auf der rechten Seite geben, und so weiter. Abhängig von den Zeichen und Größen der Koeffizienten kann ein ARIMA (2,0,0) - Modell ein System beschreiben, dessen mittlere Reversion sinusförmig oszillierend erfolgt, wie die Bewegung einer Masse auf einer Feder, die zufälligen Schocks ausgesetzt ist . ARIMA (0,1,0) zufälliger Weg: Wenn die Reihe Y nicht stationär ist, ist das einfachste Modell für sie ein zufälliges Wandermodell, das als Grenzfall eines AR (1) - Modells betrachtet werden kann, in dem die autoregressive Koeffizient ist gleich 1, dh eine Reihe mit unendlich langsamer mittlerer Reversion. Die Vorhersagegleichung für dieses Modell kann folgendermaßen geschrieben werden: wobei der konstante Term die mittlere Periodenperiodenänderung (dh die Langzeitdrift) in Y ist. Dieses Modell könnte als ein No-Intercept-Regressionsmodell angepasst werden, in dem die Die erste Differenz von Y ist die abhängige Variable. Da es nur einen nicht sonderbaren Unterschied und einen konstanten Term enthält, wird er als quotarima (0,1,0) - Modell mit constant. quot klassifiziert. Das random-walk-ohne - driftmodell wäre ein ARIMA (0,1, 0) - Modell ohne konstantes ARIMA (1,1,0) differenziertes autoregressives Modell erster Ordnung: Wenn die Fehler eines Zufallswegmodells autokorreliert werden, kann das Problem möglicherweise durch Hinzufügen einer Verzögerung der abhängigen Variablen zu der Vorhersagegleichung - - ie Durch Rückgang der ersten Differenz von Y auf sich selbst verzögert um eine Periode. Dies würde die folgende Vorhersagegleichung ergeben, die umgeordnet werden kann: Dies ist ein autoregressives Modell erster Ordnung mit einer Ordnung der Nichtsaisonaldifferenzierung und einem konstanten Term - d. e. Ein ARIMA (1,1,0) - Modell. ARIMA (0,1,1) ohne konstante einfache exponentielle Glättung: Eine weitere Strategie zur Korrektur autokorrelierter Fehler in einem Random-Walk-Modell wird durch das einfache exponentielle Glättungsmodell vorgeschlagen. Es sei daran erinnert, daß für einige nichtstationäre Zeitreihen (z. B. solche, die geräuschvolle Fluktuationen um ein sich langsam veränderndes Mittel aufweisen) das Zufallswegmodell nicht ebenso gut funktioniert wie ein gleitender Durchschnitt von vergangenen Werten. Mit anderen Worten, anstatt die letzte Beobachtung als Prognose der nächsten Beobachtung zu nehmen, ist es besser, einen Durchschnitt der letzten Beobachtungen zu verwenden, um das Rauschen herauszufiltern und das lokale Mittel genauer zu schätzen. Das einfache exponentielle Glättungsmodell verwendet einen exponentiell gewichteten gleitenden Durchschnitt vergangener Werte, um diesen Effekt zu erzielen. Die Vorhersagegleichung für das einfache exponentielle Glättungsmodell kann in einer Anzahl mathematisch äquivalenter Formen geschrieben werden. Von denen eine die sogenannte 8220-Fehlerkorrektur8221-Form ist, in der die vorhergehende Prognose in der Richtung ihres Fehlers angepasst wird: Weil e t-1 Y t-1 - 374 t-1 per Definition umgeschrieben werden kann : Es handelt sich um eine ARIMA (0,1,1) - konstante Vorhersagegleichung mit 952 1 1 - 945. Dies bedeutet, dass Sie eine einfache exponentielle Glättung durch Angabe als ARIMA (0,1,1) - Modell ohne passen Konstant und der geschätzte MA (1) - Koeffizient entspricht 1-minus-alpha in der SES-Formel. Denken Sie daran, dass im SES-Modell das durchschnittliche Alter der Daten in den 1-Periodenprognosen 1 945 beträgt, was bedeutet, dass sie tendenziell hinter Trends oder Wendepunkten um etwa 1 945 Perioden zurückbleiben werden. Daraus folgt, dass das Durchschnittsalter der Daten in den 1-Periodenprognosen eines ARIMA-Modells (0,1,1) ohne Konstante 1 (1 - 952 1) ist. Wenn beispielsweise 952 1 0,8 beträgt, beträgt das Durchschnittsalter 5. Da sich 952 1 1 nähert, wird das ARIMA-Modell (0,1,1) ohne Konstante zu einem sehr langfristigen gleitenden Durchschnitt und als 952 1 Ansätze 0 wird es ein random-walk-ohne-Drift-Modell. What8217s der beste Weg, um Autokorrelation zu korrigieren: Hinzufügen von AR-Begriffe oder Hinzufügen von MA-Begriffen In den vorherigen beiden Modellen, die oben diskutiert wurden, wurde das Problem der autokorrelierten Fehler in einem zufälligen Fußmodell auf zwei verschiedene Arten behoben: durch Hinzufügen eines Verzögerungswertes der differenzierten Reihe Auf die Gleichung oder das Hinzufügen eines verzögerten Wertes des Prognosefehlers. Welcher Ansatz am besten ist Eine Regel für diese Situation, die später noch ausführlicher diskutiert wird, besteht darin, dass die positive Autokorrelation normalerweise am besten durch Hinzufügen eines AR-Terms zum Modell behandelt wird und negative Autokorrelation in der Regel am besten durch Hinzufügen eines MA-Semester. In der Wirtschafts - und Wirtschaftszeitreihe entsteht häufig eine negative Autokorrelation als Artefakt der Differenzierung. (Im allgemeinen differenziert die Differenzierung die positive Autokorrelation und kann sogar einen Wechsel von positiver zu negativer Autokorrelation bewirken.) Daher wird das ARIMA (0,1,1) - Modell, in dem die Differenzierung von einem MA-Begriff begleitet wird, häufiger verwendet als ein ARIMA (1,1,0) - Modell. ARIMA (0,1,1) mit konstanter einfacher exponentieller Glättung mit Wachstum: Durch die Implementierung des SES-Modells als ARIMA-Modell gewinnen Sie tatsächlich etwas Flexibilität. Zuerst darf der geschätzte MA (1) - Koeffizient negativ sein. Dies entspricht einem Glättungsfaktor von mehr als 1 in einem SES-Modell, das nach dem SES-Modellanpassungsverfahren meist nicht zulässig ist. Zweitens haben Sie die Möglichkeit, einen konstanten Begriff in das ARIMA-Modell aufzunehmen, wenn Sie es wünschen, um einen durchschnittlichen Trend, der nicht Null ist, abzuschätzen. Das Modell ARIMA (0,1,1) mit Konstante hat die Vorhersagegleichung: Die Ein-Perioden-Prognosen aus diesem Modell sind qualitativ denjenigen des SES-Modells ähnlich, mit der Ausnahme, dass die Trajektorie der Langzeitprognosen typischerweise a ist (Deren Neigung gleich mu ist) und nicht eine horizontale Linie. ARIMA (0,2,1) oder (0,2,2) ohne konstante lineare exponentielle Glättung: Lineare exponentielle Glättungsmodelle sind ARIMA-Modelle, die zwei nicht-sauren Differenzen in Verbindung mit MA-Begriffen verwenden. Die zweite Differenz einer Folge Y ist nicht einfach die Differenz von Y und selbst von zwei Perioden verzögert, sondern sie ist die erste Differenz der ersten Differenz - i. e. Die Änderung in der Änderung von Y in der Periode t. Somit ist die zweite Differenz von Y in der Periode t gleich (Yt - Yt - 1) - (Yt - 1 - Yt - 2) Yt - 2Yt - 1Yt - 2. Eine zweite Differenz einer diskreten Funktion ist analog zu einer zweiten Ableitung einer stetigen Funktion: sie mißt zu einem gegebenen Zeitpunkt die Quota-Beschleunigung quot oder quotvequot in der Funktion. Das ARIMA (0,2,2) - Modell ohne Konstante sagt voraus, daß die zweite Differenz der Reihe eine lineare Funktion der letzten beiden Prognosefehler ist, die umgeordnet werden können: wobei 952 1 und 952 2 die MA (1) und MA (2) Koeffizienten. Dies ist ein allgemeines lineares exponentielles Glättungsmodell. Im Wesentlichen das gleiche wie Holt8217s Modell, und Brown8217s Modell ist ein spezieller Fall. Es verwendet exponentiell gewichtete gleitende Mittelwerte, um sowohl eine lokale Ebene als auch einen lokalen Trend in der Reihe abzuschätzen. Die Langzeitprognosen von diesem Modell konvergieren zu einer Geraden, deren Steigung von dem durchschnittlichen Trend abhängt, der gegen Ende der Reihe beobachtet wird. ARIMA (1,1,2) ohne konstante gedämpfte lineare Exponentialglättung. Dieses Modell ist in den begleitenden Dias auf ARIMA-Modellen dargestellt. Es extrapoliert die lokale Tendenz am Ende der Serie, sondern flacht es auf längere Prognose Horizonte, um eine Notiz von Konservatismus, eine Praxis, die empirische Unterstützung hat einzuführen. Siehe den Artikel auf quotWarum die Damped Trend Werke von Gardner und McKenzie und die quotGolden Rulequot Artikel von Armstrong et al. für Details. Es ist grundsätzlich ratsam, bei Modellen zu bleiben, bei denen mindestens einer von p und q nicht größer als 1 ist, dh nicht versuchen, ein Modell wie ARIMA (2,1,2) anzubringen, da dies zu Überbeanspruchungen führen kann Die in den Anmerkungen zur mathematischen Struktur von ARIMA-Modellen näher erläutert werden. Spreadsheet-Implementierung: ARIMA-Modelle wie die oben beschriebenen lassen sich einfach in einer Tabellenkalkulation implementieren. Die Vorhersagegleichung ist einfach eine lineare Gleichung, die sich auf vergangene Werte von ursprünglichen Zeitreihen und vergangenen Werten der Fehler bezieht. So können Sie eine ARIMA-Prognosekalkulation einrichten, indem Sie die Daten in Spalte A, die Prognoseformel in Spalte B und die Fehler (Daten minus Prognosen) in Spalte C speichern. Die Prognoseformel in einer typischen Zelle in Spalte B wäre einfach Ein linearer Ausdruck, der sich auf Werte in vorhergehenden Zeilen der Spalten A und C bezieht, multipliziert mit den entsprechenden AR - oder MA-Koeffizienten, die in Zellen an anderer Stelle auf dem Spreadsheet gespeichert sind. ARIMA Prognose mit Excel und R Hallo Heute gehe ich Sie durch eine Einführung in die ARIMA-Modell und seine Komponenten sowie eine kurze Erläuterung der Box-Jenkins-Methode, wie ARIMA-Modelle spezifiziert werden. Schließlich habe ich eine Excel-Implementierung mit R, die I8217ll zeigen Ihnen, wie Sie einrichten und verwenden. Autoregressive Moving Average (ARMA) Modelle Das Autoregressive Moving Average Modell dient der Modellierung und Prognose stationärer, stochastischer Zeitreihenprozesse. Es ist die Kombination von zwei zuvor entwickelten statistischen Techniken, die Autoregressive (AR) und Moving Average (MA) Modelle und wurde ursprünglich von Peter Whittle im Jahr 1951 beschrieben. George E. P. Box und Gwilym Jenkins popularisiert das Modell im Jahr 1971 durch die Festlegung von diskreten Schritten zum Modell Identifizierung, Schätzung und Verifizierung. Dieser Vorgang wird später als Referenz beschrieben. Wir beginnen mit der Einführung des ARMA-Modells durch seine verschiedenen Komponenten, die AR - und MA-Modelle und präsentieren dann eine beliebte Generalisierung des ARMA-Modells, ARIMA (Autoregressive Integrated Moving Average) sowie Prognose - und Modellspezifikationsschritte. Schließlich erkläre ich eine Excel-Implementierung, die ich verursachte und wie man sie benutzt, um Ihre Zeitreihenvorhersagen zu bilden. Autoregressive Modelle Das Autoregressive Modell dient der Beschreibung von Zufallsprozessen und zeitveränderlichen Prozessen und legt fest, dass die Ausgangsgröße linear von den vorherigen Werten abhängt. Das Modell ist beschrieben als: Wo sind die Parameter des Modells, C ist konstant, und ist ein weißes Rauschen Begriff. Im Wesentlichen, was das Modell beschreibt, ist für jeden gegebenen Wert. Sie kann durch Funktionen ihres vorherigen Wertes erklärt werden. Für ein Modell mit einem Parameter. Wird durch seinen früheren Wert und zufälligen Fehler erklärt. Für ein Modell mit mehr als einem Parameter, zum Beispiel. Ist gegeben durch. Und zufälliger Fehler. Moving Average Model Das Moving Average (MA) - Modell wird häufig für die Modellierung univariate Zeitreihen verwendet und ist definiert als: ist der Mittelwert der Zeitreihe. Sind die Parameter des Modells. Sind die Fehlerbedingungen des weißen Rauschens. Ist die Ordnung des Moving Average Modells. Das Moving Average Modell ist eine lineare Regression des aktuellen Wertes der Serie im Vergleich zu den Bedingungen in der vorherigen Periode. Zum Beispiel, ein MA - Modell von. Wird durch den aktuellen Fehler in der gleichen Periode und dem vergangenen Fehlerwert erklärt. Für ein Modell der Ordnung 2 () wird durch die beiden letzten Fehlerwerte erklärt, und. Die AR () - und MA () - Terme werden im ARMA-Modell verwendet, das nun eingeführt wird. Autoregressive Moving Average Model Autoregressive Moving Average Modelle verwenden zwei Polynome, AR () und MA () und beschreiben einen stationären stochastischen Prozess. Ein stationärer Prozess ändert sich nicht, wenn er zeitlich oder räumlich verschoben wird, daher hat ein stationärer Prozess konstante Mittelwerte und Varianz. Das ARMA-Modell wird oft in Bezug auf seine Polynome, ARMA () genannt. Die Notation des Modells wird geschrieben: Das Auswählen, Schätzen und Verifizieren des Modells wird durch den Box-Jenkins-Prozess beschrieben. Box-Jenkins Methode zur Modellidentifikation Nachstehend ist mehr ein Überblick über die Box-Jenkins-Methode, da der eigentliche Prozess der Suche dieser Werte kann ziemlich überwältigend, ohne ein statistisches Paket. Das auf dieser Seite enthaltene Excel-Blatt bestimmt automatisch das bestmögliche Modell. Der erste Schritt der Box-Jenkins-Methode ist die Modellidentifikation. Der Schritt umfasst das Identifizieren der Saisonalität, das Differenzieren, falls erforderlich, und das Bestimmen der Reihenfolge und der Auftragung der Autokorrelation und der partiellen Autokorrelationsfunktionen. Nachdem das Modell identifiziert ist, werden im nächsten Schritt die Parameter geschätzt. Die Parameterschätzung verwendet statistische Pakete und Berechnungsalgorithmen, um die passenden Parameter zu finden. Sobald die Parameter ausgewählt sind, wird im letzten Schritt das Modell überprüft. Die Modellprüfung wird durch Testen durchgeführt, um zu sehen, ob das Modell einer stationären univariaten Zeitreihe entspricht. Man sollte auch bestätigen, daß die Residuen unabhängig voneinander sind und ein konstantes Mittel und eine zeitliche Abweichung aufweisen, was durch Ausführen eines Ljung-Box-Tests oder durch erneutes Plotten der Autokorrelation und teilweisen Autokorrelation der Residuen erfolgen kann. Beachten Sie den ersten Schritt beinhaltet die Überprüfung für Saisonalität. Wenn die Daten, mit denen Sie arbeiten, saisonale Trends enthalten, müssen Sie 8220difference8221, um die Daten stationär zu machen. Dieser Differenzierungsschritt verallgemeinert das ARMA-Modell in ein ARIMA-Modell oder Autoregressive Integrated Moving Average, wobei 8216Integrated8217 dem Differenzierungsschritt entspricht. Autoregressive integrierte Moving Average Modelle Das ARIMA Modell hat drei Parameter. Um das ARMA-Modell zu definieren, um den differenzierenden Term einzuschließen, beginnen wir mit der Neuanordnung des Standard-ARMA-Modells, um sich von der Summation zu trennen. Wo ist der Lag - Operator und. Sind autoregressive und gleitende Durchschnittsparameter bzw. die Fehlerterme. Wir nehmen nun die Annahme als erstes Polynom der Funktion an, haben eine einheitliche Wurzel der Vielfachheit. Wir können es dann folgendermaßen umschreiben: Das ARIMA-Modell drückt die Polynomfaktorisierung mit aus und gibt uns: Zuletzt verallgemeinern wir das Modell durch Hinzufügen eines Driftterms, der das ARIMA-Modell als ARIMA () mit Drift definiert. Mit dem nun definierten Modell können wir das ARIMA-Modell als zwei getrennte Teile ansehen, ein nicht stationäres und das andere weitsichtige stationäre (gemeinsame Wahrscheinlichkeitsverteilung ändert sich nicht, wenn zeit - oder raumverschoben). Das nicht stationäre Modell: Das weitsichtige stationäre Modell: Prognosen können nun mit Hilfe einer verallgemeinerten autoregressiven Prognosemethode erstellt werden. Nun, da wir die ARMA und ARIMA-Modelle diskutiert haben, wenden wir uns jetzt, wie können wir sie in praktischen Anwendungen verwenden, um Prognosen zur Verfügung stellen. Ive baute eine Implementierung mit Excel mit R zu machen ARIMA Prognosen sowie eine Option, um Monte-Carlo-Simulation auf das Modell, um die Wahrscheinlichkeit der Prognosen zu bestimmen. Excel-Implementierung und Gebrauchsanweisung Bevor Sie das Blatt verwenden, müssen Sie R und RExcel von der Statconn-Website herunterladen. Wenn Sie bereits R installiert haben, können Sie einfach herunterladen RExcel. Wenn Sie nicht R installiert haben, können Sie herunterladen RAndFriends, die die neueste Version von R und RExcel enthält. Bitte beachten Sie, funktioniert RExcel nur auf 32bit Excel für seine nicht-kommerzielle Lizenz. Wenn Sie 64bit Excel installiert haben, müssen Sie eine kommerzielle Lizenz von Statconn erhalten. Es empfiehlt sich, RAndFriends herunterzuladen, da es die schnellste und einfachste Installation macht, aber wenn Sie bereits R haben und es manuell installieren möchten, folgen Sie den folgenden Schritten. Manuelles Installieren von RExcel Um RExcel und die anderen Pakete zu installieren, damit R in Excel ausgeführt wird, öffnen Sie zuerst R als Administrator, indem Sie mit der rechten Maustaste auf die. exe klicken. Installieren Sie RExcel in der R-Konsole, indem Sie die folgenden Anweisungen eingeben: Die obigen Befehle installieren RExcel auf Ihrem Computer. Der nächste Schritt ist die Installation von rcom, ein weiteres Paket von Statconn für das RExcel-Paket. Um dies zu installieren, geben Sie die folgenden Befehle ein, die auch rscproxy ab R Version 2.8.0 automatisch installieren. Wenn diese Pakete installiert sind, können Sie auf die Einstellung der Verbindung zwischen R und Excel zu bewegen. Obwohl nicht notwendig, um die Installation, ist ein praktisches Paket zum Download Rcmdr, von John Fox entwickelt. Rcmdr erstellt R-Menüs, die Menüs in Excel werden können. Diese Funktion ist standardmäßig mit der RAndFriends-Installation verfügbar und stellt mehrere R-Befehle in Excel zur Verfügung. Geben Sie die folgenden Befehle in R ein, um Rcmdr zu installieren. Wir können den Link zu R und Excel erstellen. Hinweis: In neueren Versionen von RExcel wird diese Verbindung mit einem einfachen Doppelklick auf die mitgelieferte. bat-Datei ActivateRExcel2010 hergestellt. Daher sollten Sie diese Schritte nur durchführen, wenn Sie R und RExcel manuell installiert haben oder wenn aus irgendeinem Grund die Verbindung nicht hergestellt wird Die RAndFriends-Installation. Erstellen der Verbindung zwischen R und Excel Öffnen Sie ein neues Buch in Excel und navigieren Sie zum Optionen-Bildschirm. Klicken Sie auf Optionen und dann auf Add-Ins. Sie sollten eine Liste aller aktiven und inaktiven Add-Ins sehen, die Sie derzeit haben. Klicken Sie unten auf die Schaltfläche Go. Im Add-Ins-Dialogfeld sehen Sie alle Add-In-Referenzen, die Sie erstellt haben. Klicken Sie auf Durchsuchen. Navigieren Sie zu dem RExcel-Ordner, der sich normalerweise in C: Program FilesRExcelxls oder etwas Ähnlichem befindet. Suchen Sie das Add-In RExcel. xla und klicken Sie es an. Der nächste Schritt besteht darin, eine Referenz zu erstellen, damit Makros mit R korrekt arbeiten können. Geben Sie in Ihrem Excel-Dokument Alt F11 ein. Dies öffnet Excels VBA-Editor. Gehen Sie zu Tools - gt Referenzen, und finden Sie die RExcel-Referenz, RExcelVBAlib. RExcel sollte nun einsatzbereit sein Mit dem Excel-Sheet Nachdem R und RExcel ordnungsgemäß konfiguriert sind, ist es Zeit, eine Prognose durchzuführen. Öffnen Sie das Prognoseblatt und klicken Sie auf Load Server. Dies ist, um den RCom-Server zu starten und auch die notwendigen Funktionen zu laden, um die Prognose durchzuführen. Ein Dialogfenster wird geöffnet. Wählen Sie die Datei itall. R aus. Diese Datei enthält die Funktionen, die das Prognosetool verwendet. Die meisten Funktionen wurden von Professor Stoffer an der University of Pittsburgh entwickelt. Sie erweitern die Fähigkeiten von R und geben uns einige hilfreiche Diagnose-Graphen zusammen mit unserer Prognose-Ausgabe. Es gibt auch eine Funktion, um automatisch die besten Anpassungsparameter des ARIMA-Modells zu bestimmen. Geben Sie nach dem Laden des Servers Ihre Daten in die Spalte Daten ein. Wählen Sie den Bereich der Daten aus, klicken Sie mit der rechten Maustaste und wählen Sie Name Range. Benennen Sie den Bereich als Daten. Legen Sie anschließend die Häufigkeit Ihrer Daten in Cell C6 fest. Häufigkeit bezieht sich auf die Zeiträume Ihrer Daten. Wenn es wöchentlich ist, wäre die Frequenz 7. Monatlich wäre 12, während vierteljährlich 4 sein würde, und so weiter. Geben Sie die Perioden ein, die der Prognose vorausgehen. Man beachte, daß ARIMA-Modelle nach mehreren aufeinanderfolgenden Frequenzvorhersagen ziemlich ungenau werden. Eine gute Faustregel sollte nicht mehr als 30 Schritte als alles Vergangene, die eher unzuverlässig sein könnte. Dies hängt auch von der Größe Ihres Datensatzes ab. Wenn Sie nur begrenzte Daten zur Verfügung haben, empfiehlt es sich, eine kleinere Zahl voranzustellen. Nachdem Sie Ihre Daten eingegeben, benannt und die gewünschte Frequenz eingestellt haben, klicken Sie auf Ausführen. Es kann eine Weile dauern, bis die Prognose verarbeitet wird. Sobald er abgeschlossen ist, erhalten Sie die vorhergesagten Werte auf die angegebene Nummer, den Standardfehler der Ergebnisse und zwei Diagramme. Links sind die projizierten Werte mit den Daten gezeichnet, während rechts eine praktische Diagnose mit standardisierten Residuen, die Autokorrelation der Residuen, ein gg-Diagramm der Residuen und ein Ljung-Box-Statistikgraph enthalten sind, um zu bestimmen, ob das Modell gut angepasst ist. Ich werde nicht in zu viel Detail auf, wie Sie für ein gut angepasstes Modell suchen, aber auf der ACF-Diagramm Sie nicht wollen (oder viel) der Lag-Spikes über die gepunktete blaue Linie. Auf dem gg-Plot, die mehr Kreise, die durch die Linie gehen, desto normalisierter und besser das Modell passt. Für größere Datensätze könnte dies eine Menge Kreise kreuzen. Schließlich ist die Ljung-Box-Test ein Artikel an sich jedoch, je mehr Kreise, die über der gepunkteten blauen Linie sind, desto besser ist das Modell. Wenn das Ergebnis der Diagnose nicht gut aussieht, können Sie versuchen, weitere Daten hinzuzufügen oder an einem anderen Punkt zu beginnen, der näher an dem Bereich liegt, den Sie prognostizieren möchten. Sie können die erzeugten Ergebnisse leicht löschen, indem Sie auf die Schaltfläche Clear Forecasted Values ​​klicken. Und das ist es derzeit Die Datumsspalte tut nichts anderes als für Ihre Referenz, aber es ist nicht notwendig für das Tool. Wenn ich Zeit finde, gehe ich zurück und füge hinzu, dass so das angezeigte Diagramm die richtige Zeit anzeigt. Möglicherweise erhalten Sie außerdem einen Fehler beim Ausführen der Prognose. Dies ist in der Regel aufgrund der Funktion, die die besten Parameter findet, ist nicht in der Lage, die richtige Reihenfolge zu bestimmen. Sie können die obigen Schritte befolgen, um zu versuchen, Ihre Daten besser zu ordnen, damit die Funktion funktioniert. Ich hoffe, Sie erhalten Nutzen aus dem Tool Es hat mir viel Zeit bei der Arbeit, da jetzt alles, was ich tun müssen, ist die Daten eingeben, laden Sie den Server und führen Sie es. Ich hoffe auch, dass dies zeigt Ihnen, wie awesome R sein kann, vor allem, wenn mit einem Front-End wie Excel verwendet. Code, Excel-Arbeitsblatt und. bas-Datei befinden sich ebenfalls auf GitHub.

No comments:

Post a Comment