Kasama sa mga pamamaraan ng pagsusuri ng serye ng oras. Tutorial: Pagsusuri ng Serye ng Oras

Mag-subscribe
Sumali sa komunidad ng koon.ru!
Sa pakikipag-ugnayan kay:

Ipadala ang iyong mabuting gawa sa base ng kaalaman ay simple. Gamitin ang form sa ibaba

Ang mga mag-aaral, nagtapos na mga mag-aaral, mga batang siyentipiko na gumagamit ng base ng kaalaman sa kanilang pag-aaral at trabaho ay lubos na magpapasalamat sa iyo.

Naka-host sa http://www.allbest.ru/

Pederal na Ahensya para sa Edukasyon

Volgograd State Technical University

KONTROLTRABAHO

sa pamamagitan ng disiplina: MMga Modelo at Pamamaraan sa Ekonomiks

sa paksa ng "Pagsusuri ng Serye ng Oras"

Nakumpleto ni: mag-aaral ng grupong EZB 291s Selivanova O.V.

Volgograd 2010

Panimula

Pag-uuri ng serye ng oras

Mga pamamaraan ng pagsusuri ng serye ng oras

Konklusyon

Panitikan

Panimula

Ang pag-aaral ng dynamics ng socio-economic phenomena, ang pagkakakilanlan at paglalarawan ng mga pangunahing trend ng pag-unlad at mga pattern ng interconnection ay nagbibigay ng batayan para sa pagtataya, iyon ay, pagtukoy sa hinaharap na laki ng isang pang-ekonomiyang phenomenon.

Ang mga isyu ng pagtataya ay nagiging partikular na nauugnay sa konteksto ng paglipat sa mga internasyonal na sistema at pamamaraan ng accounting at pagsusuri ng mga socio-economic phenomena.

Ang isang mahalagang lugar sa sistema ng accounting ay inookupahan ng mga istatistikal na pamamaraan. Ipinapalagay ng aplikasyon at paggamit ng pagtataya na ang pattern ng pag-unlad na ipinatupad sa nakaraan ay napanatili sa hinulaang hinaharap.

Kaya, ang pag-aaral ng mga pamamaraan para sa pagsusuri ng kalidad ng mga pagtataya ay napaka-kaugnay ngayon. Ang paksang ito ay pinili bilang object ng pag-aaral sa papel na ito.

Ang time series ay isang time-ordered sequence ng mga value ng ilang arbitrary variable. Ang bawat indibidwal na halaga ng variable na ito ay tinatawag na sample ng time series. Kaya, ang serye ng oras ay makabuluhang naiiba mula sa isang simpleng sample ng data.

Pag-uuri ng serye ng oras

Inuri ang serye ng oras ayon sa sumusunod na pamantayan.

1. Sa anyo ng representasyon ng mga antas:

Ш serye ng mga ganap na tagapagpahiwatig;

W kamag-anak na mga tagapagpahiwatig;

Ш average na halaga.

2. Sa likas na katangian ng parameter ng oras:

Ш sandali. Sa sandali ng serye ng oras, ang mga antas ay nagpapakilala sa mga halaga ng tagapagpahiwatig bilang ng ilang mga punto sa oras. Sa serye ng agwat, ang mga antas ay nagpapakilala sa halaga ng tagapagpahiwatig para sa ilang partikular na tagal ng panahon.

Ш serye ng oras ng pagitan. Ang isang mahalagang tampok ng serye ng oras ng pagitan ng mga ganap na halaga ay ang posibilidad ng pagbubuod ng kanilang mga antas.

3. Sa pamamagitan ng distansya sa pagitan ng mga petsa at pagitan ng oras:

Ш buong (equidistant) - kapag ang mga petsa ng pagpaparehistro o ang katapusan ng mga panahon ay sumunod sa isa't isa sa pantay na pagitan.

Ш hindi kumpleto (hindi pantay na espasyo) - kapag ang prinsipyo ng pantay na pagitan ay hindi iginagalang.

4. Depende sa pagkakaroon ng pangunahing kalakaran:

Ш stationary series - kung saan pare-pareho ang mean value at variance.

Ш non-stationary - naglalaman ng pangunahing trend ng pag-unlad.

Mga pamamaraan ng pagsusuri ng serye ng oras

Ang mga serye ng oras ay ginalugad para sa iba't ibang layunin. Sa isang bilang ng mga kaso, sapat na upang makakuha ng isang paglalarawan ng mga tampok na katangian ng serye, at sa isa pang bilang ng mga kaso, kinakailangan hindi lamang upang mahulaan ang mga hinaharap na halaga ng serye ng oras, kundi pati na rin upang kontrolin ang mga ito. pag-uugali. Ang paraan ng pagtatasa ng serye ng oras ay tinutukoy, sa isang banda, ng mga layunin ng pagsusuri, at, sa kabilang banda, ng probabilistikong katangian ng pagbuo ng mga halaga nito.

Mga pamamaraan ng pagsusuri ng serye ng oras.

1. Spectral analysis. Binibigyang-daan kang mahanap ang mga pana-panahong bahagi ng serye ng oras.

2. Pagsusuri ng ugnayan. Binibigyang-daan kang makahanap ng makabuluhang pana-panahong mga dependency at ang kanilang mga kaukulang pagkaantala (lags) sa loob ng isang serye (autocorrelation) at sa pagitan ng ilang serye. (cross-correlation)

3. Modelo ng Seasonal Box-Jenkins. Ginagamit ito kapag naglalaman ang serye ng oras ng binibigkas na linear na trend at mga seasonal na bahagi. Binibigyang-daan kang mahulaan ang mga halaga sa hinaharap ng isang serye. Ang modelo ay iminungkahi na may kaugnayan sa pagsusuri ng transportasyon ng hangin.

4. Pagtataya sa pamamagitan ng exponentially weighted moving average. Ang pinakasimpleng modelo ng pagtataya ng serye ng oras. Naaangkop sa maraming kaso. Sa partikular, sinasaklaw nito ang modelo ng pagpepresyo batay sa mga random na paglalakad.

Target parang multo na pagsusuri- I-decompose ang serye sa mga function ng mga sine at cosine ng iba't ibang frequency, upang matukoy ang mga ang hitsura ay lalong makabuluhan at makabuluhan. Ang isang posibleng paraan upang gawin ito ay ang paglutas ng isang linear na multiple regression na problema kung saan ang dependent variable ay ang naobserbahang serye ng oras at ang mga independent variable o regressors ay ang sine function ng lahat ng posibleng (discrete) frequency. Ang nasabing isang linear na multiple regression na modelo ay maaaring isulat bilang:

x t = a 0 + (para sa k = 1 hanggang q)

Ang susunod na pangkalahatang konsepto ng classical harmonic analysis sa equation na ito - (lambda) - ay ang circular frequency, na ipinahayag sa radians bawat unit time, i.e. = 2** k , saan ang pare-parehong pi = 3.1416 at k = k/q. Mahalagang mapagtanto dito na ang computational problem ng pag-angkop sa sine at cosine function na may iba't ibang haba sa data ay maaaring malutas gamit ang maramihang linear regression. Tandaan na ang mga coefficient ng cosine a k at ang mga coefficient ng sine b k ay mga coefficient ng regression na nagpapahiwatig ng antas kung saan nauugnay ang kani-kanilang mga function sa data. Mayroong q iba't ibang mga sine at cosine sa kabuuan; Ito ay madaling maunawaan na ang bilang ng mga function ng sine at cosine ay hindi maaaring mas malaki kaysa sa bilang ng data sa serye. Nang hindi pumunta sa mga detalye, kung n ang dami ng data, magkakaroon ng n/2+1 cosine function at n/2-1 sine function. Sa madaling salita, magkakaroon ng maraming iba't ibang mga sine wave gaya ng mayroong data, at magagawa mong ganap na kopyahin ang serye sa pamamagitan ng mga pangunahing pag-andar.

Bilang resulta, tinutukoy ng spectral analysis ang ugnayan ng sine at cosine function ng iba't ibang frequency sa naobserbahang data. Kung ang nahanap na ugnayan (coefficient sa isang tiyak na sine o cosine) ay malaki, maaari nating tapusin na mayroong isang mahigpit na periodicity sa kaukulang dalas sa data.

Pagsusuri ibinahagi lags ay isang espesyal na paraan para sa pagtatantya ng lagging relasyon sa pagitan ng mga serye. Halimbawa, sabihin nating gumawa ka ng mga computer program at gusto mong magtatag ng ugnayan sa pagitan ng bilang ng mga tanong ng customer at ng bilang ng aktwal na mga order. Maaari mong itala ang data na ito buwan-buwan sa loob ng isang taon at pagkatapos ay isaalang-alang ang kaugnayan sa pagitan ng dalawang variable: ang bilang ng mga kahilingan at ang bilang ng mga order ay depende sa mga kahilingan, ngunit depende sa isang lag. Gayunpaman, malinaw na ang mga kahilingan ay nauuna sa mga order, kaya maaari mong asahan ang bilang ng mga order. Sa madaling salita, may time shift (lag) sa pagitan ng bilang ng mga kahilingan at bilang ng mga benta (tingnan din ang autocorrelations at cross-correlations).

Ang ganitong uri ng lag na relasyon ay partikular na karaniwan sa econometrics. Halimbawa, ang return on investment sa mga bagong kagamitan ay hindi malinaw na makikita kaagad, ngunit pagkatapos lamang ng isang tiyak na oras. Ang mas mataas na kita ay nagbabago sa pagpili ng mga tao sa pabahay; gayunpaman, ang pag-asa na ito, malinaw naman, ay nagpapakita rin ng sarili sa isang pagkaantala.

Sa lahat ng mga kasong ito, mayroong isang independyente o nagpapaliwanag na variable na nakakaapekto sa mga umaasang variable na may ilang pagkaantala (lag). Ang distributed lag method ay nagpapahintulot sa amin na siyasatin ang ganitong uri ng pagtitiwala.

Pangkalahatang modelo

Hayaang y ang dependent variable at a ang independent o explanatory variable para sa x. Ang mga variable na ito ay sinusukat ng ilang beses sa isang tiyak na tagal ng panahon. Sa ilang mga aklat-aralin sa econometrics, ang dependent variable ay tinatawag ding endogenous variable, at ang dependent o explanatory variable ay tinatawag na exogenous variable. Ang pinakasimpleng paraan upang ilarawan ang relasyon sa pagitan ng dalawang variable na ito ay ang sumusunod na linear equation:

Sa equation na ito, ang halaga ng dependent variable sa oras na t ay isang linear function ng variable x na sinusukat sa mga oras na t, t-1, t-2, at iba pa. Kaya ang dependent variable ay isang linear function ng x at x na inilipat ng 1, 2, atbp. mga yugto ng panahon. Ang mga beta coefficient (i) ay maaaring ituring bilang mga parameter ng slope sa equation na ito. Isasaalang-alang namin ang equation na ito bilang isang espesyal na kaso ng linear regression equation. Kung ang koepisyent ng isang variable na may isang tiyak na pagkaantala (lag) ay makabuluhan, maaari nating tapusin na ang variable na y ay hinulaang (o ipinaliwanag) na may pagkaantala.

Ang pagtatantya ng parameter at mga pamamaraan ng paghula na inilarawan sa seksyong ito ay ipinapalagay na ang mathematical model ng proseso ay kilala. Sa totoong data, madalas na walang natatanging mga regular na bahagi. Ang mga indibidwal na obserbasyon ay naglalaman ng malaking error, habang gusto mong hindi lamang ihiwalay ang mga regular na bahagi, ngunit gumawa din ng isang hula. Ang pamamaraan ng ARPSS na binuo ni Box at Jenkins (1976) ay nagpapahintulot na magawa ito. Ang pamamaraang ito ay napakapopular sa maraming aplikasyon, at napatunayan ng pagsasanay ang kapangyarihan at kakayahang umangkop nito (Hoff, 1983; Pankratz, 1983; Vandaele, 1983). Gayunpaman, dahil sa kapangyarihan at kakayahang umangkop nito, ang ARPSS ay isang kumplikadong pamamaraan. Ito ay hindi madaling gamitin at nangangailangan ng maraming pagsasanay upang makabisado ito. Bagama't madalas itong nagbibigay ng kasiya-siyang resulta, nakadepende sila sa kakayahan ng gumagamit (Bails and Peppers, 1982). Ang mga sumusunod na seksyon ay magpapakilala sa mga pangunahing ideya nito. Para sa mga interesado sa isang maigsi, praktikal, (di-matematika) na panimula sa ARPSS, inirerekomenda ni McCleary, Meidinger, at Hay (1980).

modelo ng ARPSS

Ang pangkalahatang modelo na iminungkahi nina Box at Jenkins (1976) ay kinabibilangan ng parehong autoregressive at moving average na mga parameter. Ibig sabihin, mayroong tatlong uri ng mga parameter ng modelo: mga parameter ng auto regression (p), pagkakasunud-sunod ng pagkakaiba (d), mga moving average na parameter (q). Sa notasyon ng Box at Jenkins, ang modelo ay isinulat bilang ARPSS(p, d, q). Halimbawa, ang modelo (0, 1, 2) ay naglalaman ng 0 (zero) na mga parameter ng auto regression (p) at 2 moving average na mga parameter (q), na kinakalkula para sa serye pagkatapos kumuha ng pagkakaiba na may lag na 1.

Tulad ng nabanggit kanina, ang modelo ng ARPSS ay nangangailangan na ang serye ay nakatigil, na nangangahulugan na ang ibig sabihin nito ay pare-pareho, at ang sample na variance at autocorrelation ay hindi nagbabago sa paglipas ng panahon. Samakatuwid, kadalasang kinakailangan na kunin ang mga pagkakaiba ng serye hanggang sa ito ay maging nakatigil (kadalasan ay ginagamit din ang isang logarithmic transformation upang patatagin ang pagkakaiba). Ang bilang ng mga pagkakaiba na ginawa upang maabot ang stationarity ay ibinibigay ng parameter d (tingnan ang nakaraang seksyon). Upang matukoy ang kinakailangang pagkakasunud-sunod ng pagkakaiba, kailangan mong suriin ang balangkas ng serye at ang autocorrelogram. Ang mga malakas na pagbabago sa antas (malakas na pagtalon pataas o pababa) ay karaniwang nangangailangan ng pagkuha ng hindi pana-panahong pagkakaiba sa unang pagkakasunud-sunod (lag=1). Ang matinding pagbabago sa slope ay nangangailangan ng pagkuha ng second-order na pagkakaiba. Ang seasonal component ay nangangailangan ng pagkuha ng naaangkop na seasonal difference (tingnan sa ibaba). Kung mayroong isang mabagal na pagbaba sa mga sample na autocorrelation coefficients depende sa lag, ang pagkakaiba ng unang order ay karaniwang kinuha. Gayunpaman, dapat itong alalahanin na para sa ilang mga serye ng oras kinakailangan na kumuha ng mga pagkakaiba ng isang maliit na pagkakasunud-sunod o hindi na kunin ang mga ito. Tandaan na ang labis na bilang ng mga kinuhang pagkakaiba ay humahantong sa hindi gaanong matatag na mga pagtatantya ng koepisyent.

Sa hakbang na ito (karaniwang tinutukoy bilang pagkakakilanlan ng pagkakasunud-sunod ng modelo, tingnan sa ibaba) dapat ka ring magpasya kung gaano karaming mga parameter ng auto regression (p) at moving average (q) ang dapat na nasa isang mahusay at matipid na modelo ng proseso. (Ang parsimonya ng isang modelo ay nangangahulugan na mayroon itong pinakamakaunting mga parameter at pinakamaraming antas ng kalayaan ng anumang modelo na nilagyan ng data.) Sa pagsasagawa, napakabihirang na ang bilang ng mga parameter p o q ay mas malaki sa 2 (tingnan sa ibaba para sa isang mas kumpletong talakayan).

Ang susunod na hakbang pagkatapos ng pagkilala (Pagtatantya) ay binubuo sa pagtatantya ng mga parameter ng modelo (kung saan ginagamit ang mga pamamaraan ng pag-minimize ng function ng pagkawala, tingnan sa ibaba; para sa higit pang impormasyon sa mga pamamaraan ng pagliit, tingnan ang seksyong Nonlinear Estimation). Ang nakuha na mga pagtatantya ng parameter ay ginagamit sa huling yugto (Pagtataya) upang makalkula ang mga bagong halaga ng serye at bumuo ng isang agwat ng kumpiyansa para sa pagtataya. Ang proseso ng pagtatantya ay isinasagawa sa nabagong data (napapailalim sa aplikasyon ng operator ng pagkakaiba). Bago gumawa ng pagtataya, kailangan mong isagawa ang kabaligtaran na operasyon (pagsamahin ang data). Kaya, ang pagtataya ng pamamaraan ay ihahambing sa kaukulang data ng pag-input. Ang pagsasama ng data ay ipinahiwatig ng titik P sa pangkalahatang pangalan ng modelo (ARRPS = Auto Regression Integrated Moving Average).

Bukod pa rito, ang mga modelo ng ARPSS ay maaaring maglaman ng isang pare-pareho na ang interpretasyon ay nakasalalay sa modelong nilagyan. Lalo na, kung (1) walang mga parameter ng auto-regression sa modelo, kung gayon ang pare-pareho ay ang average na halaga ng serye, kung (2) mayroong mga parameter ng auto-regression, kung gayon ang pare-pareho ay isang libreng termino. Kung ang pagkakaiba ng serye ay kinuha, kung gayon ang pare-pareho ay ang ibig sabihin o libreng termino ng nabagong serye. Halimbawa, kung ang unang pagkakaiba (first-order difference) ay kinuha, at walang auto-regression na mga parameter sa modelo, kung gayon ang pare-pareho ay ang average na halaga ng transformed series at, samakatuwid, ang slope ng orihinal na linear trend .

Exponential Smoothing ay isang napaka-tanyag na paraan para sa pagtataya ng maraming serye ng panahon. Sa kasaysayan, ang pamamaraan ay independiyenteng natuklasan nina Brown at Holt.

Simpleng exponential smoothing

Ang isang simple at pragmatically malinaw na modelo ng time series ay ang mga sumusunod:

kung saan ang b ay isang pare-pareho at (epsilon) ay isang random na error. Ang pare-parehong b ay medyo stable sa bawat agwat ng oras, ngunit maaari ring magbago nang dahan-dahan sa paglipas ng panahon. Isang intuitive na paraan upang ihiwalay ang b ay ang paggamit ng moving average smoothing, kung saan ang mga pinakabagong obserbasyon ay binibigyan ng mas timbang kaysa sa mga penultimate, ang mga penultimate ay mas natimbang kaysa sa mga penultimate, at iba pa. Ang simpleng exponential ay eksakto kung paano ito gumagana. Dito, ang exponentially decreasing weights ay itinalaga sa mas lumang mga obserbasyon, habang, hindi katulad ng moving average, lahat ng nakaraang obserbasyon ng serye ay isinasaalang-alang, at hindi ang mga nahulog sa isang partikular na window. Ang eksaktong formula para sa simpleng exponential smoothing ay:

S t = *X t + (1-)*S t-1

Kapag ang formula na ito ay inilapat nang recursively, ang bawat bagong smoothed value (na isa ring hula) ay kinakalkula bilang weighted average ng kasalukuyang obserbasyon at ang smoothed na serye. Malinaw, ang resulta ng smoothing ay depende sa parameter (alpha). Kung itatakda sa 1, ganap na hindi papansinin ang mga nakaraang obserbasyon. Kung nakatakda sa 0, babalewalain ang mga kasalukuyang obserbasyon. Ang mga halaga sa pagitan ng 0, 1 ay nagbibigay ng mga intermediate na resulta.

Ipinakita ng mga empirikal na pag-aaral ni Makridakis et al.(1982; Makridakis, 1983) na kadalasan ang simpleng exponential smoothing ay nagbibigay ng medyo tumpak na hula.

Pagpili ng pinakamahusay na halaga ng parameter (alpha)

Tinatalakay ni Gardner (1985) ang iba't ibang teoretikal at empirikal na argumento para sa pagpili ng isang tiyak na parameter ng pagpapakinis. Malinaw, mula sa pormula sa itaas, sumusunod ito na dapat mahulog sa pagitan ng 0 (zero) at 1 (bagama't Brenner et al.<<2). Gardner (1985) сообщает, что на практике обычно рекомендуется брать меньше.30. Однако в исследовании Makridakis et al., (1982), большее.30, часто дает лучший прогноз. После обзора литературы, Gardner (1985) приходит к выводу, что лучше оценивать оптимально по данным (см. ниже), чем просто "гадать" или использовать искусственные рекомендации.

Pagtantya ng pinakamahusay na halaga gamit ang data. Sa pagsasagawa, ang smoothing parameter ay madalas na hinahanap gamit ang isang grid search. Ang mga posibleng halaga ng parameter ay nahahati sa isang grid na may isang tiyak na hakbang. Halimbawa, isaalang-alang ang isang grid ng mga halaga mula sa = 0.1 hanggang = 0.9, na may hakbang na 0.1. Pagkatapos ay pipiliin nito kung para saan ang kabuuan ng mga parisukat (o ibig sabihin ng mga parisukat) ng mga nalalabi (mga naobserbahang halaga na binawasan ang mga hula sa isang hakbang sa unahan) ay minimal.

Fit Quality Index

Ang pinakadirektang paraan upang suriin ang isang hula batay sa isang partikular na halaga ay upang i-plot ang mga naobserbahang halaga at ang mga hula sa isang hakbang sa unahan. Kasama rin sa graph na ito ang mga residual (naka-plot sa kanang y-axis). Malinaw na ipinapakita ng graph kung aling mga lugar ang forecast ay mas mahusay o mas masahol pa.

Ang visual na pagsusuring ito ng katumpakan ng hula ay kadalasang gumagawa ng pinakamahusay na mga resulta. Mayroon ding iba pang mga sukat ng error na maaaring magamit upang matukoy ang pinakamainam na parameter (tingnan ang Makridakis, Wheelwright, at McGee, 1983):

Average na error. Ang ibig sabihin ng error (SD) ay kinakalkula sa pamamagitan lamang ng pag-average ng mga error sa bawat hakbang. Ang halatang disbentaha ng panukalang ito ay ang mga positibo at negatibong pagkakamali ay magkakansela sa isa't isa, kaya hindi ito magandang tagapagpahiwatig ng kalidad ng pagtataya.

Average na ganap na error. Ang mean absolute error (MAE) ay kinakalkula bilang mean ng absolute errors. Kung ito ay katumbas ng 0 (zero), kung gayon mayroon tayong perpektong akma (prediction). Kung ikukumpara sa karaniwang error, ang panukalang ito ay "hindi nagbibigay ng labis na kahalagahan" sa mga outlier.

Sum of Squared Errors (SSE), root mean square error. Ang mga halagang ito ay kinakalkula bilang kabuuan (o average) ng mga squared error. Ito ang mga pinakakaraniwang ginagamit na index ng fit quality.

Relatibong error (RO). Gumamit ang lahat ng naunang hakbang ng mga aktwal na halaga ng error. Tila natural na ipahayag ang mga indeks ng akma sa mga tuntunin ng mga kamag-anak na error. Halimbawa, kapag hinuhulaan ang mga buwanang benta na maaaring magbago nang malaki (hal. pana-panahon) sa bawat buwan, maaaring lubos kang nasisiyahan sa hula kung ito ay may katumpakan na ?10%. Sa madaling salita, kapag nagtataya, ang ganap na error ay maaaring hindi kasing interesante ng kamag-anak. Upang isaalang-alang ang kamag-anak na pagkakamali, maraming iba't ibang mga index ang iminungkahi (tingnan ang Makridakis, Wheelwright, at McGee, 1983). Sa una, ang kamag-anak na error ay kinakalkula bilang:

OO t \u003d 100 * (X t - F t) / X t

kung saan ang X t ay ang naobserbahang halaga sa oras na t at ang F t ay ang pagtataya (smoothed value).

Mean Relative Error (RMS). Ang halagang ito ay kinakalkula bilang ang average ng mga relatibong error.

Mean Absolute Relative Error (MARR). Tulad ng karaniwang mean error, ang mga negatibo at positibong relatibong error ay magkakansela sa isa't isa. Samakatuwid, upang masuri ang kalidad ng akma bilang isang buo (para sa buong serye), mas mahusay na gamitin ang average na ganap na kamag-anak na error. Kadalasan ang panukalang ito ay mas nagpapahayag kaysa sa root mean square error. Halimbawa, ang pag-alam na ang katumpakan ng hula ay ±5% ay kapaki-pakinabang sa sarili nito, habang ang halaga ng 30.8 para sa karaniwang error ay hindi madaling bigyang-kahulugan.

Awtomatikong paghahanap para sa pinakamahusay na parameter. Para mabawasan ang mean square error, mean absolute error, o mean absolute relative error, isang quasi-Newtonian procedure (katulad ng sa ARPSS) ang ginagamit. Sa karamihan ng mga kaso, ang pamamaraang ito ay mas mahusay kaysa sa karaniwang mesh enumeration (lalo na kung mayroong ilang mga smoothing parameter), at ang pinakamainam na halaga ay maaaring mabilis na mahanap.

Ang unang pinakinis na halaga S 0 . Kung titingnan mo muli ang simpleng exponential smoothing formula, makikita mo na kailangan mong magkaroon ng S 0 para makalkula ang unang smoothed value (prediction). Depende sa pagpili ng parameter (sa partikular, kung malapit sa 0), ang paunang halaga ng smoothed na proseso ay maaaring magkaroon ng malaking epekto sa hula para sa maraming kasunod na mga obserbasyon. Tulad ng iba pang rekomendasyon para sa exponential smoothing, inirerekomendang kunin ang paunang halaga na nagbibigay ng pinakamahusay na hula. Sa kabilang banda, ang epekto ng pagpili ay bumababa sa haba ng serye at nagiging hindi kritikal para sa isang malaking bilang ng mga obserbasyon.

pang-ekonomiyang serye ng mga istatistika

Konklusyon

Ang pagsusuri ng serye ng oras ay isang hanay ng mga pamamaraan ng pagsusuri sa matematika at istatistika na idinisenyo upang matukoy ang istruktura ng serye ng oras at hulaan ang mga ito. Kabilang dito, sa partikular, ang mga pamamaraan ng pagsusuri ng regression. Ang pagbubunyag ng istraktura ng serye ng oras ay kinakailangan upang makabuo ng isang mathematical na modelo ng phenomenon na pinagmumulan ng nasuri na serye ng oras. Ang pagtataya ng mga halaga sa hinaharap ng serye ng oras ay ginagamit para sa epektibong paggawa ng desisyon.

Ang mga serye ng oras ay ginalugad para sa iba't ibang layunin. Ang paraan ng pagtatasa ng serye ng oras ay tinutukoy, sa isang banda, ng mga layunin ng pagsusuri, at, sa kabilang banda, ng probabilistikong katangian ng pagbuo ng mga halaga nito.

Ang mga pangunahing pamamaraan para sa pag-aaral ng time series ay:

Ш Spectral analysis.

Ш Pagsusuri ng ugnayan

W Seasonal Box-Jenkins pattern.

Pagtataya ng SH sa pamamagitan ng exponentially weighted moving average.

Panitikan

1. B. P. Bezruchko at D. A. Smirnov, Mathematical Modeling at Chaotic Time Series. -- Saratov: GosUNC "College", 2005. -- ISBN 5-94409-045-6

2. I. I. Blekhman, A. D. Myshkis, at N. G. Panovko, Applied Mathematics: Subject, Logic, Features of Approaches. May mga halimbawa mula sa mekanika: Textbook. -- 3rd ed., naitama. at karagdagang - M.: URSS, 2006. - 376 p. ISBN 5-484-00163-3

3. Panimula sa mathematical modelling. Pagtuturo. Ed. P. V. Trusova. - M.: Logos, 2004. - ISBN 5-94010-272-7

4. Gorban' A. N., Khlebopros R. G., Darwin's Demon: The Idea of ​​Optimality and Natural Selection. -- M: Agham. Punong ed. Phys.-Math. lit., 1988. - 208 p. (Mga Problema ng Agham at Teknolohikal na Pag-unlad) ISBN 5-02-013901-7 (Kabanata "Paggawa ng mga Modelo").

5. Journal of Mathematical Modeling (itinatag noong 1989)

6. Malkov S. Yu., 2004. Mathematical modeling ng historical dynamics: approach and models // Modeling of socio-political and economic dynamics / Ed. M. G. DMITRIEV -- M.: RGSU. -- Kasama. 76-188.

7. A. D. Myshkis, Mga Elemento ng teorya ng mga modelo ng matematika. -- 3rd ed., naitama. - M.: KomKniga, 2007. - 192 na may ISBN 978-5-484-00953-4

8. Samarskii A. A., Mikhailov A. P. Pagmomodelo ng matematika. Mga ideya. Paraan. Mga halimbawa .. - 2nd ed., Rev.. - M .: Fizmatlit, 2001. - ISBN 5-9221-0120-X

9. Sovetov B. Ya., Yakovlev S. A., System Modeling: Proc. para sa mga unibersidad - 3rd ed., binago. at karagdagang -- M.: Mas mataas. paaralan, 2001. - 343 p. ISBN 5-06-003860-2

Naka-host sa Allbest.ru

Mga Katulad na Dokumento

    Ang konsepto at pangunahing yugto ng pagbuo ng isang pagtataya. Mga gawain ng pagsusuri ng serye ng oras. Pagtatasa ng estado at mga uso sa pagbuo ng pagtataya batay sa pagsusuri ng serye ng oras ng SU-167 JSC "Mozyrpromstroy", mga praktikal na rekomendasyon para sa pagpapabuti nito.

    term paper, idinagdag noong 07/01/2013

    Pamamaraan para sa pagsusuri ng mga serye ng oras ng mga socio-economic phenomena. Mga bahagi na bumubuo ng mga antas sa pagsusuri ng serye ng oras. Ang pamamaraan para sa pagsasama-sama ng modelo ng mga pag-export at pag-import ng Netherlands. Mga antas ng autocorrelation. Kaugnayan ng serye ng dinamika.

    term paper, idinagdag noong 05/13/2010

    Mga pamamaraan para sa pagsusuri ng istruktura ng serye ng oras na naglalaman ng mga pagbabago sa pana-panahon. Isinasaalang-alang ang moving average na diskarte at pagbuo ng isang additive (o multiplicative) na modelo ng serye ng oras. Pagkalkula ng mga pagtatantya ng seasonal na bahagi sa isang multiplicative na modelo.

    control work, idinagdag noong 02/12/2015

    Pagsusuri ng sistema ng mga tagapagpahiwatig na nagpapakilala sa parehong kasapatan ng modelo at katumpakan nito; pagpapasiya ng ganap at average na mga error sa pagtataya. Ang mga pangunahing tagapagpahiwatig ng dynamics ng mga pang-ekonomiyang phenomena, ang paggamit ng mga average na halaga para sa smoothing time series.

    control work, idinagdag noong 08/13/2010

    Ang kakanyahan at natatanging tampok ng mga pamamaraan ng istatistika ng pagsusuri: pagmamasid sa istatistika, pagpapangkat, pagsusuri ng serye ng oras, index, pumipili. Ang pagkakasunud-sunod ng pagsusuri ng serye ng mga dinamika, ang pagsusuri ng pangunahing kalakaran ng pag-unlad sa serye ng mga dinamika.

    term paper, idinagdag noong 03/09/2010

    Pagsasagawa ng isang pang-eksperimentong istatistikal na pag-aaral ng mga socio-economic phenomena at mga proseso sa rehiyon ng Smolensk batay sa mga tinukoy na tagapagpahiwatig. Pagbuo ng mga istatistikal na graph, serye ng pamamahagi, serye ng variation, ang kanilang paglalahat at pagsusuri.

    term paper, idinagdag noong 03/15/2011

    Mga uri ng time series. Mga kinakailangan para sa orihinal na impormasyon. Mga deskriptibong katangian ng dynamics ng socio-economic phenomena. Pagtataya sa pamamagitan ng paraan ng mga exponential average. Ang mga pangunahing tagapagpahiwatig ng dinamika ng mga tagapagpahiwatig ng ekonomiya.

    kontrol sa trabaho, idinagdag 03/02/2012

    Ang konsepto at kahulugan ng isang serye ng oras sa mga istatistika, istraktura at pangunahing elemento nito, kahulugan. Pag-uuri at mga uri ng serye ng oras, mga tampok ng saklaw ng kanilang aplikasyon, mga natatanging katangian at pamamaraan para sa pagtukoy ng mga dinamika, yugto, serye sa kanila.

    pagsubok, idinagdag noong 03/13/2010

    Kahulugan ng konsepto ng mga presyo para sa mga produkto at serbisyo; mga prinsipyo ng kanilang pagpaparehistro. Pagkalkula ng indibidwal at pangkalahatang mga indeks ng halaga ng mga kalakal. Ang kakanyahan ng mga pangunahing pamamaraan ng socio-economic na pananaliksik - mga istrukturang average, serye ng pamamahagi at serye ng dinamika.

    term paper, idinagdag noong 05/12/2011

    Machine learning at mga istatistikal na pamamaraan para sa pagsusuri ng data. Pagtatasa ng katumpakan ng pagtataya. Preprocessing ng data. Mga paraan ng pag-uuri, regression at pagsusuri ng time series. Mga pamamaraan ng pinakamalapit na kapitbahay, sumusuporta sa mga vector, pagwawasto ng espasyo.

Ang layunin ng pagsusuri ng serye ng oras ay karaniwang bumuo ng isang modelong pangmatematika ng serye, kung saan maaari mong ipaliwanag ang gawi nito at gumawa ng pagtataya para sa isang tiyak na tagal ng panahon. Kasama sa pagsusuri ng serye ng oras ang mga sumusunod na pangunahing hakbang.

Ang pagsusuri ng isang time series ay karaniwang nagsisimula sa pagbuo at pag-aaral ng graph nito.

Kung halata ang hindi pagka-stationarity ng serye ng oras, ang unang hakbang ay ihiwalay at alisin ang hindi nakatigil na bahagi ng serye. Ang proseso ng pag-alis ng trend at iba pang bahagi ng serye, na humahantong sa paglabag sa stationarity, ay maaaring maganap sa ilang yugto. Sa bawat isa sa kanila, ang isang serye ng mga nalalabi ay isinasaalang-alang, na nakuha bilang isang resulta ng pagbabawas ng fitted trend model mula sa orihinal na serye, o ang resulta ng pagkakaiba at iba pang pagbabago ng serye. Bilang karagdagan sa mga graph, ang hindi pagka-stationarity ng serye ng oras ay maaaring ipahiwatig ng isang autocorrelation function na hindi malamang sa zero (maliban sa napakalaking halaga ng lag).

Pagpili ng isang modelo para sa isang serye ng oras. Matapos ang paunang proseso ay mas malapit hangga't maaari sa nakatigil, ang isa ay maaaring magpatuloy sa pagpili ng iba't ibang mga modelo ng resultang proseso. Ang layunin ng yugtong ito ay ilarawan at isaalang-alang sa karagdagang pagsusuri ang istruktura ng ugnayan ng prosesong isinasaalang-alang. Kasabay nito, ang mga parametric na modelo ng autoregression-moving average (ARIMA-models) ay kadalasang ginagamit sa pagsasanay.

Ang modelo ay maaaring ituring na fitted kung ang natitirang bahagi ng serye ay isang "white noise" na proseso ng uri, kapag ang mga nalalabi ay ipinamahagi ayon sa normal na batas na may sample na mean na katumbas ng 0. Pagkatapos i-fit ang modelo, ang mga sumusunod ay karaniwang ginagawa :

    pagtatantya ng pagkakaiba-iba ng mga nalalabi, na maaaring magamit sa ibang pagkakataon upang buuin ang mga pagitan ng kumpiyansa ng hula;

    pagsusuri ng mga nalalabi upang masuri ang kasapatan ng modelo.

Pagtataya at interpolation. Ang huling hakbang sa pagsusuri ng isang serye ng panahon ay maaaring ang pagtataya sa hinaharap nito (extrapolation) o pagpapanumbalik ng mga nawawalang halaga (interpolation) at pagpapakita ng katumpakan ng hulang ito batay sa angkop na modelo. Hindi laging posible na pumili ng magandang modelo ng matematika para sa isang serye ng oras. Ang kalabuan ng pagpili ng modelo ay maaaring maobserbahan kapwa sa yugto ng pagpili ng deterministikong bahagi ng serye, at kapag pumipili ng istraktura ng serye ng mga nalalabi. Samakatuwid, ang mga mananaliksik ay madalas na gumagamit ng paraan ng ilang mga hula na ginawa gamit ang iba't ibang mga modelo.

Mga pamamaraan ng pagsusuri. Ang mga sumusunod na pamamaraan ay karaniwang ginagamit sa pagsusuri ng serye ng oras:

    mga graphical na pamamaraan para sa kumakatawan sa mga serye ng oras at ang kanilang mga kasamang numerical na katangian;

    mga paraan ng pagbabawas sa mga nakatigil na proseso: detrending, moving average at autoregression na mga modelo;

    mga pamamaraan para sa pag-aaral ng mga panloob na ugnayan sa pagitan ng mga elemento ng time series.

3.5. Mga Paraan ng Grapiko para sa Pagsusuri ng Serye ng Oras

Bakit kailangan natin ng mga graphical na pamamaraan. Sa mga sample na pag-aaral, ang pinakasimpleng numerical na katangian ng mga deskriptibong istatistika (mean, median, variance, standard deviation) ay kadalasang nagbibigay ng medyo nagbibigay-kaalaman na ideya ng sample. Ang mga graphical na pamamaraan para sa pagrepresenta at pagsusuri ng mga sample sa kasong ito ay gumaganap lamang ng isang pantulong na papel, na nagbibigay-daan sa isang mas mahusay na pag-unawa sa lokalisasyon at konsentrasyon ng data, ang kanilang batas sa pamamahagi.

Ang papel ng mga graphical na pamamaraan sa pagsusuri ng serye ng oras ay ganap na naiiba. Ang katotohanan ay ang pagtatanghal ng tabular ng serye ng oras at mga deskriptibong istatistika ay kadalasang hindi nagpapahintulot sa amin na maunawaan ang likas na katangian ng proseso, habang medyo maraming mga konklusyon ang maaaring makuha mula sa graph ng serye ng oras. Sa hinaharap, maaari silang ma-verify at mapino gamit ang mga kalkulasyon.

Kapag sinusuri ang mga graph, maaari mong lubos na kumpiyansa na matukoy:

    ang pagkakaroon ng isang trend at ang kalikasan nito;

    ang pagkakaroon ng mga seasonal at cyclical na bahagi;

    ang antas ng pagkamakinis o discontinuity sa mga pagbabago sa sunud-sunod na mga halaga ng serye pagkatapos ng pag-aalis ng trend. Sa pamamagitan ng tagapagpahiwatig na ito, maaaring hatulan ng isa ang kalikasan at laki ng ugnayan sa pagitan ng mga katabing elemento ng serye.

Konstruksyon at pag-aaral ng iskedyul. Ang pagbuo ng isang time series graph ay hindi kasing simple ng isang gawain na tila sa unang tingin. Ang modernong antas ng pagtatasa ng serye ng oras ay nagsasangkot ng paggamit ng isa o ibang programa sa computer upang i-plot ang kanilang mga graph at lahat ng kasunod na pagsusuri. Karamihan sa mga istatistikal na pakete at mga spreadsheet ay may ilang paraan ng pag-tune sa pinakamainam na representasyon ng serye ng oras, ngunit kahit na ginagamit ang mga ito, iba't ibang mga problema ang maaaring lumitaw, halimbawa:

    dahil sa limitadong resolution ng mga screen ng computer, maaari ding limitahan ang laki ng mga ipinapakitang graph;

    na may malalaking volume ng sinuri na serye, ang mga punto sa screen na naglalarawan ng mga obserbasyon ng time series ay maaaring maging solidong itim na bar.

Iba't ibang paraan ang ginagamit upang harapin ang mga paghihirap na ito. Ang presensya sa graphical na pamamaraan ng "magnifying glass" o "zoom" na mode ay nagbibigay-daan sa iyo upang ilarawan ang isang mas malaking napiling bahagi ng serye, gayunpaman, nagiging mahirap na hatulan ang likas na katangian ng pag-uugali ng serye sa buong nasuri na pagitan. Kailangan mong mag-print ng mga graph para sa mga indibidwal na bahagi ng serye at pagsamahin ang mga ito upang makita ang isang larawan ng pag-uugali ng serye sa kabuuan. Minsan upang mapabuti ang pagpaparami ng mahabang hanay ay ginagamit pagnipis, ibig sabihin, ang pagpili at pagpapakita sa tsart ng bawat segundo, ikalima, ikasampu, atbp. mga punto ng serye ng oras. Ang pamamaraang ito ay nagpapanatili ng pare-parehong pagtingin sa serye at kapaki-pakinabang para sa pagtukoy ng trend. Sa pagsasagawa, ang isang kumbinasyon ng parehong mga pamamaraan: paghahati ng serye sa mga bahagi at pagnipis ay kapaki-pakinabang, dahil pinapayagan ka nitong matukoy ang mga tampok ng pag-uugali ng serye ng oras.

Ang isa pang problema kapag ang pagpaparami ng mga graph ay nilikha ni mga emisyon ay mga obserbasyon na ilang beses na mas malaki kaysa sa karamihan ng iba pang mga halaga sa serye. Ang kanilang presensya ay humahantong din sa hindi pagkakakilanlan ng mga pagbabago sa serye ng oras, dahil awtomatikong pinipili ng programa ang sukat ng imahe upang ang lahat ng mga obserbasyon ay magkasya sa screen. Ang pagpili ng ibang sukat sa y-axis ay nag-aalis ng problemang ito, ngunit ang iba't ibang mga obserbasyon ay nananatiling wala sa screen.

Mga pantulong na tsart. Sa pagsusuri ng time series, ang mga auxiliary graph ay kadalasang ginagamit para sa mga numerical na katangian ng serye:

    isang graph ng isang sample na autocorrelation function (correlogram) na may confidence zone (tube) para sa zero autocorrelation function;

    isang plot ng sample na partial autocorrelation function na may confidence zone para sa zero partial autocorrelation function;

    tsart ng periodogram.

Ang unang dalawa sa mga graph na ito ay nagpapahintulot sa isa na hatulan ang kaugnayan (dependence) ng mga kalapit na halaga ng hanay ng oras, ginagamit ang mga ito sa pagpili ng mga parametric na modelo ng autoregression at moving average. Ang periodogram graph ay nagbibigay-daan sa iyo upang hatulan ang pagkakaroon ng mga harmonic na bahagi sa serye ng oras.

16.02.15 Viktor Gavrilov

44859 0

Ang isang serye ng oras ay isang pagkakasunud-sunod ng mga halaga na nagbabago sa paglipas ng panahon. Susubukan kong pag-usapan ang ilang simple ngunit epektibong diskarte sa pagtatrabaho sa mga ganitong pagkakasunud-sunod sa artikulong ito. Mayroong maraming mga halimbawa ng naturang data - mga quote ng pera, dami ng mga benta, mga kahilingan ng customer, data sa iba't ibang mga inilapat na agham (sosyolohiya, meteorolohiya, geology, mga obserbasyon sa pisika) at marami pa.

Ang mga serye ay isang pangkaraniwan at mahalagang anyo ng paglalarawan ng data, dahil pinapayagan kami ng mga ito na obserbahan ang buong kasaysayan ng halaga kung saan kami interesado. Nagbibigay ito sa atin ng pagkakataong hatulan ang "karaniwang" pag-uugali ng dami at ang mga paglihis mula sa gayong pag-uugali.

Ako ay nahaharap sa gawain ng pagpili ng isang set ng data kung saan posible na malinaw na ipakita ang mga tampok ng serye ng oras. Nagpasya akong gumamit ng mga internasyonal na istatistika ng trapiko ng pasahero dahil ang set ng data na ito ay medyo naglalarawan at naging medyo isang pamantayan (http://robjhyndman.com/tsdldata/data/airpass.dat , source Time Series Data Library, R. J. Hyndman). Inilalarawan ng serye ang bilang ng mga internasyonal na pasahero ng eroplano bawat buwan (sa libu-libo) mula 1949 hanggang 1960.

Dahil palagi akong nasa kamay, na mayroong isang kawili-wiling tool "" para sa pagtatrabaho sa mga hilera, gagamitin ko ito. Bago i-import ang data sa file, kailangan mong magdagdag ng isang haligi na may petsa upang ang mga halaga ay nakasalalay sa oras, at isang haligi na may pangalan ng serye para sa bawat pagmamasid. Sa ibaba makikita mo kung ano ang hitsura ng aking source file, na na-import ko sa Prognoz Platform gamit ang import wizard nang direkta mula sa tool sa pagsusuri ng serye ng oras.

Ang unang bagay na karaniwang ginagawa namin sa isang serye ng oras ay i-plot ito sa isang tsart. Binibigyang-daan ka ng Prognoz Platform na bumuo ng isang graph sa pamamagitan lamang ng pag-drag at pag-drop ng isang serye sa isang workbook.

Serye ng oras sa tsart

Ang simbolo na 'M' sa dulo ng pangalan ng serye ay nangangahulugan na ang serye ay may buwanang dinamika (ang pagitan sa pagitan ng mga obserbasyon ay isang buwan).

Mula na sa graph, makikita natin na ang serye ay nagpapakita ng dalawang tampok:

  • uso- sa aming tsart, ito ay isang pangmatagalang pagtaas sa mga naobserbahang halaga. Ito ay makikita na ang trend ay halos linear.
  • seasonality- sa graph, ito ay mga pana-panahong pagbabagu-bago sa halaga. Sa susunod na artikulo sa paksa ng serye ng oras, malalaman natin kung paano kalkulahin ang panahon.

Ang aming serye ay medyo "maayos", gayunpaman, madalas na may mga serye na, bilang karagdagan sa dalawang katangian na inilarawan sa itaas, ay nagpapakita ng isa pang bagay - ang pagkakaroon ng "ingay", i.e. random na mga pagkakaiba-iba sa isang anyo o iba pa. Ang isang halimbawa ng naturang serye ay makikita sa tsart sa ibaba. Ito ay isang sinusoidal signal na may halong random na variable.

Kapag sinusuri ang mga serye, interesado kaming tukuyin ang kanilang istraktura at suriin ang lahat ng pangunahing bahagi - trend, seasonality, ingay, at iba pang mga feature, pati na rin ang kakayahang gumawa ng mga pagtataya ng mga pagbabago sa magnitude sa mga hinaharap na panahon.

Kapag nagtatrabaho sa serye, ang pagkakaroon ng ingay ay kadalasang nagpapahirap sa pag-aralan ang istraktura ng serye. Upang ibukod ang impluwensya nito at mas mahusay na makita ang istraktura ng serye, maaari mong gamitin ang mga paraan ng pagpapakinis ng serye.

Ang pinakasimpleng paraan para sa smoothing series ay ang moving average. Ang ideya ay para sa anumang kakaibang bilang ng mga puntos sa isang serye ng pagkakasunud-sunod, palitan ang gitnang punto ng arithmetic mean ng natitirang mga puntos:

saan x i- orihinal na hilera s i- makinis na hilera.

Sa ibaba makikita mo ang resulta ng paglalapat ng algorithm na ito sa aming dalawang serye. Bilang default, iminumungkahi ng Prognoz Platform ang paggamit ng anti-aliasing na may sukat ng window na 5 puntos ( k sa aming formula sa itaas ay magiging katumbas ng 2). Mangyaring tandaan na ang smoothed signal ay hindi na apektado ng ingay, ngunit kasama ng ingay, siyempre, ang ilang mga kapaki-pakinabang na impormasyon tungkol sa dynamics ng serye ay nawawala din. Makikita rin na ang pinakinis na serye ay kulang sa una (at gayundin sa huli) k puntos. Ito ay dahil sa ang katunayan na ang smoothing ay ginanap para sa gitnang punto ng window (sa aming kaso, para sa ikatlong punto), pagkatapos kung saan ang window ay inilipat ng isang punto, at ang mga kalkulasyon ay paulit-ulit. Para sa pangalawa, random na serye, gumamit ako ng smoothing na may window na katumbas ng 30 upang mas maipakita ang istraktura ng serye, dahil ang serye ay "high-frequency", mayroong maraming mga puntos.

Ang moving average na paraan ay may ilang mga disadvantages:

  • Ang moving average ay hindi mahusay sa pagkalkula. Para sa bawat punto, ang average ay dapat na muling kalkulahin sa isang bagong paraan. Hindi namin magagamit muli ang resulta na kinakalkula para sa nakaraang punto.
  • Ang moving average ay hindi maaaring palawigin sa una at huling mga punto ng serye. Maaari itong magdulot ng problema kung interesado tayo sa eksaktong mga puntong ito.
  • Ang moving average ay hindi tinukoy sa labas ng serye at, bilang resulta, ay hindi magagamit para sa pagtataya.

Exponential Smoothing

Ang isang mas advanced na paraan ng pagpapakinis na maaari ding gamitin para sa hula ay ang exponential smoothing, na kung minsan ay tinatawag ding Holt-Winters na pamamaraan pagkatapos ng mga pangalan ng mga lumikha nito.

Mayroong ilang mga variant ng pamamaraang ito:

  • single smoothing para sa mga serye na walang uso at seasonality;
  • double smoothing para sa mga serye na may uso ngunit walang seasonality;
  • triple smoothing para sa mga serye na parehong may trend at seasonality.

Kinakalkula ng exponential smoothing method ang mga value ng smoothed series sa pamamagitan ng pag-update ng mga value na kinakalkula sa nakaraang hakbang gamit ang impormasyon mula sa kasalukuyang hakbang. Ang impormasyon mula sa nakaraan at kasalukuyang mga hakbang ay kinuha gamit ang iba't ibang mga timbang na maaaring kontrolin.

Sa pinakasimpleng bersyon ng single smoothing, ang ratio ay:

Parameter α tinutukoy ang ratio sa pagitan ng hindi na-smooth na halaga sa kasalukuyang hakbang at ang pinakinis na halaga mula sa nakaraang hakbang. Sa α =1 kukunin lang natin ang mga puntos ng orihinal na serye, i.e. walang magiging smoothing. Sa α =0 series, kukuha lang kami ng mga smoothed value mula sa mga nakaraang hakbang, i.e. ang serye ay magiging pare-pareho.

Upang maunawaan kung bakit tinatawag na exponential ang smoothing, kailangan nating palawakin ang ugnayan nang recursively:

Ito ay makikita mula sa kaugnayan na ang lahat ng nakaraang mga halaga ng serye ay nag-aambag sa kasalukuyang smoothed na halaga, gayunpaman, ang kanilang kontribusyon ay kumukupas nang husto dahil sa paglaki ng antas ng parameter. α .

Gayunpaman, kung may trend sa data, ang isang simpleng pag-smoothing ay "mahuhuli" nito (o kakailanganin mong kumuha ng mga halaga α malapit sa 1, ngunit pagkatapos ay hindi sapat ang pagpapakinis). Kailangan mong gumamit ng double exponential smoothing.

Gumagamit na ng dalawang equation ang double smoothing - sinusuri ng isang equation ang trend bilang pagkakaiba sa pagitan ng kasalukuyan at dating smoothed na value, pagkatapos ay pinapakinis ang trend gamit ang simpleng smoothing. Ang pangalawang equation ay nagsasagawa ng pagpapakinis tulad ng sa simpleng kaso, ngunit ang pangalawang termino ay gumagamit ng kabuuan ng nakaraang pinakinis na halaga at ang trend.

Kasama sa triple smoothing ang isa pang bahagi, seasonality, at gumagamit ng isa pang equation. Kasabay nito, ang dalawang variant ng seasonal component ay nakikilala - additive at multiplicative. Sa unang kaso, ang amplitude ng seasonal na bahagi ay pare-pareho at hindi nakadepende sa base amplitude ng serye sa paglipas ng panahon. Sa pangalawang kaso, nagbabago ang amplitude kasama ang pagbabago sa base amplitude ng serye. Ito lamang ang aming kaso, tulad ng makikita mula sa graph. Habang lumalaki ang serye, tumataas ang amplitude ng mga seasonal fluctuation.

Dahil ang aming unang serye ay may parehong trend at seasonality, nagpasya akong ayusin ang triple smoothing parameter para dito. Sa Prognoz Platform, ito ay medyo madaling gawin, dahil kapag ang halaga ng parameter ay na-update, ang platform ay agad na nagre-redraw ng graph ng smoothed na serye, at makikita mo kaagad kung gaano kahusay ang paglalarawan sa aming orihinal na serye. Nanirahan ako sa mga sumusunod na halaga:

Kung paano ko kinakalkula ang panahon, titingnan natin sa susunod na artikulo sa serye ng oras.

Karaniwan, ang mga halaga sa pagitan ng 0.2 at 0.4 ay maaaring ituring bilang mga unang pagtatantya. Gumagamit din ang Prognoz Platform ng isang modelo na may karagdagang parameter ɸ , na nagpapahina sa trend upang ito ay lumalapit sa isang pare-pareho sa hinaharap. Para sa ɸ Kinuha ko ang halaga 1, na tumutugma sa karaniwang modelo.

Gumawa din ako ng isang pagtataya ng mga halaga ng serye sa pamamagitan ng pamamaraang ito para sa huling 2 taon. Sa figure sa ibaba, minarkahan ko ang panimulang punto ng forecast sa pamamagitan ng pagguhit ng isang linya sa pamamagitan nito. Tulad ng nakikita mo, ang orihinal na serye at ang pinakinis ay nag-tutugma nang maayos, kasama ang panahon ng pagtataya - hindi masama para sa gayong simpleng pamamaraan!

Pinapayagan ka rin ng Prognoz Platform na awtomatikong piliin ang pinakamainam na mga halaga ng parameter gamit ang isang sistematikong paghahanap sa espasyo ng mga halaga ng parameter at pagliit ng kabuuan ng mga squared deviations ng smoothed series mula sa orihinal.

Ang mga pamamaraan na inilarawan ay medyo simple, madaling ilapat, at isang magandang panimulang punto para sa pagsusuri ng istraktura at pagtataya ng serye ng oras.

Magbasa pa tungkol sa time series sa susunod na artikulo.

Mga uri at pamamaraan ng pagsusuri ng serye ng oras

Ang isang serye ng oras ay isang koleksyon ng mga sunud-sunod na pagsukat ng isang variable na isinasagawa sa parehong mga agwat ng oras. Binibigyang-daan ka ng pagsusuri ng serye ng oras na malutas ang mga sumusunod na problema:

  • galugarin ang istraktura ng serye ng oras, na karaniwang may kasamang trend - mga regular na pagbabago sa average na antas, pati na rin ang mga random na pana-panahong pagbabagu-bago;
  • tuklasin ang mga ugnayang sanhi-at-epekto sa pagitan ng mga prosesong tumutukoy sa mga pagbabago sa serye, na nagpapakita ng kanilang mga sarili sa mga ugnayan sa pagitan ng serye ng oras;
  • bumuo ng isang matematikal na modelo ng proseso na kinakatawan ng isang serye ng oras;
  • baguhin ang serye ng oras sa pamamagitan ng pagpapakinis at pagsala;
  • hulaan ang hinaharap na pag-unlad ng proseso.

Ang isang makabuluhang bahagi ng mga kilalang pamamaraan ay inilaan para sa pagsusuri ng mga nakatigil na proseso, ang mga istatistikal na katangian kung saan, na nailalarawan sa pamamagitan ng isang normal na pamamahagi ng ibig sabihin ng halaga at pagkakaiba, ay pare-pareho at hindi nagbabago sa paglipas ng panahon.

Ngunit ang serye ay madalas na may hindi nakatigil na karakter. Ang hindi pagkatigil ay maaaring alisin tulad ng sumusunod:

  • ibawas ang trend, i.e. mga pagbabago sa mean value, na kinakatawan ng ilang deterministic na function, na maaaring mapili sa pamamagitan ng regression analysis;
  • magsagawa ng pagsala gamit ang isang espesyal na hindi nakatigil na filter.

Upang gawing pamantayan ang serye ng oras para sa pagkakapareho ng mga pamamaraan

pagsusuri, ipinapayong isagawa ang kanilang pangkalahatan o pana-panahong pagsentro sa pamamagitan ng paghahati sa average na halaga, pati na rin ang normalisasyon sa pamamagitan ng paghahati sa karaniwang paglihis.

Ang pagsentro sa serye ay nag-aalis ng non-zero mean, na maaaring maging mahirap na bigyang-kahulugan ang mga resulta, halimbawa, sa spectral analysis. Ang layunin ng normalisasyon ay upang maiwasan ang mga operasyon na may malalaking numero sa mga kalkulasyon, na maaaring humantong sa pagbaba sa katumpakan ng mga kalkulasyon.

Matapos ang mga paunang pagbabagong ito ng serye ng oras, ang modelo ng matematika nito ay maaaring itayo, ayon sa kung saan isinasagawa ang pagtataya, i.e. nakuha ang ilang pagpapatuloy ng serye ng oras.

Upang ang resulta ng pagtataya ay maihambing sa orihinal na data, kinakailangan na magsagawa ng mga pagbabagong-anyo dito na baligtad sa mga ginawa.

Sa pagsasagawa, ang mga pamamaraan ng pagmomodelo at pagtataya ay kadalasang ginagamit, at ang ugnayan at spectral na pagsusuri ay itinuturing bilang mga pantulong na pamamaraan. Isa itong maling akala. Ginagawang posible ng mga pamamaraan para sa paghula sa pagbuo ng mga karaniwang trend na makakuha ng mga pagtatantya na may mga makabuluhang error, na ginagawang napakahirap hulaan ang mga hinaharap na halaga ng isang variable na kinakatawan ng isang serye ng oras.

Ginagawang posible ng mga pamamaraan ng ugnayan at spectral analysis na ipakita ang iba't ibang, kabilang ang inertial, mga katangian ng system kung saan umuunlad ang mga prosesong pinag-aaralan. Ang paggamit ng mga pamamaraang ito ay ginagawang posible na magtatag nang may sapat na katiyakan, batay sa kasalukuyang dinamika ng mga proseso, kung paano at sa anong pagkaantala, ang kilalang dinamika ay makakaapekto sa hinaharap na pag-unlad ng mga proseso. Para sa pangmatagalang pagtataya, ang mga ganitong uri ng pagsusuri ay nagbibigay ng mahahalagang resulta.

Pagsusuri at pagtataya ng trend

Ang pagtatasa ng trend ay idinisenyo upang pag-aralan ang mga pagbabago sa average na halaga ng isang serye ng oras sa pagbuo ng isang modelo ng matematika ng trend at pagtataya sa batayan na ito ng mga hinaharap na halaga ng serye. Ginagawa ang pagsusuri sa trend sa pamamagitan ng pagbuo ng mga simpleng linear o non-linear na modelo ng regression.

Ang paunang data na ginamit ay dalawang variable, ang isa ay ang halaga ng parameter ng oras, at ang isa ay ang aktwal na halaga ng serye ng oras. Sa panahon ng pagsusuri, maaari mong:

  • subukan ang ilang mathematical na modelo ng trend at piliin ang isa na naglalarawan sa dynamics ng pagbabago ng serye na may higit na katumpakan;
  • bumuo ng isang pagtataya ng pag-uugali sa hinaharap ng serye ng oras batay sa napiling modelo ng trend na may isang tiyak na antas ng kumpiyansa;
  • alisin ang takbo mula sa serye ng oras upang matiyak ang pagkatigil nito, na kinakailangan para sa ugnayan at parang multo na pagsusuri, para dito, pagkatapos kalkulahin ang modelo ng regression, kinakailangang i-save ang mga nalalabi para sa pagsusuri.

Ang iba't ibang mga function at kumbinasyon ay ginagamit bilang mga modelo ng trend, pati na rin ang serye ng kapangyarihan, kung minsan ay tinatawag polynomial na mga modelo. Ang mga modelo ng serye ng Fourier ay nagbibigay ng pinakamataas na katumpakan, ngunit hindi maraming mga istatistikal na pakete ang nagpapahintulot sa paggamit ng mga naturang modelo.

Ilarawan natin ang derivation ng isang series trend model. Gumagamit kami ng serye ng data sa gross national product ng US para sa panahon ng 1929-1978. sa kasalukuyang mga presyo. Bumuo tayo ng polynomial regression model. Ang katumpakan ng modelo ay tumaas hanggang ang antas ng polynomial ay umabot sa ikalima:

Y = 145.6 - 35.67 * + 4.59 * 2 - 0.189 * 3 + 0.00353x 4 + 0.000024 * 5,

(14,9) (5,73) (0,68) (0,033) (0,00072) (0,0000056)

saan ikaw - GNP, bilyong dolyar;

* - mga taon na binibilang mula sa unang taon ng 1929;

sa ibaba ng mga coefficient ay ang kanilang mga karaniwang error.

Ang mga karaniwang error ng mga coefficient ng modelo ay maliit at hindi umabot sa mga halaga na katumbas ng kalahati ng mga halaga ng mga coefficient ng modelo. Ipinapahiwatig nito ang magandang kalidad ng modelo.

Ang koepisyent ng pagpapasiya ng modelo, katumbas ng parisukat ng pinababang maramihang koepisyent ng ugnayan, ay 99%. Nangangahulugan ito na ipinapaliwanag ng modelo ang 99% ng data. Ang karaniwang error ng modelo ay naging 14.7 bilyon, at ang antas ng kahalagahan ng null hypothesis - ang hypothesis ng kawalan ng koneksyon - ay mas mababa sa 0.1%.

Sa tulong ng nakuha na modelo, posible na magbigay ng isang pagtataya, na kung ihahambing sa aktwal na data, ay ibinibigay sa Talahanayan. PZ. isa.

Pagtataya at aktwal na US GNP, bilyong dolyar

Talahanayan PZ.1

Ang forecast na nakuha gamit ang polynomial model ay hindi masyadong tumpak, bilang ebidensya ng data sa talahanayan.

Pagsusuri ng ugnayan

Ang pagsusuri ng ugnayan ay kinakailangan upang matukoy ang mga ugnayan at ang kanilang mga lags - mga pagkaantala sa kanilang periodicity. Ang komunikasyon sa isang proseso ay tinatawag autocorrelation, at ang relasyon sa pagitan ng dalawang proseso na nailalarawan sa pamamagitan ng serye - cross-correlations. Ang isang mataas na antas ng ugnayan ay maaaring magsilbi bilang isang tagapagpahiwatig ng mga ugnayang sanhi, mga pakikipag-ugnayan sa loob ng isang proseso, sa pagitan ng dalawang proseso, at ang laki ng lag ay nagpapahiwatig ng pagkaantala ng oras sa paghahatid ng pakikipag-ugnayan.

Karaniwan, sa proseso ng pagkalkula ng mga halaga ng pag-andar ng ugnayan sa Upang-ika-hakbang na kinakalkula ang ugnayan sa pagitan ng mga variable sa haba ng segment / = 1,..., (n - k) unang hilera X at segment / = Upang,..., P ikalawang hanay K Ang haba ng mga segment ay nagbabago.

Bilang resulta, nakakakuha kami ng ilang halaga na mahirap para sa praktikal na interpretasyon, na kahawig ng parametric correlation coefficient, ngunit hindi katulad nito. Samakatuwid, ang mga posibilidad ng pagsusuri ng ugnayan, ang pamamaraan na ginagamit sa maraming mga pakete ng istatistika, ay limitado sa isang makitid na bilog ng mga klase ng serye ng oras, na hindi pangkaraniwan para sa karamihan ng mga prosesong pang-ekonomiya.

Ang mga ekonomista sa pagsusuri ng ugnayan ay interesado sa pag-aaral ng mga lags sa paghahatid ng impluwensya mula sa isang proseso patungo sa isa pa, o ang impluwensya ng isang paunang kaguluhan sa kasunod na pag-unlad ng parehong proseso. Upang malutas ang mga naturang problema, ang isang pagbabago ng kilalang pamamaraan ay iminungkahi, na tinatawag ugnayan sa pagitan".

Kulaichev A.P. Mga pamamaraan at tool para sa pagsusuri ng data sa kapaligiran ng Windows. - M.: Informatics at mga kompyuter, 2003.

Ang interval correlation function ay isang sequence ng correlation coefficients na kinakalkula sa pagitan ng isang nakapirming segment ng unang row ng isang partikular na laki at posisyon at mga segment ng pangalawang row na pantay sa laki, na pinili na may sunud-sunod na mga shift mula sa simula ng serye.

Dalawang bagong parameter ang idinagdag sa kahulugan: ang haba ng inilipat na fragment ng serye at ang paunang posisyon nito, at ang kahulugan ng koepisyent ng ugnayan ng Pearson na tinatanggap sa mga istatistika ng matematika ay ginagamit din. Salamat dito, ang mga kinakalkula na halaga ay nagiging maihahambing sa bawat isa at madaling bigyang-kahulugan.

Karaniwan, upang magsagawa ng pagsusuri, kinakailangan na pumili ng isa o, ayon sa pagkakabanggit, dalawang variable para sa autocorrelation o cross-correlation analysis, pati na rin itakda ang mga sumusunod na parameter:

Ang dimensyon ng hakbang ng oras ng sinuri na serye para sa pagtutugma

mga resulta na may totoong timeline;

Ang haba ng inilipat na fragment ng unang hilera, bilang isang numerong kasama sa

mga elemento nito ng isang serye;

Ang paglilipat ng fragment na ito na nauugnay sa simula ng serye.

Siyempre, kinakailangang piliin ang opsyon ng interval correlation o iba pang correlation function.

Kung ang isang variable ay pinili para sa pagsusuri, pagkatapos ay ang mga halaga ng autocorrelation function ay kinakalkula para sa sunud-sunod na pagtaas ng mga lags. Ginagawang posible ng autocorrelation function na matukoy kung hanggang saan ang dynamics ng isang partikular na pagbabago ng fragment ay na-reproduce sa mga time-shifted na segment nito.

Kung ang dalawang variable ay pinili para sa pagsusuri, kung gayon ang mga halaga ng cross-correlation function ay kinakalkula para sa sunud-sunod na pagtaas ng mga lags - mga paglilipat ng pangalawa ng mga napiling variable na nauugnay sa una. Ang cross-correlation function ay nagbibigay-daan sa iyo upang matukoy kung hanggang saan ang mga pagbabago sa fragment ng unang hilera ay muling ginawa sa mga time-shifted na mga fragment ng pangalawang hilera.

Ang mga resulta ng pagsusuri ay dapat magsama ng mga pagtatantya ng kritikal na halaga ng koepisyent ng ugnayan g 0 para sa hypothesis "g 0= 0" sa isang tiyak na antas ng kahalagahan. Nagbibigay-daan ito sa amin na huwag pansinin ang hindi gaanong istatistikal na mga koepisyent ng ugnayan. Ito ay kinakailangan upang makuha ang mga halaga ng pag-andar ng ugnayan na nagpapahiwatig ng mga lags. Ang mga graph ng auto- o cross-correlation na mga function ay lubhang kapaki-pakinabang at nakikita.

Ilarawan natin ang aplikasyon ng pagsusuri ng cross-correlation na may isang halimbawa. Tantyahin natin ang kaugnayan sa pagitan ng mga rate ng paglago ng GNP ng USA at USSR sa loob ng 60 taon mula 1930 hanggang 1979. Upang makuha ang mga katangian ng mga pangmatagalang uso, ang inilipat na fragment ng serye ay pinili na may haba na 25 taon. Bilang isang resulta, ang mga coefficient ng ugnayan ay nakuha para sa iba't ibang mga lags.

Ang tanging lag kung saan makabuluhan ang ugnayan ay 28 taon. Ang koepisyent ng ugnayan para sa lag na ito ay 0.67, habang ang threshold, pinakamababang halaga ay 0.36. Lumalabas na ang cyclical na kalikasan ng pangmatagalang pag-unlad ng ekonomiya ng USSR na may lag na 28 taon ay malapit na nauugnay sa cyclical na kalikasan ng pangmatagalang pag-unlad ng ekonomiya ng US.

Spectral analysis

Ang isang karaniwang paraan upang pag-aralan ang istruktura ng nakatigil na serye ng oras ay ang paggamit ng discrete Fourier transform upang tantiyahin ang spectral density o spectrum ng serye. Maaaring ilapat ang pamamaraang ito:

  • upang makakuha ng mga mapaglarawang istatistika ng isang serye ng oras o mga istatistika ng mapaglarawang dependency sa pagitan ng dalawang serye ng panahon;
  • upang ipakita ang pana-panahon at mala-periodic na mga katangian ng serye;
  • upang suriin ang kasapatan ng mga modelo na binuo ng iba pang mga pamamaraan;
  • para sa isang naka-compress na representasyon ng data;
  • upang i-interpolate ang dynamics ng time series.

Ang katumpakan ng mga pagtatantya ng spectral analysis ay maaaring mapabuti sa pamamagitan ng paggamit ng mga espesyal na pamamaraan - ang paggamit ng mga smoothing window at mga paraan ng pag-average.

Para sa pagsusuri, dapat pumili ng isa o dalawang variable, at dapat itakda ang mga sumusunod na parameter:

  • ang dimensyon ng hakbang ng oras ng nasuri na serye, kinakailangan upang itugma ang mga resulta sa real time at frequency scale;
  • haba Upang ang nasuri na bahagi ng serye ng oras, sa anyo ng bilang ng data na kasama dito;
  • shift ng susunod na segment ng row sa 0 may kaugnayan sa nauna;
  • uri ng smoothing time window para sa pagsugpo sa spectrum ng tinatawag na epekto ng pagtagas ng kuryente;
  • uri ng pag-average ng mga tugon sa dalas na kinakalkula sa magkakasunod na mga segment ng serye ng oras.

Kasama sa mga resulta ng pagsusuri ang mga spectrograms - ang mga halaga ng mga katangian ng amplitude-frequency spectrum at ang mga halaga ng mga katangian ng phase-frequency. Sa kaso ng pagsusuri sa cross-spectrum, ang mga resulta ay ang mga halaga din ng function ng paglipat at ang function ng pagkakaugnay ng spectrum. Ang mga resulta ng pagsusuri ay maaari ding magsama ng data ng periodogram.

Ang katangian ng amplitude-frequency ng cross spectrum, na tinatawag ding cross-spectral density, ay kumakatawan sa dependence ng amplitude ng mutual spectrum ng dalawang interrelated na proseso sa frequency. Ang ganitong katangian ay malinaw na nagpapakita sa kung anong mga frequency na kasabay at katumbas ng magnitude na pagbabago sa kapangyarihan ang sinusunod sa dalawang nasuri na serye ng oras o kung saan matatagpuan ang mga lugar ng kanilang pinakamataas na coincidences at maximum mismatches.

Ilarawan natin ang aplikasyon ng spectral analysis na may isang halimbawa. Suriin natin ang mga alon ng economic conjuncture sa Europa sa simula ng pag-unlad ng industriya. Para sa pagsusuri, gumagamit kami ng hindi maayos na serye ng oras ng mga indeks ng presyo ng trigo na na-average ng Beveridge ayon sa data mula sa 40 European market sa loob ng 370 taon mula 1500 hanggang 1869. Nakukuha namin ang spectra

serye at mga indibidwal na segment nito na tumatagal ng 100 taon bawat 25 taon.

Ginagawang posible ng pagsusuri ng spectral na matantya ang kapangyarihan ng bawat harmonic ng spectrum. Ang pinakamalakas ay mga alon na may 50-taong panahon, na, gaya ng nalalaman, ay natuklasan ni N. Kondratiev 1 at natanggap ang kanyang pangalan. Ang pagsusuri ay nagpapahintulot sa amin na itatag na hindi sila nabuo sa pagtatapos ng ika-17 - simula ng ika-19 na siglo, gaya ng pinaniniwalaan ng maraming ekonomista. Nabuo sila mula 1725 hanggang 1775.

Pagbuo ng autoregressive at pinagsamang moving average na mga modelo ( ARIMA) itinuturing na kapaki-pakinabang para sa paglalarawan at paghula ng nakatigil na serye ng oras at hindi nakatigil na serye na nagpapakita ng magkakatulad na pagbabagu-bago sa paligid ng nagbabagong mean.

Mga modelo ARIMA ay mga kumbinasyon ng dalawang modelo: autoregression (AR) at moving average (moving average - MA).

Moving average na mga modelo (MA) kumakatawan sa isang nakatigil na proseso bilang isang linear na kumbinasyon ng mga sunud-sunod na halaga ng tinatawag na "white noise". Ang ganitong mga modelo ay naging kapaki-pakinabang kapwa bilang mga independiyenteng paglalarawan ng mga nakatigil na proseso at bilang karagdagan sa mga autoregressive na modelo para sa isang mas detalyadong paglalarawan ng sangkap ng ingay.

Algorithm para sa pagkalkula ng mga parameter ng modelo MA ay napaka-sensitibo sa maling pagpili ng bilang ng mga parameter para sa isang partikular na serye ng oras, lalo na sa direksyon ng kanilang pagtaas, na maaaring ipahayag sa kakulangan ng convergence ng mga kalkulasyon. Inirerekomenda na huwag pumili ng isang moving average na modelo na may malaking bilang ng mga parameter sa mga unang yugto ng pagsusuri.

Preliminary assessment - ang unang yugto ng pagsusuri gamit ang modelo ARIMA. Ang proseso ng pre-ebalwasyon ay tinapos sa pagtanggap ng hypothesis tungkol sa kasapatan ng modelo sa serye ng oras o sa pagkaubos ng pinapayagang bilang ng mga parameter. Bilang resulta, ang mga resulta ng pagsusuri ay kinabibilangan ng:

  • mga halaga ng mga parameter ng autoregressive na modelo at ang moving average na modelo;
  • para sa bawat hakbang sa pagtataya, ang mga sumusunod ay ipinahiwatig - ang average na halaga ng forecast, ang karaniwang error ng forecast, ang confidence interval ng forecast para sa isang tiyak na antas ng kahalagahan;
  • mga istatistika para sa pagtatasa ng antas ng kahalagahan ng hypothesis, hindi nauugnay na mga nalalabi;
  • mga plot ng time series na nagpapakita ng karaniwang error ng forecast.
  • Ang isang mahalagang bahagi ng mga materyales ng seksyon ng PP ay batay sa mga probisyon ng mga aklat: Basovsky L.E. Pagtataya at pagpaplano sa mga kondisyon ng merkado. - M.: INFRA-M, 2008. Gilmour R. Inilapat na teorya ng sakuna: Sa 2 aklat. Aklat. 1/ Per. mula sa Ingles. M.: Mir, 1984.
  • Jean Baptiste Joseph Fourier (Jean Baptiste Joseph Fourier; 1768-1830) - French mathematician at physicist.
  • Nikolai Dmitrievich Kondratiev (1892-1938) - ekonomista ng Russia at Sobyet.

TIME SERIES ANALYSIS


PANIMULA

CHAPTER 1. TIME SERIES ANALYSIS

1.1 TIME SERIES AT ANG MGA PANGUNAHING ELEMENTO NITO

1.2 AUTOCORRELATION NG MGA LEVEL NG TIME SERIES AT PAGBUBUO NG ISTRUKTURA NITO

1.3 PAGMOMODEL NG TREND SA ISANG TIME SERIES

1.4 LEAST SQUARE

1.5 PAG-LINEARIZ NG TREND EQUATION

1.6 EBALWASYON NG MGA PARAMETER NG REGRESSION EQUATION

1.7 ADDITIVE AT MULTIPLICATIVE TIME SERIES MODELS

1.8 STATIONARY TIME SERIES

1.9 PAGLALAPAT NG FFT SA ISANG STATIONARY TIME SERIES

1.10 AUTOCORRELATION NG PANATILI. DURBIN-WATSON CRITERION

Panimula

Sa halos lahat ng larangan ay may mga phenomena na kawili-wili at mahalagang pag-aralan sa kanilang pag-unlad at pagbabago sa paglipas ng panahon. Sa pang-araw-araw na buhay, halimbawa, ang mga kondisyon ng meteorolohiko, ang mga presyo ng isang partikular na produkto, ilang mga katangian ng estado ng kalusugan ng isang indibidwal, atbp., ay maaaring maging interesado. Lahat sila ay nagbabago sa paglipas ng panahon. Sa paglipas ng panahon, ang aktibidad ng negosyo, ang paraan ng daloy ng isang partikular na proseso ng produksyon, ang lalim ng pagtulog ng isang tao, at ang pang-unawa ng isang programa sa telebisyon ay nagbabago. Ang hanay ng mga sukat ng alinmang katangian ng ganitong uri sa isang tiyak na tagal ng panahon ay serye ng oras.

Ang kabuuan ng mga umiiral na pamamaraan para sa pagsusuri ng naturang serye ng mga obserbasyon ay tinatawag pagsusuri ng serye ng oras.

Ang pangunahing tampok na nagpapakilala sa pagsusuri ng serye ng oras mula sa iba pang mga uri ng pagsusuri sa istatistika ay ang kahalagahan ng pagkakasunud-sunod kung saan ginawa ang mga obserbasyon. Kung sa maraming mga problema ang mga obserbasyon ay independyente sa istatistika, kung gayon sa mga serye ng oras sila ay karaniwang umaasa, at ang likas na katangian ng pag-asa na ito ay maaaring matukoy ng posisyon ng mga obserbasyon sa pagkakasunud-sunod. Ang likas na katangian ng serye at ang istraktura ng proseso na bumubuo sa serye ay maaaring matukoy ang pagkakasunud-sunod kung saan nabuo ang pagkakasunud-sunod.

Target Ang gawain ay binubuo sa pagkuha ng isang modelo para sa isang discrete time series sa domain ng oras, na may pinakamataas na pagiging simple at isang minimum na bilang ng mga parameter at, sa parehong oras, ay sapat na naglalarawan sa mga obserbasyon.

Ang pagkuha ng gayong modelo ay mahalaga para sa mga sumusunod na dahilan:

1) makakatulong ito upang maunawaan ang likas na katangian ng sistema ng pagbuo ng serye ng oras;

2) pamahalaan ang proseso na bumubuo ng serye;

3) maaari itong magamit para sa pinakamainam na pagtataya ng mga hinaharap na halaga ng serye ng oras;

Ang serye ng oras ay pinakamahusay na inilarawan hindi nakatigil na mga modelo kung saan ang mga uso at iba pang pseudo-steady na katangian, na posibleng nagbabago sa paglipas ng panahon, ay itinuturing na istatistika sa halip na mga deterministikong phenomena. Bilang karagdagan, ang mga serye ng oras na nauugnay sa ekonomiya ay kadalasang may kapansin-pansin pana-panahon, o panaka-nakang, mga bahagi; ang mga bahaging ito ay maaaring magbago sa paglipas ng panahon at dapat na inilarawan ng mga cyclic na istatistika (posibleng hindi nakatigil) na mga modelo.

Hayaang ang naobserbahang serye ng oras ay y 1 , y 2 , . . ., y n . Mauunawaan natin ang notasyong ito sa sumusunod na paraan. Mayroong mga numerong T na kumakatawan sa obserbasyon ng ilang variable sa T equidistant na mga punto sa oras. Para sa kaginhawahan, ang mga sandaling ito ay binibilang na may mga integer 1, 2, . . .,T. Ang medyo pangkalahatang mathematical (statistical o probabilistic) na modelo ay isang modelo ng form:

y t = f(t) + u t , t = 1, 2, . . ., T.

Sa modelong ito, ang naobserbahang serye ay itinuturing na kabuuan ng ilang ganap na deterministikong sequence (f(t)), na maaaring tawaging bahagi ng matematika, at isang random na sequence (u t ), na napapailalim sa ilang probabilistikong batas. (At kung minsan ang mga terminong signal at ingay ay ginagamit ayon sa pagkakabanggit para sa dalawang bahaging ito). Ang mga bahaging ito ng naobserbahang serye ay hindi napapansin; ang mga ito ay mga teoretikal na halaga. Ang eksaktong kahulugan ng agnas na ito ay nakadepende hindi lamang sa data mismo, ngunit bahagyang din sa kung ano ang ibig sabihin ng pag-uulit ng eksperimento na nagreresulta sa mga data na ito. Ang tinatawag na "frequency" na interpretasyon ay ginagamit dito. Ito ay pinaniniwalaan na, hindi bababa sa prinsipyo, posible na ulitin ang buong sitwasyon, pagkuha ng mga bagong hanay ng mga obserbasyon. Ang mga random na bahagi, bukod sa iba pang mga bagay, ay maaaring may kasamang mga error sa pagmamasid.

Sa papel na ito, isinasaalang-alang namin ang isang modelo ng serye ng oras kung saan ang isang random na sangkap ay nakapatong sa trend, na bumubuo ng isang random na nakatigil na proseso. Sa gayong modelo, ipinapalagay na ang paglipas ng panahon ay hindi nakakaapekto sa random na bahagi sa anumang paraan. Mas tiyak, ipinapalagay na ang inaasahan (iyon ay, ang average na halaga) ng random na bahagi ay magkaparehong zero, ang pagkakaiba ay medyo pare-pareho, at ang mga halaga ng u t sa iba't ibang oras ay hindi nauugnay. Kaya, ang anumang pag-asa sa oras ay kasama sa sistematikong bahagi f(t). Ang sequence f(t) ay maaaring depende sa ilang hindi kilalang coefficient at sa mga kilalang value na nagbabago sa paglipas ng panahon. Sa kasong ito, ito ay tinatawag na "regression function". Ang mga pamamaraan ng inference ng istatistika para sa mga coefficient ng isang regression function ay natagpuang kapaki-pakinabang sa maraming lugar ng mga istatistika. Ang kakaiba ng mga pamamaraan na partikular na nauugnay sa mga serye ng oras ay nakasalalay sa katotohanan na dito pinag-aaralan natin ang mga modelo kung saan ang mga nabanggit na halaga na nagbabago sa oras ay kilala na mga function ng t.


Kabanata 1. Pagsusuri ng serye ng oras

1.1 Time series at ang mga pangunahing elemento nito

Ang serye ng oras ay isang hanay ng mga halaga ng isang tagapagpahiwatig para sa ilang magkakasunod na sandali o yugto ng panahon. Ang bawat antas ng serye ng oras ay nabuo sa ilalim ng impluwensya ng isang malaking bilang ng mga kadahilanan, na maaaring may kondisyon na nahahati sa tatlong grupo:

mga salik na humuhubog sa takbo ng serye;

Mga salik na bumubuo sa cyclic fluctuation ng serye;

random na mga kadahilanan.

Sa iba't ibang kumbinasyon ng mga salik na ito sa proseso o phenomenon na pinag-aaralan, ang pagtitiwala sa mga antas ng serye sa oras ay maaaring magkaroon ng iba't ibang anyo. Una, karamihan sa mga serye ng oras ng mga tagapagpahiwatig ng ekonomiya ay may kalakaran na nagpapakilala sa pangmatagalang pinagsama-samang epekto ng maraming mga kadahilanan sa dinamika ng tagapagpahiwatig na pinag-aaralan. Malinaw na ang mga salik na ito, na kinuha nang hiwalay, ay maaaring magkaroon ng multidirectional na epekto sa indicator na pinag-aaralan. Gayunpaman, magkasama silang bumubuo ng pagtaas o pagbaba ng trend nito.

Pangalawa, ang indicator sa ilalim ng pag-aaral ay maaaring sumailalim sa cyclical fluctuations. Ang mga pagbabagong ito ay maaaring pana-panahon, dahil ang mga aktibidad ng ilang sektor ng ekonomiya at agrikultura ay nakasalalay sa oras ng taon. Sa pagkakaroon ng malalaking arrays ng data sa mahabang panahon, posibleng matukoy ang mga cyclical fluctuation na nauugnay sa pangkalahatang dynamics ng time series.

Ang ilang serye ng oras ay hindi naglalaman ng isang trend at isang paikot na bahagi, at ang bawat isa sa kanilang susunod na antas ay nabuo bilang ang kabuuan ng average na antas ng serye at ilang (positibo o negatibo) na random na bahagi.

Sa karamihan ng mga kaso, ang aktwal na antas ng isang serye ng oras ay maaaring katawanin bilang kabuuan o produkto ng trend, cycle, at mga random na bahagi. Ang isang modelo kung saan ipinakita ang serye ng oras bilang kabuuan ng mga nakalistang bahagi ay tinatawag pandagdag na modelo serye ng oras. Ang isang modelo kung saan ang serye ng oras ay kinakatawan bilang isang produkto ng mga nakalistang bahagi ay tinatawag multiplicative na modelo serye ng oras. Ang pangunahing gawain ng isang istatistikal na pag-aaral ng isang hiwalay na serye ng oras ay upang matukoy at mabilang ang bawat isa sa mga bahagi sa itaas upang magamit ang impormasyong nakuha upang mahulaan ang mga hinaharap na halaga ng serye.

1.2 Autocorrelation ng mga antas ng serye ng oras at pagkakakilanlan ng istraktura nito

Kung mayroong isang trend at cyclical fluctuations sa serye ng oras, ang mga halaga ng bawat kasunod na antas ng serye ay nakasalalay sa mga nauna. Ang pag-asa sa ugnayan sa pagitan ng magkakasunod na antas ng serye ng oras ay tinatawag autocorrelation ng mga antas ng serye.

Maaari itong masukat sa dami gamit ang isang linear na koepisyent ng ugnayan sa pagitan ng mga antas ng orihinal na serye ng oras at mga antas ng seryeng ito, na inilipat ng ilang hakbang sa oras.

Ang isa sa mga gumaganang formula para sa pagkalkula ng koepisyent ng autocorrelation ay:

(1.2.1)

Bilang isang variable x, isasaalang-alang namin ang isang serye y 2 , y 3 , … , y n ; bilang isang variable y - isang serye y 1 , y 2 , . . . ,y n – 1 . Pagkatapos ang formula sa itaas ay kukuha ng form:

(1.2.2)

Katulad nito, maaaring matukoy ng isa ang mga koepisyent ng autocorrelation ng pangalawa at mas mataas na mga order. Kaya, ang pangalawang-order na autocorrelation coefficient ay nagpapakilala sa higpit ng ugnayan sa pagitan ng mga antas y t at y t – 1 at tinutukoy ng formula

(1.2.3)

Ang bilang ng mga yugto kung saan kinakalkula ang koepisyent ng autocorrelation ay tinatawag lagom. Habang tumataas ang lag, bumababa ang bilang ng mga pares ng value na ginamit upang kalkulahin ang autocorrelation coefficient. Itinuturing ng ilang may-akda na angkop na gamitin ang panuntunan upang matiyak ang pagiging maaasahan ng istatistika ng mga koepisyent ng autocorrelation - ang maximum na lag ay hindi dapat higit sa (n/4).

Bumalik

×
Sumali sa komunidad ng koon.ru!
Sa pakikipag-ugnayan kay:
Naka-subscribe na ako sa komunidad ng koon.ru