Daha çox

Ənənə dəyərlərini bir çox regresiya modelində istifadə etmək üçün dəyişdirmək


Aspekti çoxsaylı reqressiya modelində müstəqil bir dəyişən kimi istifadə etmək istəyirəm, ancaq aspekt dəyərlərini 180-dən 360-a, onların 0-dan 180-ə bərabər olan dərəcələrini alacaq şəkildə çevirmək istərdim. ArcGIS-də bunu necə edə bilərdim yoxsa R?


Geomorfometriya və Gradient Metrics Toolbox-da mövcud olan bir neçə metodum var (Evans və digərləri, 2014). Təsvirinizdən "Lineer Aspect" və ya "Classify Aspect" alətlərinin sizin üçün işləyəcəyi kimi səslənir. Bununla birlikdə, regresiya modellərində digər transformasiyaların daha təsirli olduğunu gördüm.

Roberts & Cooper (1989) metodu açılır və son zamanlar aspektini göstərir ki, 0 şimal-şimal-şərq tərəflərini (adətən ən havalı və ən isti istiqamət) və 1 daha isti, quruducu cənub-cənub-qərb tərəflərini təmsil edir. Mərhələ (1976) çevrilmələri yamac və aspekt arasındakı qarşılıqlı təsirdir və bioqrafik bir ekoloji prosesin topoqrafik olaraq idarə olunduğunun güclü göstəriciləri olduğunu sübut etmişdir. McCune & Keon (2002) İstilik Yükü İndeksi eyni zamanda bir yamac / aspekt qarşılıqlı təsirini ifadə edir, lakin günəş izolyasiyasını təmsil etmək üçün ölçülür.

ArcGIS raster cəbrində açılma və ya "xəttləşdirmə" metodikası bunlardır:

tmp1 = Aspect (dem) tmp2 = SetNull (tmp1 <0, (450.0 - tmp1) / 57.296) tmp3 = Sin (tmp2) tmp4 = Cos (tmp2) tmp5 = FocalStatistics (tmp3, NbrRectangle (3,3, "CELL") , "SUM", "DATA") tmp6 = FocalStatistics (tmp4, NbrRectangle (3,3, "CELL"), "SUM", "DATA") tmp7 = Mod (((450 - (ATan2 (tmp5, tmp6) *) 57.296)) * 100), 36000) / 100 outRaster = Con ((tmp5 == 0) & (tmp6 == 0), - 1, tmp7)

İstinadlar

Evans JS, Oakleaf J, Cushman SA, Theobald D (2014) Səthi Qradiyent və Geomorfometrik Modelləşdirmə üçün ArcGIS Toolbox, versiya 2.0-0. Mövcuddur: http://evansmurphy.wix.com/evansspatial.

McCune, B. & D. Keon., (2002). Potensial illik birbaşa düşən radiasiya və istilik yükü indeksi üçün tənliklər. Bitki Elmləri Jurnalı. 13: 603-606.

Mərhələ, AR, (1976). Aspektin, yamacın və yaşayış mühitinin ağac böyüməsinə təsirlərinin ifadəsi. Meşə Elmi 22 (3): 457-460.

Roberts. D.W. və Cooper, S.V., (1989). Bitki örtüyünün xəritələşdirilməsi anlayışları və üsulları. Bitki örtüyünə əsaslanan torpaq təsnifatlarında: Resursların idarə olunması üçün müraciətlər. USDA Meşə Xidməti GTR INT-257, Ogden, UT, səh 90-96


SQL Serverdə birdən çox Xətti Reqressiya funksiyası

Alpha, Beta-nı hesablamaq üçün SQL Serverdə Sadə Xətti regresiya funksiyasını (https://ask.sqlservercentral.com/questions/96778/can-this-linear-regression-algorithm-for-sql-serve.html) inkişaf etdirmişəm. və yuxarı 95% və aşağı 95% kimi bəzi əlavə dəyərlər. Sadə Xətti regresiya arqumenti X və y kimi qəbul edir.

İndi y və X1, X2, X3 dəlillərini alan Çoxsaylı Linear regression SQL Server yerinə yetirməyə ehtiyac duyuram. Xn

Beləliklə Çıxış belə olacaq:

Hər kəs xahiş edirəm mənə buna nail olmaq üçün yaxşı bir yol təklif edə bilər.


Başlamaq

Anlamaq, proqnozlaşdırmaq və ya modelləşdirmək istədiyiniz dəyişəni seçmək ilk işinizdir. Bu dəyişən asılı dəyişən kimi tanınır. Uşaqlıqda obezlik, cinayət və test puanları yuxarıda göstərilən nümunələrdə modelləşdirilən asılı dəyişənlər olacaqdır.

Bundan sonra, asılı dəyişəninizi izah etməyə kömək edə biləcək amillərə qərar verməlisiniz. Bu dəyişənlər izahlı dəyişənlər kimi tanınır. Uşaqlıqdakı obezlik nümunəsində izahedici dəyişənlər gəlir, təhsil və sağlam qidaya əlçatanlıq kimi şeylər ola bilər. Mühüm məsləhətləşmə nəzəriyyəsi və mövcud ədəbiyyat ola biləcək bütün izahlı dəyişənləri müəyyənləşdirmək, mütəxəssislərlə danışmaq və daima sağlam düşüncənizə güvənmək üçün burada araşdırma aparmalısan. Öndən apardığınız ilkin araşdırma yaxşı bir model tapmaq şansınızı artıracaqdır.

Asılı dəyişən və namizəd izahlı dəyişənlər seçildikdə, analizinizi aparmağa hazırsınız. Regresiya analizinizə Ümumiləşdirilmiş Xətti Reqressiya (GLR) və ya Kəşfiyyat Reqressiyası ilə başlamağınız tövsiyə olunur, çünki bu vasitələr sizə faydalı bir model tapıb tapmadığınızı və ya hələ bir iş görməyinizi izah edən vacib diaqnostik testlər aparır.

GLR aləti, regresiya qalıqlarının xəritəsi, qrafiklər və xülasə hesabatı da daxil olmaqla bir neçə nəticə yaradır. Reqressiya qalıqları xəritəsi modelinizdəki az və çox proqnozları göstərir və bu xəritəni təhlil etmək yaxşı bir model tapmaq üçün vacib bir addımdır. Xülasə hesabatı əsasən ədədi və aşağıda göstərilən altı yoxlamadan keçərkən istifadə edəcəyiniz bütün diaqnostikaları əhatə edir.

GLR alətindən çıxan nəticəyə xülasə hesabatı, qrafiklər və qalıq xəritəsi daxildir.


Xətti əlaqələr üçün reqressiya əmsallarını şərh etmək

Reqressiya əmsalı işarəsi hər bir müstəqil dəyişən ilə asılı dəyişən arasında müsbət və ya mənfi bir əlaqənin olub olmadığını izah edir. Müsbət bir əmsal göstərir ki, müstəqil dəyişənin dəyəri artdıqca asılı dəyişənin ortalaması da artmağa meyllidir. Mənfi bir əmsal, müstəqil dəyişən artdıqca, asılı dəyişən azalmağa meylli olduğunu göstərir.

Katsayının dəyəri, dəyişənləri modeldə sabit saxlayarkən, müstəqil dəyişkəndə bir vahid dəyişikliyi verildikdə, asılı dəyişənin ortalamasının nə qədər dəyişdiyini göstərir. Digər dəyişkənləri sabit saxlamağın bu xüsusiyyəti həlledicidir, çünki hər dəyişənin təsirini digərlərindən ayrı olaraq qiymətləndirməyə imkan verir.

Statistik göstəricinizdəki əmsallar həqiqi əhali parametrlərinin qiymətləndirməsidir. Minimum dispersiyaya malik olan qərəzsiz əmsal qiymətləndirmələrini əldə etmək və p-dəyərlərinə etibar etmək üçün modeliniz OLS xətti regresiyanın yeddi klassik fərziyyəsini təmin etməlidir.

Statistlər reqressiya əmsallarını standart dəyişməmiş təsir ölçüsü hesab edirlər, çünki asılı dəyişənin təbii vahidlərini saxlayan dəyərlərdən istifadə edərək dəyişənlər arasındakı əlaqənin gücünü göstərirlər. Effekt ölçüləri, tapıntıların praktik mənada nə qədər vacib olduğunu anlamağa kömək edir. Standartlaşdırılmamış və standartlaşdırılmış effekt ölçüləri haqqında daha çox məlumat əldə etmək üçün Statistikada Təsir Ölçüləri haqqında yazımı oxuyun.


Hava keyfiyyətinin modelləşdirilməsinə baxış

Hava keyfiyyəti modelləri (AQM) müxtəlif növ hava çirklənmələrini öyrənmək üçün faydalıdır və hava çirkləndiricilərini aşkar etmək imkanı verir. Mövcud AQM-lər müxtəlif məqsədləri olan bir çox ssenaridə istifadə edilmişdir, məsələn, bəzi tədqiqat sahələrinə və xüsusi məkan vahidlərinə diqqət yetirmək. Əvvəlki AQM icmalları ümumiyyətlə AQM-lərin əmələ gətirən elementlərindən birini əhatə edir. Bu icmalda, AQM-lərin qurulması üçün mövcud metodlar, (2) müxtəlif növ məlumat dəstlərinin mövcudluğunun performansı necə təsir etdiyi və (3) ümumi qiymətləndirmə daxil olmaqla AQM-lərin qurulması üçün hər bir komponentin rolunu və aktuallığını müəyyənləşdiririk. metodlar. Məqsəddən və mövcud məlumat dəstlərindən asılı olaraq AQM qurmaq üçün məhdudiyyət və potensiallarına işarə edərək tövsiyələr təqdim edirik. Hava keyfiyyəti ilə bağlı 40-dan çox işə əsasən, havanın çirklənməsinin qiymətləndirilməsində əsas istifadə olunan metodların torpaq istifadəsi regresiyası (LUR), maşın öyrənmə və hibrid metodlar olduğu qənaətinə gəldik. Əlavə olaraq, LUR metodlarını trafik dəyişkənləri ilə birləşdirərkən ümidverici nəticələr verir, lakin kriginq və ya tərs məsafəli çəki üsullarından istifadə edildikdə, monitorinq stansiyaları tərəfindən havanın çirklənməsi məlumatlarının ölçülməsi yaxşı nəticələr əldə etmək üçün kifayətdir. Məlumat dəstləri və texniki / hesablama mənbələrinin mövcudluğu kimi məhdudiyyətləri nəzərə alaraq AQM qurmaq istəyən insanlar üçün qısa bir təlimat verməyi hədəfləyirik.

Bu abunə məzmununun önizləməsidir, təşkilatınız vasitəsilə giriş.


Nə vaxt yüksək və ya aşağı?

Bütün potensial atributlara, birləşmə səviyyələrinə və bunların birləşməsinə baxmayaraq, tarixən mübahisələr yuxarıdan aşağıya və aşağıya doğru yalnız iki varianta toplandı.

Yuxarıdan aşağıya doğru yanaşma, xülasə proqnozunu hazırlamaq üçün ən yüksək səviyyədə məlumatların məcmusundan istifadə edir və daha sonra məcmuə ilə tarixi nisbilik əsasında ayrı-ayrı maddələrə ayrılır. Bu, məcmuənin cəminə və ya tarixə sadəlövh bir proqnoz olan töhfələrinin nisbəti kimi hər hansı bir proqnozlaşdırıla bilər.

Daha çox toplanmış məlumatlar, mahiyyət etibarilə aşağı səviyyəli məlumatlardan daha az səs-küylüdür, çünki səs toplama prosesində özünü ləğv edir. Ancaq yalnız daha yüksək səviyyələrdə proqnoz vermək daha asan ola bilər və daha az səhv təmin edərsə, proqnoz keyfiyyətini aşağı sala bilər, çünki aşağı səviyyəli məlumatlardakı nümunələr itirə bilər. Yüksək səviyyəli, aşağı səviyyəli maddələrin davranışı çox korrelyasiya olunduqda və aralarındakı əlaqə sabit olduqda yaxşı işləyir. Aşağı səviyyə, məlumat seriyalarının davranışı bir-birindən çox fərqli olduqda (yəni müstəqildir) və istifadə etdiyiniz metod bu naxışları götürməkdə yaxşı olduqda ən yaxşı işə meyllidir.

Əsas problem ondan ibarətdir ki, mənalı statistik məlumat əldə etmək üçün lazım olan toplama səviyyəsi işin tələb etdiyi dəqiqliyə uyğun gəlməsin. Ayrıca, şirkətin tələblərinin bir dənəvərlik səviyyəsinə ehtiyac duymayacağını (yəni istehsal məqsədləri üçün müştəri), ancaq müəyyən müştərilərin fərqli davrana biləcəyini və ya girişin maddə / müştəri və ya daha aşağı səviyyədə olduğunu tapa bilərsiniz. Daha çox bunların bir birləşməsidir və müxtəlif səviyyəli səs-küy və siqnallarla birlikdə çoxsaylı toplama səviyyəsinə və çoxsaylı girişlərə ehtiyacınız var.


Reqressiya statistikası və çox dəyişkən regresiya modelinin qiymətləndirilməsi (modelləşdirmə üçün istifadə olunan 48 stansiya daxil olmaqla). R 2 modelin uyğunluq ölçüsü kimi xidmət edən təyini əmsalıdır adj_R 2 nümunənin ölçüsü və proqnoz dəyişkənlərinin sayı nəzərə alınmaqla təyini əmsalının məhdudlaşdırılmasını kompensasiya edən tənzimlənmiş təyini əmsalıdır və bu, asılı dəyişənin dəyişmə nisbətini (yəni illik və mövsümi orta yağıntı) dəqiq ifadə edir. ) çox dəyişkən reqressiya modeli ilə izah olunur RMSE yağışın modelləşdirilməsində proqnoz səhvini təsvir edən orta orta kvadrat səhvdir F riyaziyyat testinin dəyəridir DW Durbin-Watson statistikasının dəyəri - reqressiya analizinə əsaslanaraq qalıqlarda avtokorrelyasiya mövcudluğunu aşkar etmək üçün istifadə olunan bir test statistikası.

Reqressiya modeli haqqında

Göstərilib ki, uyğunluq dəsti bütün dəstin% 80-dən çoxunu təşkil etdikdə, tənzimlənən təyini əmsalı (adj_R 2 ) sabit qalmağa meyllidir. Beləliklə, bütün dəstin 85% -ni (48 stansiya) uyğun dəst olaraq seçmək məqsədəuyğundur (şəkil 2).


Cavablandırmaq istədiyimiz növbəti sual budur: hansı proqnozlaşdırıcılar iş məmnuniyyətini proqnozlaşdırmağa əhəmiyyətli dərəcədə kömək edir? Bizim əlaqələrimiz bütün proqnozlaşdırıcıların nəticə dəyişənləri ilə statistik olaraq əhəmiyyətli dərəcədə əlaqəli olduğunu göstərir. Bununla birlikdə, proqnozlaşdırıcıların özləri arasında da əhəmiyyətli korrelyasiya var. Yəni üst-üstə düşürlər. Bir proqnozlaşdırıcının hesab etdiyi iş məmnuniyyətindəki bəzi fərqlər digər bir proqnozlaşdırıcı tərəfindən də hesablana bilər. Əgər belədirsə, bu digər proqnozlaşdırıcı kömək edə bilməz misilsiz proqnozumuza görə.
Doğru yordayıcı seçimi tapmaq üçün fərqli yanaşmalar var. Bunlardan biri, bütün prediktorları regresiya tənliyinə bir-bir əlavə edir. 5 proqnozlaşdırıcı olduğumuz üçün bu, 5 modellə nəticələnəcəkdir. Buna görə nə baş verdiyini görək. Gedəcəyik Analyze />Regression />Linear və aşağıda göstərildiyi kimi dialoq doldurun.

The Fseçdiyimiz orward metodu o deməkdir ki, SPSS, p dəyərləri dəqiq olaraq, bu populyasiya b-katsayısının bu proqnozlaşdırıcı üçün sıfır olduğu sıfır hipotez üçün p-dəyəri olan bütün proqnozlaşdırıcılar olacaqdır. seçilmiş bəzi sabitlərdən azdır, ümumiyyətlə 0.05.
0.98 və ya daha yüksək seçilmək, ümumiyyətlə bütün proqnozlaşdırıcıların regresiya tənliyinə əlavə edilməsinə səbəb olur.
Varsayılan olaraq, SPSS yalnız proqnozlaşdırıcılarda və nəticə dəyişkənində dəyərlər itkisi olmayan hallarda istifadə edir (“siyahıda silinmə ”). Eksik dəyərlər dəyişənlərə səpilirsə, bu analiz üçün həqiqətən az məlumatın istifadə olunmasına səbəb ola bilər. Eksik dəyərləri olan hallarda cütlüklə silinmə təhlil üçün bütün itkin olmayan dəyərlərdən istifadə etməyə çalışır. İkili silinmə mübahisəsiz deyil və təsadüfi olaraq hesablama problemləri ilə nəticələnə bilər.


5. Məlumatları azaldın

Mümkün qədər çox məlumat daxil etmək cazibədar, çünki ... böyük məlumatlar! Bu səhv başlıdır. Bəli, mümkün olan bütün məlumatları toplamaq istəyirsən. Ancaq xüsusi tapşırıqları nəzərə alaraq bir verilənlər bazası hazırlayırsınızsa, məlumatları azaltmaq daha yaxşıdır.

Hədəf atributunun (proqnozlaşdırmaq istədiyiniz dəyəri) nə olduğunu bildiyiniz üçün sağlam düşüncə sizi daha da istiqamətləndirəcəkdir. Hansı dəyərlərin kritik olduğunu və hansının verilənlər bazasına daha çox ölçü və mürəkkəblik əlavə edəcəyini təxmin edə bilərsiniz.

Bu yanaşma deyilir atribut nümunəsi.

Məsələn, onlayn mağazanızda hansı müştərilərin böyük alış-veriş etməyə meylli olduğunu proqnozlaşdırmaq istəyirsiniz. Müştərilərinizin yaşı, yeri və cinsi, kredit kartı nömrələrindən daha yaxşı proqnozlaşdırıcı ola bilər. Ancaq bu da başqa bir şəkildə işləyir. Daha çox asılılığı tapmaq üçün hansı digər dəyərləri toplamalı olduğunuzu düşünün. Məsələn, sıçrayış dərəcələrini əlavə etmək, dönüşümün proqnozlaşdırılmasında dəqiqliyi artıra bilər.

Domen ekspertizasının böyük rol oynadığı nöqtə budur. Başlanğıc hekayəmizə qayıtsaq, bütün məlumat alimləri astmanın pnevmoniya ağırlaşmalarına səbəb ola biləcəyini bilmirlər. Eyni, böyük məlumat dəstlərinin azaldılması ilə işləyir. Bir ayağı səhiyyə əsaslarında, digəri isə məlumat elmində bir tək atlı işləməmisinizsə, çox güman ki, bir məlumat alimi hansının bir verilənlər bazası üçün həqiqi əhəmiyyətə malik olduğunu başa düşməkdə çətinlik çəkə bilər.

Başqa bir yanaşma deyilir rekord nümunə götürmə. Bu proqnozu daha dəqiq etmək üçün sadəcə itkin, səhv və ya daha az təmsil dəyərləri olan qeydləri (obyektləri) silməyinizi nəzərdə tutur. Bu texnika, seçilmiş bir maşın öyrənmə metodunun gözlənilən nəticələr verdiyini və ML təşəbbüsünüzün ROI-ni qiymətləndirməyiniz üçün bir model prototipinə ehtiyacınız olduqda sonrakı mərhələlərdə də istifadə edilə bilər.

Ayrıca məlumatları azalda bilərsiniz ümumiləşdirmək bütün atribut məlumatlarını birdən çox qrupa bölərək və hər qrup üçün sayını çəkərək daha geniş qeydlərə çevirin. Beş illik onlayn mağazanın mövcudluğu ilə müəyyən bir günün ən çox alınmış məhsullarını araşdırmaq əvəzinə, onları həftəlik və ya aylıq ballara toplayın. Bu, məlumatın ölçüsünü və hesablama müddətini maddi proqnoz itkiləri olmadan azaltmağa kömək edəcəkdir.


Giriş

İşin səmərəliliyini artırmaq üçün statistik modellərin istifadəsi getdikcə geniş yayılmaqdadır (Proost and Fawcett 2013). Nəticə etibarilə təşkilatlar sonrakı təhlillər üçün getdikcə daha çox məlumat qeyd edirlər (bax Katal və digərləri (2013) və ya Jordan and Mitchel (2015) bu sahədəki mövcud modelləşdirmə problemlərinin nəzərdən keçirilməsi üçün). Nəticədə ənənəvi (dərslik) statistik modellərin qurulması üçün yanaşmalar artan həcmdə məlumat üçün ümumiyyətlə mümkün deyildir. Beləliklə, bu yanaşmaların avtomatlaşdırılması zəruridir və prinsipial statistik metodların iş təcrübəsində ön planda olmağa imkan verəcəkdir.

Bizim işimiz sənaye tərəfdaşının qarşılaşdığı çətinliklərdən irəli gəlir. İşin müxtəlif hissələrində diaqnostik tətbiqetmələr, mühüm proqnozlaşdırıcıların təsirini düzəldən investisiya və ya inkişaf proqramlarına rəhbərlik etmək üçün modellərin şərh oluna biləcəyinə əsaslanır. Bu tətbiqlərdə, məs. bina səviyyəsində enerji istehlakının modelləşdirilməsi, tələbin dəqiq proqnozlaşdırılması effektiv potensial planlaşdırma və səmərəli istismar planlaşdırmasına imkan verir.

Bu yazıda tipik bir sənaye modelləşdirmə probleminin belə bir tətbiqetmə nümayəndəsinə diqqət yetiririk. Hesab etdiyimiz məlumatlar telekommunikasiya şəbəkəsi daxilində bir çox yerdən gündəlik hadisələrdən ibarətdir. Telekommunikasiya hadisələri tez-tez xarici proqnozlaşdırıcılardan, məsələn, hava dəyişkənlərindən təsirlənir. Proqnozlaşdıranlarla müşahidə olunan cavab dəyişkənləri arasındakı əlaqə çox vaxt mürəkkəb və qeyri-xətti olur və bu şəraitdə bir model üçün nəzərə alınan hadisələrin belə proqnozlaşdırıcılarının sayı onlarla və ya yüzlərlə ola bilər. Çox vaxt oxşar proqnozlaşdırıcı qruplar daxilində namizədlərin seçilməsi tələb olunur, məsələn, müəyyən bir hava dəyişkənliyinə aid çoxsaylı proqnozlaşdırıcının modelə daxil edilməsini şərh etməyə mane olur. Model qrupundan kənar maraqlı tərəflərlə modellərə inam yaratmaq üçün mütəxəssis biliklərinə zidd olmayan modellər istehsal etmək də vacibdir. Texnoloji və təşkilati dəyişikliklər səbəbiylə, modellər tez-tez yenidən düzəldilməli olur və bu da əl ilə uyğunlaşdırma modellərinin getdikcə idarəolunmaz olmasını təmin edir.

Bu səbəbdən bu kontekstdəki statistik problem, cavablar üçün seyrək və şərh edilə bilən modellərə uyğundur, verilərdəki serial korrelyasiyanı uçota alır və cavabların dəyişənləri arasında məlumat borc aldığımızı təmin edir. Bu modelləşdirmə tapşırığının minimal insan iştirakı ilə yerinə yetirilməsi lazımdır.

Cavab dəyişkənləri arasında məlumatların toplanması heç də yeni deyil. Yuxarıda göstərildiyi kimi bir çox cavab ilə məlumatların modelləşdirilməsi üçün istifadə edilə bilən bir çox metod var. Məsələn, spatiotemporal regresiya modelləri (bax, məsələn, Stroud et al. 2001) zaman və məkandakı korrelyasiyanı izah edə bilər, lakin sənaye şəraitimizdəki tətbiqlərin genişliyi üçün korrelyasiya quruluşunun spesifikasiyasında çox spesifikdir. Bir çox əlaqəli tapşırıqlar üçün bilikdən istifadə etmək üçün çoxlu tapşırıq sinir şəbəkələrində tətbiq oluna bilər (Caruana 1997 Duong et al. 2015). Bununla birlikdə, bu üsul əlavə olaraq hər bir cavab üçün fərqli təlim dəstləri və proqnozlaşdırıcıların mövcud olduğu yerlərdə daha uyğundur, sinir şəbəkələri qeyri-xətti effektləri tutmaqda təsirli ola bilər, nəticədə ortaya çıxan modelləri şərh etmək çətindir. Eynilə, azalmış dərəcə reqressiyası (Izenman 1975 Reinsel və Velu 2013), prediktorların yaxşı xətti birləşmələrini təyin etmək üçün çox cavab reqressiyasındakı çoxsaylı cavab dəyişkənləri arasındakı əlaqədən istifadə edir. Lakin bu, ideal deyildir, çünki proqnozlaşdırıcı effektlərin şərh oluna biləcəyini itirir və eyni anda birdən çox modeli uyğunlaşdırmaq istədiyimiz çox cavablı modellərə uyğundur. Bunun əksinə olaraq, regresyon mövsümi avoreqressiv inteqrasiya olunmuş hərəkətli orta (Reg-SARIMA) modellər, prediktorların cavab dəyişkənliyinə təsirlərini izah edə, müvəqqəti korrelyasiyanı tuta bilirlər və xətti təbiətlərinə görə asanlıqla izah olunurlar. Yordayıcıların qeyri-xətti təsirləri, müşahidə olunan prediktorların çevrilməsi ilə daxil edilə bilər. Modellərin seyrək olmasını təmin etmək, çox vaxt şərh oluna bilər. Beləliklə, bu cür modellər içərisində eyni zamanda proqnozlaşdırıcıların seçilməsinə diqqətimizi məhdudlaşdırırıq.

Statistik ədəbiyyatda bir iş tək dəyişkən reqressiya modellərində proqnozlaşdırma seçiminə həsr olunmuşdur, baxın, məsələn Hocking (1976), Tibshirani (1996), Zou and Hastie (2005), Bertsimas et al. (2016) və Hastie və Tibshirani (2017) və buradakı istinadlar. Hastie et al. (2008) bu metodların bir çoxunun əlçatan nəzərdən keçirilməsini təmin edir. Çox dəyişkən cavab şəraitində eyni vaxtda model qiymətləndirmənin fərdi modelləşdirmə prosedurlarına nisbətən üstünlüklərə malik olduğu göstərilmişdir (bax, məsələn, Breiman və Friedman 1997 Srivastava və Solanky 2003). Çox dəyişkən cavab modelləri üçün proqnoz seçimi Turlach və digərləri tərəfindən nəzərdən keçirilmişdir. (2005), Similia and Tikka (2007) və Simon et al. (2013).

Xatırladaq ki, sənaye şəraitimizdə proqnozlaşdırıcı qruplardan namizədləri seçmək istəyirik və potensial proqnozlaşdırıcıların sayı çoxdur, buna görə də proqnozlaşdırıcı seçiminə kombinatorial yanaşmaları nəzərdən keçirtmək təbiidir. Biz sözdə bir çox dəyişkən reaksiya tətbiqini təklif edirik ən yaxşı alt problem (Miller 2002) və Bertsimas və digərlərinin Qarışıq Tamsaylı Kvadratik Optimizasiya (MIQO) yanaşmasının ümumiləşdirilməsi yolu ilə proqnozlaşdırıcı seçimi həyata keçirin. (2016) seyrək reqressiya modellərini bütün cavablara eyni vaxtda uyğunlaşdırmaq. Bertsimas və King (2016) göstərdi ki, ikili optimallaşdırma dəyişənlərindən istifadə edərək, seçilmiş yordayıcılar üzərində əldə edilmiş modellərin arzuolunanlığına dair bəzi zəmanətlər verməklə məhdudiyyətlər qoymaq çətindir.

Orijinal MIQO formulasiyasının əhatə dairəsini, daha çox ümumi reqressiya mövsümi autoregressive inteqrasiya olunmuş hərəkətli orta (Reg-SARIMA) modelləri nəzərə alaraq cavab seriyası üçün bilinən bir serial korrelyasiya quruluşu mövcudluğunda avtomatik olaraq belə bir modeli uyğunlaşdırmaq üçün genişləndiririk və təkrarlanan bir təklif edirik. serial korrelyasiya quruluşunu öyrənmək və modeli uyğunlaşdırmaq arasında dəyişən prosedur. Reqresiya qalıqları üçün modelin daha dəqiq bir spesifikasiyasının, qabaqcadan seçmə rutininin varyansında əhəmiyyətli bir azalmaya səbəb ola biləcəyini tapırıq. Ümumiləşdirilmiş ən kiçik kvadrat hədəfindən (Rao və Toutenburg 1999) istifadə edərək, model uyğunluğu və proqnozlaşdırıcı seçim dəqiqliyini inkişaf etdirə bilərik.

Model seyrəkliyini yaxşılaşdırmaq üçün yanaşmamız ayrıca müəyyən bir proqnozlaşdırıcı ilə əlaqəli əmsalları istənildiyi təqdirdə ortaq bir dəyərə endirə bilər. Model uyğunluğu son dərəcə korrelyasiya olunmuş proqnozlaşdırıcıları daxil etməkdən çəkinən məhdudiyyətlər altında həyata keçirilə bilər ki, bu da son modellərin şərh olunmasını artırır. Beləliklə, təklif etdiyimiz yarı avtomatlaşdırılmış prosedurumuzla, bu dəyişikliyi aradan qaldırmaq üçün subyektiv əvvəlcədən işləmə addımlarını təyin etmək əvəzinə, cavab dəyişkənlərinin xüsusiyyətlərini modelləşdirərək insan girişini azaldırıq. Lazım olan yeganə istifadəçi girişi uyğun bir başlanğıc proqnozlaşdırıcı dəsti və bu dəyişənlərin potensial qeyri-xətti çevrilmələrinin seçilməsidir. Burada Hyndman və Khandakar (2008) tərəfindən qəbul edilən təkrarlanan yanaşmalar çox asanlıqla daxil edilə bilsə də, zaman seriyası modellərinin uyğun bir siyahısını əvvəlcədən təyin edərək serial korrelyasiyasını qiymətləndiririk. Tətbiqimiz yüzlərlə proqnozlaşdırıcı və çoxsaylı cavab dəyişənləri üçün hesabladığımız optimallaşdırma problemlərinin bir sıra ümumi optimallaşdırma həlli ilə həll oluna biləcəyini düşünür, bax Kronqvist et al. (2019) bu cür həllərin hərtərəfli müzakirəsi üçün.

Bu məqalə aşağıdakı kimi qurulmuşdur. Həşərat. 2, proqnozlaşdırıcı seçimi üçün müvafiq ədəbiyyatı nəzərdən keçiririk və Bertsimas və King (2016) formülasyonlarının avtomatlaşdırılmış modelləşdirmə prosedurunu inkişaf etdirmək üçün necə istifadə ediləcəyini təklif edirik. Həşərat. 3, modellərin performansını artıra biləcək çox cavablı MIQO formulamızı və uzantılarımızı təqdim edirik. Xüsusilə, məzhəb. 3.2, məlumatlarda serial korrelyasiya uçotu apararkən proqnozlaşdırma seçimini həyata keçirə bilən iki addımlı prosedurumuzu əks etdirir. Bölmə 4, simulyasiya işi ilə ədəbiyyatda yanaşmamızın standart metodlara nisbətən üstünlüklərini vurğulayır. Sektadakı motivasiyaedici bir məlumat tətbiqinə yanaşmamızı tətbiq edirik. 5 Məzhəbdə məqaləni bitirməmişdən əvvəl. 6.