Daha çox

2.5: Səhv dəyişənləri seçsəniz nə olar? - Geosciences


Alakasız bir dəyişən daxil olmaqla

Bir sahədən keçən axın kimi bir problemin ölçülü quruluşunu təhlil etmək üçün əlaqəsiz bir dəyişənin daxil edilməsinin nəticələri nə ola bilər? Tutaq ki, əslində əksinə, ancaq müzakirə məqsədi ilə (F_ {D} ) təyin edərkən viskozitenin əhəmiyyəti yoxdur. Sonra (F_ {D} ) üçün funksional əlaqə olardı

[F_ {D} = f (U, D, rho) etiket {əksinə} ]

Əvvəlki kimi, sol tərəfdə eyni ölçüsüz sürükləmə qüvvəsi (F_ {D} / rho U^{2} D^{2} ) formalaşdıraraq bu tənliyi ölçüsüz etməyə başlaya bilərsiniz. Bəs sağ tərəf necə? Üç dəyişən (U ), (D ) və ( rho ), ölçüsüz bir dəyişən yaratmaq üçün birləşdirilə bilməz, çünki məhsul istehsal etmək üçün göstəriciləri tənzimləmək üçün kifayət qədər azadlıq yoxdur (U^{a } D^{b} rho^{c} ) ölçüsüz; bu ( rho U D / mu ) əldə etmək üçün yuxarıda təsvir edilən rəsmi prosedurdan aydın olmalıdır. Sağdakı Reynolds nömrəsinin yerini nə tutur? Cavab budur ki, sağ tərəf ədədi sabit olmalıdır: müstəqil ölçüsüz dəyişən yoxdur. Beləliklə, ( mu ) bir kürədən keçən axında əhəmiyyətli olmasaydı, ölçüsüz qüvvə (F_ {D} / rho U^{2} D^{2} ) funksiyası deyil, sabit olacaq Reynolds nömrəsi. Ümumiləşdirmək üçün: bir orijinal dəyişən problemdən çıxarılırsa, bir ölçüsüz dəyişən də aradan qaldırılmalıdır. (C_ {D} ) vs ( mathrm {Re} ) qrafikində, eksperimental nöqtələr şematik olaraq göstərildiyi kimi ( mathrm {Re} ) oxuna paralel düz bir xətt boyunca düşərdi. Şəkil ( PageIndex {1} ). İndi Şəkil 2.3.1 -də (C_ {D} ) və ( mathrm {Re} ) arasındakı qrafikə yenidən baxın. (10^{2} ) ilə (10^{5} ) arasında olan (C^{D} ), Reynolds ədədindən demək olar ki, müstəqildir. ( Mu ) Reynolds nömrəsində görünən, lakin (C_ {D} ) - də görünməyən yeganə dəyişən olduğu üçün ( mu ) (F_ {D } ) böyük ölçüdə ( mathrm {Re} ). Bunun səbəbləri 3 -cü fəsildə müzakirə olunur.

(F_ {D} / rho U^{2} D^{2} ) 'nü asılı olmayan ölçüsüz dəyişən kimi istifadə etməyin nəyə görə praktiki üstünlüyünün olduğunu indi görə bilərsiniz. Yuxarıda qeyd olunan digər üçü ( mu ) ehtiva edir və buna görə də ( mu ) üçün vacib olmayan əyri seqmentinə qarşı ( rho UD / mu ) qarşı bir süjetdə üfüqi bir xətt kimi yox, meylli bir xətt kimi plan quracaqdı və ( mu ) un əhəmiyyətini tanımaq o qədər də asan olmayacaqdı.

Müvafiq Dəyişəndən imtina

Vacib bir dəyişəni buraxmağın nəticələrini də nəzərə almalısınız. Məsələn, kürəni maye olan gəminin divarından çox uzaqda saxlamaq üçün diqqətli olmasaydınız, təcrübə nöqtələrinin ətrafa dağınıq bir zolaqda qurduğunu (Şəkil ( PageIndex {2} )) görürdünüz. (C_ {D} ) - əyrisi, bu, (F_ {D} ) təyin etmək üçün başqa bir dəyişənin vacib olduğunu və istəmədən dəyişməyinizə icazə verdiyinizi bildirir - əlbəttə ki, ölçüləriniz ilk növbədə səhvlərdən azaddır. Aşkar günahkar, kürənin mərkəzinin divardan olan məsafəsi (y ) dir (Şəkil ( PageIndex {3} )), çünki kürənin möhkəm divara yaxınlığı ətrafdakı axın modelini təhrif edir. kürə və beləliklə kürədəki maye qüvvələrini müəyyən dərəcədə dəyişir. Təhlilə daxil olan (y ) ilə (F_ {D} ) üçün funksional əlaqə formadadır

[F_ {D} = f (U, D, rho, mu, y) etiket {2.7} ]

Ölçüsüzləşdirilməyən ref {2.7} tənliyində yenə solda ölçüsüz bir sürükləmə qüvvəsi və sağda Reynolds nömrəsi olmasını gözləməlisiniz. Bəs (y ) yeni dəyişəninə nə olur? Reynolds nömrəsini meydana gətirdiyiniz şəkildə daha bir müstəqil ölçüsüz dəyişən yaratmaq üçün istifadə edə bilərsiniz. Ən azı bir belə dəyişən olmalıdır, çünki (y ) tənliyin ref {2.7} qeyri -ölçülü versiyasının sağ tərəfində bir yerdə görünməlidir. Bu yeni dəyişən üçün təbii seçim (y/D ) (və ya (D/y )) dir. Bunun əvəzinə başqa bir Reynolds nömrəsi yarada bilərsiniz, ( rho U y / mu ). Ancaq ( rho UD / mu ), ( rho U y / mu ) və (y / D ) üç dəyişəndən yalnız ikisi bir -birindən asılı deyil: bir yeni müstəqil dəyişənin əlavə edilməsi problemə yalnız bir yeni müstəqil ölçüsüz dəyişən əlavə edir. Birincisini ( rho UD / mu ), yeni ölçüsüz dəyişən (y / D ). Bu, ölçüsüz dəyişənlər toplusundakı ölçüsüz bir dəyişəni başqaları ilə vurmaq və ya bölməklə və ya başqalarından birinin gücü və ya kökü ilə əmələ gələn başqa bir şeylə əvəz edə biləcəyiniz prinsipin bir nümunəsidir. Beləliklə, ölçüsüz formada ref {2.7} tənliyi o zaman olur

[ frac {F_ {D}} { rho U^{2} D^{2}} = f sol ( frac { rho UD} { mu}, frac {y} {D} sağ) etiket {2.8} ]

Ref {2.8} tənliyindəki funksiya, (C_ {D} ), ( mathrm {Re} ) və (y/D ) ilə üçölçülü bir qrafikdə əyri bir səth kimi təsvir edərdi oxlar (Şəkil ( PageIndex {4} )). Şəkildə (y/D ) oxuna dik olan iki təyyarə ( PageIndex {4} ) vacib olduğunu başa düşmədən təcrübələrinizdə (y/D ) dəyişdiyi aralığı göstərir. Bu iki təyyarə arasındakı səth seqmentinin (C_ {D} ) - ( mathrm {Re} ) müstəvisinə proyeksiyası, təcrübi nöqtələrinizin düşəcəyi bantdır. Səthin (y/D = 0 ) düzlüyü ilə kəsişməsi, proyeksiyada da göstərilir, kürəni divardan çox uzaqda saxlasaydınız, əldə edəcəyiniz əyrini təmsil edir; Şəkil 2.3.1 -dəki əyri ilə eynidir.

Cazibə qüvvəsinin cəlb edilməsi

Kürəni bir cazibə sahəsində istirahət edən bir mayenin sərbəst səthinin altında yatay olaraq hərəkət etdirərək bir addım daha irəli apara bilərsiniz (Şəkil ( PageIndex {5} )). İndi yalnız sərbəst səthin altındakı kürənin y məsafəsi deyil, həm də cazibə qüvvəsinin sürətlənməsi (g ) vacibdir: kürənin hərəkəti sərbəst səthi təhrif edərsə, balanssız cazibə qüvvələri yenidən səthi düzəltməyə meylli olar, və səthi cazibə dalğaları yarana bilər. Sonra

[F_ {D} = f (U, D, rho, mu, y, g) etiket {2.9} ]

Bu daha bir müstəqil ölçüsüz dəyişən əlavə edir və bu dəyişən (g ) daxil etməlidir. Beş ehtimal var: ( mu g / rho U^{3} ), ( rho^{2} g D^{3} / mu^{2} ), ( rho^ {2} gy^{3} / mu^{2} ), (U^{2} / g D ) və (U^{2} / gy ), üstəgəl inversiya yolu ilə əldə edilən açıq variantlar və eksponentasiya. ( (U ), ( rho ), ( mu ), (D ) və (y ) üçünü (g ) ilə birləşdirərək bunları qurmağa cəhd edə bilərsiniz. və ( mathrm {Re} ) üçün yuxarıda təsvir olunan prosedurdan keçirik. Bu müddətdə yenə (y/D ) alacaqsınız.) Bu beşdən hər hansı biri (g) təsirini ifadə etmək üçün kifayət edər. ) sürükləmə gücündə. Yenə yalnız biri müstəqildir, çünki digərlərinin hamısı o birini (hansını seçsəniz) ( rho U D / mu ) və ya (y / D ) ilə birləşdirməklə əldə edilə bilər. Əlavə edilən müstəqil dəyişən olaraq (U / (g y)^{1 /2} ) istifadə etmək, belə bir problemdə ənənəvi olardı. Ref {2.9} tənliyinin ölçüsüz forması bundan ibarətdir

[ frac {FD} { rho U^{2} D^{2}} = f sol ( frac { rho UD} { mu}, frac {U^{2}} {gy} , frac {y} {D} sağ) etiket {2.10} ]

(U^{2} / g y ) və ya (U^{2} / g D ) kimi bir dəyişkənliyin, sürət dəyişikliyi və (g ) olan bir dəyişənin kvadrat kökü a adlanır. Froude sayı, ümumiyyətlə ( mathrm {Fr} ) ilə işarə olunur. Burada (U^{2} / gy ) istifadə etmək vacib olmasa da, təbiidir, çünki o zaman funksional əlaqədəki dörd ölçüsüz dəyişənin hər biri (F_ {D} ) birləşərək əmələ gəlmiş kimi baxıla bilər. , ( mu ), (y ) və (g ) üç dəyişən ilə ( rho ), (U ) və (D ); ətraflı məlumat üçün aşağıdakı paraqrafa baxın.

Qeyd

Ref {2.10} tənliyindəki funksiya (C_ {D} ) və ( mathrm {Re} ), ( mathrm {Fr} qrafikində dördölçülü bir "səth" olaraq qurulacaq. ) və (y/D ). Belə bir qrafiki təsəvvür etmək çətindir. Yaxşı bir əvəz, müstəqil ölçüsüz dəyişənlərdən birinin dəyərlər seriyasının hər biri üçün üç ölçülü bir qrafik qurmaq olar. Problem ondadır ki, bu üçölçülü qrafiklərin sonsuz sayı çoxdur. (Bir dəfə oxuduğumu xatırlayıram ki, iki dəyişən arasındakı əlaqəni qrafik olaraq ifadə etmək üçün bir səhifəyə ehtiyacınız var və üç dəyişən arasındakı əlaqəni ifadə etmək üçün bir səhifəyə ehtiyacınız var və dörd dəyişən arasındakı əlaqəni ifadə etmək üçün bir kitab kitabxanasına ehtiyacınız var. Beş dəyişən üçün kitabxanalar dünyasına ehtiyacınız olacaq!

Birdən çox dəyişənlə işləmə

Fərz edək ki, əvvəlcə ref {2.9} tənliyindəki yeddi dəyişənin hamısının problemdə vacib olduğunu başa düşdünüz. Bir anda dörd ölçüsüz dəyişən əldə etməyin sistemli yolu, Reynolds ədədini əldə etmək üçün əvvəlki bir bölmədə təsvir edilən metodun bir uzantısıdır. Yeddi dəyişəndən üçünü ("təkrarlanan" dəyişənlər) (a ), (b ) və (c ) göstəricilərinə yüksəldilmiş və qalan dörd dəyişənin hər birini istifadə edərək dörd məhsulu formalaşdırın. öz növbəsində, (1 ) (və ya hər hansı digər sabit göstəriciyə) yüksəldilən kimi. Üç təkrarlanan dəyişən olaraq ( rho ), (U ) və (D ) seçsəniz, dörd məhsulun ( rho^{a} U^{b} olduğunu özünüz üçün təsdiqləyə bilərsiniz. D^{c} F_ {D} ), ( rho^{a} U^{b} D^{c} mu ), ( rho^{a} U^{b} D^ {c} y ) və ( rho^{a} U^{b} D^{c} g ), tənlik ref {2.10} -də dörd ölçüsüz dəyişən istehsal edərdi, istisna olmaqla (U^{ (U^{2} / gy ) yerinə 2} / g D ) görünür. Məlum olur ki, bu prosedurun işləməsi üçün üç təkrarlanan dəyişənin seçiminə qoyulan məhdudiyyətlər (1) aralarında hər üç ölçünü ehtiva etməsidir ( mathrm {M} ), ( mathrm {L} ), ( mathrm {T} ) və (2) ölçü baxımından bir -birindən müstəqildirlər, o mənada ki, bəzilərinə qaldırdıqdan sonra digər ikisinin ölçülərini çarpmaqla heç birinin ölçülərini əldə edə bilməzsiniz. eksponentlər. Bu məhdudiyyətlər yalnız həll edilə bilən eyni vaxtlı tənliklər dəsti əldə etməyinizi təmin edir.


2.5. Dəyişən adlar və açar sözlər¶

Dəyişən adlar özbaşına uzun ola bilər. Həm hərflər, həm də rəqəmlər ola bilər, ancaq hərf və ya alt xətt ilə başlamalıdırlar. Böyük hərflərdən istifadə qanuni olsa da, konvensiyaya görə etmirik. Əgər edirsinizsə, bu işin vacib olduğunu unutmayın. Bruce və bruce fərqli dəyişənlərdir.

Dəyişən adlar heç vaxt boşluq ola bilməz.

Alt xətt işarəsi (_) bir adda da görünə bilər. My_name və ya price_of_tea_in_china kimi çox sözlü adlarda tez -tez istifadə olunur. Alt xətt ilə başlayan adların xüsusi məna verdiyi bəzi vəziyyətlər var, buna görə yeni başlayanlar üçün təhlükəsiz bir qayda bütün adları hərflə başlamaqdır.

Dəyişənə qeyri -qanuni bir ad versəniz, sintaksis xətası alacaqsınız. Aşağıdakı nümunədə, dəyişən adların hər biri qanunsuzdur.

76trombones hərflə başlamadığı üçün qanunsuzdur. daha çox $ qanunsuzdur, çünki qanunsuz bir xarakter, dollar işarəsi var. Amma sinifdə nə problem var?

Məlum olur ki, sinif Python -dan biridir açar sözlər. Açar sözlər dilin sintaksis qaydalarını və quruluşunu təyin edir və dəyişən adlar kimi istifadə edilə bilməz. Python otuz bir açar sözə malikdir (və Python üçün hər dəfə təkmilləşdirmələr bir və ya ikisini təqdim edir və ya aradan qaldırır):

Bu siyahını əlinizdə saxlamaq istəyə bilərsiniz. Tərcüməçi dəyişən adlarınızdan birindən şikayət edirsə və bunun səbəbini bilmirsinizsə, bu siyahıda olub -olmadığına baxın.

Proqramçılar ümumiyyətlə dəyişənlər üçün proqramın insan oxucuları üçün mənalı olan adlar seçirlər - proqramçıya sənədin hazırlanmasına kömək edir və ya dəyişənin nədən istifadə edildiyini xatırlayırlar.

Başlayanlar bəzən "insan oxucuları üçün mənalı" ilə "kompüter üçün mənalı" ilə qarışdırırlar. Buna görə səhv bir şəkildə düşünəcəklər ki, bir dəyişən orta və ya pi adlandırdıqları üçün bir şəkildə avtomatik olaraq bir orta hesablayacaq və ya avtomatik olaraq pi dəyişənini 3.14159 dəyəri ilə əlaqələndirəcəklər. Yox! Kompüter dəyişən adlarınıza semantik məna bağlamır.

Beləliklə, yeni başlayanlar öyrədərkən qəsdən mənalı adlar seçməyən bəzi müəllimlər tapacaqsınız - bunun yaxşı bir vərdiş olmadığını düşündükləri üçün deyil, proqramçı olduğunuz mesajı gücləndirməyə çalışdıqları üçün. ortalamanı hesablamaq üçün bir proqram kodu yazmaq və ya dəyişənə olmasını istədiyiniz dəyəri vermək üçün bir tapşırıq ifadəsi yazmalısınız.

Anladığınızı yoxlayın

data-5-1: Doğru və ya Yanlış: aşağıdakılar Python-da hüquqi dəyişən addır: A_good_grade_is_A+


7 Cavab 7

Şərhimə verdiyiniz reaksiyaya əsasən:

Proqnoz axtarırsınız. Beləliklə, əmsalların əhəmiyyətinə həqiqətən etibar etməməlisiniz. Etsəniz daha yaxşı olar

  • Proqnozlaşdırma ehtiyaclarınızı ən yaxşı şəkildə izah edən bir meyar seçin (məsələn, səhv təsnifat dərəcəsi, ROC -un AUC, çəkilərlə bunların bəzi formaları.)
  • Üçün hər bir maraq modeli, bu meyarı qiymətləndirin. Bu, məsələn, bir yoxlama dəsti təmin etməklə (şanslı və ya zənginsinizsə), çarpaz yoxlama yolu ilə (adətən on qat) və ya maraq meyarınızın icazə verdiyi digər variantlarla edilə bilər. Mümkünsə, hər bir model üçün meyar SE -nin qiymətini də tapın (məsələn, çarpaz qiymətləndirmədə fərqli qıvrımlar üzərindəki dəyərlərdən istifadə etməklə)
  • İndi kriteriyanın ən yaxşı dəyəri olan modeli seçə bilərsiniz, halbuki adətən ən yaxşı dəyərdən bir SE daxilində olan ən uyğun olmayan modeli (ən az dəyişən) seçmək məsləhət görülür.

Wrt hər bir maraq modeli: burada kifayət qədər tutmaq olar. 10 potensial proqnozlaşdırıcı ilə potensial modellərin yük maşınıdır. Bunun üçün vaxtınız və ya prosessorlarınız varsa (və ya məlumatlarınız modellərin kifayət qədər sürətli uyğunlaşması və qiymətləndirilməsi üçün kifayət qədər kiçikdirsə): bir topa sahib olun. Əks təqdirdə, bu barədə savadlı təxminlər, irəli və ya geriyə modelləşdirmə ilə gedə bilərsiniz (amma əhəmiyyət əvəzinə meyarı istifadə edərək) və ya daha yaxşısı: ağlabatan modellər dəsti seçən bir alqoritmdən istifadə edin. Bunu edən bir alqoritm, cəzalı reqressiya, xüsusən də Lasso reqressiyasıdır. R istifadə edirsinizsə, sadəcə glmnet paketini qoşun və getməyə hazırsınız.

Bunun sadə cavabı yoxdur. Əhəmiyyətli olmayan izahlı dəyişənlərdən bəzilərini sildiyiniz zaman, onlarla əlaqəli olanlar əhəmiyyətli ola bilər. Burda pis bir şey yoxdur, ancaq model seçimini elmdənsə qismən də olsa sənət edir. Bu səbəbdən təcrübələr bu problemin qarşısını almaq üçün izahlı dəyişənləri ortogonal olaraq saxlamağı hədəfləyir.

Ənənəvi olaraq analitiklər modelə birdən -birə (etdiyinizə bənzər) dəyişənlərin addım -addım əlavə edilməsi və çıxarılması və onları ayrı -ayrılıqda və ya kiçik qruplar şəklində t və ya F testləri ilə sınaqdan keçirirdilər. Problem ondadır ki, onların birləşdirilmiş təsiri (və ya təsirsizliyi) kollinearlıq tərəfindən gizlədildiyi zaman çıxarmaq (və ya əlavə etmək) üçün bəzi dəyişənlərin birləşməsini qaçıra bilərsiniz.

Müasir hesablama gücü ilə bütün 2^10 = 1024 izahlı dəyişən kombinasiyalarına uyğunlaşmaq və AIC, BIC və ya proqnozlaşdırıcı güc (məsələn, dəyərləri proqnozlaşdırmaq bacarığı) kimi bir çox mümkün meyarlardan birinə görə ən yaxşı modeli seçmək mümkündür. modelinizə uyğun olaraq istifadə etdiyiniz dəstdən ayırdığınız məlumatların bir test alt kümesi). Bununla birlikdə, 1024 modelini (dolayı və ya açıq şəkildə) sınayacaqsınızsa, p -dəyərlərinizi klassik yanaşmadan yenidən düşünməlisiniz - ehtiyatla davranın.

Yalnız proqnozlaşdırılan performansla maraqlanırsınızsa, məşq nümunəsinin həddindən artıq uyğun gəlməməsi üçün bütün xüsusiyyətlərdən istifadə etmək və silsilə-reqressiyanı istifadə etmək daha yaxşıdır. Bu, əslində Millar'ın "reqressiyadakı alt qrup seçimi" monoqrafiyasının əlavəsində verilən məsləhətdir, buna görə də ağlabatan bir nəsil ilə gəlir!


Oxucu qarşılıqlı əlaqələri

Şərhlər

Salam cənab,
Cavab dəyişənləri ilə bağlı bir sualım var. Tutaq ki, 3 cavab dəyişənim var və reqressiya analizimi aparmaq üçün birini seçmək istərdim. Hər biri üçün ayrı modellər yaratmadan hansını seçməli olduğumu söyləməyin bir yolu varmı?

Başımın üst hissəsinin bir neçə mümkün yolu haqqında düşünə bilərəm.

Müəyyən bir cavab dəyişənindən istifadə etməyi təklif edən eyni mövzu sahəsindəki araşdırmalardan xəbərdar olsanız, bir cavab dəyişənini seçə bilərsiniz. Və ya müəyyən bir cavab dəyişəninin nəzəri səbəblərə görə daha çox əlaqəsi var. Başqa bir ola bilər ki, müəyyən bir cavab dəyişəninin ölçülməsi, şərh edilməsi və ya xüsusi istifadə vəziyyətinizə tətbiq edilməsi daha asandır.

Başqa sözlə, araşdırmağınızdan həqiqətən nə öyrənmək istədiyinizə, nəticələrdən necə istifadə etmək istədiyinizə, digər araşdırmaların nələr etdiyinə baxın və sonra bu faktorları ehtiva edən bir qərar verin.

Hörmətli cənab
Sualım odur ki, X deyilən bir dep dəyişənim və bəzi nəzarət dəyişənləri olan Y maraq dəyişənim var (Z)
İndi aşağıdakı reqressiyalara qaçanda
1) t vaxtında X, Y-amp və t-1-də
2) t zamanında X, t-1-də Y və t-də amp Z
3) t vaxtında X, t -də Y & amp; Z

Faiz dəyişənimin işarəsi dəyişir (əhəmiyyəti də). Mənə maraq dəyişəninin və nəzarət dəyişənlərinin gecikmə xüsusiyyətlərini izah edəcək bir nəzəriyyə yoxdursa, yuxarıdakı modeldən hansını istifadə etməliyəm? Ümumi prinsip nədir?

Bir dəyişikliyin məhsul xüsusiyyətlərinə təsir edib etmədiyini yoxlamaq üçün reqressiyadan istifadə edə bilərəmmi?

Bir dəyişikliyin bir məhsulun xüsusiyyətlərinə təsir edib etməyəcəyini proqnozlaşdırmaq üçün yəqin ki, reqressiyadan istifadə edə bilərsiniz. Bununla birlikdə, məhsulun spesifikasiyası xarici məhdudiyyətlər tərəfindən qoyulur. Xüsusi məhdudiyyətlər xaricində olan məhsullar qüsur sayılır. Xüsusi məhdudiyyətlər, bir məhsulun bu məhdudiyyətlər xaricində qənaətbəxş olmadığı üçün hazırlanır. Tipik olaraq, spesifik limitləri təyin etmək üçün reqressiya analizindən istifadə etmirsiniz. Ancaq düşünürəm ki, məhsulun istifadəsi haqqında kifayət qədər məlumatlı olsanız və müvafiq faktorları modelləşdirə bilsəniz, məhsuldakı dəyişikliklərin spesifik məhdudiyyətlərə təsir edə biləcəyini göstərə bilərsiniz. Mən bu işlə tanış deyiləm, amma bunun mümkün olduğunu düşünürəm.

Həqiqətən cavabı bilmək lazımdırsa, sənaye mütəxəssisləri ilə məsləhətləşirəm. Mənim fikrimcə, istifadəni kifayət qədər yaxşı modelləşdirə bilsəniz, nəzəri cəhətdən mümkün olardı, amma bu, yəqin ki, tipik deyil.

Kesintisiz model yüksək R^2 verir, buna görə də bu modeli ən yaxşı olaraq seçməliyəm.

Bu, modeli kəsmədən uyğunlaşdırmaq üçün aldadıcı bir xüsusiyyətdir. Modeli bir kəsmə ilə uyğunlaşdırdığınızda, R-kvadrat, asılı dəyişən ətrafındakı dəyişkənliyi qiymətləndirir və modelin hesab etdiyi deməkdir. Ancaq bir kəsməyə uyğun gəlmədikdə, R-squared sıfırın ətrafındakı dəyişkənliyi qiymətləndirir. Fərqli şeyləri ölçdükləri üçün müqayisə edə bilməzsiniz. Bu xüsusiyyət səbəbiylə kəsilməyən R-kvadrat, kəsişmə ilə R-kvadratdan demək olar ki, həmişə çox yüksəkdir.

Yeri gəlmişkən, niyə kəsilməni demək olar ki, hər zaman modelə daxil etməli olduğunuzu öyrənmək üçün y kəsmə ilə bağlı yazımı oxuyun.

Bunun üçün çox sağ olun və həqiqətən faydalıdır
Mənim tədqiqat işim budur
… … -da əhali artımı və işsizlik nisbəti
Modelimi necə təyin edəcəyimi

Modelinizin dəqiqləşdirilməsi çox araşdırma tələb edən bir prosesdir. Bu yazıda müzakirə etdiyim yanaşmaları izləyin. Düşünürəm ki, ilk, ən yaxşı yer başqalarının modellərini eyni sahədə necə təyin etdiklərini araşdırmaqdır. Dəyişənlərin daxil ediləcəyi fikirləri əldə etmək üçün bir ədəbiyyat araşdırması edin.

Zəhmət olmasa fikirlərinizi bildirin. Excel -də bir reqressiya etdiyiniz iki fərqli modeliniz varsa, hansı rejimin daha yaxşı olduğunu müəyyən etmək üçün ardıcıl olaraq hansı üsullara baxırsınız?

Xahiş edirəm məni tənqid edin. Hal-hazırda etdiyim şey əvvəlcə geri və ya irəli yanaşmanı istifadə etməkdir, sonra əhəmiyyəti üçün p dəyərlərini müşahidə etmək, sonra yaxşı bir əmsal proqnozlaşdırıcısı üçün təlimat olaraq t-stat və 2 və ya daha aşağı aralığını istifadə etməkdir. Nəhayət, A modelinin düzəldilmiş R2 -nin B modelindən daha yüksək olduğunu, ancaq A modelinin B modelinin olmadığı halda ən az əhəmiyyətli bir dəyişənə sahib olduğunu söyləsək, ən yaxşı modeli seçmək üçün nə edilməlidir?

Burada mənim təkliflərim olacaq. Qeyd etdiyiniz bütün statistik tədbirlərin və hətta digərlərinin də bu prosesə köməkçi ola biləcəyini unutmayın. Ancaq yalnız statistika ilə getməməlisiniz. Yüksək bir R kvadratını və ya hətta düzəldilmiş R kvadratını təqib etmək sizi yoldan çıxara bilər. Bütün statistikanı nəzərdən keçirin, amma sonra nəzəriyyə və bunun nə təklif etdiyini də düşünün. Bu bölümü bu yazıda yenidən oxudum (sonuna yaxın). Statistikanın fərqli istiqamətlərdə göstərdiyi bir neçə namizəd modeliniz olduqda, nəzəriyyənin seçiminizə kömək etməsinə icazə verin. Mümkünsə, digər araşdırmaların nə etdiyini də düşünün.

Addım -addım reqressiya, namizəd dəyişənlərini müəyyən etməyə kömək edə bilər, ancaq araşdırmalar göstərir ki, ümumiyyətlə düzgün modeli seçmir. Daha ətraflı məlumat üçün addım -addım və ən yaxşı alt qruplar reqressiyası ilə bağlı məqaləmi oxuyun.

Düzəldilmiş R-kvadrat üçün, t-dəyəri 1-dən böyük olan hər hansı bir dəyişən, düzəldilmiş R-kvadratının artmasına səbəb olacaq. Ancaq 1/-1 yaxınlığında t dəyərləri olan dəyişənlər statistik olaraq əhəmiyyətli olmayacaq. Beləliklə, düzəldilmiş R kvadratını artıraraq bir modelə uyğunlaşmaq, əhəmiyyətli olmayan dəyişənləri daxil etməyinizə səbəb ola bilər, ancaq tapdığınız kimi düzəldilmiş R kvadratını artırın.

Bir dəyişənin daxil olub -olmaması barədə mübahisə edirsinizsə, ümumiyyətlə əhəmiyyətli bir dəyişəni istisna edən riskdən daha çox lazımsız bir dəyişənin daxil edilməsinin daha yaxşı olduğu düşünülür. Xəbərdarlıqlar var. Çox əhəmiyyətsiz dəyişənlərin daxil edilməsi modelinizin dəqiqliyini azalda bilər. Əlavə dəyişənlər əlavə edərək modelinizə uyğun gəlməyinizdən də əmin olmalısınız.

Bilirəm ki, bu sizə getmək üçün konkret bir cavab vermir. Lakin, reqressiya modelləşdirmə bəzən belə olur. Ancaq sikkənin statistik tərəfi ilə birlikdə nəzərdən keçirəcəyi nəzəri/digər araşdırmalara daha çox diqqət yetirin. Mümkünsə sadəliyə gedin. Yaxşı qalıq sahələr istehsal edən və nəzəriyyəyə uyğun olan ən sadə model, çox vaxt yaxşı namizəddir.

Tamam, 3 ind dəyişən ilə çoxlu bir reqressiya üçün bir reqressiya tənliyi hesablamalıyam. mətnim y = b1x1 +b2x2 +b3x3 +b0 +e bərabərliyini verir, amma x1, x2, x3 üçün hansı dəyərlər var? girmək üçün. Dünən bildiyimi düşündüm və indi heç bir məlumatım yoxdur və əslində məlumatlarla bərabərliyi göstərən və tapmaq üçün nömrələri bağlayan heç bir nümunə tapa bilmirəm. Eşitməni tapşırıq hesabatıma daxil etməliyəm, buna görə hansı dəyərləri daxil etməli olduğumu bilmək lazımdır.

Başqa bir şey – Dəyişənlərdən biri statistik olaraq əhəmiyyətli deyilsə, bu məlumat dəstini istifadə etmədən reqressiyanı təkrar etməliyəmmi? Bilirəm ki, r-sq üçün dəyərimi dəyişəcək/azaldacaq (onsuz da çox aşağıdır 11%).

Qeyd: Məlumat təhlili alət dəsti ilə exel istifadə edirəm, çünki təlimatçı tərəfindən tələb olunan proqramdır,

X-dəyərlər, modelə daxil etdiyiniz verilənlər bazanızdakı dəyişənləri təmsil edir. Modelin bu müşahidə üçün nə proqnozlaşdırdığını görmək üçün ya müşahidə üçün müşahidə olunan dəyərləri qoşa və ya göstərilən xüsusiyyətlərə malik yeni bir müşahidəni proqnozlaşdırmaq üçün yeni dəyərlər daxil edə bilərsiniz.

Və bəli, bu yazıda qeyd etdiyim kimi, ümumiyyətlə, heç olmasa əhəmiyyətli olmayan dəyişənləri silməyi düşünürsən. İşarə etdiyim kimi, ən yüksək R kvadratını təqib etməyin. Ən yüksək R-kvadratına sahib model mütləq ən yaxşı deyil.

Hörmətli Jim am Hadas, statistika sualları ilə bağlı bir çox insanın şərhlərinizi və konstruktiv təkliflərinizi oxudum. Həm təsviri statistik, həm də logit modelindən istifadə edərək məlumatları təhlil edirdim. Təsvir edilən nəticə forması seçilmiş dəyişənlərin təsirə malik olduğunu təsbit edir, lakin əksər dəyişənlər üçün logitin nəticəsi 95 % -də statistik cəhətdən əhəmiyyət kəsb etmir, p = 5 % üçün yalnız 4 forma 15 dəyişən statistik olaraq əhəmiyyətli idi. iştirak səviyyəsini ölçmək üçün likert tip qestion istifadə edilmişdir (5 səviyyəli). Statistik əhəmiyyətsizlik, dəyişənlərin asılı dəyişənlərə təsir etmədiyini göstərirmi? orada hansı problemlər var?
TƏŞƏKKÜR EDİRƏM JIM

İlk olaraq başa düşmək lazımdır ki, heç bir problem ola bilməz. Bəlkə əhəmiyyətsiz müstəqil dəyişənlərlə asılı dəyişən arasında heç bir əlaqə yoxdur? Bunu qiymətləndirmək üçün ədəbiyyatı və nəzəriyyəni yoxlayın.

Suallardakı dəyişənlər üçün əhəmiyyətli əlaqələr olduğuna inanmaq üçün bir səbəbiniz varsa, bir neçə ehtimal var. Bəlkə nümunə ölçünüz təsirini aşkar edə bilməyəcək qədər kiçikdir? Bəlkə də çaşqın bir dəyişən buraxdınız və ya başqa bir şəkildə təxmini əhəmiyyətli olmayan bir fərziyyəni pozdunuz?

Digər tərəfdən, təsviri statistikanız görünən bir təsir göstərirsə, ancaq modelinizdə dəyişən əhəmiyyətli deyilsə, bu iş üçün bir neçə ehtimal var. Təsviri statistikanız seçmə səhvini nəzərə almır. Populyasiyada mövcud olan bir təsirdən çox təsadüfi bir səhv səbəb ola biləcək görünən təsirlərə sahib ola bilərsiniz. Hipotez testi bu ehtimalı izah edir. Əlavə olaraq, təsviri statistikaya baxanda digər dəyişənləri hesaba almırlar (yəni nəzarət etmirlər). Ancaq bir reqressiya modelinə uyğunlaşdığınız zaman, modeldəki digər dəyişənlər üçün prosedur nəzarət edir. Modeldəki digər dəyişənlərin təsirini yoxladıqdan sonra, təsviri statistikada güclü nəticələr kimi görünənlər əslində mövcud olmaya bilər.

Texniki cəhətdən əhəmiyyətli olmayan bir dəyişən, bir təsirin mövcud olduğunu başa çatdırmaq üçün kifayət qədər sübutunuz olmadığını göstərir. Təsirin mövcud olmadığını sübut etmir. Bu barədə daha çox məlumat üçün sıfır hipotezini rədd etməməyim haqqında yazımı oxuyun.

Baxmağınız üçün bir sıra potensial suallar var!

Belə faydalı bir məqalə üçün təşəkkür edirik!

Araşdırmamızda 3 müstəqil dəyişən və bir asılı dəyişən var.
Bütün dəyişənlər üçün hər biri təxminən 5-9 sualdan ibarət olan və cavablar üçün Likert şkalasından istifadə edən artıq hazırlanmış bir miqyas istifadə edirik.
Doğru addımları atıb -etmədiyimizi bilmək istədik və bunun üçün də sizin rəhbərliyinizi istədik.
Birincisi, hər bir anketdə hər bir iştirakçı cavabının cəmini götürdük. Məsələn, iş muxtariyyəti anketində (dəyişənlərimizdən biri) 5 sual var idi və iştirakçı 5 sualın hamısına müvafiq olaraq 2, 3, 2, 3, 4 cavab verdi. Daha sonra, sorğuda iştirakçının ortalama cavabı olaraq ortalamanı 14 olaraq götürdük. Bu ortalama bütün respondentlər üçün, bütün anketlər/dəyişənlər üçün hesablanmışdır.
Daha sonra 3 müstəqil dəyişənin asılı dəyişənə təsirini öyrənmək üçün çoxlu reqressiya analizindən istifadə etdik.
Doğru yolda olduğumuzu və düzgün analizdən istifadə etdiyimizi bizə bildirə bilərsinizmi? Bunun əvəzinə sıralı reqressiya tətbiq etməliyikmi?

Bəli, yaxşı bir yanaşma kimi səslənir. Sizin kimi bir Likert miqyaslı dəyişənin ortalamasını və ya cəmini aldığınızda, çox vaxt davamlı bir dəyişən kimi davrana bilərsiniz.

Potensial problemlərdən biri, Likert tərəzisindəki dəyərləri 2 -dən 3 -ə 4 -ə və s. Dəyişərək dəyişdiyiniz zaman bunların sabit bir artım olub -olmadığını dəqiq bilmirsiniz. Bir yarışda birinci yerin, ikinci yerin və üçüncü yerin vaxtlarını müqayisə etdiyiniz zaman mütləq sabit bir nisbətdə artmayacaqlar. Bu, sıravi dəyişənlərin təbiətidir. Əyri və s. Uyğunlaşdırmaq lazım ola bilər. Ancaq qalıqların yaxşı göründüyü və nəticələrin nəzəri mənada olduğu bir modelə uyğunlaşa bilsəniz, yaxşı bir model aldığınızı düşünürəm!

Analizlərinizdə uğurlar!

Həm davamlı, həm də kateqoriyalı regressorlardan ibarət bir reqressiya modelini necə təyin edərdim? Və bu modelin çıxışını necə şərh etmək olar?

Salam Jim,
Mükəmməl və intuitiv izahlarınız üçün təşəkkür edirik. Mən məzun olmuşam və bu yaxınlarda reqressiya modellərinə qarşılıqlı əlaqə şərtlərini əlavə edərək iki gen arasında İnteraktiv əlaqələr tapmağa çalışıram. Ən yaxşı reqressiya modelini seçməklə bağlı bəzi suallarım var. DV -lər bir neçə IV -dən (B1, B2,…, Bn) təsirlənə bilər və məqsədim hansı Bn -in başqa bir IV (A) ilə tənzimlənə biləcəyini tapmaqdır. Bununla məşğul olmaq üçün üç model hazırladım, amma nəticələr çox fərqlidir.
Model 1: DV = A+Bn+A*Bn
Hər dəfə modeldə yalnız bir cüt IV (A və Bn) daxil edirəm və sonra bu modeli n dəfə təkrarlayıram. Bn B1 olduqda (DV = A+B1+A*B1), bütün şərtlər əhəmiyyətlidir.
—————————————————————-
Katsayılar:
Qiymətləndirmə Std. Səhv t dəyəri Pr (& gt | t |)
(Kəsmə) -1.732e+03 3.987e+02 -4.343 5.72e -05 ***
A 2.658e+01 8.261e+00 3.217 0.00212 **
B1 6.576e+00 2.140e+00 3.073 0.00323 **
A*B1 -8.390e -02 2.889e -02 -2.904 0.00521 **

Signif. kodlar: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘’ 1
Qalıq standart səhv: 58 sərbəstlik dərəcəsində 1065
Birdən çox R-kvadrat: 0.2037, Düzəldilmiş R-kvadrat: 0.1625
F statistikası: 4.945 3 və 58 DF, p-dəyər: 0.003994
—————————————————————
Model 2: DV = A+B1+B2+…+Bn+A*Bn
Qərəzli nəticələrin qarşısını almaq üçün, təklif etdiyiniz kimi, DV -yə təsir edə biləcək bütün IV -ləri əlavə edirəm. Ancaq yalnız bir qarşılıqlı təsir müddəti qalıb. Sonra bu modeli n dəfə təkrarlayın.
Qarşılıqlı təsir müddəti A*B1 olduqda, qarşılıqlı təsir əhəmiyyətsizdir.
—————————————————————-
Katsayılar:
Qiymətləndirmə Std. Səhv t dəyəri Pr (& gt | t |)
(Kəsmə) -2.124e+03 2.815e+02 -7.546 7.49e -10 ***
A 1.516e+01 5.994e+00 2.530 0.01454 *
B1 2.056e+00 1.810e+00 1.136 0.26145
B2 3.657e+00 2.402e+00 1.523 0.13404
B3 6.188e-01 4.108e-01 1.506 0.13822
B4 4.790e-01 3.337e-01 1.435 0.15734
B5 -4.909e -01 1.355e+00 -0.362 0.71871
B6 1.485e+00 6.239e-01 2.381 0.02104 *
B7 1.600e+01 5.756e+00 2.780 0.00759 **
B8 2.062e-02 1.827e-02 1.129 0.26433
A*B1 -3.465e -02 2.225e -02 -1.558 0.12551

Signif. kodlar: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘’ 1
Qalıq standart səhv: 51 sərbəstlik dərəcəsində 674.5
Çoxlu R-kvadrat: 0.7194, Düzəldilmiş R-kvadrat: 0.6643
F-statistikası: 13.07 10 və 51 DF, p-dəyəri: 6.148e-11
—————————————————————–

Model 3: DV = A+B1+A*B1+B2+A*B2…+Bn+A*Bn
Bu modeldə, bütün IV -ləri (Bn) və qarşılıqlı əlaqə şərtlərini eyni anda A ilə əlavə edirəm, beləliklə model bir dəfə işləyir. Bu vəziyyətdə əhəmiyyətli şərtlər yoxdur.
——————————————————————
Katsayılar:
Qiymətləndirmə Std. Səhv t dəyəri Pr (& gt | t |)
(Kəsmə) -2.314e+03 3.984e+02 -5.809 6.45e -07 ***
2.410e+01 1.277e+01 1.886 0.0658.
B1 5.936e-01 2.170e+00 0.274 0.7857
B2 5.281e+00 6.525e+00 0.809 0.4226
B3 4.074e-01 1.238e+00 0.329 0.7436
B4 4.417e-01 1.202e+00 0.368 0.7150
B5 -4.153e -01 3.814e+00 -0.109 0.9138
B6 2.775e+00 1.777e+00 1.562 0.1255
B7 9.274e+00 1.136e+01 0.816 0.4187
B8 4.297e-02 4.573e-02 0.940 0.3524
A*B1 -1.749e -02 3.531e -02 -0.495 0.6228
A*B2 -8.492e -02 1.707e -01 -0.498 0.6212
A*B3 6.077e-03 2.901e-02 0.209 0.8350
A*B4 1.723e-03 2.737e-02 0.063 0.9501
A*B5 4.894e-02 1.136e-01 0.431 0.6688
A*B6 -5.186e -02 5.362e -02 -0.967 0.3388
A*B7 3.067e-01 5.010e-01 0.612 0.5436
A*B8 -4.106e -04 8.732e -04 -0.470 0.6405

Signif. kodlar: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘’ 1
Residual standard error: 686 on 44 degrees of freedom
Multiple R-squared: 0.7496, Adjusted R-squared: 0.6528
F-statistic: 7.747 on 17 and 44 DF, p-value: 2.326e-08
——————————————————————–
My question: Is the significant interaction effect between A and B1 in model 1 reliable? Which is the best model to find the Interactive relationship between A and Bn?
In addition, the IVs above are not centered, as I get same results for interaction terms and the less significant main effect sometimes after centering.

Thank you very much for your help and support

SAMUEL K BREFO-ABABIO says

Hey Jim, thanks for your insightful post. Please, are there any steps or factors that best determine whether a data analyst should build one comprehensive model or simply put should build many models on partitions of the data.

Thank you for your useful content.
Is that mean we should use same control variables from previous literature or we can use the most suitable variables after running some experiments.

Theory and the scientific literature should guide you when possible. If other studies find that particular variables are important, you should consider them for your study. Because of omitted variable bias, it can be risk in terms bias to not include variables that other studies have found to be important. That is particularly true if you’re performing an observation study rather than a randomized study. However, you can certainly add your own variables into the mix if you’re testing new theories and/or have access to new types of data.

So, be very careful when removing control variables that have been identified as being important. You should have, and be able to explain, good reasons for removing them. Feel freer when it comes to adding new variables.

what should we do if the output variable is more skewed.skewness>4

When the output/dependent variable is skewed, it can be more difficult to satisfy the OLS assumptions. Note that the OLS assumptions don’t state that the dependent variable must be normally distributed itself, but instead state that the residuals should be normally distributed. And, obtaining normally distributed residuals can be more difficult when the DV is skewed.

There are several things you can try.

Sometimes modeling the curvature, if it exists, will help. In my post about using regression to make predictions, I use BMI to predict body fat percentage. Body fat percentage is the DV and it is skewed. However, the relationship between BMI and BF% is curved and by modeling that curvature, the residuals are normally distributed.

As the skew worsens, it becomes harder to get good residuals. You might need to transform you DV. I don’t have a blog post about that but I include a lot of information about data transformations in my regression ebook.

Those are several things that I’d look into first.

Best of luck with your analysis!

Hi Jim,
What does it mean when a regression model has a negative prediction R2 while the R2 and adjusted R2 are positive and reasonable?


Videoya baxın: Geoscience Australia Graduate Intake 2021 (Sentyabr 2021).