Daha çox

Nüvə sıxlığına əsaslanan nöqtələr necə yığılır?


Ticarət ərazi istifadəsini təmsil edən 36 kvadratmetrlik, hər birində kvadrat kadrları olan bir sahə olan böyük bir məlumat dəstim var. Bu verilənlər bazasında bir kernel sıxlığı təhlili apardım və bütün metro sahəsindəki ticarət kvadrat görüntülərinin sıxlığını göstərən bir raster istehsal etdim. Bu rasteri "mərkəz" adlandırdığım yerli maksimumlara uyğun bölgələrə bölməliyəm. Artıq mərkəzlərin yerini müəyyənləşdirmişəm və indi iki şeydən birini etməyim lazımdır:

  • nöqtələri müəyyənləşdirdiyim mərkəzlərin ətrafındakı qruplara qruplaşdırmaq üçün "medoidlər ətrafında bölmə" kimi bir nöqtə yığma alətindən istifadə edin. Bu metodun problemi, hesablama baxımından olduqca gərgin olması və daha çox nöqtələri ölçüyə görə çəkmək üçün bir oxşarlıq matrisindən istifadə etməyə çalışsam.

  • hər hansı bir şəkildə kernel sıxlığı rasterini (təxminən bir ərazi rasterinə bənzəyir) hər mərkəzin ətrafındakı fərdi "təpələrə" bölün. Ancaq bunu etmək üçün heç bir vasitə düşünə bilmirəm.

Bu problem bir müddətdir məni narahat edir və klaster üsulunu R-də həyata keçirə biləcəyimə ümid edirdim, amma vaxt aparır və vaxtım tükənir. Kimsə sıxlıq rasterlərini intensivlik bölgələrinə bölmək və ya böyük məlumat dəstlərini tez bir zamanda yığmaq üçün sadə bir üsul bilirmi?


Yaxından əlaqəli bir yazı sonrası müzakirə a sadə, effektiv həll: "təpələri" tapmaq üçün şəbəkəni tərs çevirin (dəyərlərini inkar edərək) və su hövzələrini tapın. Təpələr lavabolardır və su hövzəsi sərhədləri, ızgaranı bu lavabolar arasında bölüşdürür.


Ən sadə cavab, eşikdən aşağı düşən sahələri maskalamaq üçün bir eşik istifadə etməkdir. Bu, mərkəzlərinizi əhatə edən fərqli sahələr verməlidir. Sonra bu sahələri şəkillərə çevirə bilməlidir.

Məkan statistikası alətlərinə də rast gələ bilərsiniz: raster məlumatlarda klasterləşdirmə analizi oxşar problemin faydalı bir müzakirəsi.


İlk probleminizə qayıtmalı olduğunuzu düşünürəm: Bütün bir metro bölgəsində ticarət kvadrat görüntüləri qruplarını tapın.

Hesab edirəm ki, ballarınız kvadrat metr kadr dəyərləri olan bağlamaların santroidləridir? Hər bir bağlama üçün ümumi kvadrat metr olan bir çoxbucaqlı bağlama qatına sahib ola biləcəyinizi düşünürəmmi? Bu, müvafiq olaraq kvadrat kadrlar ticari və kvadrat görüntülər üçün bir kasa dəsti (santroidlər) və bir populyasiya (bağlama poliqonları) verir.

SatScan http://www.satscan.org/ saytını tutun və yalnız Poisson tərəfindən paylanan bir model işlədin; ticarət kvadrat görüntüləriniz çox sürətli bir şəkildə olacaq. (Bina sahəsi kvadratmetrindən çox, ərazinizin kvadrat metrini əhaliniz kimi istifadə edə bilərsiniz. Bu daha yaxşı əhali ola bilər.)


Sıxlığa əsaslanan klasterləşdirmə metodları

Bu fəsildə sıxlığa əsaslanan klaster üsullarını nəzərdən keçiririk. Bu yanaşmalar, aşağı sıxlıqlı bölgələrlə ayrılmış, ixtiyari formanın yüksək sıxlıqlı alt bölgələrini axtarır. Alternativ olaraq, bölgələr müşahidələrin dəstəyi üzərindəki məkan bölgüsündə rejimlər kimi şərh edilə bilər.

Bu metodlar yerli məkan avtokorrelyasiya statistikası ilə sonrakı fəsillərdə nəzərdən keçirdiyimiz bölgələşdirmə metodları arasındadır. Bunlar ilk növbədə işarə naxışlarına aiddir, eyni zamanda tam çox dəyişkən qəbula qədər genişləndirilə bilər. Mekansal olaraq məhdudlaşdırılmış klaster üsulları ilə bir çox oxşarlıq göstərsələr də, məlumatların tam bölüşdürülməsini təmin etməmələri ilə tamamilə eyni deyil. Buna görə, altına daxil olsalar da ayrı-ayrılıqda nəzərdən keçirilir Küme metodları GeoDa-da.

Məlumatların yayılmasında yüksək sıxlıq bölgələrini tapmaq cəhdləri Wishart (1969) tərəfindən mod analizi üzrə klassik sənədə və Hartigan (1975) -də zərifləşməyə qayıdır. Ədəbiyyatda bu metodlara da istinad edilir yumru ov, yəni məlumat paylanmasında təpiklər (yüksək bölgələr) axtarma.

Bu fəsildə sıxlıq əsaslı klaster üsullarının nöqtələrin coğrafi yerləşməsinə tətbiq edilməsinə diqqət yetirəcəyik, lakin bunlar yüksək ölçülü atribut məkanında da ümumiləşdirilə bilər.

Bu baxımdan əhəmiyyətli bir konsepsiya a səviyyə təyin edildi müəyyən bir sıxlıq səviyyəsi ilə əlaqələndirilmiş ( lambda ): [L ( lambda p) = , ] yəni ehtimalın verilən həddən artıq olduğu məlumat nöqtələrinin toplanması (x ). Maksimum xal sayını ehtiva edən bu cür nöqtələrin alt hissəsi əlaqədar (əlaqəli komponentlər deyilən) a sıxlıq-kontur qrupu sıxlıq funksiyasının. A sıxlıq-kontur ağacı daha sonra ( lambda ) səviyyəsini dəyişdirərək əldə edilən iç içə yığınlardan əmələ gələn bir ağacdır (Hartigan 1975 Müller and Sawitzki 1991 Stuetzle and Nugent 2010).

Bu konsepsiyanı görüntüləmək üçün üç ölçülü bir səth kimi təmsil olunan məlumat paylanmasını nəzərdən keçirin. Daha sonra, bir səviyyə, okeandan çıxan adalar kimi ( lambda ) səviyyəsindəki üfüqi bir müstəvinin üstündəki məlumat nöqtələrindən ibarətdir. ( Lambda ) artdıqca, səviyyə dəstəyi kiçik olur. Bizim ada bənzətməyimizdə bu yüksələn bir okean səviyyəsinə uyğundur (adalar kiçikləşir və hətta yox ola bilər). Digər istiqamətdə ( lambda ) azaldıqda və ya okean səviyyəsi aşağı düşdükdə, adalar (quru körpüsü) arasındakı əlaqələr görünə bilər ki, onlar artıq ayrı görünməsinlər, əksinə tək bir varlıq kimi görünsünlər.

Qeyd edildiyi kimi, sonrakı metodlarda müzakirə olunan klassik klaster metodlarından fərqli olaraq, sıxlığa əsaslanan metodlar mütləq tam bir bölgələşmə vermir və bəzi müşahidələr (nöqtələr) heç bir qrupa təyin olunmaya bilər. Öz növbəsində bu məqamlardan bəziləri kimi yozula bilər kənara çıxanlar, müəyyən tətbiqetmələrdə əsas maraq doğurur. Bir mənada sıxlığa əsaslanan klaster metodları ruhən yerli məkan avtokorrelyasiya statistikasına bənzəyir, baxmayaraq ki, bunların çoxu hipotez testləri kimi formalaşdırılmamışdır.

Dörd yanaşmanı nəzərdən keçiririk. Hər yerdə mərkəzləşmiş vahid sıxlıqlı bir nüvə kimi sadə bir istilik xəritəsi ilə başlayırıq. Bu qrafikin arxasındakı məntiq Openshaw-a bənzəyir coğrafi analiz maşını (Openshaw et al. 1987) və məkan tarama statistikasında tutulan yanaşma (Kulldorff 1997), yəni verilmiş radiusdakı nöqtələrin sadə sayı.

Növbəti metodların hamısı DBSCAN (Ester et al. 1996) və ya Tətbiqlərin səs-küylə sıxlığa əsaslanan məkan qruplaşdırılması. Həm orijinal DBSCAN, həm də onun hesab edirik təkmilləşdirilmiş DBSCAN * adlandırılan versiya və onun Hiyerarşik versiyası, HDBSCAN (ya da bəzən HDBSCAN *) adlandırılır (Campello, Moulavi, and Sander 2013 Campello et al. 2015).

Metodlar burada Çikaqodakı içki mağazalarının (2015-ci ildə) nöqtələrindən istifadə edərək təsvir edilmişdir, lakin bunlar çoxbucaqlı qruplaşma kimi digər həndəsi formalara da aiddir (Sander və digərləri 1998). Ümumiyyətlə, bunlar çox atributlu məkanda (yəni, coğrafi olmayan) istənilən nöqtələrə tətbiq oluna bilər, baxmayaraq ki, bu istifadə bəlkə də daha az yaygındır.

Məqsədlər

Vahid bir kernel istilik xəritəsinin nəticələrini şərh edin

DBSCAN-ın arxasındakı prinsipləri anlayın

DBSCAN yanaşması üçün parametrləri təyin edin

DBSCAN tərəfindən verilmiş klasterləşdirmə nəticələrini şərh edin

DBSCAN və DBSCAN * arasındakı fərqi anlayın

DBSCAN tərəfindən yaradılan dendrogramı təhlil edin *

HDBSCAN-ın təməlindəki məntiqi anlayın

HDBSCAN-ın verdiyi qatılaşdırılmış ağac və klasterləşdirmə nəticələrini şərh edin

HDBSCAN-da yumşaq kümelenmeyi və daha yüksək identifikasiyanı anlayın

GeoDa funksiyaları əhatə olunur

Başlayırıq

İstifadə edəcəyik liq_Chicago 2015-ci il ərzində Çikaqo şəhərində içki mağazalarının 571 nöqtəsi olan forma şəkli. Bu məlumat dəsti, içki mağazaları adlandırılan nümunə məlumat dəstlərindən biri kimi daxil edilmişdir. Nöqtə yerləri Google xəritələrindən çıxarıldı və Illinois State Plane proyeksiyasına çevrildi.

Şəkil 1-də, nöqtələr Chicago icma sahəsi sərhədləri fonunda göstərilir. 2

Şəkil 1: Chicago likör mağazaları (2015)


Nisbi Sıxlıq Optimizasiyasına əsaslanan sıxlıq zirvəsi qruplaşması

Çoxsaylı klasterləşdirmə alqoritmləri arasında sürətli axtarış və sıxlıq zirvələrini tapmaq (DPC) ilə qruplaşdırma üstünlük təşkil edir, çünki məlumat dəstinin formaları və sıxlıq strukturlarından daha az təsirlənir. Bununla birlikdə, DPC hələ də heterojenlik qrupları ilə məlumat dəstinin qruplaşdırılmasında bəzi məhdudiyyətlər göstərir və qalan nöqtələrin təyin edilməsində asanlıqla səhvlərə yol verir. Yeni alqoritm nisbi sıxlıq optimallaşdırmasına (RDO-DPC) əsaslanan sıxlıq zirvəsi qruplaşması bu problemləri həll etmək və daha yaxşı nəticələr əldə etməyə çalışmaq üçün təklif olunur. Nümunə nöqtələrinin qonşuluq məlumatlarının köməyi ilə, təklif olunan alqoritm nümunə məlumatlarının nisbi sıxlığını müəyyənləşdirir və axtarır və homogen olmayan paylanmanın sıxlıq zirvələrini çoxluq mərkəzləri kimi tanıyır. Bolluq təsnifatı problemini həll etmək üçün yeni bir tapşırıq strategiyası təklif olunur. Sintetik və real məlumat dəstləri üzərində aparılan təcrübələr təklif olunan alqoritmin yaxşı performansını göstərir.

1. Giriş

Nəzarət olunmayan bir maşın öyrənmə alqoritmi olaraq, qruplaşdırma nümunə məlumatlarını nümunə nöqtələri arasındakı oxşarlığa əsaslanaraq ağlabatan sinfə ayırır. Bu proses eyni qrup içindəki nümunələr arasındakı oxşarlığı mümkün qədər yüksək və fərqli qruplardakı nümunələr arasındakı oxşarlığı mümkün qədər aşağı etməyə çalışır. Fərqli tətbiqlərdə bir çox fərqli klaster alqoritmi növləri təklif olunur. Ümumiyyətlə, klasterləşdirmə bölücü qruplaşma [1-3], iyerarxik qruplaşma [4, 5], şəbəkə əsaslı alqoritmlər [6, 7], model əsaslı alqoritmlər [8, 9] və sıxlığa əsaslanan alqoritmlər [bölünə bilər. 10, 11]. Praktik tətbiqetmələrdə məlumat dəstləri yüksək ölçülü müxtəlif və mürəkkəbdir ki, bu da klasterləşdirmə üçün böyük bir problem gətirir. Bəzi alimlər çoxlu klasterləşdirmə alqoritmlərini hərtərəfli nəzərdən keçirmək fikrini irəli sürdülər, yəni klasterləşdirmənin dəqiqliyini effektiv şəkildə artıran inteqrasiya edilmiş klasterləşdirmə [12, 13]. Kümelenmə analiz nəzəriyyəsi və texnologiyasının inkişafı ilə şəkil emalı, maşın öyrənmə, süni intellekt, təbii dil işlənməsi, nümunələrin tanınması, məlumatların alınması və bioinformatikada getdikcə daha əhəmiyyətli bir rol oynayır [14].

Sürətli axtarış və sıxlıq zirvələrini tapmaqla qruplaşdırma (DPC) [15] tamamilə yeni bir yığma çərçivəsini və yenidən qruplaşdırma mərkəzinin tipini təklif edir. Məlumatların strukturları mərkəzlərin tanındığı və qruplar qruplaşdırıldığı iki ölçülü boşluğa (lokal sıxlıq və ən yaxın məsafə) uyğunlaşdırılır. DPC ilə nümunə məlumatlarının sıxlıq zirvələri asanlıqla və tez tapılır və DPC səslərin təyin edilməsi və aradan qaldırılmasında da yüksək effektivlik göstərir. Bununla birlikdə, DPC ilə qruplaşdırmada hələ də məhdudiyyətlər var. (1) Birləşdirilmiş sıxlıq ölçüsü və parametri yoxdur

müəyyən problemlərlə əlaqəli olduğu üçün təyin etmək çətindir. (2) Kümelenmə mərkəzlərinin əl ilə seçilməsi lazımdır ki, bu da subyektiv amillərlə keyfiyyətli analizdir. Nəticədə qərar qrafiklərində obyektiv və ağlabatan mərkəzləri tapmaq çətindir. (3) Nümunə paylanması baxımından, nümunə nöqtələri yüksək sıxlığı olan ən yaxın qruplara təyin edilir və bu da səhv klasterinin fasiləsiz ötürülməsi ilə nəticələnir. (4) məsafənin tərifinə görə

, iki nöqtənin sıxlığı həm ən yüksək olarsa həm də eyni qrupa aid olduğu təqdirdə iki nöqtə klasterləşdirmə mərkəzi olaraq seçiləcəkdir, yəni bir qrup səhvən iki qrupa bölünmüşdür. (5) DPC, yüksək ölçülü, qeyri-bərabər paylanmış sıxlıq və səs-küylü məlumat dəstlərinin qruplaşdırılmasında məhdudiyyətlər göstərir.

DPC-ni yaxşılaşdırmaq üçün iki cəhətdən yeni bir alqoritm təklif olunur, sıxlığın ölçülməsi və qalan nöqtələrin təyin edilməsi. Klassik DPC alqoritmi, aşağı sıxlıq ərazisindəki sıxlıq zirvələrini təsirli bir şəkildə təyin edə bilməyən qlobal sıxlığı istifadə edir. Bu məqalədə, yerli bir nisbi sıxlığı hesablamaq üçün, nümunələrin ən yaxın məlumatları, homojen olmayan paylanması ilə məlumat dəstinin mərkəzlərini tanımaq üçün istifadə edilmişdir. DPC-də həddindən artıq təsnifat problemini həll etmək üçün yerli sıxlığın çeşidlənməsi və məlumat nümunələrinin uyğun məsafələrinin təyin edilməsi ilə yeni bir tapşırıq strategiyası təklif olunur. İki inkişafa əsasən nisbi sıxlıq optimallaşdırmasına (RDO-DPC) əsaslanan bir sıxlıq zirvəsi qruplaşma alqoritmi, müxtəlif sıxlıq növləri və qeyri-müntəzəm formalı sintetik və həqiqi məlumat dəstləri üzərində məmnun klasterləşdirmə nəticələri əldə edir.

Kağızın xatırlatması aşağıdakı kimi təşkil edilmişdir: Bölmə 2 klassik DPC-nin tərifini və prosesini təqdim edir və nisbi sıxlığa (RDO-DPC) əsaslanan alqoritm ilə əlaqəli iş sıxlığı pik klasterləşdirmə alqoritmi, sintetik və həqiqi məlumat dəstlərinə dair 3-cü hissədə təklif olunur. Bölmə 4 və Bölmə 5-də göstərilənlər nəticə və perspektiv verir.

2. Əlaqəli əsərlər

2.1. DPC Alqoritmi

Sürətli axtarış və sıxlıq zirvələrini tapmaqla qruplaşdırma (DPC) [15] sadə bir strategiya ilə müxtəlif sıxlıq və formalı qrupları tapa bilər. DPC-nin təməl prinsipi, ideal sıxlıq zirvələrinin iki vacib xüsusiyyətə malik olmasıdır: (1) zirvənin yerli sıxlığı qonşuların sıxlığından yüksəkdir (2) fərqli zirvələr arasındakı məsafələr nisbətən daha uzundur. Yuxarıdakı iki şərti təmin edən sıxlıq zirvələrini tapmaq üçün DPC yerli sıxlığı təqdim edir

və müvafiq məsafə, olan məsafədir

, yerli sıxlığı daha yüksək olan və ən yaxın nümunə olan nümunə.

Yerli sıxlıq məsafədən asılıdır, yəni məsafənin bir funksiyası kimi qəbul edilə bilər, məsələn, kernel funksiyası. Yerli sıxlıqlardan biri kəsilmiş kernel ilə müəyyən edilir:

burada nöqtə ilə məsafəni təmsil edir. Müsbət nömrə təyin olunmuş parametrdir. Dəyəri

. Digər yerli sıxlığı Gauss nüvəsi ilə təyin etmək olar:

(1) və (2) tənliklərində qonşuların qonşuluq funksiyasına bərabər olan nümunə nöqtələrinə təsirini idarə edə bilər

. Məlumat dəsti böyük miqyaslı olduqda (içərisində olan nöqtələrin sayı), DPC-dən klasterləşmə nəticəsinə kəsmə məsafəsi bir az təsir edir və kəsmə məsafəsindən təsir getdikcə daha çox olur, məlumat miqyası kiçik olur. Kəsmə məsafəsindən yerli sıxlığa və ya daha çox klasterləşdirmə nəticələrinə təsirinin qarşısını almaq üçün DPC, kiçik ölçülü məlumatları yığmaq üçün istifadə edilərkən, nümunənin ümumi sıxlığını hesablamaq üçün (2) tənliyində Gauss nüvəsini istifadə edir.

İdeal klaster mərkəzinin digər bir xüsusiyyəti də fərqli mərkəzlər arasındakı məsafənin mümkün qədər çox olmasıdır. Nəticədə, nümunədən ən yaxın olan və yerli sıxlığı daha böyük olan məsafə olaraq təyin edilir

(3) tənliyindəki tərif göstərir ki, nümunənin sıxlığı ən böyük yerli sıxlıq və ya ən böyük ümumi sıxlıqdırsa, seçmə məsafəsi qonşuların məsafəsindən çox daha böyükdür. Buna görə çoxluq mərkəzləri çox vaxt son dərəcə böyük nöqtələrdir və bu mərkəz nöqtələrinin sıxlığı da çox böyükdür. Sıxlığa nisbətən məsafə qərar qrafiki quraraq DPC nisbətən böyük və çoxluq mərkəzləri olan seçmə nöqtələri seçir. Qalan nöqtələr üçün DPC balları sıxlığa nisbətən daha yaxın və daha böyük olan qruplara təyin edir və beləliklə qalan nöqtələrin paylanmasını yüksək effektivliklə tamamlayır.

2.2. Əlaqədar iş

Tədqiqatçılar DPC-ni [15] müxtəlif tətbiqetmələrə uyğunlaşdırmaq üçün bir çox cəhətdən inkişaf etdirdilər, əsasən klaster mərkəzlərinin tərifinə və tapşırıq strategiyasına diqqət yetirdilər.

Kümelenmə mərkəzlərinin tərifi baxımından bəzi alimlər, yerli sıxlıq və məsafənin normallaşması [16], qravitasiya kimi qərar qəbul etmə qrafikində klaster mərkəzləri seçmək üçün klaster mərkəzi ilə digər nümunə nöqtələri arasındakı fərqi genişləndirməyə çalışırlar. bənzətmə minimum məsafə [17, 18] və heç bir parametr şəklində Laplasiya mərkəzliyi [19]. Bu cür metod, sıxlığın pik nöqtəsi ilə digər nöqtələr arasındakı fərqliliyi müəyyən dərəcədə genişləndirsə də, bəzi mürəkkəb qərar qəbuletmə zamanı klaster mərkəzlərini birbaşa və effektiv şəkildə təyin etmək hələ də çətindir və bunun üçün əl seçimi lazımdır. Buna görə də, digər alimlər, ən məşhur alqoritmlər qeyri-səlis nəzəriyyə olduğu qərarlar qrafiki əsasında sinif mərkəzini kəmiyyət olaraq seçmək üçün bir metod təklif etdilər.

prinsipi [20], normal paylanma

meyar [21], qərar qrafikində məlumat paylanmasının əyilmə nöqtəsi [22], sıxlıq və məsafə məhsulunun paylanma əyrisinin xətti uyğunluğu [23] və Çebışev bərabərsizliyi [24] və ya ümumiləşdirilmiş ekstremumun yuxarı həddi [ 25]. Bu cür metod, insanın müdaxiləsi olmadan məlumat dəstinin potensial sinif mərkəzini avtomatik olaraq təyin edə bilər. Bununla birlikdə, çox sıxlıq həddindən artıq dəyərin təsiri səbəbindən, nümunə ayırma effektini daha da optimallaşdırmaq üçün alt qrupları birləşdirmək çox vaxt lazımdır.

Klassik DPC-nin qalan bal təyin etmə strategiyası zəncirvari səhv tapşırıqlara meyllidir. Klassik DPC-nin tapşırıq strategiyasını dəyişdirmək üçün bir çox inkişaf təklif olunur, məsələn, qalan balların bölüşdürülməsi k-yaxın qonşu [26, 27], paylaşılan ən yaxın qonşu [28] əsasında nümunələrin oxşarlığı ölçülməsi, başlanğıc qrupların sərhəd nümunələri ilə birləşməsi [29] və ya əldə edilə bilən sıxlıq [30] və qalan nöqtələrin atanması digər alqoritmlərlə birləşmə [11, 31]. Ən yaxınlara əsaslanan tapşırıq strategiyası

və paylaşılan ən yaxın qonşular, qonşu nümunələrinin məlumatlarını tam nəzərdən keçirir, bu da nümunələrin ağlabatan çoxluq təyinatını almaq üçün faydalıdır. Bununla yanaşı, nümunələr arasındakı məsafələrin sadəcə nəzərdən keçirilməsi, real klaster atribusiyasının nümunələr arasındakı oxşarlığa təsirini əks etdirə bilməz. Başlanğıc qrupların birləşməsinə əsaslanan qalan nöqtələrin təyinetmə strategiyası çoxsaylı sıxlıq zirvələrində yaxşı işləyir, lakin yüksək vaxt mürəkkəbliyini göstərir. Üstəlik, bəzi alqoritmlər DPC-ni ilkin klaster mərkəzi seçim strategiyası kimi istifadə edir ki, bu da ilkin klaster mərkəzi seçiminin klasterləşmə nəticələrinə təsirini daha yaxşı həll edə bilər, lakin bu alqoritmlər hamısı yüksək zaman mürəkkəbliyi göstərir və geniş miqyaslı yüksək ölçülü qruplaşdırma üçün uyğun deyil məlumat.

Səs-küylü yüksək ölçülü məlumatlar üçün səslər filtrasiya standartı ən yaxınlara əsasən qurulur və klaster mərkəzlərinin tanınması və qalan nöqtələrin təyin edilməsi səslərin süzülməsindən sonra aparılır [26, 27]. DenPEHC [23] səs nisbətində və daha yüksək nisbətdə nümunə nöqtələrini götürür, lakin yenə də səhvlər və əl faktorları var idi. Bundan əlavə, ölçülü azalma yüksək ölçülü məlumatların ölçülərini azaltmaq üçün birləşdirilir [32] və sonra ən yaxın qonşuluq parametri ilə nümunə nöqtələri təyin olunur. Bundan əlavə, məlumat nöqtələri arasındakı çoxlu məsafəni hesablamaq üçün geodeziya məsafəsi [33, 34] istifadə olunur və yüksək ölçülü məlumat dəstlərinin ölçüsünü azaltmaq üçün izometrik xəritəçəkmə tətbiq olunur. Yuxarıdakı təhlil göstərir ki, DPC-dəki problemləri həll etmək üçün bir çox inkişaf və optimallaşdırma təklif olunur və nəticələr qənaətbəxşdir. Bununla birlikdə, kompleks məlumat dəstlərinin klasterləşdirilməsində bir çox problem hələ də mövcuddur, məsələn, qrupların qeyri-bərabər sıxlığı, yüksək ölçülər, parametrlərin optimallaşdırılması, mərkəzin tanınması, səs-küy müalicəsi və yüksək zaman mürəkkəbliyi.

3. RDO-DPC Alqoritmi

Təklif olunan RDO-DPC klassik DPC-ni iki cəhətdən yaxşılaşdırır: yerli sıxlığın tərifi və klaster üzvlərinin təyin strategiyası. Qonşu məlumatlarından istifadə edərək RDO-DPC yeni nisbi sıxlığın ölçülməsini təyin edir. Daha sonra, klasterlər arasında qeyri-bərabər sıxlığa malik olan məlumat dəstinin qruplaşdırılmasından razı nəticələr əldə etmək üçün qərar qrafiki birləşdirən klaster mərkəzləri seçilir. Qalan nöqtələr, DPC-də bir addımlıq paylama strategiyasının mənfi cəhətlərini aradan qaldıran məlumat dəstinin struktur məlumatlarına görə bölünür.

Fərqli sıxlıq sahələrindəki klaster mərkəzlərinin tanınması effektiv klasterləşmə nəticələrinin qarantıdır. Aşağı sıxlıq sahəsinin zirvələri (2) tənliyində yerli sıxlıq tərifi ilə yüksək sıxlıqlı zirvələrdə basdırılır, çünki sıx ərazinin yerli sıxlığı seyrək ərazidən xeyli yüksəkdir. Seyrək ərazinin zirvələrinə önəm vermək üçün nisbi lokal sıxlıq müəyyən edilir

burada təsir radiusu

ən kiçikdən ən böyüyə cütlük məsafələrinin kəmiyyəti. nümunənin sferik qonşusundakı nümunələrin sayıdır. Yenidən işlənmiş yerli sıxlıq olaraq təyin olunur

burada ciddi şərt

(5) tənliyində uzaqdakı nümunələrin müdaxiləsini aradan qaldırmaq üçün kəsilmiş Gauss nüvəsi funksiyasına bərabərdir. Klassik DPC ilə müqayisədə nisbi lokal sıxlıq (4) və (5) fərqli sıxlığa malik bölgələrin klaster mərkəzlərini mütləq indeks deyil, nisbi indeks istifadə edərək tanıya bilər.

DPC-nin ideal klaster mərkəzləri iki xüsusiyyətə malikdir: biri yerli sıxlığın ətrafdakı nümunələrin sıxlığından daha yüksək olması, digəri isə klaster mərkəzlərinin bir-birindən uzaq olmasıdır. Məsafənin klaster mərkəzlərinin seçilməsində də vacib olduğu göstərilir. Nəticə olaraq, çoxluq mərkəzləri daha çox sıxlığı və daha böyük məsafəsi olan nümunələrdir. Bir çoxluqda iki ən böyük sıxlıq zirvəsi varsa, hər iki nöqtə (3) tənliyinə görə çoxluq mərkəzi olaraq seçiləcəkdir. Nəticə budur ki, bir klaster səhvən iki qrupa bölünür və nəticədə qruplaşma nəticələrini qane etmir. Buna görə nisbi sıxlıq, sıxlığın hesablanmasından əvvəl sıralanır və nümunə üçün ən qısa məsafə, iki ən böyük sıxlıq zirvəsini ayırmağa kömək edə bilər. -In müvafiq məsafəsi

bir azalan, razı qalan nizamın alt ardıcıllığını təmsil edir

. Əgər (2) və ya (4) tənliklərinə uyğun olaraq və verilənlər dəstindəki ən böyük yerli sıxlıq zirvələri çox yaxındırsa, qərar qrafikində həqiqi zirvəni müəyyən etmək çətindir. Bu səbəbdən və sırasıyla öz klaster mərkəzləri kimi tanına bilər. İki zirvənin sıralamasından sonra, uyğun olan məsafə (6) tənliyi ilə digər sıxlıq zirvələrinin ən böyük uyğun məsafəsi olaraq təyin edilir. Uyğun olan məsafə, ilə arasındakı məsafəni təşkil edir ki, bu da uyğun olanın dəyərini zəiflədir. Nəticə olaraq artıq klaster mərkəzi deyil.

(5) və (6) tənlikləri ilə birləşdirildikdə, daha çox sıxlıq fərqi olan sahələrin zirvələri qərar qrafikində tanınması asandır və ayrı-seçkilik, zirvələrin uyğun gəldiyi qərar məsafələri ilə gücləndirilir. Buna görə daha güclü bir ümumiləşdirmə qabiliyyəti əldə edilir. Alqoritm 1-də göstərildiyi kimi RDO-DPC alqoritmi formalaşır.

və kəsmə nisbəti parametri

RDO-DPC nisbi sıxlığı sıxlığın ölçülməsi kimi qəbul edir. Nisbi sıxlıqla hər nöqtənin sıxlıq hesablanması əhatə dairəsində məhdudlaşır və dəyərlər yalnız qonşu əhatə dairəsindəki nöqtələrlə əlaqədardır. Nümunələrin əhatə dairəsi ilə nümunələrin nisbi yaxınlığı daha aydın şəkildə aşkar edilə bilər və hər bir nöqtənin yerli məlumatları və əhatə dairəsi içindəki nümunə nöqtəsi də açıq şəkildə göstərilə bilər. Bu səbəbdən RDO-DPC, yalnız klasterlər arasında nisbətən bərabər sıxlığı olan məlumat dəstlərinə deyil, eyni zamanda qruplar arasındakı açıq sıxlıq fərqlərinə sahib məlumat dəstlərinə də uyğundur.

RDO-DPC-nin zaman mürəkkəbliyi

nisbi lokal sıxlığın ölçülməsindən və ən yaxın məsafəyə əsasən qalan nöqtələrin təyin edilməsindən ibarətdir. Yalanların hesablanması nümunə nöqtələri ilə hesablama mürəkkəbliyi olan qonşuluq təyini arasındakı Öklid məsafəsindədir. Qalan nöqtələrin ən yaxın məsafəyə əsaslanan təyin etmə strategiyası hesablama mürəkkəbliyi olan klassik çeşidləmə alqoritmindən istifadə edir.

4. Təcrübələr

Bu hissədə, yeni təklif olunan alqoritmin sınanması üçün 8 sintetik və 7 real məlumat dəsti istifadə edilmişdir. İstifadə olunan məlumat dəstləri bir-birindən sıxlıq paylanması, miqyası, formaları və s. Bu məlumat dəstləri arasında DS1 – DS5, toplama, birləşmə və alov, Şəkil 1-də göstərilən sintetik iki ölçülü məlumat dəstləridir. 7 real məlumat dəsti də UCI maşın öyrənmə deposundan.


Nüvə sıxlığına əsaslanan nöqtələr necə yığılır? - Coğrafi İnformasiya Sistemləri

Dəyişən sıxlığı olan ssenarilərdə sıxlığa əsaslanan çoxluq

Bu anbar dəyişkən sıxlıq ssenariləri ilə bağlı müxtəlif problemləri həll etməyə həsr olunmuş iki alqoritmi özündə cəmləşdirir.

Kernel-Sıxlığa əsaslanan tətbiqetmələrin səs-küylə qruplaşdırılması (K-DBSCAN), nəticədə ortaya çıxan qrupların miqdarı barədə əvvəlcədən məlumat almadan, əhəmiyyətli dərəcədə seyrək bir yer daxilində özbaşına formalı nöqtə qruplarını müəyyənləşdirməyi hədəfləyir.

Tətbiqlərin səs-küylə dəyişkən sıxlığa əsaslanan məkan qruplaşması (V-DBSCAN), məlumatların mərkəzindən uzaqlaşarkən sıxlıqdakı dəyişiklikləri nəzərə alan DBSCAN-ın çox miqyaslı bir dəyişikliyidir.

Alqoritmləri xüsusi olaraq quraşdırmağa ehtiyac yoxdur. Bununla birlikdə, aşağıdakı kitabxanalardan istifadə edildiyini xatırlatmaq lazımdır:

Hər iki alqoritm siniflər şəklində qurulmuşdur və klasterləşdirmə üçün bir fit () funksiyası təyin edilmişdir. Bu funksiyaya giriş xüsusiyyət matrisidir.

Alqoritmlər standart olaraq öklid məsafəsini istifadə etmək üçün tətbiq olunur. Başqa bir məsafə metriki istifadə ediləcəksə, bu əvvəlcə alqoritmin nümunəsini yaradan zaman (alqoritmə xüsusi parametrlərlə birlikdə) təyin edilməlidir. Ölçək boşluğu parametrləri (standart konfiqurasiya müəyyən problemə aid deyilsə) uyğunlaşma funksiyası vasitəsilə təyin olunmalıdır.

Yuxarıdakı kod oyuncaq nümunəsini (Iris verilənlər bazası) yükləyəcək və hər iki alqoritmi əvvəllər bilinməyən bir sıra qruplara qruplaşdırmaq üçün istifadə edəcəkdir. Əlavə olaraq, KDBSCAN nəticələrini, yəni Kernel Sıxlığı Qiymətləndirməsini, nöqtələri (çıxış qrupunun təyinatına görə fərqli rənglənir) və etibarlı zirvələri (bənövşəyi üçbucaqlar) və atılan zirvələri (qara üçbucaqlar) təsvir edəcəkdir.

Vacib qeyd: KDBSCAN-ın mövcud tətbiqi 2 Ölçülü nümunə sahəsi ilə məhdudlaşır.

Hər iki alqoritm Python 2 istifadə edərək hazırlanmışdır.

Burada təqdim olunan alqoritmlərlə bağlı hər hansı bir şübhə üçün, hazırlandığı sənədin müvafiq müəllifi ilə əlaqə saxlaya bilərsiniz (bax bu sənəddəki istinad bölməsinə).

Bu kod bazasını elmi bir nəşrdə istifadə etmisinizsə və istinad etmək istəsəniz, xahiş edirəm Tətbiqlərlə Mütəxəssis Sistemlər məqaləsini istifadə edin.


Fərq sıxlığa malik məlumatlar üçün dəyişdirilmiş DBSCAN klasterləşdirmə alqoritmi.

Kümelenme, etiketlenmemiş məlumatlar toplusundakı bir quruluş tapmaqla əlaqəli ən vacib nəzarətsiz öyrənmə problemi hesab edilə bilər. Bu səbəbdən bir klaster, aralarında "oxşar" olan və digər qruplara aid obyektlərə "bənzəməyən" obyektlərin toplusudur (Ester, 1996).

Nəticə olaraq klasterləşdirmə problemini ifadə etmək və formalaşdırmaq üçün bir çox fərqli yol vardır, əldə edilmiş nəticələr və şərhlər klasterləşdirmə probleminin əvvəlcə formalaşdırılmasından çox asılıdır.

Məsələn, müəyyən edilmiş qruplar və ya qruplar müstəsna ola bilər, buna görə hər bir nümunə yalnız bir qrupa aiddir. Və ya bir nümunənin bir neçə qrupa düşə biləcəyi mənası üst-üstə düşə bilər. Yoxsa müəyyən bir təyin olunmuş ehtimaldan asılı olaraq bir nümunənin hər qrupa aid olduğu ehtimal ola bilər. Və ya iyerarxik ola bilər, belə ki, nümunələrin yüksək səviyyədə qruplara bölünməsi daha da incə səviyyələrə çevrilir. Bundan əlavə, fərqli formulalar həll etmək üçün fərqli alqoritmlərə səbəb olur. Hər bir fərqli formulyasiyanı həll etmək üçün təklif olunan hər bir fərqli alqoritmin bütün varyasyonlarını da nəzərə alsaq, son dərəcə böyük bir qruplaşma alqoritmləri ailəsi ilə qarşılaşırıq (Jain, 1998).

Sıxlığa əsaslanan klaster üsulları, sıx yerləşdiyi məlumat nöqtələrinin mütləq qabarıq olmayan bölgələrini təyin etməyə imkan verir. Sıxlığa əsaslanan qruplaşma əvvəlcədən qrupların sayına ehtiyac duymur, lakin sıxlığın əsaslı bir qrup anlayışına əsaslanır ki, hər bir nöqtə üçün müəyyən bir radiusun (eps) qonşuluğu ən azı minimum nöqtəni (MinPts) əhatə etsin. ). DBSCAN, orijinal formada sıxlığa əsaslanan qruplaşma, müəyyən bir radiusun qonşuluğu və Şəkil 1-də göstərildiyi kimi məhəllə daxilində saxlanması lazım olan minimum nöqtələrin sayı kimi bilinən parametrlərindəki kiçik dəyişikliklərə həssasdır.

DBSCAN alqoritmində kiçik eps dəyərlərinin və MinPts-in böyük dəyərlərinin seçilməsi nəticələnən qruplarda bir çox səs-küylü nöqtələrə səbəb ola bilər, digər tərəfdən eps və MinPts-in kiçik dəyərlərinin böyük dəyərlərinin seçilməsi bəzi fərqli qrupların birləşməsinə səbəb ola bilər. .

Bu yazıda fərqli sıxlıqdakı məlumatlarla işləyən dəyişdirilmiş DBSCAN alqoritmi təklif edirik, təklif olunan alqoritm parametrlərini fərqli məlumat sıxlığına görə dəyişdirir.

Kağızın qalan hissəsi aşağıdakı kimi təşkil edilmişdir. Bölmə 2-də sıxlığa əsaslanan klasterləşdirmə alqoritmlərini müzakirə edirik. Bölmə 3-də əlaqəli işi müzakirə edirik. Bölmə 4-də təklif olunan alqoritmi təqdim edirik. Təcrübə nəticələri və performans qiymətləndirməsi Bölmə 5-də, nəticədə Bölmə 6-da verilmişdir.

2. Sıxlığa əsaslanan klaster alqoritmləri

Sıxlığa əsaslanan klasterləşmə yanaşması, klasterlərin aşağı sıxlıqlı bölgələrlə ayrılmış sıx bölgələr kimi təyin olunduğu ixtiyari formalı klasterləri tapmağı bacaran bir metodikadır. Sıxlığa əsaslanan bir alqoritm orijinal məlumat dəstinin yalnız bir taramasına ehtiyac duyur və səs-küylə işləyə bilər. Kümələrin sayı tələb olunmur, çünki sıxlığa əsaslanan klasterləşdirmə alqoritmləri klasterlərin təbii sayı ilə yanaşı avtomatik olaraq qrupları da aşkar edə bilər (Ankerst, 1999).

Bəzi təriflərlə (Peng, 2007) və qeydlərlə başlayırıq. Sıxlığa əsaslanan alqoritmlərdə vacib bir konsepsiya nöqtənin eps qonşuluğudur. X bir nöqtə olsun. Sonra x-nin eps-qonşuluğu Neps (x) ilə işarələnir və aşağıdakı kimi müəyyən edilir.

Tərif 1: bir nöqtənin eps-qonşuluğu

X nöqtəsinin eps-qonşuluğu Neps (x) = olaraq təyin olunur , burada D məlumat dəstidir və d (.) müəyyən bir məsafə funksiyasıdır.

Tərif 2 (birbaşa sıxlığa çatmaq olar). X nöqtəsinin y nöqtəsindən birbaşa əldə edilə bilən sıxlığı olduğu deyilir (eps və Nmin ilə əlaqəli) əgər

2. [mütləq [N.sub.eps] dəyəri (y) [böyük və ya bərabər] [N.sub.min], burada | [N.sub.min] |

Nepsdəki nöqtələrin sayını göstərir (y).

Doğrudan sıxlığa çatmaq mümkün olan cüt nöqtə nöqtələri üçün simmetrikdir (çoxluq içindəki nöqtələr), lakin ümumiyyətlə bir əsas nöqtə və bir sərhəd nöqtəsi (bir qrupun sərhədindəki bir nöqtə) daxil olduqda simmetrik deyil. Birbaşa sıxlığa çatmaq üçün bir uzantı olaraq, aşağıda göstərilən sıxlığa çatmaq da ümumiyyətlə simmetrik deyil. Ancaq sıxlığa bağlı bir simmetrik əlaqədir.

Tərif 3 (Sıxlığa çatmaq olar). X = x1, x2, nöqtələrinin ardıcıllığı varsa x nöqtəsinin y nöqtəsindən sıxlığa çatdığı deyilir. xi = y ki, xl l = 1, 2, üçün xl + 1-dən birbaşa sıxlığa çatır. i - 1.

Tərif 4 (Sıxlığa bağlı). Two points x and y are said to density-connected with respect to eps and Nmin if there exists a point z such that both x and y are density-reachable from z with respect to eps and Nmin.

A cluster is then very intuitively defined as a set of density-connected points that is maximal with respect to density-reachability. Mathematically, we have the following definition.

Definition 5 (Cluster). Let D be a data set. A cluster C with respect to eps and Nmin is a nonempty subset of D satisfying the following conditions:

1. [for all]x, y [member of] D, if x [member of] C and y is density-reachable from x with respect to eps and Nmin, then y [member of] C (maximality).

2. [for all]x, y [member of] C, x and y are density-connected with respect to eps and Nmin (connectivity).

The noise is a set of points in the data set that do not belong to any cluster. We see from Definition 5 that a cluster contains at least Nmin points. DBSCAN starts with an arbitrary point x and finds all points that are density-reachable from x with respect to eps and Nmin. If x is a core point, then a cluster with respect to eps and Nmin is formed. If x is a border point, then no points are density-reachable from x and DBSCAN visits the next unclassified point. DBSCAN may merge two clusters if the two clusters are close to each other. In DBSCAN, the distance between two clusters C1 and C2 is defined as

d(Ci, C2)= [min.sub.x[member of]C1,y[member of]C2] d(x, y).

DBSCAN tends to merge many slightly connected clusters together.

Figure 2 shows the core point, border point, and outlier.

DBSCAN requires two parameters, eps and Nmin. These two parameters are used globally in the algorithm the two parameters are the same for all clusters, so to choose the two parameters in advance is not easy.

In Figure 3, we present the basic version of DBSCAN (Ester, 1996):

As shown in figure 3 The DBSCAN starts with an arbitrary starting point that has not been visited. This point's eps-neighborhood is retrieved, and if it contains sufficiently many points, a cluster is started. Otherwise, the point is labeled as noise. If a point is found to be a dense part of a cluster, its eps-neighborhood is also part of that cluster. Hence, all points that are found within the eps-neighborhood are added, as is their own eps-neighborhood when they are also dense. This process continues until the density-connected cluster is completely found. Then, a new unvisited point is retrieved and processed, leading to the discovery of a further cluster or noise.

2.1 Advantages of DBSCAN (Jian, 2009)

1. DBSCAN does not require you to know the number of clusters in the data in advance, as opposed to k-means.

2. DBSCAN can find arbitrary shaped clusters. It can even find clusters completely surrounded by (but not connected to) a different cluster.

3. DBSCAN has a notion of noise.

4. DBSCAN requires just two parameters and is mostly insensitive to the ordering of the points in the database.

2.2 Disadvantages of DBSCAN (Jian, 2009)

1. DBSCAN can only result in a good clustering as good as its distance measure. The most common distance metric used is the Euclidean distance measure. Especially for highdimensional data, this distance metric can be rendered almost useless.

2. DBSCAN does not respond well to data sets with varying densities .

The DBSCAN (Density Based Spatial Clustering of Application with Noise) (Ester, 1996) is the basic clustering algorithm to mine the clusters based on objects density. In this algorithm, first the number of objects present within the neighbour region (Eps) is computed. If the neighbor objects count is below the given threshold value, the object will be marked as NOISE. Otherwise the new cluster will be formed from the core object by finding the group of density connected objects that are maximal w.r.t density reachability.

The cluster formed by the DBSCAN algorithm will have wide variation inside each cluster in terms of density.

The OPTICS (Ankerst, 1999) algorithm adopts the original DBSCAN algorithm to deal with variance density clusters. This algorithm computes an ordering of the objects based on the reachability distance for representing the intrinsic hierarchical clustering structure. The Valleys in the plot indicate the clusters. But the input parameters [xi], is critical for identifying the valleys as [xi], clusters.

The DENCLUE (Hinneburg, 1998) algorithm uses kernel density estimation. The result of density function gives the local density maxima value and this local density value is used to form the clusters. If the local density value is very small, the objects of clusters will be discarded as NOISE.

The CHAMELEON (Karypis, 1999) is a two phase algorithm. It generates a k-nearest graph in the first phase and hierarchical cluster algorithm has been used in the second phase to find the cluster by combining the sub clusters.

The DDSC (A Density Differentiated Spatial Clustering Technique) (Borah, 2008) and EDBSCAN (An Enhanced Density Based Spatial Clustering of Application with Noise) (Ram, 2009) are the extension of DBSCAN algorithm, gives solution to handling different densities. The DDSC algorithm takes very sensitive parameter for variance density clusters and even a very minimum change in the parameter will give wrong result. The other algorithm EDBSCAN expands the cluster based on the Relative Core Object condition.

Homogeneity Index (HI) and Density Variance are the two important parameters which determine the density variance.

The most of the Density Based algorithms accept very sensitive parameters for working on different density clusters. Even if we give the right density parameter values, it will not be able to deal with different range of densities and this may vary based on the nature of data base. So this paper introduces a method to handle the density variance.

Our proposed algorithm relies on the basic DBSCAN algorithm, it starts with initial values of eps and MinPts, but these values are changed according to the density of the points in the regions.

The pseudo code for the proposed algorithm is shown in Figure 4.

In Figure 4, we show the pseudo code of the proposed algorithm which works as the following:

1--It runs with the given parameters eps and MinPts.

2--It starts with an arbitrary starting point that has not been visited.

3--eps-neighborhood is retrieved.

4--If eps-neighborhood contains a number of points that greater than or equal to MinPts then a cluster is started.

5--If eps-neighborhood contains a number of points less than or equal to MinPts and eps-neighborhood > 0 then the eps value is modified as the following :

6--Otherwise, the point is labeled as noise.

7--The algorithm is repeated until all points are visited.

In fact there are many tools and frameworks that help to experiment different clustering algorithms, and one of the most popular tools is Matlab which was used to implement the our algorithm and generate some artificial dataset, a number of datasets will be tested to evaluate the algorithm, two types of dataset: artificial dataset and real dataset will be used.

Very different Artificial datasets can be generated using random functions generators with different parameters, the artificial dataset dataset1 are consisted of three clusters each cluster contains 2473 samples with two features. Figure 5 show the output of the (a) DBSCAN and (b) proposed algorithm with the artificial dataset1.

The dataset1 is clustered using eps=2, MinPts=5 in the two cases of Figure 5, as we see in Figure 6, in the case of using DBSCAN algorithm, there are several points that are labeled as noise, where it is clustered correctly in the proposed algorithm.

The second artificial dataset dataset2 consist of 2104 points with two features, the results are shown in figure 6 by using (a) DBSCAN and (b) proposed algorithm.

As shown in Figure 6 a and b, the number of clusters is determined correctly in the DBSCAN and in our proposed algorithm, but when using the basic DBSCAN there are a lot of points that labeled as noise .

IRIS dataset is one of the most popular dataset that use in evaluation as Real dataset and it's available for free from Machine Learning Repository(Lin,2005), iris dataset consists of three cluster with 50 samples for each cluster and four features, Table 1 shows the--Output of the DBSCAN and proposed algorithm when they applied to IRIS dataset.

We apply another data set, which is Haberman data set to show the efficiency of our proposed algorithm. The Haberman data set contains two clusters, 306 data points with 3 dimensions. The obtained results are shown in Table 1.

The results in Table 1 shows that there is no enhancement on real data set because the data is not well separated and clusters are overlapping.

6. Conclusion and future work

DBSCAN algorithm can find a cluster with arbitrary shapes. DBSCAN algorithm has limitation to find clusters with different density level, and it needs to specify MinPts parameter which is unknown most of the time, instead our proposed algorithm update the value of eps and MinPts according to the densities of in the regions. The proposed algorithm is working well on artificial datasets, because the data points do not contain a lot of noise. In the future we will work on the algorithm to deal with noise and detect outliers.

Ankerst M., Breunig M., Kriegel H., and Sander J. (1999) "OPTICS: Ordering Objects to Identify the Clustering Structure, Proc. ACM SIGMOD," in International Conference on Management of Data, pp. 49-60.

Bahmani Firouzi B., Niknam T, and Nayeripour M., (2008) "A new evolutionary algorithm for cluster analysis," in Proceedings of the World Academy of Science, Engineering and Technology, vol. 36, December.

Borah B., Bhattacharyya D. (2008) "DDSC, "A Density Differentiated Spatial Clustering Technique", Journal of Computers, vol. 3, no. 2, February.

Ester M., Kriegel H., Sander J., and Xu X. (1996) "A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise" In Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining (KDD'96), Portland: Oregon, pp. 226-231.

Fillippone, M., Camastra, F., Masulli, F., Rovetta, S. (2008). "A survey of kernel and spectral methods for clustering" In Pattern Recognition 41, 176-190.

Han J. and Kamber M. (2006) Data Mining Concepts and Techniques. Morgan Kaufman.

Hinneburg A. and Keim D. (1998) "An efficient approach to clustering in large multimedia data sets with noise," in 4th International Conference on Knowledge Discovery and Data Mining, pp. 58-65.

Hsu D. and Johnson S. (2008) "A vibrating method based cluster reducing strategy," in Proceedings of the 5th International Conference on Fuzzy Systems and Knowledge Discovery (FSKD '08), pp. 376379, Shandong, China, October.

Jain A. and Dubes R. (1998) Algorithm for Clustering Data, Prentice Hall, Englewood Cliffs, NJ, USA.

Jian L., Wei Y. and Bao-Ping Y. (2009) "Memory effect in DBSCAN algorithm" In Computer Science & Education, 2009. ICCSE '09. 4th International Conference on, vol., no., pp. 31-36, 25-28 July.

Kailing K, Kriegel H. and Kroger P (2004). "Density-connected subspace clustering for high-dimensional data" In Proceedings of the 4th SIAM International Conference on Data Mining (SDM), Lake Buena Vista, FL.

Karypis G., Han E., and Kumar V. (1999) "CHAMELEON: A hierarchical clustering algorithm using dynamic modeling" In Computer, vol. 32, no. 8, pp. 68-75.

Lin C. and Chang C. (2005) "A new density-based scheme for clustering based on genetic algorithm" In Fundamental Informatics, vol. 68, no. 4, pp. 315-331.

Pascual D., Pla F., and Sanchez J. (2006) "Non parametric local density-based clustering for multimodal overlapping distributions," In Proceedings of the Intelligent Data Engineering and Automated Learning (IDEAL '06), pp. 671-678, Burgos, Spain.

Pei T, Jasra A, Hand D, Zhu A and Zhou C. (2009) "DECODE: a new method for discovering clusters of different densities in spatial data" In Data Mining Knowledge Discovery, 18:337-369.

Peng L., Dong Z., and Naijun W. (2007) "VDBSCAN: varied density based spatial clustering of applications with noise," In Proceedings of the International Conference on Service Systems and Service Management (ICSSSM '07), pp. 528-531, Chengdu, China, June.

Peter J. and Antony samy A. (2010) "Heterogeneous density based spatial clustering of application with noise," In International Journal of Computer Science and Network Security, vol. 10, no. 8, pp. 210-214.

Ram, A., Sharma, A., Jalal A., Agrawal, A. and Singh R. (2009) "An Enhanced Density Based Spatial Clustering of Applications with Noise," In Advance Computing Conference, 2009. IACC 2009. IEEE International, vol., no., pp. 1475-1478, 6-7 March.

Vijayalakshmi S. and Punithavalli M. (2007) "Improved Varied Density Based Spatial Clustering Algorithm with Noise" In Services Systems and Services Management International Conference, June.


How to cluster points based on a kernel density? - Coğrafi İnformasiya Sistemləri

The California Department of Corrections and Rehabilitation (CDCR) has begun tracking more than 6,000 sex offender parolees by using global positioning system (GPS) anklets. Sex offender parolees are allowed to travel only through certain areas and must keep away from other people. The GPS device lets parole agents know when parolees are somewhere they should not be by logging GPS coordinates every minute and sending coordinates to a central server every 10 minutes. This information about parolee location is compared to law enforcement incident data through crime-scene correlation reports. Regular e-mail reports keep analysts notified of any incidents that are close to an offender’s tracks in time and space. The features are accessible through an online mapping application, and analysts can review a parolee’s GPS data for up to 4 hours at a time, or view data in real time (with a 15- minute delay).

Keeping track of parolees’ movements can take a lot of time and law enforcement resources. Law enforcement and parole agencies need a way to sum vast amounts of spatial behavior and coordinate it with related crime information. Environmental Systems Research Institute's (ESRI) Modelbuilder and the kernel density tool are essential for analysts who track and analyze sex offender movement data.

GPS Monitoring Makes Parolees Accountable for Their Actions

Both parolees and officers are accountable for making sure the parolees meet the conditions of parole. Parolees must charge the anklet twice a day, and parole agents must respond to notifications if the parolee enters or leaves an inclusion zone during the prescribed times. Furthermore, the parole agent must keep track of a parolee’s location in relation to new crimes and discuss any possible infractions with the parolee. This keeps the parolee notified that his or her movements are being watched. Although real-time monitoring does not allow law enforcement to apprehend a parolee about to commit a felony, officers must be accountable for post-processing the data and hold an offender accountable for his or her location at all times.

Finding a Way to Process the Data

When monitoring sex offenders, local law enforcement and regional parole officers need a method to sum enormous amounts of spatial information. Querying 4 hours for a single parolee will yield approximately 240 GPS coordinates, and the server can take up to 15 minutes to process this query. Reviewing a parolee’s movements for a 24-hour period produces 1,440 discrete recorded locations, and most parole agents have a caseload of 20 parolees. The data quickly become overwhelming, and it can be a challenge to determine which locations matter.

Agents currently determine which locations to discuss with parolees by using a disciplined process of watching an individual’s movements and inferring behavior. The process of watching an individual’s tracks and recording routine locations or “anchor points” is time intensive. Geographic information systems (GIS) can help automate this process.

Each anchor point looks like a cluster of points on a map. GPS point data have time stamps1 that indicate that the cluster covers roughly the same period of time. The cluster’s time stamp also could reveal that the points have left and returned (e.g., when an offender travels between home and work). When analyzing a cluster, the size and GPS drift matter. Analysts should determine how best to discern offender activity and at what distance clusters should remain separate. If the parolee is in the same area for 15 minutes or more, that location needs to be made an anchor point.

Using the GIS Kernel Density Tool to Identify Anchor Points

The GIS kernel density tool, adapted from ecological studies that tracked animals, is regularly used for hot spot mapping. Crime analysts use the kernel density tool to visualize and define groups of crime, such as hot spots of violent crime. The GPS data are precise and dense enough that the search radius of the kernel density does not need to be as large for crime events. A 100-foot search radius is ideal, and a 20- foot grid cell size supports the small search radius. Tiny “home ranges” are translated to the centroids2 of the hot spot, and these locations become anchor points merged with a larger set of anchor points for that parolee.

When loading GPS data into the kernel density tool, analysts should consider time range and amount of data. A time range of 1 to 14 days is possible, and each period produces similar results. Some clusters will be denser, given more time and GPS point data, but the centroid will still be roughly the same. A longer period of time will define more anchor points, but if the analysis process becomes automated and iterative, each new day of data will be incorporated into the ongoing anchor point database.

Using ESRI’s Modelbuilder for Anchor Point Analysis

ESRI’s Modelbuilder is essential for analyzing sex offender anchor points. Running the model for the anchor point process can take several minutes. The model should be scalable, so that it could potentially be run for all tracked offenders. Once the model has been created, the process is run repeatedly for thousands of tracked offenders and anchor point databases will continue to grow.

  1. Query a day of GPS data for a single offender (see Figure 1).
  2. Run a kernel density tool with a 100-foot search radius and 20-foot grid cells (see Figure 2).
  3. Reclassify the resulting raster (i.e., grid) to give two values (a hot spot = 1, not a hot spot = 0).
  4. Convert the raster to a polygon.
  5. Query the polygon for a hot spot value of 1.
  6. Extract the centroids from the hot spot (see Figure 3).

Why Anchor Points Work

Anchor points can drive tracking analysis and serve as points of communication between local law enforcement and regional parole offices. When an offender is in the vicinity of a crime, parole agents and crime analysts receive incident hit notification e-mails, which might say, for example, “A parolee tracked by the system is within 1,500 yards and 30 minutes of a time-stamped crime incident.” Most of the correlations will be false, so a parole agent or crime analyst must prioritize which reports are worth investigating. The parole agent can then ask the parolee about specific locations that are a high priority and present results to local law enforcement. Local law enforcement, in turn, can flag specific anchor points about which a parole agent could question assigned offenders.

Local law enforcement crime analysts and state corrections programs must work together to monitor sex offenders and ensure that they do not violate parole conditions or recidivate. Law enforcement in California must send incident data involving sex offenders to the CDCR in a timely matter to make crime correlation possible. Furthermore, using GIS to monitor sex offenders is helpful because local law enforcement has a vested interest in understanding and updating the changing local geography. Regional parole offices have a vested interest in monitoring parolee’s spatial behavior, and local law enforcement agencies are interested in keeping their jurisdictions safe. Geographic information systems provide the best possible medium for this type of communication between local law enforcement and regional parole offices.

Notes
1 A time stamp records the date and time that the GPS point was recorded.
2A centroid is the center of a polygon.

The above was taken from the NIJ's "Quarterly Bulletin of Applied Geography for the Study of Crime & Public Safety"


How to cluster points based on a kernel density? - Coğrafi İnformasiya Sistemləri

The introduction to clustering is discussed in this article and is advised to be understood first.

The clustering Algorithms are of many types. The following overview will only list the most prominent examples of clustering algorithms, as there are possibly over 100 published clustering algorithms. Not all provide models for their clusters and can thus not easily be categorized.

Distribution based methods :
It is a clustering model in which we will fit the data on the probability that how it may belong to the same distribution. The grouping done may be normal or gaussian . Gaussian distribution is more prominent where we have fixed number of distributions and all the upcoming data is fitted into it such that the distribution of data may get maximized . This result in grouping which is shown in figure:-

This model works good on synthetic data and diversely sized clusters. But this model may have problem if the constraints are not used to limit model’s complexity. Furthermore, Distribution-based clustering produces clusters which assume concisely defined mathematical models underlying the data, a rather strong assumption for some data distributions.
For Ex- Expectation-maximization algorithm which uses multivariate normal distributions is one of popular example of this algorithm .

Centroid based methods :
This is basically one of iterative clustering algorithm in which the clusters are formed by the closeness of data points to the centroid of clusters. Here , the cluster center i.e. centroid is formed such that the distance of data points is minimum with the center. This problem is basically one of NP- Hard problem and thus solutions are commonly approximated over a number of trials.
For Ex- K – means algorithm is one of popular example of this algorithm .

The biggest problem with this algorithm is that we need to specify K in advance. It also has problem in clustering density based distributions.

Connectivity based methods :
The core idea of connectivity based model is similar to Centroid based model which is basically defining clusters on the basis of closeness of data points .Here we work on a notion that the data points which are closer have similar behavior as compared to data points that are farther .
It is not a single partitioning of the data set , instead it provides an extensive hierarchy of clusters that merge with each other at certain distances. Here the choice of distance function is subjective. These models are very easy to interpret but it lacks scalability .

For Ex- hierarchical algorithm and it’s variants .

Density Models :
In this clustering model there will be a searching of data space for areas of varied density of data points in the data space . It isolates various density regions based on different densities present in the data space .
For Ex- DBSCAN and OPTICS.

Subspace clustering :
Subspace clustering is an unsupervised learning problem that aims at grouping data points into multiple clusters so that data point at single cluster lie approximately on a low-dimensional linear subspace. Subspace clustering is an extension of feature selection just as with feature selection subspace clustering requires a search method and evaluation criteria but in addition subspace clustering limit the scope of evaluation criteria. Subspace clustering algorithm localize the search for relevant dimension and allow to them to find cluster that exist in multiple overlapping subspaces. Subspace clustering was originally purpose to solved very specific computer vision problem having a union of subspace structure in the data but it gains increasing attention in the statistic and machine learning community. People use this tool in social network, movie recommendation, and biological dataset. Subspace clustering raise the concern of data privacy as many such application involve dealing with sensitive information. Data points are assumed to be incoherentas it only protects the differential privacy of any feature of a user rather than the entire profile user of the database.


Clustering probability distributions - methods & metrics?

I have some data points, each containing 5 vectors of agglomerated discrete results, each vector's results generated by a different distribution, (the specific kind of which I am not sure, my best guess is Weibull, with shape parameter varying somewhere around exponential to power law (1 to 0, roughly).)

I am looking to use a clustering algorithm like K-Means to put each data point into groups based on the attributes of its 5 component distributions. I was wondering if there are any established distance metrics that would be elegant for these purposes. I have had three ideas so far, but I'm not a seasoned statistician (more of a beginning data-mining computer scientist) so I have little idea how far I am off track.

Since I don't know exactly what kind of distributions I'm dealing with, my brute-force approach to the problem was to chop each of the distributions (I have 5 per point) into each of its respective discrete data values (I pad each corresponding one to the same length with zeros at the end) and use each of these values as a separate attribute for the data point itself. I tried using both Manhattan distance and Euclidean distance as metrics based on these attributes, for both the PDF and CDF.

Again, since I don't know what kinds of distributions I have, I figured that if I was going to measure the distance between the overall distributions I could use some sort of non-parametric test pairwise between distributions, such as the KS-test, to find the likelihood that the given distributions were generated by different PDFs. I thought that my first option (above) using the Manhattan distance would be a sort of upper bound on what I might get using this approach (since the KS statistic is the max absolute value of the difference of the CDFs, where Manhattan distance is the sum of the absolute values of the differences in the PDFs). I then considered combining the different KS-Statistics or P-values within each data point, probably using Euclidean distance, but possibly just taking the max of all of these values.

Lastly, in an effort to use what little I can interpret about the shape of the distributions, I thought I might try estimating the parameters of the distributions as fit into a Weibull curve. I could then cluster the distributions based on differences in the two parameters of the Weibull distribution, lambda and k (scale and shape), probably normalized according to the variance of these parameters or something of the sort. This is the only case where I thought I might have an idea of how to normalize the parameters.

So my question is, what measure/methods would you recommend for clustering of distributions? Am I even on the right track with any of these? Is K-Means even a good algorithm to use?

Edit: Clarification of data.

Each data point (each object Obj that I want to cluster) actually literally contains 5 vectors of data. I know there are exactly 5 phases that these objects can be in. We'll say (for the purposes of simplification) that each vector is of length N .

Each one of these vectors (call it vector i ) is a probability distribution with integer x-values of 1 through N, where each corresponding y-value represents the probability of measuring value x in phase i of the object Obj . N is then the maximum x-value I expect to measure in any phase of the object (this is not actually a fixed number in my analysis).

I determine these probabilities in the following manner:

I take a single Obj and put it in phase i for k trials , taking a measurement at each trial. Each measurement is a single whole number. I do this for each of 5 phases of a single object, and in turn for each object. My raw measurement data for a single object might look like:

Vector 1. [90, 42, 30, 9, 3, 4, 0, 1, 0, 0, 1]

Vector 2. [150, 16, 5, 0, 1, 0, 0, 0, 0, 0, 0]

Then I normalize each of the vectors on its own, with respect to the total number of measurements in that given vector. This gives me a probability distribution in that vector, where each corresponding y-value represents the probability of measuring value x in phase i .


Kernel method

In machine learning, kernel machines are a class of algorithms for pattern analysis, whose best known member is the support-vector machine (SVM). The general task of pattern analysis is to find and study general types of relations (for example clusters, rankings, principal components, correlations, classifications) in datasets. For many algorithms that solve these tasks, the data in raw representation have to be explicitly transformed into feature vector representations via a user-specified feature map: in contrast, kernel methods require only a user-specified kernel, i.e., a similarity function over pairs of data points in raw representation.

Kernel methods owe their name to the use of kernel functions, which enable them to operate in a high-dimensional, gizli feature space without ever computing the coordinates of the data in that space, but rather by simply computing the inner products between the images of all pairs of data in the feature space. This operation is often computationally cheaper than the explicit computation of the coordinates. This approach is called the "kernel trick". [1] Kernel functions have been introduced for sequence data, graphs, text, images, as well as vectors.

Most kernel algorithms are based on convex optimization or eigenproblems and are statistically well-founded. Typically, their statistical properties are analyzed using statistical learning theory (for example, using Rademacher complexity).


Implications for prevention and control

To examine these findings within an injury prevention and control context, we consider potential interventions actions within education, regulation, the built environment and injury surveillance, recommending a comprehensive comparative study of their effectiveness in other settings.

Physicians occupy a valuable position to discuss violence with patients and refer them to community and health resources.43 A 1995 study, Hedges və s44 found that nearly half of all repeat trauma patients were injured by the same mechanism that caused their first visit. As such, point-of-care interventions may prove useful in behaviour modification. However, upstream interventions hold strong potential in this case, information posters could be placed in nightclub washrooms, a technique used in antismoking campaigns.45 However, offender-targeted campaigns have been shown in the literature to have minimal effect on offender opinions or behaviours, and the management at alcohol-serving establishments may be reluctant to engage in campaigns that may discourage consumption.46 , 47 Conversely, the WHO recommends campaigns targeting the cultural norms that promote violence, with an emphasis on youth education.48 Such programmes would require broader policy support and an acknowledgement of the ‘lag effect’ of youth education on adult health outcomes.

The most prominent temporal spike in violent injury found in this analysis data points towards the ‘closing-time’ debate. There is strong evidence that ‘last call’ policy can reduce excessive consumption and resulting harms,1 , 48 , 49 although the Licensing Act 2003, which allowed for longer serving hours in England and Wales, appeared to have no significant effect.50 Standardised closing times may contribute to increasingly rapid drinking as last call approaches, leading to higher peak levels of intoxication. One policy alternative is the ‘staggered closing’ strategy, where venues may purchase liquor licenses priced along a range of closing times. This is intended to prevent high concentrations of intoxicated patrons at closing time. The WHO recommends strategic pricing to reduce alcohol-related harms, which has been shown both in England51 and British Columbia52 to be an effective policy tool for reducing negative health outcomes.48

There were 192 gunshot trauma cases in this dataset, more than any other mechanism. However, the exclusion of minor injuries in our dataset inflates the proportion of severe trauma, limiting any inference. The WHO global report on violence prevention points towards a widespread weapons availability, pointing towards background checks, safe storage regulations and more restrictive regulation.48 While Canada has relatively strong firearms legislation, the majority of illegal firearms in the Metro Vancouver region are smuggled from the USA or overseas.53 Improved border checks are therefore a potential avenue for intervention.

While increased police presence in hotspots is often recommended,31 , 32 , 54 Goldstein proposes problem-oriented policing as a method that emphasises the role of the police officer to identify underlying drivers of crime, build relationships with the citizenry and acknowledge the limits of the criminal justice system to address problems.55 This approach has been tested in the field with promising results,29 , 31 including ‘community policing’ in Vancouver.

Planning and modification of the built environment provide another direction through which violent trauma can be prevented.31 Stevenson describes urban violence with the enclosure/encounter models.15 A crowded bar is an example of a built enclosure, while the crowded street at closing time causes numerous encounters, both of which can contribute to interpersonal violence. Modifications could include improved nightclub design and wider sidewalks.

Effective injury surveillance programmes can facilitate goal-tracking43 social web technologies are a promising asset in this regard, particularly in deprived urban areas where mobile phone usage is rapidly growing.56 High-quality trauma data were vital in this and other studies. Research and subsequent interventions would benefit from the implementation of a broad violence surveillance programme that combines data from police, medical, schools, community resources (such as women's shelters), legal records and other sources.

In this study, we found several distinct patterns of violent injury with varying characteristics between neighbourhoods. As such, surveillance and intervention programmes should be custom-designed for individual neighbourhoods.31 , 55 While education, regulation, the built environment and surveillance programmes hold strong potential to reduce violent injury in urban space, successes based on policing and accessible medical services have been quantitatively demonstrated.31 , 54 With the ultimate aim of injury control, a successful campaign will encompass a range of strategies to confront the issue upstream (eg, liquor policy and education) and downstream (eg, policing and ample ambulatory resources). This study is limited by the exclusion of cases with a severity score below 15 as a result, these findings are applicable only to severe trauma. Further, the inclusion of patients who expired prior to arrival at a trauma centre may have an impact on the distribution of hotspots. Their exclusion may have led to an under-representation of gang-related violence, which caused numerous deaths during the study period. Future spatial analyses of violent trauma may benefit from the integration of multiple data sources to include a broader range of severity and an extended temporal period.

In this paper, we identified spatial–temporal patterns of violent trauma in Vancouver, Canada, described the neighbourhood-specific contexts within which the examined hotspots are found, and discussed some potential intervention strategies. While this analysis was limited to severe trauma in one city, the findings and implications may prove useful for enriching research efforts in other urban places. However, further research should examine ways to refine the GIS-based methods used herein, conduct more place-specific contextual investigation and examine the efficacy of intervention strategies in other study areas.


Videoya baxın: 9 sinif Nüvə reaksiyalari. (Oktyabr 2021).