Daha çox

Sərhədlər daxilində OSM məlumatlarının əldə edilməsi


Aşağıdakı url istəyi ilə osm məlumatlarını yükləyə bilərəm "http://www.overpass-api.de/api/map?*bbox=7.505549,6.482084,7.511999,6.488254". Bəzi yolların bbox hüdudlarından kənara çıxdığını və tam olaraq bboxa kəsilmədiyi üçün bir map.osm faylı yaradır.

Bu məsələni necə düzəldə bilərəm?


Yuxarıdakı şərhlərdən birində qeyd edildiyi kimi, OverPass API istifadə edərkən "mənbə məlumatları" nın süzülmüş alt hissəsini əldə edirsiniz. Kəsilmənin nəzərdə tutduğu bu mənbə məlumatlarını dəyişdirmək niyyətində deyil.

Düşünürəm ki, irəliləməyin ən yaxşı yolu istədiyiniz sahəni çıxarmaq və QGIS kimi bir alətə gətirmək və bundan istifadə edərək satırları kəsmək (QGIS, Vector-> Geoprocessing Tools -> Clip) olacaq. Başqa bir alternativ istədiyiniz nəticəni vermək, sonra raster klip istifadə etmək olacaq, ancaq aralıq addımlar istəmədiyiniz məlumatlarla işləməyi ehtiva edə bilər.


İndiana

İndiana (/ ˌ ɪ n d i ˈ æ n ə / (qulaq as)) ABŞ-ın Orta qərbindəki bir əyalətdir. Ərazisinə görə ən böyük 38-ci və 50 Amerika Birləşmiş Ştatları arasında 17-ci yerdir. Paytaxtı və ən böyük şəhəri Indianapolisdir. İndiana 11 dekabr 1816-cı ildə ABŞ-a 19-cu ştat olaraq qəbul edildi. Şimal-qərbdə Michigan gölü, şimalda Michigan, şərqdə Ohio, cənub və cənub-şərqdə Ohio çayı və Kentukki ilə həmsərhəddir. Wabash çayı və qərbdə İllinoys.

Bir əraziyə çevrilməzdən əvvəl, müxtəlif yerli xalqlar min illərlə İndiana ştatında yaşayırdılar. Bir ərazi olaraq qurulduğu gündən bəri, İndiana'daki məskunlaşma nümunələri Şərqi Amerika Birləşmiş Ştatlarında mövcud olan regional mədəni seqmentləşdirməni əks etdirdi, əyalətin ən şimal təbəqəsi, əsasən Yeni İngiltərə və New York, Orta Indiana'dan Orta Atlantik əyalətlərindən və bitişik olan köçkünlər tərəfindən həll edildi. Ohio və Cənubi İndiana, xüsusilə də Kentukki və Tennessee bölgəsindəki Cənubi Cənubi yerlilər tərəfindən. [6]

İndiana, 2019-cu ildə 377,1 milyard dollarlıq ümumi dövlət məhsulu ilə fərqli bir iqtisadiyyata malikdir. [7] 100.000 nəfərdən çox əhalisi olan bir neçə metropoliten bölgəsi və bir sıra daha kiçik şəhər və qəsəbələrə malikdir. İndiana, NFL-in Indianapolis Colts və NBA-nın Indiana Pacers daxil olduğu peşəkar idman komandalarına ev sahibliyi edir və Indianapolis 500 də daxil olmaqla bir çox diqqətəlayiq rəqabət tədbirlərinə ev sahibliyi edir.


Açıq Verilərdə Məkan-Müvəqqəti axtarışın təmin edilməsi

İntuitiv olaraq, dövlət açıq məlumat portallarında tapılan əksər məlumat dəstləri yer-zaman cri-teria tərəfindən təşkil edilir, yəni tək məlumat dəstləri müəyyən bir müddət üçün etibarlı bir bölgə üçün məlumat verir. Eynilə, bir çox istifadə vəziyyətində (məsələn, məlumat jurnalistikası və faktların yoxlanılması kimi) üstünlük verilən ehtiyac, müvafiq məlumat dəstlərini müəyyən bir dövrə və ya bölgəyə yaymaqdır. Zəngin məkan-müvəqqəti qeydlər, bu ölçülər boyunca Açıq Məlumat portallarını (və arasında) semantik axtarışını təmin etmək üçün həlledici bir ehtiyac var, lakin bildiyimiz qədər - işləyən bir həll yolu yoxdur. Bu məqsədlə, hazırkı məqalədə (i) coğrafi və müvəqqəti varlıqları iyerarxik şəkildə quran bir məkan-müvəqqəti bilik qrafiki qurmaq üçün genişlənən bir yanaşma təqdim edirik, (ii) cədvəlli məlumat dəstlərinin böyük bir hissəsini açıq məlumat portallarından varlıqlarla açıqlayırıq. bu bilik qrafikindən və (iii) həm axtarış interfeysi, həm də data.wu.ac.at/odgraphsearch/ saytında mövcud olan bir SPARQL son nöqtəsi vasitəsi ilə strukturlaşdırılmış, boşluqlu və müvəqqəti axtarış və sorğu imkan verir.

Açar sözlər: açıq məlumatlar, məkan-müvəqqəti etiketləmə, məkan-müvəqqəti bilik qrafiki

Açıq Data şəffaflığı artırmaq və yeni iş modellərini təmin etmək baxımından hökumətlər tərəfindən çox populyarlıq və dəstək qazanmışdır: Hökumətlər və dövlət qurumları, eyni zamanda özəl şirkətlər, hesabatlı qeydləri təqdim etmək məqsədi ilə xam məlumatlara açıq giriş təmin edirlər [1 ] məsələn, statistik məlumatlar baxımından, eyni zamanda AB-nin INSPIRE direktivi kimi tənzimləyici tələblərin yerinə yetirilməsində.3 Təqdim etmək fikri xam məlumatlar, yalnız insan tərəfindən oxunan hesabatlar əvəzinə

E-poçt ünvanları: [email protected] (Sebastian Neumaier), [email protected] (Axel Polleres)

1Sebastian Neumaierin işləri Avstriyalı tərəfindən maliyyələşdirildi

Federal Nəqliyyat, İnnovasiya və Texnologiya Nazirliyi (BMVIT) CommuniData layihəsi çərçivəsində Avstriyanın Tədqiqat Təqdimat Agentliyi (FFG) tərəfindən “Gələcəyin İKT” proqramı vasitəsilə.

2Axel Polleres'in işi altında dəstəkləndi

Stanford Universitetinin Avropa Mərkəzinin ev sahibliyi etdiyi fərqlənən Ziyarət Avstriya Sədri Professorları proqramı.

və sənədlər, əsasən məlumatlara birbaşa, maşınla işlənə bilən bir giriş təmin etməklə idarə olunur və bu məlumatların geniş və ixtiyari (açıq lisenziyalar vasitəsilə) təkrar istifadəsini təmin edir [2, 3].

Bilik qrafiklərinin meydana gəlməsi ilə ənənəvi veb axtarışında son dövrlərdə inqilab edilmişdir ki, axtarış nəticələrində axtarış motorlarında tipik axtarış ssenarilərini əhatə edən tanınmış anlayışlara və əlaqələrə görə kateqoriyalara baxıla və sıralana bilər. Lakin bu ssenarilər Açıq Data üçün vacibdir: təcrübəmizə görə, verilənlər bazası axtarışı açar söz axtarışından (tək başına) fərqli bir bucaqdan hədəflənməlidir. İntuitiv olaraq, Açıq Verilişdə olan əksər veri dəstləri - əksəriyyəti regional / milli siyahıyaalma mərkəzli olduğu üçün - məkan-müvəqqəti miqyaslar tərəfindən təşkil olunur, yəni tək məlumat dəstləri müəyyən bir bölgə üçün məlumat verir və məqsədimiz müəyyən bir müddət ərzində etibarlıdır. Açıq Verilərdə yayılan bu iki ölçüyü tam olaraq əhatə etməkdir: Həqiqətən, bizim ap-proach məlumatların 75% -ində coğrafi məkanı və bütün məlumatların demək olar ki, 58% -i üçün müvəqqəti məlumatları uğurla şərh edir (bax: Secinforma-tion 4.3 ətraflı qiymətləndirmə üçün). Ayrıca, Kacprzak et

əl. [4] bu yaxınlarda fəza-müvəqqəti şərhlərin və Açıq Data portallarında axtarışın aktuallığını və ehtiyacını təsdiqlədi: dörd məlumat portalının (data.gov.uk daxil olmaqla) sorğu qeydlərini analiz etdilər wrt. fərqli aspektlər və xarakteristikalar, müvəqqəti və yerleşim sorğularını ilk iki sorğu növü kimi sıralayır.

Davamlı veb axtarışında olduğu kimi - bilik qrafiklərinin də istifadə vəziyyətimizdə axtarış xüsusiyyətlərini əhəmiyyətli dərəcədə yaxşılaşdırmaq üçün faydalı ola biləcəyini mübahisələndiririk, kütləvi istifadəyə verilən mənbələrdən məkan-müvəqqəti bilik qrafikləri yaratmağı hədəflədik: Əslində, belə qurmağın vacibliyi coğrafi qrafik obyektlərin, habelə zaman dövrləri və hadisələrin bir məlumat qrafiki, İnternetdə hələ də mövcuddur, baxmayaraq ki, onlar hələ birləşdirilməyib və tətbiq olunmayıblar - prinsipial qaydada - Açıq Data axtarışının vəziyyətinə.

Burada (i) coğrafi varlıqları və eyni zamanda müvəqqəti varlıqları hi-erarxik şəkildə quran, (ii) cədvəlli Açıq Məlumatların böyük bir hissəsini izahat verən, məkan-müvəqqəti bilik qrafiki qurmaq üçün genişlənən bir yanaşma təqdim edirik. on bir Avropa (dövlət) məlumat portalı, (iii) http: //data.wu saytında mövcud olan bu fəza-müvəqqəti məlumat qrafiki vasitəsilə Açıq Məlumat kataloquları üzərində strukturlaşdırılmış, yer-zaman axtarışını təmin edir. ac.at/odgraphsearch/.

Daha ətraflı şəkildə aşağıdakı konkret töhfələri veririk:

• Coğrafi varlıqlar və müvəqqəti varlıqlar üçün hiyerarşik baza bilik qrafasının və onların arasındakı əlaqələrin ətraflı qurulması.

• Açıq məlumat dəstlərini (həm verilənlər bazası səviyyəsində, həm də qeyd səviyyəsində) bu məlumat qrafiki ilə əlaqələndirmək üçün genişlənən etiketləmə alqoritmi.

• 10 Avro-pean ölkəsindən 11 Açıq Data portalından məlumatların və meta məlumatların indeksləşdirilməsi və annotasiyası və yanaşmanın məqsədəuyğunluğunu və effektivliyini göstərmək üçün tarixli məlumatların qiymətləndirilməsi.

• Prototip bir axtarış interfeysi, üzlü və tam mətnli axtarışa imkan verən veb istifadəçi interfeysi, axtarış interfeysinə proqramlı giriş imkanı verən RESTful JSON API, həmçinin indeksləşdirilmiş verilənlər bazası və müvafiq RDF nümayəndəliklərini almaq üçün API girişi

• Qeyd edilmiş əlaqələri ortaya qoyan və strukturlaşdırılmış axtarış sorğularına imkan verən bir SPARQL son nöqtəsi.

• Nəticələrimizi genişləndirmək üçün davamlı tədqiqat üçün əlverişli bir əsas olacağına ümid etdiyimiz təcrübələrimizi necə yenidən işə salacağımıza dair kod, məlumatlar və təsvir yenidən istifadə üçün mövcuddur (GNU General Public License v3.0) .4

Bu sənədin qalan hissəsi aşağıdakı kimi qurulmuşdur: Aşağıdakı Bölmə 2-də müvafiq müvəqqəti və məkan məlumatlarını yenidən əldə etmək üçün (əlaqəli) məlumat dəstləri, anbarlar və son nöqtələri təqdim edirik. Bölmə 3, bu mənbələrin qurulması və baza məlumat qrafikimizə inteqrasiyasının şematik təsvirini verir - quruluşlu bir bilik qrafiki, illik məlumatlandırma bazası və məlumat toplusunun həyata keçirilməsi baxımından faktiki gerçəkləşməsi ilə əlaqələndirilməsi üçün əsas rolunu oynayır. təfərrüatlar Əlavə A-da tamamilə açıqlanmışdır. Bölmə 4-də Açıq Data portallarından məlumat dəstlərinə boşluq-müvəqqəti izahat əlavə etmək üçün alqoritmləri təqdim edirik və performansı qiymətləndiririk və müzakirə edirik (əl ilə yaradılan nümunəyə əsaslanaraq dəqiqlik və geri çağırma baxımından) ) və yanaşmamızın məhdudiyyətləri. RDF məlumat ixracımızın lüğətləri və şeması Bölmə 5-də izah edilir və arxa tərəf, istifadəçi interfeysi və SPARQL son nöqtəsi (nümunə sorğuları daxil olmaqla) Bölmə 6-da təqdim olunur. Bölmə 7-də əlaqəli və tamamlayıcı yanaşmalar təmin edirik. - ümumiyyətlə Bölmə 8-də yekunlaşırıq.

İnsanlar məlumatların məkan və müvəqqəti mətni haqqında düşündükdə, ümumiyyətlə rəqəmlərdən çox, yəni "ölkələr" və ya "şəhərlər" əvəzinə koordinatlar və ya məhdud bir çoxbucaq, ya da "hadisə" və ya "zaman dövrü" haqqında düşünürlər. ”Əvəzinə başlama vaxtları bitmə vaxtları. Son idarəetmə müddəti (və ya başqa sözlə, son iki ümumi seçki arasında) üçün demoqrafik məlumatları ehtiva edən məlumat dəstlərini axtaran birisi ola bilən verilənlər bazası axtarışı baxımından.

Məkan-müvəqqəti konsepsiyalarla bu cür axtarışa imkan yaratmaq üçün məqsədimiz açıq olan məlumatlardan əlaqəli, əsas bilik qrafiki olan əlaqələri toplayan qısa, lakin effektiv bir məlumat bazası yaratmaqdır (i ) Açıq Məlumat portalları daxilində məkan-müvəqqəti axtarışın təmin edilməsi və (ii) Bağlı Verilənlərin prinsipləri ilə Açıq Məlumat portallarını digər məlumat dəstləri ilə bir-birinə bağlamaq.

Aşağıdakı hissədə müvəqqəti və coğrafi varlıqların əsas bilik qrafiki, yəni GeoNames, OpenStreetMap və NUTS coğrafi məlumat mənbələri, Wikidata və DB-pedia məlumat bazaları və dövrləri qurmaq üçün məlumat dəstləri və mənbələrə ümumi baxış verilir. / hadisələr verilənlər bazası PeriodO. GeoNames.org. GeoNames verilənlər bazasında ölkələr, şəhərlər, bölgələr və kəndlər kimi qurumların 10 milyondan çox coğrafi adı var. Coğrafi qurumlara unikal identifikatorlar verir və ölkələr, federal əyalətlər, bölgələr, şəhərlər və s. Daxil olmaqla quyruqsuz bir iyerarxik təsvir verir. Məsələn, Münhen şəhəri üçün GeoNames şəxsiyyəti5 var “Ger-many” ölkəsindəki federal əyalət “Bavariya” nın “Yuxarı Bavyera” bölgəsində yerləşən “Münih, Urban District” valideyn münasibətləri, yəni GeoNames verilənlər bazası, bizə aşağıdakı hiyerarşik əlaqəni çıxarmağa imkan verir. Münhen şəhəri:

Germany & gt Bavaria & gt U pper Bavaria & gt M unich, U rban District & gt M unich İlişkiler inzibati bölgüləri pozan GeoNames ontology6 (birinci sıra gn: A, ikinci dərəcəli gn: A.ADM2, gn: A qədər .ADM5) 7 ölkələr, əyalətlər, şəhərlər və şəhər üçün rayonlar / alt bölgələr. Bu işdə GeoNames verilənlər bazasının bir RDF zibilliyindən istifadə edirik, 8 hansı alternativ adlardan və bütün varlıqların hiyerarşik əlaqələrindən ibarətdir.

OpenStreetMap (OSM). OSM9 ildə quruldu Pulsuz ed edilebilir coğrafi məlumat yaratmaq üçün 2004-cü ildə iş birliyi layihəsi olaraq. Xəritə məlumatları əsasən GPS cihazlarını (piyada, velosiped, avtomobil, ..) istifadə edən könüllülər və daha sonra ticarət və hökumət mənbələri, məsələn, hava fotoşəkilləri idxal edərək istehsal olunur. Başlanğıcda, layihə Birləşmiş Krallığın xəritələşdirilməsinə yönəlmişdi, lakin tezliklə dünya miqyaslı bir qalaya qədər uzandı. OSM coğrafi məlumatları təsvir etmək üçün dörd əsas “element” dən istifadə edir: 10

6http://www.geonames.org/ontology/ontology\_v3.1.rdf 7Burada, gn: ad məkanının URL-nə uyğun gəlir http:

html, son daxil olma tarixi 2018-01-05

10Ətraflı məlumatı OSM-də tapa bilərsiniz

sənəd umenti səhifələri: http://wiki.openstreetmap.org/wiki/ Main_Page

• OSM-dəki qovşaqlar bir enlik və boylam tərəfindən təyin olunan nöqtələrdir.

• Yollar xətti düzəldən qovşaqların siyahısıdır. OSM yolları sahələri də təmizləyə bilər, yəni yolda son düyünün birinci düyünə bərabər olduğu "qapalı" yollar.

• Müxtəlif OSM elementləri arasındakı münasibətlər: Uzun yolları daha kiçik seqmentlərə ayırırlar (daha asan işləmək üçün) və ya mürəkkəb obyektlər qururlar, məsələn, marşrut çox yol (məsələn, avtomobil yolu, dövrü kimi) kimi əlaqələndirilir. marşrut, avtobus marşrutu) eyni marşrut boyunca. • Etiketler mənasını izah etmək üçün istifadə olunur

hər hansı bir element, məsələn, məskunlaşma ərazisindəki bir yolu göstərmək üçün əl-ement yolunda istifadə olunan bir avtomobil yolu = yaşayış11 (etiketlər əsas dəyər cütləri kimi təmsil olunur) ola bilər. OSM-nin digər mənbələri zənginləşdirmək və əlaqələndirmək potensialından istifadə edən artıq mövcud işlər var. Məsələn, [5] -də şəhərlər haqqında statistik məlumat toplamaq üçün OSM-dən bir şəhərdəki otel və ya kitabxana sayı kimi göstəricilər çıxardıq.

Eynilə, Libpostal12 proqram kitabxanası OSM-dən çıxarılan ünvanlardan və yerlərdən istifadə edir: OSM məlumatlarının üstündə maşın öyrənmə alqoritmlərindən istifadə edərək küçə ünvanının təhlilini və normallaşmasını dəstəkləyir. Kitabxana sərbəst formalı reklam geyimlərini təmiz normallaşdırılmış formalara çevirir və bundan əvvəl küçələrin və ünvanların coğrafi etiketlənməsi üçün əvvəlcədən işləmə mərhələsi kimi istifadə edilə bilər. Libpostal-ı küçə və şəhər adlarını mətn və ünvan sətirlərində aşkar etmək üçün çərçivəmizə inteqrasiya edirik.

Poçt kodları və NUTS kodlarını əldə etmək üçün mənbələr. Poçt kodları poçtları çeşidləmək məqsədi ilə bir sıra məktublardan ibarət olan regional kodlardır (mütləq rəqəmlər deyil). Poçt kodları ölkələrin özünəməxsus xüsusiyyətlərinə malik olduqlarından və onların dənəvərliyi və istifadə qabiliyyəti müxtəlif ölkələr üçün kəskin şəkildə dəyişdiyindən, bu kodları almaq üçün tək, tam bir məlumat mənbəyi yoxdur. Tam məlumat dəstini əldə etməyin ən etibarlı yolu, ümumiyyətlə dövlət qurumlarıdır (kodları 11 kimi dərc etdikləri halda asanlaşdırılır)cf. https://wiki.openstreetmap.org/wiki/Tag:

statistik-nlp-on-openstreetmap-b9d573e6cc86, son daxiletmə tarixi 2017-09-12

açıq məlumatlar) .13 Diqqəti çəkən başqa bir mənbə uyğun poçt kodları GeoNames: bir neçə ölkə üçün poçt kodları toplusunu və yerlərin / bölgələrin müvafiq adını təmin edir.

Qismən, müəyyən ölkələr üçün poçt kodları, coğrafi qurumların müvafiq qeydləri üçün (“poçt indeksi” xüsusiyyətlərindən istifadə etməklə) Wikidata və DBpedia-nın məlumat bazalarında mövcuddur (aşağıya bax). Bununla birlikdə, bu girişlərin tam şəkildə olmadığını, yəni bütün coğrafi qurumların olmadığı və kodların təmsil olunmasının standartlaşdırılmadığı üçün məlumat bazalarında bütün poçt kodlarının mövcud olmadığını vurğulayırıq.

NUTS (Fransızca: nomenclature des unit`es terri-toriales statistiques). Milli poçt kodları xaricində başqa bir coğrafi kod standartı hazırlanmışdır və Avropa Birliyi (AB) tərəfindən tənzimlənir. Bütün AB üzv dövlətlərinin üç hiyerarşik səviyyədə, NUTS 1, 2 və 3-də statistik alt bölmələrinə istinad edilir. Bütün kodlar iki hərfli ISO 3166-1 [6] ölkə kodu ilə başlayır və hər səviyyə kodu əlavə bir nömrə əlavə edir. . İcarəyə götürülmüş NUTS sinifləri NUTS 1-də 98 bölgəni, NUTS 2-də 276 bölgəni və NUTS 3 səviyyəsində 1342 bölgəni sadalayır və AK-nin Veb səhifəsindən əldə edilə bilər. 15 Bu kontekstdə ayrıca qeyd etmək lazımdır - statistika üçün əlavə bir mənbə NUTS bölgələrindəki topoqrafik xəritələr - REST xidmətləri olaraq təqdim olunan Eurostat tərəfindən Avropa səviyyəsində hazırlanmış əsas xəritələrdir.

Wikidata və DBpedia. Bunlar

domendən asılı olmayan, çoxdilli, bilik bazaları strukturlaşdırılmış məzmunu və faktiki məlumatları təmin edir. DBpedia [7] avtomatik olaraq Wikipedia-dan məlumat çıxartmaqla yaradıldığı halda, Wikidata [8], əksinə, Vikipediyaya məlumat vermək üçün nəzərdə tutulan əməkdaşlıqla düzəldilmiş bir məlumat bazasıdır. Bu bilik bazalarına qismən GeoNames, NUTS idener və poçt kodu girişləri ilə əlaqəli və müvəqqəti 13 daxildir.Məsələn, Avstriya poçtlarının tam siyahısı

kodlar CSV olaraq Avstriyanın Açıq Məlumat portalı vasitəsi ilə əldə edilə bilər: https://www.data.gv.at/katalog/dataset/ f76ed887-00d6-450f-a158-9f8b1cbbeebf, son giriş tarixi 2018-04-03

gis / arcgis / rest / services / Basemaps, son daxil olma tarixi 2018-08-30

hadisələr və dövrlər üçün məlumat, məsələn, seçki, xəbər hadisələri və tarixi dövrlər, bunları baza məlumat qrafikimizi tamamlamaq üçün yığırıq. Dövr O. PeriodO layihəsi [9] tarixi, bədii-tarixi və arxeoloji ön-üsyanların bir qəzetçisidir. İstifadəçi interfeysi dövrləri müxtəlif yönlərdən soruşmağa və silməyə imkan verir. Bundan əlavə, müəlliflər JSON-LD download17 olaraq tam verilənlər bazasını yayımladılar və W3C skoslarını yenidən istifadə edin, vaxt və dcterms: dövrlərin tem-poral və məkan genişlənməsini təsvir etmək üçün məkan lüğətləri. Vəziyyət üçün, Şəkil 1-də (qısaldılmış) Dövri O girişi Birinci Dünya Müharibəsi dövrünü təsvir edir. @prefix dbr: & lthttp: //dbpedia.org/resource/>. @prefix skosları: & lthttp: //www.w3.org/2004/02/skos/core#> @prefix dcterms: & lthttp: //purl.org/dc/terms/>. @prefix vaxtı: & lthttp: //www.w3.org/2006/time#>. & lthttp: //n2t.net/ark: / 99152 / p0kh9ds3566 & gt

dcterms: mekansal dbr: United_Kingdom skosları: altLabel & # 34First World War & # 34 @ eng-latn time: intervalFinishedBy [skos: prefLabel & # 341918 & # 34 time: hasDateTimeDescription [time: year & # 341918 & # 34 ^^ xsd: gYear] ] vaxt: intervalStartedBy [skos: prefLabel & # 341914 & # 34 time: hasDateTimeDescription [time: year & # 341914 & # 34 ^^ xsd: gYear]].

Şəkil 1: Dövr Birinci Dünya Müharibəsi dövrü üçün giriş.

3. Baza Bilik Qrafının İnşası Əvvəlki hissədə bir neçə coğrafi məlumat anbarı, habelə vaxt öncəsi iğtişaşlar və hadisə məlumatlarını ehtiva edən məlumat dəstləri verilmişdir - bəziləri son nöqtə ilə əlaqəli məlumatlar kimi mövcuddur - baza biliklərini yaratmaq üçün aşağıdakılardan istifadə edirik. qrafik: Bölmə 3.1, yer məkanının ekstrasensiyası və inteqrasiyası hissəsini və müvəqqəti biliklərin 3.2 hissəsini təsvir edir. Qalan kağızda müvəqqəti və mavi rəngi təqdim edən firuzəyi rəngli əlavə bir rəng kodlaşdırması istifadə olunur

yerleşim xüsusiyyətləri üçün.

Burada konseptual SPARQL CONSTRUCT sorğularını təqdim edərək qrafın tərkibini təsvir edirik. Bu o deməkdir ki, təqdim olunan sorğular (əksəriyyəti) icra edilə bilməz, çünki mövcuddur

müvafiq bir son nöqtə mövcud deyil və ya sorğu mümkün deyil və vaxtı keçib. Bu hissə qurulmuş qrafiki sxematik xüsusiyyət kimi göstərsə də, Əlavə A-da sorğuların həqiqi reallaşdırılmasını təfərrüatlı şəkildə izah edirik.

Hələ də, bu konseptual SPARQL CONSTRUCT-un istifadəsini, bilik qrafiklərini “adətən varlıqlar haqqında faktların məlumat bazası” kimi təsvir edən Rospocher və digərlərinin əlaqələrini izləyən, əlaqəli məlumat mənbələrindən bilik qrafiki tərtibini deklarativ şəkildə ifadə etmək üçün bir mexanizm kimi faydalı hesab edirik. strukturlaşdırılmış depolardan əldə edilmişdir ”[10] .18 3.1. Məkan bilikləri

Geo-varlıqlar haqqında məlumat qrafikimiz, çıxardığımız GeoNames iyerarxiyasına əsaslanır

• coğrafi təşkilatlar və onların etiketləri,

• ana müəssisələrə və xüsusən də ölkəyə bağlantılar,

• nöqtələr baxımından koordinatlar və (əgər varsa) çoxbucaqlar baxımından həndəsələr,

• poçt kodları (varsa, yenidən) və

• DBpe-dia, OSM və ya Wikidata kimi digər mənbələrə eyniAs-bağlantılar (əgər varsa, yenidən). Müvafiq SPARQL CONSTRUCT sorğusubitdi Şəkil 2-dəki GeoNames verilənlər bazası, hiyerarşik məlumatların seçilmiş bir ölkə üçün (hal-hazırda mövcud olmayan) bir GeoNames SPARQL son nöqtəsindən necə çıxarıla biləcəyini göstərir, yəni GeoN-ames 'Publishing RDF-yə daxil olmaq üçün müvafiq SPARQL son nöqtəsi varsa məlumat, 20 hamısını əldə edə bildik http://sws.geonames kimi konkret bir ölkə URI ilə bu sorğuda? c əvəz edərək, hər bir ölkədəki məlumat qrafikimiz üçün müvafiq məlumatlar. org / 2782113 / (Avstriya üçün). GeoNames RDF məlumatları qismən onsuz da bayquş: sameAs istifadə edərək ekvivalent identifikatorlar kimi modelləşdirdiyimiz DBpedia-ya (rdfs: seeAlso istifadə edərək) xarici bağlantılar ehtiva edir. Hier-archy gn: parentFeature 18 istifadə edərək qurulurBir yan qeyd olaraq, məsələn, bu cür sorğular istifadə edilə bilər

digər əlaqəli məlumat mənbələrindən tərtib edilmiş bilik qrafiklərinin təsdiqlənmə izini deklarativ şəkildə şərh etmək, məs. PROV’s [11] prov: wasGeneratedBy property ilə müvafiq bir SPARQL CONSTRUCT sorğusu ilə müvafiq məlumatları əldə etmək üçün fəaliyyət etiketlənməsi yolu ilə əvvəldən basıldı.

19Sadə suallar onlayndır https://github.com/ sebneu / geolabelling / tree / master / jws_evaluation / queries

əmlak. GeoNames adları ehtiva edən müxtəlif fərqli xüsusiyyətlərə sahib olduğumuz üçün, daha sonra axtarış indeksimizi artırmaq üçün istifadə edəcəyimiz üçün bütün vacib İngilis və (bu an üçün) Alman adlarını çıxarırıq.

bilik qrafiki modeli

Şəkil 2: Müəyyən bir ölkə üçün GeoN-ames-dən baza Bilik Qrafımız üçün hiyerarşik məlumatları çıxarmaq üçün Kavramsal SPARQL TƏŞKİLAT sorğusu? C.

Şəkil 3-dəki sorğu daha sonra Wikidata-dakı məlumatları məkan bilik qrafikimizə necə inteqrasiya etdiyimizi göstərir. Xüsusilə, Wikidata müvafiq coğrafi qurumlar üçün poçt kodları (gn: mailCode) və NUTS identifikatorları (wdt: P605) üçün etiket və link əlavə etmək üçün bir mənbə rolunu oynayır. Bundan əlavə, yenidən Vikidatadan bayquş kimi yığdığımız xarici əlaqələri (OSM və Wikidata it-self) qrafikimizə əlavə edirik.

bilik qrafiki modeli

Şəkil 3: Wikidata linklərini və kodlarını çıxarmaq üçün SPARQL sorğusu - https://query.wikidata.org

Şəkil 4-dəki sorğu müəyyən OSM qurumları üçün necə və hansı məlumatları çıxardığımızı konseptual olaraq göstərir

bilik qrafiki modeli

Şəkil 4: OSM ədədi identifikatoru olan müəyyən bir OSM varlığı üçün OSM-dən məlumat çıxarmaq üçün konseptual SPARQL sorğusu.

məlumat qrafikimizə. Burada qeyd edirik ki, OSM bir RDF və ya SPARQL interfeysi təmin etmir, lakin fikir budur ki, OSM-nin NSM-də JSON-dakı Nominatim API-si tərəfindən qaytarılmış məlumatları aşağıda əlavə A.2-də JSON-LD detalları və əvvəlcədən işləmə addımları kimi qəbul edirik və işləyirik. .

Müvəqqəti biliklərə gəldikdə, bilik qrafikimizə müvəqqəti varlıqların əsasını (yəni Wikidata və PeriodO-dan adlanan dövrlər və hadisələr) toplamaq niyyətindəyik.

• adlı hadisələr və onların etiketləri,

• bir iyerarxiya yaratmaq üçün yenidən bir hissəsi olduqları ana dövrlərə əlaqələr,

• bir başlanğıc və bitmə tarixi baxımından müvəqqəti dərəcə və

• müvafiq hadisənin və ya dövrün (əgər varsa) məkan əhatəsinə keçid.

Burada müvəqqəti biliklərin coğrafi məkan məlumatlarına nisbətən daha az konsolidasiya olunduğunu, yəni dövrlər və hadisələr baxımından "vacib" adlanan qurumların, məkan varlıqları baxımından sərhəd razılaşmaları kimi beynəlxalq səviyyədə razılaşdırılmış və milli idarəetmə strukturları tərəfindən idarə olunmadığını müşahidə edirik. Daha da pisi, fərqli calen-dars və ya hətta zaman zonaları kimi mədəniyyətlərarası müxtəlifliklər əlavə qarışıqlıq yaradır. Hələ də bir tərəfdən çoxdilli bir mühitdə ümumi maraq kəsb edən hadisələri əhatə edən iki inteqrasiya mənbəyinin (Wikidata) və

tarixi dövrlər və ədəbiyyatdan gələn dövrlər (PeriodO), yaxşı bir başlanğıc nöqtəsi təmin edir. Gələcəkdə müntəzəm olaraq baş verən tətil günləri kimi xəbər hadisələrini və ya təkrarlanan dövrləri və ya zaman nöqtələrini indeksləşdirmək də faydalı ola bilər. Nə qədər ki, bunun üçün əlaqəli məlumatlar kimi mövcud olan hər hansı bir strukturlaşdırılmış məlumat dəsti hazırlamadıq, buna görə də bunları gələcək işə və ya müvafiq olaraq, icma üçün bir problem olaraq müvafiq strukturlaşdırılmış məlumatların yaradılmasına təxirə salmalıyıq. Burada aşkar bir başlanğıc nöqtəsi Rospocher və digərlərinin əsəri olacaqdır. [10] və AB Project NewsReader.21-də yaratdıqları xəbər hadisələri məlumat dəstləri Bu an üçün etdik Açıq Data axtarış istifadə hallarının əksəriyyətində fikrimizcə ehtiyac duyulmadığı üçün bu işi çoxcəhətliliyinə görə düşünməyin.

Yenə də bilik qrafiki çıxarılması və quruluşunu konseptual SPARQL sorğuları baxımından modelləşdiririk: Şəkil 5-dəki sorğudan Wikidata'dan hadisələr məlumatlarını çıxarmaq üçün istifadə edirik. Diqqət yetirin ki, bu sorğu ümumi Wikidata son nöqtəsindədir. Buna görə, Şəkil 5-də göstərildiyi kimi müvafiq hadisələri və müddətləri çıxarmaq üçün yerli bir Wikidata zibilliyini HDT-yə çevirdik [12], yalnız sorğu üçün müvafiq üçlüyü çıxardıq, yol ifadələrini maarifləndirdik, və yerli ekstremal nöqtədə bu çıxarışlar üzərində hədəflənmiş KONSTRUKT sorğusunu icra edərək, bütün detallar Ap-pendik A.3-də verilmişdir. Yalnız mövcud üçlüləri mənbədən çıxarmırıq, əksinə Dublin Core (pre-x dcterms :) və OWL vaxt ontologiyasından (fi x vaxtdan əvvəl) bir ovuc tanınmış predi-katetə nümayəndəliyi toplamağa / zəiflətməyə çalışırıq.

Eynilə, Şəkil 7-dəki sorğudan PeriodO verilənlər bazasından kənar dövrlər üçün istifadə edirik. Bu sorğunu icra etmək üçün bu vəziyyətdə mövcud PeriodO dökümünü yerli bir RDF mağazasına yükləyə bilərik.

Qeyd edək ki, bu sorğularda - OWL Time ontologiyasından bir az sui-istifadə edərək - timex: hasStartTime və xassələrini “çıxardıq”.

timex: hasEndTime-də həqiqətən mövcud olmayan

orijinal OWL vaxt ontologiyası. Bu, bilik qrafikimizdəki istədiyimiz kompaktlıq üçün bir kompromisdir, yəni bunlar əsasən OWL Time-un (bizim məqsədimiz üçün də) qeyri-esse boş qovşaqlarının maddi halına düşməməsi üçün qısa yollar kimi təqdim olunur. OWL Time-dan istifadə edən uyğun bir şəkil, Şəkil 6-dakı CONSTRUCT sorğusu vasitəsi ilə asanlıqla yenidən qurula bilər.

bilik qrafiki modeli etiketlər

Şəkil 5: Tədbir məlumatlarını (seçkilərdən və idman yarışlarından) Wikidata-dan çıxarmaq üçün konseptual SPARQL sorğusu - https://query.wikidata.org saytında. (Ad sahələri Şəkil A.18-dəki Əlavədə tapıla bilər)

Şəkil 6: Təmsil etdiyimiz nümayəndəlik timex: hasStartTime andtimex: hasEndTime-in OWL Time modelinin yenidən qurulması üçün SORĞU qurun.

Bu məqsədlə http://data.wu.ac ad məkanı altında OWL Time ontology-nin öz lüğət genişləndirməsini aparırıq. / ns / timex #.

Bu bölmədə yerleşim izləri əlavə etmək (Bölmə 4.1) və xarici traktın müvəqqəti etiketləri və dövrilik nümunələri (Bölmə 4.2) üçün alqoritmləri təsvir edirik və sonradan performansı qiymətləndiririk və müzakirə edirik - əllə əsaslanan dəqiqlik və geri çağırma baxımından. Bölmə 4.3-də qiymətləndirilmiş nümunə - və yanaşmamızın məhdudiyyətləri.

Açıq Məlumat mənbələrinə məkan və müvəqqəti açıqlamalar əlavə etmək üçün mənbələrin məlumat portallarından CSV və metadataları siqnal olaraq istifadə edirik. Metadata təsvirləri və yükləmə linkləri Açıq Veri Portal İzləyicimiz tərəfindən təmin edilir

çərçivə [13], 260-dan çox məlumat portalını izləyən və arxivləşdirən və W3C DCAT lüğətindən istifadə edərək metadata təsvirlərini homojen bir şəkildə əldə etmək üçün API təmin edən çərçivə [14]. Meta məlumatla bağlı bir neçə mövcud meta məlumatı nəzərdən keçiririk: başlığı, təsviri, etiketləri və açar sözləri və naşiri nəzərdən keçiririk. Vəziyyət üçün, Şəkil 8-in yuxarı hissəsi geniş metadata təsvirini göstərir. Sərlövhədə və yayımcıda (bax: “Ver¨o lic entlichende Stelle” - nəşriyyat agentliyi) işarələr var və yüklədiyimiz bir CSV fi le (bax, Şəkil ure 8-in aşağı hissəsi) ilə əlaqəli məlumat bazası. və təhlil.

Coğrafi məkan etiketləmə alqoritmi, giriş məlumat portallarından metadata və CSV sənədlərinə izahat vermək üçün baza məlumat qrafikimizdəki müxtəlif növ etiketlərdən istifadə edir.

Başlanğıcda, bir CSV-nin sütunları NUTS identifikatoru və poçt kodları üçün normal ifadələrə əsaslanaraq təsnif edilir. NUTS modeli kifayət qədər məhdudlaşdırıcı olsa da, 22 poçt kodları naxışı olmalıdır çox ümumi, potensial olaraq bir çox yanlış pozitivə imkan verir. Əsasən, naxış imkan vermək üçün hazırlanmışdır

bilik qrafiki modeli etiketlər

Şəkil 7: Hadisə məlumatlarını (tarixi dövrlərdən) PeriodO-dan çıxarmaq üçün SPARQL sorğusu. (Şəkil A.18-də olduğu kimi ad sahələri)

Şəkil 8: Metadatalardakı və CSV-lərdəki coğrafi məlumatlar. Avstriya verilişindən nümunə verilənlər bazası: https://www.data.gv.at/katalog/dataset/ 4d9787ef-e033-4c4f-8e50-65beb0730536

bilik qrafasındakı bütün kodlar və qeyd edilməlidir

digər simlər, sözlər və ondalıklar

Potensial NUTS sütunu (müntəzəm təzyiqə əsaslanaraq) mövcud NUTS identifikatoruna uyğunlaşdırılır. Əgər bu müəyyən bir eşik üçün mümkündürsə (dəyərlərin 90% -i müəyyən edilmişdir) bir sütunu NUTS identifikatoru hesab edirik və müvafiq semantik yazıları əlavə edirik. Potensial poçt kodları halında alqoritm yenidən mövcud poçt kodları ilə əlaqələndirməyə çalışır, lakin kodlar dəstini verilənlər bazasının mənşə ölkəsi ilə məhdudlaşdırırıq. Bu yenə də 90% eşik ilə qəbul edilən bir sıra semantik etiketlərlə nəticələnir.

Sətir sütunlarının etiketlənməsi, yəni sözlər və ya mətnlər dəsti, GeoNames və OSM-in bütün etiketlərindən istifadə edir və aşağıdakı ayrılma alqoritminə əsaslanır:

Dəyər fərqi. Şəkil 9-dakı alqoritm ətrafa əsaslanan bir sıra simli dəyərləri necə ayırdığımızı göstərir. Əvvəla, işləmə konteksti (dəyərlər) bütün dəyərlər üçün bütün potensial par-ent GeoNames par-varlıqlarını sayır. Tək bir dəyəri ayırmaq üçün bu sayımlardan istifadə edirik və kontekst dəyərlərindən ən çox səs alan GeoNames namizədini seçin. ayrılma dəyəri (dəyər). Get geonames (value) funksiyası bir giriş sətri üçün bütün potensial GeoN-ames entitesini qaytarır. Əlavə olaraq biz

verilənlər bazasının mənşə ölkəsini (varsa) məhdudlaşdırma olaraq istifadə edin, yəni yalnız uyğun ölkədən GeoNames etiketlərinə icazə veririk.

Məsələn, Şəkil 8-də Avstriya “Linz” müddəası Alman “Linz” in lehinə seçilir, çünki ayrılma, digər dəyərlər üçün “Üst Avstriya” və “Avstriya” uyğun gələn sələflərə əsaslanaraq daha yüksək hesabla nəticələndi. sütun (Steyr, Wels, Altheim,.).

# giriş dəyərlər dəstini ayırmaq, disamb dəyərləri (dəyərlər, ölkə):

cont par = dəyərlərdə v üçün kontekst (dəyərlər) alın:

v dəyəri (v, ölkə, davamı par) ayrılmış.append (v id)

# ətrafdakı dəyərlərin valideynlərinə əsaslanan tək bir dəyəri ayırın # disamb dəyəri (dəyər, ölkə, davam par):

namizədlər = getgeonames (dəyər) c skoru = <>

əgər ölkə və ölkə! = c. ölkə: davam edin

valideynlər = getall valideynlər (c) valideynlərdə p üçün:

c skoru [c] + = cont par [p] top = sorted (c score) [0] return top

# bütün alınma dəyərlərini sayar def get bağlam (dəyərlər):

c in get geonames (dəyər) üçün: valideynlər = getall valideynlər (c) valideynlərdə p üçün:

cont par [p] + = 1 dönüş cont par

Şəkil 9: Bir sıra giriş dəyərlərini ayırmaq üçün Python kod parçası.

Heç bir GeoNames uyğunlaşması tapılmadıqda, algo-rithm sətir dəyərlərini baza bilik qrafikindən OSM yazıları ilə təsbit etməyə çalışır. Yenə eyni ayrılma alqoritmi, hər giriş dəyəri üçün aşağıdakı iki əvvəlcədən işləmə mərhələsi ilə tətbiq olunur:

1. In order to better parse addresses, we use the Libpostal library (cf. Section 2) to extract streets and place names from strings.

2. We consider the context of a CSV row, e.g., if addresses in CSVs are separated into dedicated columns for street, number, city, state, etc. To do so we filter the allowed OSM labels by can-didates within any extracted regions from the

metadata description or from the correspond-ing CSV row (if geo-labels available).

4.1.2. Metadata descriptions

The CSVs’ meta-information at the data por-tals often give hints about the respective regions covering the actual data. Therefore, we use this additional source and try to extract geo-entities from the titles, descriptions and publishers of the datasets:

1. As a first step, we tokenize the input fields, and remove any stopwords. Also, we split any words that are separated by dashes, under-scores, semicolon, etc.

2. The input is then grouped by word sequences of up to three words, i.e. all single words, groups of two words, . and the previously introduced algorithm for mapping a set of values to the GeoNames labels is applied (including the dis-ambiguation step).

Figure 8 gives an example dataset description found on the Austrian data portal data.gv.at. The la-belling algorithm extracts the geo-entity “Upper Austria” (an Austrian state) from the title and the publisher “Ober¨osterreich”. The extracted geo-entities are added as additional semantic informa-tion to the indexed resource.

Similarly to the geospatial cues, temporal infor-mation in Open Data comes in various forms and granularity, e.g., as datetime/timespan information in the metadata indicating the validity of a dataset, or year/month/time information in CSV columns providing timestamps for data points or measure-ments.

To extract potential datetime values from the datasets we parse the columns of the CSVs using the Python dateutil library.24 This library is able to parse a variety of commonly used date-time pat-terns (e.g., ‘‘January 1, 2047’’, ‘‘2012-01-19’’, etc.), however, we only allow values where the parsed year is in the range of 1900 and 2050.25

24https://dateutil.readthedocs.io/en/stable/ 25The main reason for this restriction is that any input

year easily yields to wrong mappings of e.g. postal codes, counts, etc.

For both sources of temporal information, i.e. metadata and CSV columns, we store the minimum and maximum (or start and end time) value so that we can allow range queries over the annotated data. Datetime periodicity patterns. The algorithm in Figure 10 displays how we estimate any pattern of periodicity of the values in a column for a set of input datetime values. Initially, we check if all the values are the same (denoted as static column), e.g., a column where all cells hold “2018”. Then we sort the values however, note that this step could lead to unexpected annotations, because the under-lying pattern might not be apparent in the unsorted column.

We compute all differences (deltas) between the input dates and check if all these deltas have approximately – with 10% margin – the same length. We distinguish daily, weekly, monthly, quarterly, and yearly pattern in case of any other recurring pattern we return other.

def datetime pattern(dates): # all the dates have the same value

if len(set(dates)) == 1: return ’static ’

# sort the dates and compute the deltas dates = sorted(dates)

for i , d in enumerate(dates)][1:] for p, l in [( ’ daily ’ , delta(days=1)),

( ’weekly’, delta(days=7)), ( ’monthly’, delta(days=30)), ( ’ quarterly ’ , delta(days=91)), ( ’ yearly ’ , delta(days=365))]: # add 10% tolerance range

if all ( l−(l∗0.1) < d < l+(l∗0.1) for d in deltas ): return p

# none of the pre−defined pattern if len(set(deltas )) == 1:

# values do not follow a regular pattern return ’varying’

Figure 10: Python code fragment for estimating the datetime patterns of a set of values.

4.2.2. Metadata descriptions

We extract the datasets’ temporal contexts from the metadata descriptions available at the data por-tals in two forms: (i) We extract the published and last modifiedinformation in case the portal pro-vides dedicated metadata fields for these. (ii) We use the resource title, the resource description, the

dataset title, the dataset description, and the key-words as further sources for temporal annotations. However, we prioritize the sources in the above or-der, meaning that we use the temporal information in the resource metadata rather than the informa-tion in the dataset title or descripinforma-tion.26

The datetime extraction from titles and descrip-tions is based on the Heideltime framework [15] since this information typically comes as natural text. Heideltime supports extraction and normal-ization of temporal expressions for ten different lan-guages. In case the data portal’s origin language is not supported we use English as a fallback option. 4.3. Indexed Datasets & Evaluation

Our framework currently contains CSV tables from 11 European data portals from 10 different countries, cf. Table 1. We manually selected Eu-ropean governmental data portals (potentially also using NUTS identifier in their datasets) which are already monitored by the Open Data Portal Watch [13]. Note, that the notion of datasets on these data portals (wrt. Table 1) usually groups a set of resources for instance, typically a dataset groups resources which provide the same content in differ-ent file formats. A detailed description and anal-ysis of Open Data portals’ resources can be found in [13]. The statistics in Table 1, i.e. the num-ber of datasets and indexed CSVs is based on the third week of March 2018. The differing numbers of CSVs and indexed documents in the table can be explained by offline resources, parsing errors, etc. Also, we currently do not index documents larger than 10MB due to local resource limitations the basic setup (using Elasticsearch for the indexed CSVs, cf Section 6) is fully scalable.

Table 2 lists the total number of annotated datasets. With respect to the spatial labelling al-gorithm, we were able to annotate columns of 3518 CSVs and metadata descriptions of 11231 CSVs (of a total of 15k indexed CSVs). For 3299 of the anno-tated CSVs our algorithm found GeoNames map-pings, and for 292 OSM mappings. Regarding the temporal labelling, we detected date/time informa-tion in 2822 CSV columns and in 9112 metadata descriptions.

26For instance, consider a dataset titled “census data from

2000 to 2010” that holds several CSVs titled “census data 2000”, “census data 2001”, etc.: This metadata allows to infer that the temporal cues in the CSVs’ titles are more accurate/precise than the dataset’s title, which gives a more general time span for all CSVs.

portal datasets CSVs indexed total 15728 govdata.de 19464 10006 5646 data.gv.at 20799 18283 2791 offenedaten.de 28372 4961 2530 datos.gob.es 17132 8809 1275 data.gov.ie 6215 1194 884 data.overheid.nl 12283 1603 828 data.gov.uk 44513 7814 594 data.gov.gr 6648 414 496 data.gov.sk 1402 877 384 www.data.gouv.fr 28401 6038 258 opingogn.is 54 49 41

Table 1: Indexed data portals

Columns Metadata Columns Metadata 3518 11231 2822 9112

Table 2: Total numbers of spatial and temporal annotations of metadata descriptions and columns.

Here we focus on evaluating the annotated geo-entities, and neglect the temporal annotations with the following two main reasons: First, the date-time detection over the CSV columns is based on the standard Python library dateutil. The library parses standard datetime formats (patterns such as yyyy-mm-dd, or yyyy) and the potential errors here are that we incorrectly classify a numerical column, e.g., classifying postal codes as years. As a very basic pre-processing, where we do not see a need for evaluation, we reduce the allowed values to the range 1900-2050 (with the drawback of potential false negatives), however, using the distribution of the numeric input values [16] would allow a more in-formed decision. Second, the labelling of metadata information is based on the temporal tagger Hei-deltime [15] which provides promising evaluations over several corpora.

Manual inspection of a sample set. To show the performance and limitations of our labelling ap-proach we have randomly selected 10 datasets per portal (using Elasticsearch’s built-in random func-tion27) and from these again randomly select 10

guide/current/random-scoring.html, last accessed 2018-04-01

rows, which resulted in a total of 101 inspected CSVs,28 i.e. 1010 rows (with up to several dozen columns per CSV). Sampling datasets from differ-ent portals allows us to assess and compare the per-formance for different countries and data publish-ing strategies. The median percentage of annotated records (i.e. rows) per dataset (across all indexed datasets) is 92% our sample is representative, in this respect, with a median of 88% annotated rows. The median number of total rows of all indexed datasets is lower (86 rows) than within the evalu-ated sample (287 rows). However, the overall num-ber of rows varies widely with a mean of 1742 rows across all datasets, which indicates a large variety and non-even distribution of dataset sizes (between 1 and 221k rows).

As for the main findings, in the following let us provide a short summary all selected datasets and their assigned labels can be found at https://github.com/sebneu/geolabelling/ tree/eu-data/jws_evaluation.

Initially, we have to state that this evaluation is manually done by the authors and therefore re-stricted to our knowledge of the data portals’ ori-gin countries and their respective language, re-gions, sub-rere-gions, postal codes, etc. For in-stance, we were able to see that our algorithm correctly labelled the Greek postal codes in some of the test samples from the Greek data por-tal data.gov.gr,29 but that we could not assign the corresponding regions and streets.30 Lakin, as we are not able to read and understand the Greek language (and the same for the other non-English/German/Spanish portals) we cannot fully guarantee any potential mismatches or missing an-notations that we did not spot during our manual inspections.

We categorize the datasets’ labels by assessing the following dimensions: are there any correctly assigned labels in the dataset (c), are there any missing annotations (m), and did the algorithm as-sign incorrect links to GeoNames (g) or OSM (o) a result overview is given in Table 3.

28We only selected CSVs with assigned geo-entities – to

provide a meaningful precision measure – which resulted in < 10 files for the smaller data portals, e.g., opingogn.is, and therefore in 101 files in total.

eu-data/jws_evaluation/data_gov_gr/0.csv, the datasets use “T.K.” in the headers to indicate these codes.

30The Greek data portal uses the Greek letters in their

metadata and CSVs which would require a specialized label mapping wrt. lower-case mappings, stemming, etc.

total c m g o 101 87 53 12 5

Table 3: Correctly assigned labels (c), missing annotations (m), incorrect links to GeoNames (g) or OSM (o) in the dataset.

Out of 101 inspected datasets we identified in 87 CSVs correct annotations. In particular, for the Spain and the Greek data portal only in 50% of the test samples there were correct links, while for the 9 other indexed data portals we have a near to 100% rate. Regarding any missing annotations, we identified 53 datasets where our algorithm (and also the completeness of our spatial knowledge graph) needs improvements. For instance, in some datasets from the Netherlands’ data portal31 and also the Slovakian portal32 we identified street names and addresses that could potentially mapped to OSM entries.

Regarding incorrect links there were only 12 files with wrong GeoNames and 5 files with wrong OSM annotations. An exemplary error that we observed here was that some files33 contain a column with the value “Norwegen” (“Norway”): Since the file is provided at a German data portal, we incorrectly labelled the column using a small German region Norwegen instead of the country, because our al-gorithm prefers labels from the origin country of the dataset. Another example that we want to con-sider in future versions of our labelling algorithm is this wrong assignment of postal codes:34 We incorrectly annotated a numeric column with the provinces of Spain (which use two-digit numbers as postal codes).

Table 4 displays the precision, recall, and F1 score for all sample records, i.e. for all annotated cells of the 101 sample CSVs. We want to empha-size that these results do not say anything about the quality of the data portals themselves. As men-tioned in the above paragraph, again, we can see in Table 4 that the Greek (data.gov.gr) and the Spain data portal (datos.gob.es) have a notable drop in

31E.g.,https://github.com/sebneu/geolabelling/tree/ eu-data/jws_evaluation/data_overheid_nl/4.csv 32E.g., https://github.com/sebneu/geolabelling/tree/ eu-data/jws_evaluation/data_gov_sk/3.csv 33https://github.com/sebneu/geolabelling/blob/ eu-data/jws_evaluation/offenedaten_de/0.csv 34https://github.com/sebneu/geolabelling/blob/ eu-data/jws_evaluation/datos_gob_es/7.csv

precision35while for the other portals the total pre-cision is still at 86%. The total recall is at 73%, which again shows that our approach needs further improvements in terms of missed annotations and completeness of the spatial knowledge graph.

portal precision recall F1 score

total .86 .73 .79 govdata.de .89 .67 .77 data.gv.at 1 0.81 0.90 offenedaten.de 0.93 1 0.96 datos.gob.es .51 .91 0.66 data.gov.ie .98 .86 .92 data.overheid.nl 1 .29 .44 data.gov.uk .98 .58 .73 data.gov.gr .51 .64 .57 data.gov.sk .82 .79 .81 www.data.gouv.fr .98 .68 .81 opingogn.is 1 .72 .84

Table 4: Evaluation of the sample CSVs on record level.

We make our base knowledge graph and RDFized linked data points from the CSVs available via a SPARQL endpoint. Figure 11 displays an example extract of the RDF export of the knowledge graph. The sources of the aggregated links between the dif-ferent entities and literals in our graph are indicated in the figure we re-use the GeoNames ontology (gn:) for the hierarchical enrichments generated by our algorithms (see links [m]), and owl:sameAs for mappings to OSM relations and NUTS regions, cf. Figure 11.

Annotated data points. We export the linked data points from the CSVs in two ways: First, for any linked geo-entity <g> in our base knowledge graph, we add triples for datapoints uniquely linked in CSV resources (that is, values appearing in partic-ular columns) by the following triple schema: if the

35There are streets in OSM that are labelled by an

identi-fier (e.g. “2810 254 527”) and, coincidentally, match columns in Greek datasets. Regarding the Spain datasets we incor-rectly matched several columns containing the numbers 1-50: We mapped these to the fifty provinces of Spain, which use the numbers 1-50 as ID/zip codes. In future work we plan to include simple rules and heuristics to avoid such simple errors.

Figure 11: Example RDF export of the geo-entities knowledge graph.

entity <g> appears in a column in the given CSV dataset, i.e., the value V ALU E in that column has been labeled with <g>, we add a triple of the form

That is, we mint URIs for each column col ap-pearing in a CSV accessible through a URL u by the schema u#col, i.e., using fragment identifiers. The column’s name col is either the column header (if a header is available and the result is a valid URI) or a generic header using the columns’ index column1, column2, etc. These triples are coarse grained, i.e. they do not refer to a specific row in the data. We chose this representation to enable easy-to-write, concise SPARQL queries like for instance:

?geo <https://www.wien.gv.at/finanzen/ogd/ hunde-wien.csv#Postal_CODE> ?value rdfs:label ?name .

The above query selects all values and their geo-annotations for the selected column named ”Postal CODE” in a specific dataset about dog breeds in Vienna per district.

Second, a finer grained representation, which we also expose, provides exact table cells where a cer-tain geospatial entity is linked to, using an exten-sion of the CSVW vocabulary [17]: note that the CSVW vocabulary itself does not provide means to conveniently annotated table cells in column col and row n which is what we need here, so we define our own vocabulary extension for this purpose (for the moment, under the namespace http://data.wu.ac.at/ns/csvwx#).

We use the CSVW class csvw:Cell for an an-notated cell and add the row number and value (using csvw:rownum and rdf:value) to it. We ex-tend CSVW by the property csvwx:cell to refer from a csvw:Column (using again the fragmented

identifier u#col) to a specific cell, and the prop-erty csvwx:rowURL to refer to the CSV’s row (us-ing the schema u#row=n). Here, the property

csvwx:refersToEntity (cf. the blue line) con-nects a specific cell to the labelled geo-entity <g>. Analogously, in case of available (labelled) tem-poral information for a cell, we use the property csvwx:hasTime cf. the turquoise line in the fol-lowing example: @prefix csvwx: <http://data.wu.ac.at/ns/csvwx#> . @prefix csvw: <http://www.w3.org/ns/csvw#> . <u#col> csvwx:cell [ a csvw:Cell csvw:rownum n csvwx:rowURL <u#row=n> rdf:value "V ALU E" csvwx:refersToEntity <g>

csvwx:hasTime "DAT EŜsd:dateTime

Moreover, we denote the geospatial scope of the column itself by declaring the type of entities within which geographic scope appearing in the column. The idea here is that we annotate – on column level – the least common ancestor of the spatial entities recognized in cells within this column. E.g.,

<u#col> csvwx:refersToEntitiesWithin <g1> .

with the semantics that the entities linked to col in the CSV u all refer to entities within the entity g1 (such that g1 is the least common ancestor in our knowledge graph.

This could be seen as a shortcut/materialization for a CONSTRUCT query as in Figure 12. Obviously, this query is very inefficient and we rather compute these least common ancestors per column during labeling/indexing of each column.

CSV on the Web. In order to complete the descrip-tions of our annotadescrip-tions in our RDF export, we describe all CSV resources gathered from the an-notated Open Data Portals and their columns us-ing the CSV on the Web (CSVW) [17] vocabulary,

?Col csvwx:cell [ csvwx:refersToEntity ?G ]. ?G gn:parentFeature* ?G_1 .

# all elements of this column have to share # parent feature ?G_1

?Col csvwx:cell [ csvwx:refersToEntity ?G_ ]. FILTER NOT EXISTS <

# this parent feature is the least one that # fulfills this property:

?Col csvwx:cell [ csvwx:refersToEntity ?G ]. ?G gn:parentFeature* ?G_2 .

# all elements of this column have to share # parent feature ?G_2

?Col csvwx:cell [ csvwx:refersToEntity ?G__ ]. FILTER NOT EXISTS <

Figure 12: SPARQL CONSTRUCT query to materialize the ge-ographic scope of a column.

re-using the following parts of the CSVW schema. Firstly, we use the following scheme to connect our aforementioned annotations to the datasets: @prefix csvw: <http://www.w3.org/ns/csvw#> . @prefix dcat: <http://www.w3.org/ns/dcat#> . <d> a dcat:Dataset [ dcat:distribution

<u#col1> a csvw:name "col1" csvw:datatype dcol1 .

<u#col2> a csvw:name "col2" csvw:datatype dcol2 .

Then, we enrich this skeleton with further CSVW annotations that we can extract automatically from the respective CSV files. Figure 13 displays an example export for a CSV resource. The blank node :csv represents the CSV resource which can be downloaded at the URL at property csvw:url. The values of the properties dcat:byteSize and dcat:mediaType are values of the corresponding HTTP header fields. The dialect description of the CSV can be found via the blank node :dialect at property csvw:dialect and the columns of the CSV are connected to the :schema blank node (de-scribing the csvw:tableSchema of the CSV).

Figure 13: Example export of CSVW metadata for a dataset.

6. Search & Query Interface

Our integrated prototype for a spatio-temporal search and query system for Open Data currently consists of three main parts: First, the geo-entities DB and search engine in the back end (Section 6.1), second the user interface and APIs (Section 6.2), and third, access to the above described RDF ex-ports via an SPARQL endpoint (Section 6.3). 6.1. Back End

All labels from all the integrated datasets and their corresponding geo-entities are stored in a look-up store, where we use the NoSQL key-value database MongoDB. It allows an easy integration of heterogeneous data sources and very performant look-ups of keys (e.g., labels, GeoNames IDs, postal codes, etc. in our case).

Further, we use Elasticsearch to store and index the processed CSVs and their metadata descrip-tions. In our setup, an Elasticsearch document cor-responds to an indexed CSV and consists of all cell values of the table (arranged by columns), the po-tential geo-labels for a labelled column, metadata of the CSV (e.g., the data portal, title, publisher, etc.), the temporal annotations, and any additional labels extracted from the metadata.

The different components all have an impact on the performance and efficiency of the system. The indexing performance depends on the MongoDB database for label look-ups, the time-tagger Hei-deltime, and, Elasticsearch for storing the datasets. To show the efficiency and scalability of our ap-proach, we timed the indexing of a sample of 2160

datasets, with an average file size of ∼50kB. The total processing time for all dataset was 16.8 hours – deactivated parallelization, including download, parsing, and processing time – whereof 8 hours were consumed by the labelling algorithms. Notably, the median total time for indexing a dataset is only 1.2 seconds, with a median time of 0.7 seconds for the labelling algorithms.36

The user interface, available at

http://data.wu.ac.at/odgraphsearch/, al-lows search queries for geo-entities but also full-text matches. Note, that the current UI imple-ments geo-entity search using auto-completion of the input (but only suggesting entries with existing datasets) and supports full-text querying by using the “Enter”-key in the input form. The screenshot in Figure 14 displays an example query for the Austrian city “Linz”. The green highlighted cells in the rows below show the annotated labels, for instance, the annotated NUTS2 code “AT31” in the second result in Figure 14.

Also, we add facets to filter datasets relevant to a particular period either by auto-completion in a separate field to filter the time period by a peri-od/event label, or by choosing start and end dates via sliders (cf. Figure 14). The users can decide to apply this filter to temporal information in title and description of the dataset, or the CSV columns.

By separating the search at these two levels we do not mix dates within the data and the meta-data level. For instance, the metameta-data could have date/time that refers to the present such as created, modified, etc. while in the datasets there can be a mixture of dates referring to temporal information or events (e.g., a column of birth dates).

The chosen geo-entities and durations which are fixed via these lookups in our search index through the UI are passed on as parameters as a concrete geo-ID and/or start&end-date to our API, which we describe next.

Additionally, the web interface provides APIs (http://data.wu.ac.at/odgraphsearch/api) to re-trieve the search results, all indexed datasets, and the RDF export per dataset. To allow program-matic access to the search UI we offer the following HTTP GET API:

36We deliberately discuss the median since the shape and

size of the datasets can vary widely, which heavily influences the total and mean values.

Figure 14: Screenshot of of an example search at the UI.

The API takes multiple instances of geo IDs, that is, GeoNames or OSM IDs (formatted as osm:) using parameter l, a limit and an offset param-eter, which restricts the amount of items (datasets) returned, and an optional white space separated list of keywords (q) as full-text query parameter to enable conventional keyword search in the meta-data and header information of the datesets. To re-strict the results to a specific temporal range we im-plemented the parameters mstart, mend (for filter-ing a time range from the metadata-information), and start, end (for the min and max values of date annotations from CSV columns). The param-eter periodicity allows to filter for datetime pe-riodicity patterns such as “yearly”, “monthly”, or “static” (in case there is only a single datetime value in this column), cf. Section 4.2.1 for a detailed de-scription of the periodicity patterns.

The output consists of a JSON list of documents that contain the requested GeoNames/OSM IDs or any tables matching the input keywords.

We offer a SPARQL endpoint at

http://data.wu.ac.at/odgraphsearch/sparql where we provide the data as described in Sec-tion 5. Currently, as of the first week of April 2018, the endpoint contains 88 million triples: 15 million hierarchical relations using the gn:parentFeature relation, 11768 CSVs (together with their CSV on the Web descriptions), where we added a total of 5 million geo-annotations using the csvwx:refersToEntity property, and 1.3 million datetime-annotations using the csvwx:hasTime annotation.

Example queries. The first example in Fig-ure 15 lists all datasets from Vienna, using the csvwx:refersToEntitymetadata annotation, and only lists CSVs where there exists a column with dates within the range of the last Austrian legisla-tive period, using the Wikidata entities of the past two elections.

# dates of the past two elections in Austria wd:Q1386143 timex:hasStartTime ?t1 . wd:Q19311231 timex:hasStartTime ?t2 . ?d dcat:distribution [

dcat:accessURL ?url # the min and max date values timex:hasStartTime ?start timex:hasEndTime ?end ] .

# filter datasets about Vienna ?d csvwx:refersToEntity

<http://sws.geonames.org/2761369/> . FILTER((?start >= ?t1) && (?end <= ?t2)) >

Figure 15: Example SPARQL query using the spatial prop-erty csvwx:refersToEntity and the temporal properties timex:hasStartTimeand timex:hasEndTime.

The next example query in Figure 16 combines text search for time periods with a structured query for relevant data it looks for information of datasets about a time period before the 2nd World War, called the “Anschluss movement” (i.e., the preparation of the annexation of Austria into Nazi Germany) and queries for all available CSV rows where a date within this period’s range (1918-1938, according to PeriodO), and a geo-entity within the period’s spatial coverage location (i.e. Austria) oc-curs.

GeoSPARQL. GeoSPARQL [18] extends SPARQL to a geographic query language for RDF data. O

FILTER (CONTAINS(?L, "Anschluss movement") ) . ?p timex:hasStartTime ?start

timex:hasEndTime ?end dcterms:spatial ?sp . # find the GeoNames entities ?spatial owl:sameAs ?sp .

?d dcat:distribution [ dcat:accessURL ?url ] . [] csvw:url ?url

# find a cell where date falls in the range # of the found period

?s csvw:column ?col1 . ?col1 csvwx:cell [

csvw:rownum ?rownum csvwx:hasTime ?cTime ]

# find another cell in the same row where the # geo-entity has the spatial coverage area of # the found period as the parent country ?s csvw:column ?col2 . ?col2 csvwx:cell [ csvw:rownum ?rownum csvwx:refersToEntity [ gn:parentCountry ?spatial ] ] >

Figure 16: Example SPARQL query combining text search for a time period with a structured query for datasets within the period’s temporal and spatial coverage.

defines a small ontology to represent geometries (i.e., points, polygons, etc.) and connections be-tween spatial regions (e.g., contains, part-of, inter-sects), as well as a set of SPARQL functions to test such relationships. The example query in Figure 17 (namespaces as in Figure A.18) uses the available polygon of the Viennese district “Leopoldstadt” to filter all annotated data points within the borders of this district.

While we do not yet offer a full GeoSPARQL endpoint for our prototype yet (which we leave to a forthcoming next release), our RDFized datasets and knowledge graph is GeoSPARQL “ready”, i.e. having all the geo-coordinates and polygons in the endpoint using the GeoSPARQL vocabulary an ex-ternal GeoSPARQL endpoint could already access our data using the SERVICE keyword and evalu-ate the GeoSPARQL specific functions locally, or simply import our data.

The European Union identified the issue of in-sufficient description of public datasets and con-ducted several activities towards metadata

stan-SELECT ?d ?url ?rownum WHERE <

# get the geometry of the Viennese district "Leopoldstadt" <http://sws.geonames.org/2772614/>

geosparql:hasGeometry ?polygon . ?d dcat:distribution [ dcat:accessURL ?url ] . [ csvw:url ?url csvw:tableSchema ?s ]. # select the geometries of any annotated cells ?s csvw:column ?col .

?col csvwx:cell [ csvw:rownum ?rownum

csvwx:refersToEntity [geosparql:hasGeometry ?geoentity]] # filter all annotated data points

# within the polygon of Leopoldstadt FILTER(geof:sfWithin(?g, ?polygon)) >

Figure 17: Example GeoSPARQL query over using the avail-able geometries – not yet availavail-able via the endpoint.

dards across European portals: The DCAT Appli-cation Profile for Data Portals in Europe (DCAT-AP)37aims towards the integration of datasets from different European data portals. In its current ver-sion (v1.1) it extends the existing DCAT schema [14] by a set of additional properties, e.g., it allows to specify the version and the period of time for a dataset. Going one step further, the INSPIRE directive38 and the GeoDCAT-AP specification39 have more restrictive requirements for spatial meta-data, i.e., they model spatial coverage either as a bounding box, or using a geographic identifier no-tably, the specification also mentions GeoNames as potential identifiers. The main barrier with these approaches is a lacking adoption: We could not see a broad use of these standards across the por-tals (neither in terms of vocabulary nor in com-plete spatial descriptions) and therefore could not further use them. In principle, our approach dis-tinguishes from these activities by not only having the spatio-temporal descriptions but also interlink-ing the datasets to external sources, i.e. to GeoN-ames, Wikidata, and OSM. Also, these standards only allow descriptions on datasets level, whereas we annotate the data on record level as well.

The 2013 study by Janowicz et al. [19] gives an overview of Semantic Web approaches and tech-nologies in the geospatial domain. Among the Linked Data repositories and ontologies listed in the article we also find the GeoNames ontology (cf. Section 2), the W3C Geospatial Ontologies [20], and the GeoSPARQL Schemas [18]. However, when 37https://joinup.ec.europa.eu/release/dcat-ap-v11 38https://inspire.ec.europa.eu/

looking into the paper’s listed repositories, most of them (6/7) were not available, i.e. offline, which seems to indicate that many efforts around Geo-Linked data have unfortunately not been pursued in a sustainable manner.

The 2012 project LinkedGeoData [21] resulted in a Linked Data resource, generated by converting a subset of OpenStreetMap data to RDF and deriving a lightweight ontology from it. In [22] the authors describe their attempts to further connect GeoN-ames and LinkedGeoData, using string similarity measures and geometry matching. However, while LinkedGeoData is also listed in [19] as a geospatial Linked Data repository, unfortunately, it was not available online at the time of writing this paper. Also, this work was complementary to ours, as we do not focus on matching and entity alignment, but rather on the integration of existing structured enti-ties from different geo and temporal (Linked) Data sources. The recent effort “Sophox”40 can be seen as a conceptual continuation of the LinkedGeoData project: actually intended as a cleanup tool, it al-lows SPARQL queries over OSM elements and tags. In the future we could also consider directly using the SPARQL interface of Sophox.

The GeoKnow project [23] is another attempt to provide and manage geospatial data as Linked Data. GeoKnow provides a huge toolset to process these datasets, including the storage, authoring, interlinking, and geospatially-enabled query opti-mization techniques.

The project PlanetData (2010 to 2014), funded by the European Commission, released an RDF mapping of the NUTS classifications41 [24] using the GeoVocab vocabulary.42 This dataset models the hierarchical relations of the regions, provides la-bels and polygons. Unfortunately, the project does not include external links to GeoNames, or Wiki-data, except for the country level, i.e. there are only 28 links to the corresponding GeoNames entries of the EU member states.

Complementary to our approach to access street addresses via OSM, Open Addresses43 is a global collection of address data sources, which could be considered for future work as an additional dataset to feed into our base knowledge graph. The manu-ally collected and homogenized dataset consists of a 40https://wiki.openstreetmap.org/wiki/Sophox, sonuncu

41http://nuts.geovocab.org/, last accessed 2018-01-05 42http://geovocab.org/, last accessed 2018-01-05 43https://openaddresses.io/, last accessed 2018-04-01

total of 478M addresses street names, house num-bers, and post codes combined with geographic co-ordinates, harvested from governmental datasets of the respective countries.

A conceptually related approach, although not focusing on geo-data, is the work by Taheriyan et al. [25], who learn the semantic description of a new source given a set of known semantic descriptions as the training set and the domain ontology as the background knowledge.

In [26] Paulheim provides a comprehensive sur-vey of refinement methods, i.e., methods that try to infer and add missing data to a graph, however, these approaches work on graphs in a domain inde-pendent setting and do not focus on temporal and spatial knowledge. Still, in some sense, we view our methodology of systematic Knowledge Graph aggregation from Linked Data sources via declara-tive, use-case specific, minimal mappings as poten-tially complementary to the domain-independent methods mentioned therein, i.e., we think in future works, such methods should be explored in combi-nation.

Most related wrt. the construction of the tem-poral knowledge graph is the work by Gottschalk and Demidova [27] (2018): they present a tempo-ral knowledge graph that integrates and harmonizes event-centric and temporal information regarding historical and contemporary events. In contrast to [27] we additionally integrate data from PeriodO [9] and focus on periods in a geospatial context. This work is built upon [28] where the authors ex-tract event information from the Wikipedia Current Events Portal (WCEP). In future work we want to connect the resource from [27], since the addi-tional data extracted from the WCEP and Wik-iTimes interface is in particular interesting for our framework. Similar to [27], [29] gather temporal in-formation from knowledge bases, and additionally from the Web of documents. The extracted facts get then mapped and merged into time intervals.

In [10], Rospocher et al. build a knowledge graph directly from news articles, and in [30] by extracting event-centric data from Wikipedia articles. These approaches work over plain text (with the potential drawback of noisy data) while we integrate existing structured sources of temporal information there-fore these are complementary/groundwork to our contributions.

Modelling and querying geospatial information has also been discussed conceptually in the litera-ture: [31] present an ontology design pattern

de-rived from time geography, and [32] discuss the requirements of a geospatial search platform and present a geospatial registry.

Governmental data portals such as Austria’s data.gv.ator the UK’s data.gov.uk release local, regional and national data to a variety of users (citi-zens, businesses, academics, civil servants, etc.). As this data is mainly collected as part of census collec-tions, infrastructure assessments or any other, sec-ondary output data, these resources almost always contain or refer to some kind of geographic and temporal information for instance, think of pub-lic transport data, results of past elections, demo-graphic indicators, etc. Search across these dimen-sions seems therefore natural, i.e., we have identi-fied the spatial and temporal dimensions as the cru-cial, characterizing dimensions of datasets on such data portals.

In order to enable such search and to integrate these datasets in the LOD cloud (as they are mainly published as CSVs [13]) we have achieved the fol-lowing tasks in this work:

• We have described a hierarchical knowledge graph of spatial and temporal entities in terms of SPARQL queries, as well as the integra-tion of temporal informaintegra-tion and its interlink-age with the geospatial-knowledge from various Linked data sources (GeoNames, OSM, Wiki-data, PeriodO), where our general approach is extensible to adding new sources further de-tails of the construction are provided in the Appendix.

• We have described algorithms to annotate CSV tables and their respective metadata descrip-tions from Open Data Portals and we have an-notated datasets and metadata from 11 Euro-pean data portals.

• To demonstrate the performance and limita-tions of our spatio-temporal labelling we have evaluated the annotations by manual inspec-tion of a random sample per data portal, where we identified correct geo-annotations for around 90% of the inspected datasets.

• To access and query the data, we offer an user interface, RESTful APIs and a SPARQL end-point, which allows structured queries over our spatio-temporal annotations.


5 CONCLUSION

In this paper, a novel end-to-end deep residual and pyramid network is proposed to improve performance of road extraction from high resolution remote sensing image. The authors first utilize deep residual network (DResNet) to extract deep road feature from input image, which can effectively avoid gradient vanish and enhance learning ability of DRPPNet. Furthermore, a pyramid pooling module (PPM) is proposed to fuse road features from multiple views using four maxpooling operations and it can help DRPPNet obtain smooth and coherent road extraction results. Finally, the deep decoder (DD) is used to recover feature map to same size as input image. The experimental results on two challenging road dataset, Cheng-Roads and Mnih-Roads, verify the superiority of proposed method. In addition, the proposed method can be widely applied in server computing and edge computing because of its generalization ability and efficiency.