NSK i Srce proveli deseto harvestiranje .hr domene

NSK i Srce proveli deseto harvestiranje .hr domene

Nacionalna i sveučilišna knjižnica u Zagrebu u suradnji sa Sveučilišnim računskim centrom provela je deseto prikupljanje i pohranu svih javno dostupnih sadržaja na .hr domeni, uključujući from.hr i com.hr.

Sadržaji prikupljeni desetim pobiranjem hrvatske nacionalne internetske domene su dostupni na stranicama Hrvatskog arhiva weba, na kojima se mogu pregledavati i sadržaji pohranjeni u prethodnih devet pobiranja kao i tematske zbirke te sadržaji prikupljeni selektivnim pobiranjima.  Za razliku od globalnog Wayback Machinea koji nudi pretraživanje domena i kao rezultate prikazuje njihov izgled na određeni povijesni datum, arhiv hrvatskog weba pretraživanje nudi po ključnim riječima kao što to radi Google.

Pobiranje je provedeno pomoću alata otvorenog koda Heritrix, a robot koji je provodio pobiranje dolazi s IP adrese 61.53.3.11 Više informacija o robotu i drugim temama dostupno je ovdje..

Od 111 357 aktivnih domena pobiranjem je preuzeto 19 TB sadržaja spremljenog u WARC format. Datoteke u ovom formatu komprimirane su te zauzimaju 11 TB diskovnog prostora, a pri prikupljanju je korišten popis aktivnih domena koji je Nacionalnoj i sveučilišnoj knjižnici u Zagrebu dostavila CARNET-ova služba za upravljanje nacionalnom domenom Republike Hrvatske, 

U tijeku prikupljanje mrežnih sadržaja o snažnom potresu u Petrinji, Glini i okolici
Budući da Hrvatski arhiv weba izgrađuje tematske zbirke koje brzo nestaju s weba, pokrenuto je i prikupljanje mrežnog sadržaja o potresima na području Sisačko-moslavačke županije. 

„Zadnjih nekoliko tjedana svjedoci smo silne količine mrežnog sadržaja o potresima u okolici Siska, Petrinje i Gline te njihovim posljedicama na području Sisačko-moslavačke, Karlovačke i Zagrebačke  županije. Internet je postao glavno mjesto pronalaženja korisnih informacija, poput uputa kako sudjelovati u prikupljanju novčanih sredstava za pomoć teško pogođenim područjima, ponude smještaja, hrane, higijenskih potrepština, odjeće i obuće, ali i prijeko potrebne medicinske i psihološke pomoći“ rekla je Inge Rudomino, knjižničarska savjetnica u Hrvatskom arhivu weba dodajući kako će rezultati harvestiranja biti dostupni u sklopu tematske zbirke na stranicama HAW-a. 
HAW poziva na prikupljanje sadržaja o koronavirusu.

Na Hrvatskom arhivu weba do danas je objavljeno 17 tematskih zbirki o aktualnim temama ili događajima od nacionalnog značaja, među njima i tematska zbirka COVID-19. 

Hrvatski arhiv weba prikuplja i trajno arhivira mrežne sadržaje o toj temi od početka globalne pandemije koronavirusa (SARS-CoV-2) i bolesti COVID-19. Prvo harvestiranje je provedeno od 15. do 17. svibnja 2020., a drugo od 10. do 14. studenoga 2020. godine i do sada je prikupljeno 4386 URL-ova ukupne veličine 294 GB.

„Zbirka sadrži web-stranice i news portale koji pokrivaju teme o podrijetlu koronavirusa, načinu širenju zaraze, svjedočenja oboljelih, službene evidencije o broju žrtava i preporuke liječnika, političara i znanstvenika i stručnjaka. Također, pokriva medicinske, znanstvene, društvene, ekonomske i političke aspekte ove pandemije“, objašnjava Inge Rudomino. 

Budući da je pandemija bolesti COVID-19 i dalje u tijeku, zbirka će se uskoro proširiti s novim harvestiranjima, a kako bi se što sveobuhvatnije prikupio relevantan sadržaj, iz Hrvatskog arhiva weba pozivaju javnost da šalju svoje prijedloge mrežnih sadržaja putem obrasca dostupnog i na stranicama HAW-a. 

Hrvatski arhiv weba dio međunarodnog projekta Developing Bloom Filters for Web Archives’ Holdings
Nacionalna i sveučilišna knjižnica u Zagrebu i Los Alamos National Laboratory (LANL) Research Library  u sklopu međunarodnog projekta Developing Bloom Filters for Web Archives’ Holdings rade na razvoju programskog rješenja za izradu Bloom filtera na primjeru sadržaja pohranjenih u Hrvatskom arhivu weba koji će se moći primijeniti i na druge arhive internetskog sadržaja u svijetu te omogućiti djelotvorniji i sigurniji pristup sadržajima ovakvih arhiva kao i izradu servisa za istodobno pretraživanje više arhiva odjednom. Projekt se počeo provoditi početkom ove godine i financijski ga podupire Konzorcij za dugoročnu pohranu internetskog sadržaja (International Internet Preservation Consortium – IIPC), a kao partner NSK u razvoju i održavanju Hrvatskog arhiva weba na njemu će sudjelovati i Srce.