Skip Navigation Linksdomov > napredno iskanje > rezultati > izpis
Zapis SUTRS

VRSTA GRADIVAanalitična raven (sestavni del), tekstovno gradivo, tiskano, 1.04 - strokovni članek
DRŽAVA IZIDASlovenija
LETO IZIDA2017
JEZIK BESEDILA/IZVIRNIKAslovenski
PISAVAlatinica
AVTORKragelj, Matjaž - avtor
ODGOVORNOSTKovačič, Mitja - avtor
NASLOVUporabna vrednost podatkov spletnih zajemov : arhiviranje spletnih mest in analiza spletnih vsebin = ǂThe ǂpractical value of web capture data : archiving Web sites and Web content analysis
V PUBLIKACIJIKnjižnica. - ISSN 0023-2424. - 61, ǂ[št.] ǂ1/2 (jun. 2017), str. 235-250.
KRATKA VSEBINAZakon o obveznem izvodu publikacij (2006) Narodni in univerzitetni knjižnici (NUK) nalaga skrb za zajem, ohranjanje in nudenje dostopa uporabnikom do zajetih spletnih publikacij, spletnih mest in vsebin. Leta 2015 je NUK opravil prvi zajem slovenske domene .si, naslove spletnih domen je priskrbel Arnes (Akademska in raziskovalna mreža Slovenije). V prispevku se osredotočamo na pomen zajema spletnih vsebin zaradi vsakodnevnega propadanja spletnih domen. Poleg zajema in dejavnosti za zagotavljanje ohranjanja zajetih vsebin je v prispevku tematizirano tudipridobivanje informacij iz nestrukturiranih vsebin (spletnih dokumentov). Omenjeni so primeri in delovanje aplikacij za zajemanje specifičnih informacij iz različnih spletnih dokumentov, npr. zajem cene določenega artikla v določeni trgovini z namenom obveščanja končnega uporabnika o najugodnejši ponudbi na trgu. Večji del prispevka je namenjen analizi zajetih spletnih vsebin in možnosti luščenja ter uteževanja besedišča, pridobljenega iz spletnih dokumentov. Z algoritmi in statistikami za označevanje in razvrščanje terminov v množici spletnih vsebin se spletni arhiv iz pasivne podatkovne zbirke spremeni v okolje, ki omogoča dodano vrednost povezovanja podatkov, iskanja sorodnosti znotraj podatkov spletnega arhiva in s podatki zunaj njega. // The Legal Deposit Act imposesto the National and University Library the concern and rights for capturing, preserving and providing access to online publications, web sites, and other content to library users. In 2015, the Library started thefirst capture of Slovenian .si internet domain. The domain addresses were provided by ARNES (the Academic and Research Network of Slovenia). The article focuses on the importance of covering the web content due to the deterioration of daily web domains. In addition to covering and activities to ensure the conservation of web contents, the paper also covers the subject of how to obtain information from unstructured content (documents on the web). The article shows some examples and applications to capture specific information from a variety of online documents (scraping), like the price of a selected item in a particular web store in order to inform the end user about the best offer on the market. The major part of the article is devoted to the analysis of captured web content and the possibility of scaling and ranking the vocabulary derived from web documents. The algorithms and statistics for marking and document ranking in a mass of web content can help transform the web archive from a passive database to the environment that creates the added value of data integration, finding similarities within a web archive data and the data from the outside of a web archive.
OPOMBEBesedilo v slov. // Bibliografija: str. 249-250 // Izvleček ; Abstract
ELEKTRONLOKACIJA/DOSTOPDostopno tudi na: http://knjiznica.zbds-zveza.si/index.php/knjiznica/article/view/642
PREDMETNE OZNAKE// identifikacija bibliografskih odnosov // spletni arhivi // frekvenca pojavljanja // tf-idf // luščenje podatkov // spletni zajemi // domena.si // web archives // term frequency // inverse document frequency // data scraping // web harvesting // .si domain
UDK005.921.1-022.324:004.738

izvedba, lastnina in pravice: NUK 2010