Semantinis žiniatinklis yra W3C projektas, kuriame naudojami metaduomenys, t. y. su tam tikra tema susijusi informacija, kad kompiuteriai galėtų geriau apdoroti internete esančią informaciją. Šis planas, skirtas išsaugoti papildomą semantinę informaciją, leistų kompiuteriams atlikti daugiau darbų, susijusių su informacijos paieška, dalijimusi ir derinimu internete.

Semantinis žiniatinklis - tai pasaulinio žiniatinklio išradėjo Timo Bernerso Lee idėja. Jis siekė, kad žiniatinklis intuityviau atitiktų naudotojo poreikius. Informacijos ir paslaugų semantika apibrėžiama žiniatinklio ontologijos kalba (OWL) ir RDF schemomis. Jos naudojamos tam tikros žinių srities sąvokoms, terminams ir ryšiams formaliai aprašyti.

Semantinio žiniatinklio idėja pagal Timą Berners‑Lee

Timo Bernerso‑Lee idėja buvo tokia: informacija internete turėtų būti pateikta taip, kad ją suprastų ne tik žmonės, bet ir mašinos. Tai leidžia automatizuoti žinių apdorojimą, atlikti sudėtingesnes užklausas ir susieti duomenis tarp skirtingų šaltinių. Berners‑Lee pasiūlė ir praktines susietų duomenų (linked data) taisykles:

  • naudoti atpažintinus, globalius identifikatorius (URI) kiekvienam ištekliui;
  • jeigu įmanoma, naudoti HTTP URI, kad resursas būtų pasiekiamas internete;
  • kai URI yra atidaromas, pateikti prasmingą, mašinai skaitomą informaciją (pvz., RDF/JSON‑LD, Turtle);
  • įtraukti nuorodas į kitus URI, kad būtų kuriamas jungiamas duomenų tinklelis.

RDF — resursų aprašymo pagrindas

RDF (Resource Description Framework) yra semantinio žiniatinklio pagrindinė modelio technologija. Ji leidžia aprašyti žiniatinklio objektus (resursus) ir jų savybes naudojant trijų dalių teiginius, vadinamus tripletais: subjektaspredikatasobjektas. Kiekvienas tripletas gali būti interpretuojamas kaip mašininis teiginys apie resursą.

Paprastas RDF (Turtle) pavyzdys:

 @prefix ex: <http://example.org/> .  ex:Jonas ex:turiAmzino "1990-05-15" . ex:Jonas ex:turiVarda "Jonas" . 

RDF turi kelias serializacijas: RDF/XML, Turtle, N‑Triples, JSON‑LD ir kt. Šalia RDF dažnai naudojama RDFS (RDF Schema) — paprasta priemonė aprašyti klases ir savybes. Didesnei išraiškai naudojama OWL.

OWL — ontologijų kalba

OWL (Web Ontology Language) leidžia formaliai apibrėžti domeno ontologijas: klases, jų hierarchijas, savybių apribojimus, kardinalumus ir kitus loginius ryšius. OWL yra pagrįsta aprašomosios logikos principais ir suteikia sąlygas automatiniam išvados (reasoning) atlikimui — t. y. spėti naujus faktus iš apibrėžtų taisyklių ir duomenų.

OWL turi profilius ir potipius (pvz., OWL Lite, OWL DL, OWL Full), kurie skiriasi išraiškos galia ir suderinamumu su logikos sprendėjais. Tipinės OWL konstruktai: klasės (Class), individai (Individual), savybės (Property), apribojimai (Restriction), ekvivalentumas ir disjunkcija.

Privalumai ir naudos

  • Geresnė duomenų integracija tarp skirtingų šaltinių ir formatų;
  • Tikslesnė paieška ir semantinė paieška (ne tik raktinių žodžių sutapimas);
  • Automatizuoti agentai ir paslaugos gali suprasti duomenų prasmę ir jas panaudoti (pvz., skaitmeniniai padėjėjai, rekomendacijų sistemos);
  • Leidžia kurti žinių grafus (knowledge graphs), kurie veikia kaip semantinės žinių bazės;
  • Standartizuoti vokabularai (pvz., FOAF, Dublin Core, schema.org) skatina bendradarbiavimą ir pakartotinį naudojimą.

Iššūkiai ir apribojimai

  • Pradinė sąrankos ir ontologijų kūrimo sudėtingumas — reikia domenu pagrįstų sprendimų;
  • Įrankių, mastelio ir našumo problemos dideliems duomenų kiekiams (nors šiuolaikinės duomenų bazės ir sprendimai tobulėja);
  • Duomenų kokybė ir suderinamumas — skirtingi šaltiniai gali naudoti kitokias sąvokas;
  • Privatumo ir saugumo klausimai, ypač susiejant ir atverčiant jautrią informaciją.

Tipiniai įrankiai ir technologijos

  • Redagavimas ir modeliavimas: Protégé (ontologijų kūrimui);
  • RDF veikimui ir duomenų saugojimui: Apache Jena, RDF4J, Blazegraph, GraphDB, Stardog;
  • Užklausų kalba: SPARQL — naudinga išgauti duomenis iš RDF grafų;
  • Vokabularai: schema.org, FOAF, Dublin Core ir kt.;
  • Serializacijos: RDF/XML, Turtle, JSON‑LD — pastarasis dažnai naudojamas web API ir mikroformatams.

Panaudojimo sritys

  • Paieškos sistemos ir semantinė indeksacija (pvz., žinių grafai);
  • Sveikatos informacijos integracija ir ligų/vakcininės informacijos apdorojimas;
  • Kultūros paveldo duomenų susiejimas (muziejai, archyvai);
  • Elektroninė prekyba ir produktų duomenų integracija;
  • Valstybės ir viešųjų paslaugų atviri duomenys (open government data).

Trumpas praktinis pavyzdys (Turtle)

 @prefix ex: <http://example.org/> . @prefix foaf: <http://xmlns.com/foaf/0.1/> .  ex:Jonas a foaf:Person ;          foaf:name "Jonas" ;          foaf:mbox <mailto:[email protected]> . 

Apibendrinant: semantinis žiniatinklis suteikia prielaidas kurti prasmingą, tarpusavyje susietą duomenų tinklą, kuriame mašinos gali interpretuoti ir derinti informaciją. RDF, RDFS ir OWL yra pagrindinės technologijos šioje vizijoje, o praktiškai ji realizuojama per susietų duomenų principus, standartizuotus vokabularus ir priemones, leidžiančias kurti, saugoti ir užklausti semantinių duomenų grafus.