Tezaurus: šta je to. Tezaurus rječnik koji je više od rječnika

Koncept „tezaurusa“ se sve više može naći u brojnim projektima, knjigama, brošurama i internet resursima. Poput misteriozne pojave, plaši svojom nepoznatošću, jer je mnogo lakše reći „rečnik“ nego koristiti čudnu definiciju.

Tezaurus: šta je to? Po čemu se razlikuje od običnog rječnika? Pokušajmo detaljnije i na pristupačniji način proučiti ova pitanja.

Tumačenje pojma

U početku se koncept tezaurusa razmatrao sa stanovišta rječnika, koji je predstavljao vokabular jezika s primjerima upotrebe u tekstu.

Ozhegov tumači tezaurus kao rečnik određenog jezika, koji u potpunosti odražava rečnik, dok Efremova ovaj fenomen razmatra sa stanovišta sistematizovanog skupa podataka u određenoj oblasti znanja.

Najkonkretnija definicija se koristi u filologiji, gdje se pod tezaurusom podrazumijeva komponenta vrste rječnika, gdje su sva značenja riječi povezana semantičkim odnosima i odražavaju ključne odnose pojmova u određenoj predmetnoj oblasti.

Kao što vidimo, prilično je teško odgovoriti na pitanje: "Tezaurus: šta je to?" definitivno. Za uže proučavanje pojma, razmotrimo istoriju njegovog nastanka, tipove i odnose leksičkih jedinica u rečniku ove vrste.

Istorija porekla

Engleski fizičar Roger smatra se osnivačem tezaurusa; on ga je sistematizirao 1852. godine, podijelivši ga u grupe. Štaviše, svaka grupa je bila predstavljena imenom pojma, a zatim su postojali njegovi sinonimi za određene dijelove govora, liste srodnih imena, kao i upućivanja na nazive drugih kategorija. Ideja o takvoj klasifikaciji bila je vrlo vrijedna, jer se rječnik smatrao najprirodnijim i opisao je rječnik jezika u najvećoj mjeri. Istovremeno, može se koristiti kao brza pretraga važnih koncepata. Od vremena nastanka prvog tezaurusa pa do danas, dolazi do redovne transformacije ovog tipa rječnika koji se koristi u mnogim oblastima znanja i široko je popularan u cijelom svijetu. Istovremeno, proučavajući temu: "Tezaurus: šta je to?" relevantan u mnogim obrazovnim institucijama.

Do danas, tezaurusi ostaju najpopularniji način za opisivanje znanja u bilo kojoj oblasti neophodnoj za efektivnu ljudsku percepciju.

Odnosi riječi u tezaurusu

Najčešći odnosi u klasičnom tezaurusu su:

Sinonimija je pojava u kojoj se povezuju riječi istog dijela govora koje su slične po leksičkom značenju. Na primjer: vlast-otadžbina, brigada-odred, grimiz - crvena itd.
Antonimija je veza između riječi jednog dijela govora koje imaju suprotna leksička značenja. Na primjer: tišina - rika, nežna - nepristojna.
Hiperonimija (hiponimija) je ključni odnos u svrhu opisivanja imenica. Hipernim ima široko leksičko značenje, izražava generički, opšti naziv klase (skupa) objekata, predmeta, odnosno njegovih svojstava i karakteristika. Hiponim ima usko značenje; on imenuje objekt (znak, svojstvo) kao element određenog skupa ili klase. Da bismo ove odnose razjasnili, dajmo jednostavan primjer. Riječi zvijer i tigra su međusobno povezani, a zajednički naziv je zvijer- je hipernim u odnosu na hiponim tigar.
Meronimija (partonimija) je odnos za imenice koji se formira po principu “dio – cjelina”. Kao primjer, razmotrite riječi avion, stajni trap, porthole. U ovom slučaju, opšti naziv transporta je holonim (celo, ime), a njegove komponente su meronimi.
Posljedica (odnosi među glagolima). Na primjer, riječi idi i dođi povezani procesom i njegovom posledicom (rezultat).
Razlog (također vrijedi samo za glagole). Razmotrimo primjer takvih odnosa, uzmimo riječi: biti bolestan - propustiti. U ovom slučaju se može pronaći razlog - propustiti jer je bilo zdravstvenih problema.

Iz sljedećeg primjera ćemo vidjeti šta je tezaurus.

Krevet je uređaj za spavanje.

[hiperonim]: namještaj
[meronim]: kuća
[sinonim]: krevet, krevet.

Ovo je samo klasičan primjer tezaurusa ruskog jezika, ali svi rječnici ovog tipa izgrađeni su upravo na ovom principu.

Funkcije tezaurusa

Rječnik tezaurus ima važne društvene, komunikacijske, naučne i druge funkcije.

On je:

izvor specijalizovanog znanja iz šire ili uže predmetne oblasti, način reda, opisivanja pojmova;
alat za pretraživanje u toku informacija;
alat za ručnu analizu dokumentacije u pretraživačima;
alat za automatsko indeksiranje složenih tekstova.

Vrste tezaurusa

Raznolikost rječnika zahtijeva razmatranje ne samo pitanja: "Tezaurus: šta je to?", već i obraćanje pažnje na vrste. Ovo će nam pomoći da bolje razumijemo karakteristike ove vrste rječnika.

Zaključak

Nadamo se da smo na pristupačnom jeziku uspjeli objasniti šta je to tezaurus. Zahvaljujući primjerima, lako je razumjeti po čemu se razlikuje od drugih rječnika. Takođe smo pokrili pitanje tezaurusa za pronalaženje informacija, koje informacioni sistem naširoko koristi za brzo pretraživanje i sistematizaciju miliona stavki.

, antonimi, paronimi, hiponimi, hipernimi itd.) između leksičkih jedinica. Tezauri su jedan od najefikasnijih alata za opisivanje pojedinačnih predmetnih oblasti.

U prošlosti termin tezaurus Određeni su uglavnom rječnici koji maksimalno potpunije predstavljaju rječnik jezika sa primjerima njegove upotrebe u tekstovima.

Takođe termin tezaurus koristi se u teoriji informacija za označavanje ukupnosti svih informacija koje subjekt posjeduje.

U psihologiji, tezaurus pojedinca karakterizira percepcija i razumijevanje informacija. Teorija komunikacije također razmatra opći tezaurus kompleksnog sistema kroz koji njegovi elementi međusobno djeluju.

Priča

Jedan od prvih tezaurusa naziva se “Rječnik sinonima” Filona iz Biblosa. Preciznija korespondencija sa terminom je Amara-kosha, napisana na sanskrtu u poetskom obliku u 6. veku. Prvi moderni engleski tezaurus kreirao je Peter Mark Roger 1805. godine. Objavljena je 1852. godine i od tada se koristi bez pretiska.

U 1970-im, tezaurusi su se počeli aktivno koristiti za zadatke pronalaženja informacija. U takvim tezaurusima, riječi se mapiraju u deskriptore preko kojih se uspostavljaju semantičke veze.

Tezaurusi

vidi takođe

Napišite recenziju o članku "Tezaurus"

Bilješke

Izvod koji karakteriše tezaurus

- Kakav si ti dandy danas! – rekao je Nesvitsky, gledajući svoj novi plašt i jastučić za sedlo.
Denisov se nasmejao, izvadio iz torbe maramicu koja je mirisala na parfem i zabio je Nesvickom u nos.
- Ne mogu, idem na posao! Izašao sam, oprao zube i stavio parfem.
Dostojanstvena figura Nesvickog, u pratnji kozaka, i odlučnost Denisova, koji je mahao sabljom i očajnički vikao, uticali su na to da su se stisnuli na drugu stranu mosta i zaustavili pešadiju. Nesvitsky je na izlazu pronašao pukovnika, kojem je trebao prenijeti naređenje, i, pošto je ispunio njegova uputstva, vratio se nazad.
Oslobodivši put, Denisov se zaustavio na ulazu na most. Ležerno zadržavajući pastuha koji je jurio prema svojima i šutirao, pogledao je eskadrilu koja se kretala prema njemu.
Duž dasaka mosta čuli su se prozirni zvuci kopita, kao da je nekoliko konja galopiralo, a eskadron, sa oficirima ispred, četiri u nizu, ispružio se duž mosta i počeo da izlazi na drugu stranu.
Zaustavljeni pješadijski vojnici, koji su se zbijali u utabanom blatu kraj mosta, gledali su čiste, uglađene husare koji su uredno marširali pored njih s onim posebnim neprijateljskim osjećajem otuđenosti i podsmijeha s kojim se obično susreću razni rodovi vojske.
- Pametni momci! Da je samo na Podnovinskom!
- Šta su oni dobri? Voze samo za predstavu! - rekao je drugi.
- Pešadije, ne brišite prašinu! - našalio se husar, pod kojim je konj, igrajući se, pljuskao pješadije blatom.
„Da sam te provozao kroz dva marša sa tvojim rancem, pertle bi se istrošile“, rekao je pešak, brišući prljavštinu sa lica rukavom; - inače ne sjedi osoba, već ptica!
„Da sam te samo mogao staviti na konja, Žikine, da si okretan“, našalio se kaplar na račun mršavog vojnika, pognutog od težine ranca.
„Uzmi batinu među noge i imaćeš konja“, odgovori husar.

Ostatak pješaštva je požurio preko mosta, formirajući lijevak na ulazu. Konačno su sva kola prošla, gužva je postala manja, a posljednji bataljon je ušao na most. Samo su husari Denisovljeve eskadrile ostali s druge strane mosta protiv neprijatelja. Neprijatelj, vidljiv u daljini sa suprotne planine, odozdo, sa mosta, još nije bio vidljiv, jer se iz udubine kojom je rijeka tekla, horizont završavao na suprotnoj koti udaljenoj ne više od pola milje. Ispred je bila pustinja po kojoj su se tu i tamo kretale grupe naših putujućih kozaka. Odjednom, na suprotnom brdu od puta, pojavile su se trupe u plavim kapuljačama i artiljerija. To su bili Francuzi. Kozačka patrola odjuri nizbrdo. Svi oficiri i ljudi Denisovljeve eskadrile, iako su pokušavali razgovarati o strancima i gledati okolo, nisu prestajali razmišljati samo o onome što se nalazi na planini, i neprestano su zavirivali u mjesta na horizontu, koje su prepoznali kao neprijateljske trupe. Popodne se ponovo razvedrilo, sunce je blistavo zašlo nad Dunav i mračne planine koje ga okružuju. Bilo je tiho, a sa te planine povremeno su se čuli zvuci truba i vriska neprijatelja. Između eskadrile i neprijatelja nije bilo nikoga, osim malih patrola. Od njega ih je dijelio prazan prostor, tri stotine hvati. Neprijatelj je prestao da puca, a jasnije se osetila ona stroga, preteća, neosvojiva i neuhvatljiva linija koja razdvaja dve neprijateljske trupe.
“Jedan korak iza ove linije, koja podsjeća na liniju koja razdvaja žive od mrtvih, i - nepoznato patnje i smrti. I šta je tamo? ko je tamo? tamo, iza ovog polja, i drvo, i krov obasjan suncem? Niko ne zna, a ja želim da znam; i strašno je preći ovu granicu, a vi želite da je pređete; i znaš da ćeš prije ili kasnije morati to prijeći i saznati šta je s druge strane linije, kao što je neizbježno saznati šta je s druge strane smrti. A i sam je snažan, zdrav, veseo i iznerviran, i okružen tako zdravim i razdražljivo živahnim ljudima.” Dakle, čak i ako ne razmišlja, to osjeća svaka osoba koja je na vidiku neprijatelja, a taj osjećaj daje poseban sjaj i radosnu oštrinu utisaka svemu što se dešava u ovim minutama.
Dim pucnja pojavio se na neprijateljskom brdu, a topovsko đule, zviždući, preletelo je iznad glava husarskog eskadrila. Policajci koji su stajali zajedno otišli su na svoja mjesta. Husari su pažljivo počeli da ispravljaju svoje konje. Sve je u eskadrili utihnulo. Svi su gledali ispred sebe u neprijatelja i u komandanta eskadrile, čekajući komandu. Proletela je još jedna, treća topovska kugla. Očigledno je da su pucali na husare; ali je topovsko đule, jednako brzo zviždući, preletelo preko glava husara i udarilo negde iza. Husari se nisu osvrtali, ali na svaki zvuk letećeg topovskog đula, kao po komandi, čitava eskadrila sa svojim monotono raznolikim licima, zadržavajući dah dok je topovska kugla letjela, digla se u stremenima i ponovo padala. Vojnici su, ne okrećući glave, iskosa pogledali jedni druge, radoznalo tražeći utisak svog druga. Na svakom licu, od Denisova do trubača, u blizini usana i brade pojavila se jedna zajednička crta borbe, razdraženosti i uzbuđenja. Narednik se namrštio, gledajući oko sebe u vojnike, kao da prijeti kaznom. Junker Mironov se saginjao pri svakom dodavanju topovskog đula. Rostov, koji je stajao na lijevom boku na svom nogom dotaknutom, ali vidljivom Gračiku, imao je sretan izgled studenta pozvanog pred brojnu publiku na ispit na kojem je bio uvjeren da će briljirati. Sve je jasno i vedro gledao, kao da traži da obrate pažnju na to kako mirno stoji ispod topovskih đula. Ali i na njegovom licu, ista crta nečeg novog i strogog, protiv njegove volje, pojavila se kraj njegovih usta.
-Ko se tamo klanja? Yunkeg "Mig"ons! Hexog, pogledaj me! - vikao je Denisov, ne mogavši da stoji i vrteći se na konju ispred eskadrona.
Punonosno i crnokoso lice Vaske Denisova i cijela njegova mala, izubijana figura sa žilavom (sa kratkim prstima prekrivenim kosom) rukom, u kojoj je držao balčak isukane sablje, bio je potpuno isti kao i uvijek, posebno uveče, nakon što popijete dve flaše. Bio je samo crveniji nego inače i, podigavši svoju čupavu glavu, kao ptice kad piju, nemilosrdno utiskujući malim nogama mamuze u bokove dobrog beduina, on je, kao da pada unazad, galopirao na drugi bok eskadrila i viknuo promuklim glasom da se pregledaju pištolji. Odvezao se do Kirsten. Štabni kapetan, na širokoj i staloženoj kobili, jahao je brzim korakom prema Denisovu. Štabni kapetan, sa dugim brkovima, bio je ozbiljan, kao i uvek, samo su mu oči blistale više nego inače.
- Šta? - rekao je Denisovu, - neće doći do tuče. Vidjet ćeš, vratit ćemo se.
"Ko zna šta rade", gunđao je Denisov. "Ah! G" kostur! - viknuo je kadetu, primetivši njegovo veselo lice. - Pa, čekao sam.
I s odobravanjem se nasmiješio, očito se radujući kadetu.
Rostov se osjećao potpuno sretnim. U to vrijeme poglavica se pojavio na mostu. Denisov je galopirao prema njemu.
- Vaša Ekselencijo! Pustite me da napadnem! Ubiću ih.
"Kakvi su to napadi", rekao je poglavica dosadnim glasom, trznuvši se kao od dosadne muve. - A zašto stojiš ovde? Vidite, bokovi se povlače. Vodite eskadrilu nazad.
Eskadrila je prešla most i izbjegla pucnjavu bez gubitka ijednog čovjeka. Za njim je prešao drugi eskadron, koji je bio u lancu, a posljednji kozaci su očistili tu stranu.
Dva eskadrila Pavlograđana su, prešavši most, jedan za drugim, vratili se na planinu. Komandant puka Karl Bogdanovič Šubert dovezao se do Denisovljeve eskadrile i jahao brzinom nedaleko od Rostova, ne obraćajući pažnju na njega, uprkos činjenici da su se nakon prethodnog sukoba oko Teljanina sada prvi put vidjeli. Rostov, osjećajući se na frontu u moći čovjeka pred kojim se sada smatrao krivim, nije skidao pogled sa atletskih leđa, plavokosog potiljka i crvenog vrata komandanta puka. Rostovu se učinilo da se Bogdanič samo pretvara da je nepažljiv i da mu je sada čitav cilj da ispita pitomčevu hrabrost, pa se uspravio i veselo pogledao oko sebe; tada mu se učinilo da se Bogdanič namjerno približava kako bi Rostovu pokazao svoju hrabrost. Tada je pomislio da će njegov neprijatelj sada namjerno poslati eskadrilu u očajnički napad da kazni njega, Rostov. Vjerovalo se da će nakon napada doći do njega i velikodušno pružiti ruku pomirenja njemu, ranjeniku.

Ispod tezaurus shvaća se kao složena komponenta rječničkog tipa, u kojoj su sva značenja rječnika međusobno povezana semantičkim odnosima koji odražavaju osnovne odnose pojmova u opisanom predmetnom području znanja. U prošlosti, termin tezaurus prvenstveno je označavao rječnike koji su maksimalno cjelovito predstavljali vokabular nekog jezika s primjerima njegove upotrebe u tekstovima.

Tezaurus uključuje lekseme, koji se odnosi na četiri dijela govora: pridjev, imenicu, glagol i prilog. Opisi koji odgovaraju svakom dijelu govora imaju drugačiju strukturu.

Glavni odnosi u tezaurusu su:

sinonimija– vezu između riječi istog dijela govora, različitih po zvuku i pravopisu, ali imaju isto ili vrlo slično leksičko značenje, na primjer: konjica - konjica, hrabra - hrabra;
antonimija– vezu između riječi istog dijela govora, različitih po zvuku, koje imaju direktno suprotna značenja: istina – laž, dobro – zlo;
hiponimija/hiperonimija. Hipernim– riječ sa širim značenjem, koja izražava opšti, generički pojam, naziv klase (skupa) objekata (osobina, atributa). Hiponim– riječ užeg značenja koja imenuje objekt (svojstvo, atribut) kao element klase (skupa). Ovi odnosi su tranzitivni i asimetrični. Hiponim nasljeđuje sva svojstva hipernima. Oni su središnji odnosi za opisivanje imenica;
meronimija/partonimija– Odnos “DIM-CELO”. U tom odnosu ističu se odnosi „biti element“ i „biti napravljen od“. Odnos je definisan samo za imenice;
posljedica (ovaj odnos povezuje glagole);
razlog (takođe definisan za glagole).

Primjer tezaurusa:

Koliba - drvena seljačka kuća [hiperonim]: stambena zgrada [meronim]: seosko naselje [sinonim]: kuća

Svi odnosi stvaraju složenu hijerarhijsku mrežu koncepata, a saznanje gdje se koncept nalazi u ovoj mreži važan je dio znanja o tom konceptu. Osobine relacija su različite kada se opisuju različiti dijelovi govora.

U različitim sistemima, tezaurus može obavljati različite funkcije:

izvor specijalizovanih znanja iz užeg ili šireg predmetnog područja, način opisivanja i organizovanja terminologije predmetne oblasti;
alat za pretraživanje u sistemima za pronalaženje informacija;
alat za ručno indeksiranje dokumenata u sistemima za pronalaženje informacija (tzv. kontrolni rečnik);
alat za automatsko indeksiranje teksta.

Tezauruse kao konceptualne rječnike pokrenuo je Roger (ili Roget, engleski fizičar), koji je sistematizovao vokabular engleskog jezika u grupe. Svaka grupa je predstavljena imenom pojma („kategorije“, kojih je u početku bilo hiljadu; to su obične riječi raspoređene po abecednom redu, na primjer AFIRMACIJA ... AGENCIJA ...), nakon čega slijede njegovi sinonimi sa dijelovi govora (imenice, glagoli, pridjevi, prilozi), antonimi pa popisi srodnih riječi (ima ih mnogo, a neki su upućivanje na nazive drugih kategorija, u čijem rječničkom unosu je lista „daljih rođaka“ može nastaviti npr. iz AGENCIJE... vidi POSAO). Od objavljivanja Rogerovog tezaurusa 1852. i njegovo ponovno štampanje još uvijek traje u različitim oblicima i za različite korisnike, tezaurus se stalno ažurira novim rječnikom i vezama, ali iza svih opcija ostaje ime tvorca prve verzije. Vrijednost ovog tezaurusa je u njegovoj prirodnosti, u činjenici da je on opis cjelokupnog rječnika jezika, a ne samo terminologije, kao i u činjenici da se može koristiti u sistemima za pronalaženje informacija kao sredstvo za povećanje semantičku snagu sistema.

Tezaurusi su do danas ostali najprihvaćeniji oblik opisa znanja iz predmetne oblasti, pogodan za ljudsku percepciju. Primjeri modernih stranih tezaurusa su WordNet i EuroWordNet.

Tezaurus engleskog jezika WordNet pojavio se 1990. godine. i počeo se aktivno uključiti u različite oblasti automatske obrade teksta. WordNet pokriva oko 100 hiljada različitih jedinica (skoro polovina su fraze), organizovanih u 70.000 koncepata.

EuroWordNet višejezični tezaurus je trenutno u razvoju. U početku se za četiri jezika (danski, talijanski, španjolski i američki engleski) razvija mreža značenja riječi, povezanih semantičkim odnosima i omogućavajući pronalaženje riječi različitih jezika koje su slične po značenju. Za razliku od Rogerovog tezaurusa i WordNet mreže, koji su stvoreni da opišu leksički i konceptualni sistem engleskog jezika, EuroWordNet je stvoren prvenstveno za rješavanje praktičnih problema automatske obrade velikih količina teksta. Najvažniji zadaci koji bi se trebali riješiti uz pomoć ovog tezaurusa su sljedeći:

Pružanje višejezičnog pretraživanja informacija;
povećanje kompletnosti pronalaženja informacija;
formulisanje zahteva na prirodnom jeziku;
semantičko indeksiranje dokumenata itd.

Pored ovih odnosa uvode se i tematski odnosi koji povezuju pojmove jedne predmetne oblasti. Također se predlaže uvođenje posebnih napomena o odnosima između pojmova, koje označavaju disjunkciju ili konjunkciju odnosa. Ako određeni pojam u mreži ima više relacija istog imena, onda oni mogu biti disjunktivni, odnosno jedan od tih odnosa je stvarno ostvaren, ili konjunktivni, odnosno svi ti odnosi vrijede za pojam.

Domaći instituti kreirali su više od stotinu specifičnih tezaurusa koji ispunjavaju određeni državni standard za rječnike ovog tipa. Zovu se - IRT - tezaurusi za pronalaženje informacija. Od svih mogućih semantičkih odnosa između pojmova, tri su fiksirana u njima: sinonimni, generički (koji obično uključuju odnos “DIO-CELJE”) i “svi ostali”, koji se nazivaju i asocijativni.

Standardni IPT su uglavnom namenjeni za ručno indeksiranje dokumenata, kao i za formulisanje i variranje upita tokom pretraživanja. Postoje nestandardni tezaurusi koji postavljaju zadatak selektivne sistematizacije terminologije u određenoj oblasti znanja - to se posebno odnosi na nova predmetna područja. Sve je veća tendencija obogaćivanja tezaurusa definicijama pojmova, što je važno za razlikovanje višeznačnosti pojmova, posebno u slučaju srodnih disciplina i kada se kreće izvan granica uskih predmetnih oblasti.

N. V. Lukashevich

[email protected]

B. V. Dobrov

Istraživački računarski centar Moskovskog državnog univerziteta. M.V. Lomonosov;

ANO Centar za informacijska istraživanja

[email protected]

Ključne riječi: tezaurus, pronalaženje informacija, automatska obrada teksta,

Velika većina tehnologija koje rade sa velikim zbirkama tekstova zasniva se na statističkim i probabilističkim metodama. To je zbog činjenice da leksički resursi koji se mogu koristiti za obradu zbirki tekstova korištenjem lingvističkih metoda moraju imati volumen od desetine hiljada rječnika i imati niz važnih svojstava koja se moraju posebno pratiti prilikom razvoja izvora. U izvještaju istražujemo osnovne principe razvoja leksičkih resursa za automatsku obradu velikih zbirki tekstova na primjeru tezaurusa ruskog jezika za kompjutersku obradu teksta RuTez, kreiranog 1997. godine, koji trenutno predstavlja hijerarhijsku mrežu od više od 42 hiljade koncepata. . Sadašnje stanje tezaurusa opisujemo na osnovu poređenja njegovog leksičkog sastava i korpusa teksta Univerzitetskog informacionog sistema RUSIJA (www.cir.ru) - 400 hiljada dokumenata. Razmatraju se primjeri upotrebe tezaurusa u raznim aplikacijama za automatsku obradu teksta.

Uvod

Trenutno su milioni dokumenata postali dostupni u elektronskom obliku, stvorene su hiljade informacionih sistema i elektronskih biblioteka. Istovremeno, informacioni sistemi koji koriste leksičke i terminološke resurse za pretraživanje izračunavaju se u delićima procenta. To je zbog ozbiljnih izazova stvaranja ovakvih jezičkih resursa za automatsku obradu savremenih zbirki elektronskih dokumenata.

Prvo, ove zbirke su obično veoma velike; izvor mora uključivati opise hiljada riječi i pojmova. Drugo, kolekcije su skup dokumenata različite strukture sa različitim sintaksičkim strukturama, što otežava automatsku obradu tekstualnih rečenica. Osim toga, važne informacije se često distribuiraju između različitih rečenica teksta.

Sve ovo akutno postavlja pitanje šta bi trebao biti jezički resurs, koji bi, s jedne strane, bio koristan za automatsku obradu i pretraživanje u elektronskim zbirkama, s druge strane, mogao bi se stvoriti u dogledno vrijeme i održavati s relativno malo napor.

U ovom članku ćemo pogledati osnovne principe razvoja leksičkih resursa za automatsku obradu velikih kolekcija teksta. Ovi principi će biti ispitani na primjeru tezaurusa ruskog jezika koji je od 1997. godine kreirao Centar za informatička istraživanja ANO za kompjutersku obradu teksta RuTez. RuTez je trenutno hijerarhijska mreža od više od 42 hiljade pojmova, koja uključuje više od 95 hiljada ruskih riječi, izraza i pojmova. Opisaćemo trenutno stanje tezaurusa na osnovu poređenja njegovog leksičkog sastava i rečnika korpusa teksta Univerzitetskog informacionog sistema RUSIJA, uz podršku Istraživačkog računarskog centra Moskovskog državnog univerziteta. M.V. Lomonosov i ANO TSII. UIS RUSSIA (www.cir.ru) sadrži 400 hiljada dokumenata o društveno-političkim temama (oko 3 GB tekstova, 200 miliona reči). U članku će se također raspravljati o primjerima korištenja tezaurusa u raznim aplikacijama za automatsku obradu teksta.

Principi za razvoj jezičkog izvora

za zadatke pronalaženja informacija

Da bi se osigurala efikasna automatska obrada elektronskih dokumenata (automatsko indeksiranje, kategorizacija, poređenje dokumenata), potrebno je izgraditi osnovu za njihovo poređenje – listu onoga što je navedeno u dokumentu. Da bi takav indeks bio učinkovitiji od indeksa riječ po riječ, potrebno je prevazići leksičku raznolikost teksta: sinonime, polisemiju, dijelove govora, stilistiku i svesti je na invarijantu – pojam koji postaje osnova za poređenje različitih tekstova. Dakle, koncepti treba da postanu osnova jezičkog resursa, a jezički izrazi: riječi, pojmovi - postaju samo tekstualni ulazi koji inicijaliziraju odgovarajući koncept.

Da bi se mogli porediti različiti, ali slični koncepti, moraju se uspostaviti odnosi između njih. Tradicionalno, lingvistički resursi za automatsku obradu tekstova na prirodnom jeziku koristili su određene skupove semantičkih odnosa, kao npr. dio, izvor, razlog i tako dalje. Međutim, kada radimo sa velikim i heterogenim kolekcijama tekstova, moramo shvatiti da sa trenutnim stanjem tehnologije obrade teksta, kompjuterski sistem neće moći pouzdano detektovati ove odnose u tekstu kako bi izvršio procedure koje smo povezali sa ove ili druge veze. Dakle, odnosi između pojmova moraju prije svega opisati određena invarijantna svojstva koja ne zavise ili slabo zavise od teme konkretnog teksta u kojem se pojam spominje.

Glavna funkcija ovog odnosa je da odgovori na sljedeće pitanje:

ako je poznato da je tekst posvećen razmatranju C1, a C2 je povezan

stavRsa C1, možemo li reći da je tema teksta(*)

vezano za C2?

Prilikom kreiranja jezičkog resursa za automatsku obradu, važno je odrediti koja svojstva koncepata C1 i C2 nam omogućavaju da uspostavimo ispravne (*) odnose između njih.

Tako, na primjer, bez obzira o kakvim se tekstovima piše breze, uvek možemo reći da su ovi tekstovi o drveće. Ali uprkos popularnosti i čestim raspravama o vezi drvo kao dio šume, vrlo malo tekstova o drveću su tekstovi o šumama. Imajte na umu da problem nije povezan s imenom veze. Dakle čistina je dio šume, a tekstovi o proplancima su tekstovi o šumama.

Invarijantnost odnosa u odnosu na spektar mogućih tema tekstova u predmetnoj oblasti je u velikoj meri određena dubljim svojstvima od onih koje reflektuju nazivi odnosa, odnosno njegovim kvantifikatorom i egzistencijalnim svojstvima. Dakle, kvantifikatorska svojstva relacija opisuju da li svi primjeri koncepta imaju datu relaciju, da li ta relacija postoji tokom cijelog životnog ciklusa primjera. Problem sa upotrebom relacije drvo – šuma Upravo zbog činjenice da se ne nalazi svako određeno drvo u šumi, ali čistina ne može biti izvan šume.

Primjer opisa egzistencijalnih svojstava odnosa - da li iz postojanja koncepta C1 proizlazi postojanje koncepta C2 (na primjer, postojanje koncepta GARAŽA zahtijeva postojanje koncepta AUTOMOBILE) ili postojanje primjera C1 ovisi o postojanju primjera C2 (tako specifičnih POPLAVA neodvojivo od konkretnog primjera RIJEKE). Rasprava u tekstu o zavisnom pojmu C2, posebno u zavisnosti od primjera, sugerira da je tekst vezan i za glavni koncept C1.

Razmotrimo odnos između pojmova ŠUMA i DRVO u detaljima. U stvari, dio koncepta FOREST je DRVO U ŠUMI, dok ih ima SLOBODNO STOJEĆE DRVO,DRVO U BAŠTU itd. U svakom slučaju, potrebno je prekinuti odnos subordinacije pojma DRVO koncept FOREST.

Na drugoj strani, FOREST je vrsta ZBIRKE DRVEĆA, ne postoji bez drveća (kao i GARDEN). Dakle, koncept FOREST mora biti u vezi sa konceptom DRVO. Polazeći od analize potreba konkretnih aplikativnih problema, došli smo do zaključka da je važno opisati dubinska svojstva relacija koja su se ranije vrlo malo odražavala u jezičkim resursima, ali su od najveće važnosti za zadatke automatske obrade. velikih kolekcija teksta i, moguće, za mnoge druge zadatke.

Sada modeliramo opis kvantifikatora i egzistencijalnih svojstava koncepata sa skupom tradicionalnih relacija tezaurusa IZNAD-ISD (66% svih relacija), DIJELO-CELO (30% relacija), ASOCIJACIJA (4%), u kombinaciji sa određeni skup dodatnih modifikatora (označeno je 20% relacija). Imajte na umu da se odnosi DIJELO-CELOTA i ASOCIJACIJA tumače uzimajući u obzir pravilo (*). Ukupno je opisano oko 160 hiljada direktnih veza između pojmova, što, uzimajući u obzir tranzitivnost relacija, daje ukupan broj različitih veza od više od 1350 hiljada veza, odnosno u prosjeku je svaki pojam povezan sa 30 drugih. .

RuTez tezaurus: opća struktura

RuTez tezaurus je hijerarhijska mreža pojmova koji odgovaraju značenjima pojedinih riječi, tekstualnih izraza ili sinonimnih nizova. Dakle, glavni elementi tezaurusa su koncepti, lingvistički izrazi, odnosi između jezičkih izraza i pojmova i odnosi između pojmova.

Tezaurus objedinjuje u jedinstven sistem kako lingvistička znanja – opise leksema, idioma i njihovih veza, tradicionalno vezanih za leksička, semantička znanja, tako i znanja o terminima i odnosima unutar predmetnih oblasti, tradicionalno vezanih za oblast djelovanja terminologa, opisana u tezaurus za pronalaženje informacija . Kao takve predmetne podoblasti, tezaurus opisuje predmetne oblasti kao što su ekonomija, zakonodavstvo, finansije, međunarodni odnosi, koje su toliko važne za svakodnevni ljudski život da imaju značajnu leksičku zastupljenost u tradicionalnim eksplanatornim rečnicima. U njima su leksičko i terminološko snažno međusobno povezane i u snažnoj interakciji jedno s drugim.

Jezički izrazi su pojedinačne lekseme (imenice, pridjevi i glagoli), imenske i glagolske grupe. Dakle, tezaurus trenutno ne uključuje priloge i funkcijske riječi kao jezičke izraze. Grupe više riječi mogu uključivati termine, idiome, leksičke funkcije ( uticaj e).

Za svaki jezički izraz opisano je sljedeće:

Njegova polisemija je veza sa jednim ili više pojmova, što znači da dati jezički izraz može poslužiti kao tekstualni izraz ovog pojma. Pripisivanje jezičkog izraza različitim konceptima također je implicitna indikacija njegove polisemije;

Njegov morfološki sastav (dio govora, broj, padež);

Karakteristike pisanja (na primjer, velikim slovom) itd.

Svaki koncept tezaurusa ima jedinstveno ime, listu jezičkih izraza pomoću kojih se ovaj koncept može izraziti u tekstu i listu odnosa sa drugim pojmovima.

Jedan od njegovih nedvosmislenih tekstualnih izraza obično se bira kao jedinstveno ime za koncept. Ali naziv pojma može biti formiran i od para njegovih dvosmislenih tekstualnih izraza - sinonima, pisanih odvojenih zarezima i nedvosmisleno definisanih (npr. DEBELO). Dvosmisleni tekstualni izraz naziva pojma može biti opremljen i oznakom ili skraćenim fragmentom interpretacije, na primjer, koncept GOMILA (GRUPA LJUDI).

Primjer unosa u rječnik

Kao primjer odabrali smo rječničku stavku za koncept FOREST, što odgovara jednom od značenja riječi šuma. Ovaj rječnik je zanimljiv jer uključuje različite vrste znanja, tradicionalno klasificiranih na leksička (semantička) znanja i enciklopedijska znanja (znanja o predmetnoj oblasti, terminologija).

Sinonimi za koncept FOREST(ukupno 13):

šuma(M), šumska zona, šumsko okruženje,

šuma, šumska četvrt, šumski pejzaž,

šumsko područje, šuma, šumovito područje,

šumsko područje, mala šuma,

niz šuma.

Donji pojmovi sa sinonimima:

JUNGLE(džungla);

PARK ŠUMA(gradska bašta, zelena površina,

zelena površina, park šuma,

gazdovanje šumama, park šuma

pojas, park (M), područje parka);

ŠUMARSTVO;

LEAVED FOREST(mekolisna šuma, tvrdolisna

šuma);

GROVE(hrastov gaj);

ČETINARSKA ŠUMA (četinarska šuma, tamna četinarska šuma)

Pojmovi-dijelovi sa sinonimima:

WINDBREAK(nalet vjetra, vjetropad);

REZANJE(područje rezanja);

KULTURA ŠUMA(šumske vrste, šumarstvo

kultura);

ŠUMSKO ZEMLJIŠTE (šumsko zemljište; pokriveno zemljište

šuma; šumska zemljišta, šumska teritorija;

šumovito zemljište, pošumljeno

područje);

ŠUMSKI NASADI(šumski zasadi, šumski zasadi,

pošumljavanje);

IVA ŠUME(rub, rub);

PODCVIJET (podrast);

PROSEKA;

SUHA DRVA(mrtvo drvo).

Ovdje simboli (M) odražavaju napomenu o dvosmislenosti unosa teksta.

Koncept FOREST Ima i druge odnose, takozvane odnose zavisnosti (u modernoj verziji oni se zovu ASC 2 - asimetrična asocijacija): ŠUMSKI POŽAR(šumski požar, šumski požar; KORIŠĆENJE ŠUME (korištenje šuma, korištenje površina šumskog fonda); ŠUMARSTVO; FOREST SCIENCE (nauka o šumama). Kao što je već napomenuto u paragrafu 2, koncept ŠUME zavisi od koncepta DRVETA, koje se u tezaurusu označava relacijom ASC 1.

Totalni koncept FOREST je direktno povezan sa 28 drugih koncepata, uzimajući u obzir tranzitivnost odnosa - sa 235 pojmova (ukupno više od 650 unosa teksta).

Procjena trenutnog stanja

Tezaurus ruskog jezika RuTez

5.1. Leksički sastav

Trenutno, mreža tezaurusa obuhvata više od 95 hiljada jezičkih izraza, od kojih je 61 hiljada jednorečnih.

Ovaj obim rada natjerao nas je da odlučimo koje riječi i lingvističke izraze treba uključiti u opise tezaurusa. Prirodna želja je bila da se vidi kako su najčešće reči u ruskom jeziku zastupljene u tezaurusu. U tu svrhu korišćena je zbirka tekstova Univerzitetskog informacionog sistema RUSIJA (400 hiljada dokumenata). Zbirka sadrži zvanične dokumente različitih organa Ruske Federacije (55 hiljada dokumenata od 1992. godine), kao i materijale za štampu od 1999. (novine Izvestia, Nezavisimaya Gazeta, Komsomolskaya Pravda, Argumenty i Fakty, Expert magazine i drugi), materijale iz naučnih časopisi („Bilten Moskovskog univerziteta“, „Sociološki časopis“). Napravljeno je poređenje između liste lema uključenih u Tezaurus i liste od 100.000 najčešćih lema u zbirci tekstova (učestalost veća od 25).

Označavanje poleksema na listi pokazalo je da je od ovih sto hiljada lema 35 hiljada opisano u RuTezu, samo oko 7 hiljada leksema zaslužuje uvrštenje u Tezaurus, ostale su lematske varijante različitih vlastitih imena. Stoga je dopuna prestala biti prioritetni zadatak i provodi se postepeno, počevši od najčešćih riječi. Pretpostavlja se da će se, čim se ova lista uglavnom iscrpi, izvršiti još jedno poređenje sa tekstualnim nizom informacionog sistema, biraće se nove lekseme sa frekvencijom većom od 25. Zatim bi trebalo da se snizi prag gledanosti. . Prisutnost velikog broja tekstualnih primjera u zbirci tekstova omogućava vam da brzo odgovorite na "leksičke inovacije" (npr. instalacija,blockbuster, beau monde, triler) i uvrstite ih na odgovarajuća mjesta u hijerarhijskom sistemu Tezaurusa.

Konstantan rad sa aktuelnom zbirkom tekstova pruža jedinstvene mogućnosti za proveru značaja i kvaliteta leksičkih opisa predloženih u rečnicima. Na primjer, neobično visoka učestalost upotrebe riječi Mother See(više od 400 puta). Provjera niza pokazala je da se riječ zaista često koristi kao sinonim za tu riječ Moskva, dok rječnici s objašnjenjima ovu riječ često označavaju kao zastarjelu. Još jedan primjer često korištene riječi (više od 300 puta) označene kao zastarjele u rječnicima je riječ blažen.

5.2 Opis značenja riječi

Poređenje sa kolekcijom teksta pokazuje da su mnoge riječi frekvencije u nizu dobro predstavljene u Tezaurusu u barem jednom od svojih (obično osnovnih) značenja. Otkrivanje u kojoj mjeri Tezaurus predstavlja raspon značenja polisemantičkih riječi u ruskom jeziku je naš primarni zadatak u ovom trenutku.

Kao što je poznato, često različiti rječnički izvori daju različit skup značenja za višeznačne riječi, ističu nijanse značenja, a isti tip polisemije može se različito opisati za različite riječi čak i u istom rječniku. Stoga je zadatak dosljednog i reprezentativnog opisivanja značenja leksema važan zadatak za kreatore svakog rječnika.

Međutim, ako je resurs namijenjen za automatsku obradu, tada zadatak uravnoteženog opisa vrijednosti postaje mnogo važniji. Prekomjerna inflacija vrijednosti može rezultirati nemogućnošću kompjuterskog sistema da odabere željenu vrijednost, što zauzvrat rezultira značajnim smanjenjem performansi sistema za automatsku obradu teksta. Dakle, jedan od nedostataka WordNet resursa kao resursa za automatsku obradu teksta je preveliki broj značenja opisanih za neke riječi (u WordNetu 1.6: 53 značenja za trči, 47 for igrati i tako dalje.). Ova značenja je teško razlikovati čak i za ljude kada semantički anotiraju tekstove. Jasno je da kompjuterski sistem takođe ne može da se nosi sa izborom odgovarajuće vrednosti. Stoga različiti autori predlažu različite načine kombiniranja vrijednosti za poboljšanje kvalitete obrade.

Istovremeno, djeluje suprotan faktor: ako se značenja zaista razlikuju u svom skupu riječničkih veza (u našem slučaju veze tezaurusa) - ne mogu se zalijepiti u jednu cjelinu (jedan koncept) - to će također dovesti do pogoršanja kvalitet automatske obrade.

Uzmimo primjer riječi škola I crkva, od kojih se svaki može posmatrati kao organizacija i kao zgrada.

Svaka školska organizacija ima zgradu (najčešće jednu). Svi dijelovi školske zgrade (učionice, table) su u vezi škola kako organizaciji. Ne postoje posebne vrste školskih zgrada. Stoga opis škole Kao zgrade, neprikladno je izdvajati ih u poseban koncept. Međutim, opis takvog kolektivnog koncepta ŠKOLA kao organizacija i kao zgrada mora imati posebno osmišljen odnos prema konceptu ZGRADA. Prilikom opisivanja takvih odnosa u Tezaurusu koristi se oznaka na odnosu - modifikator „A“ („aspekt“; tokom automatske analize potrebna je „potvrda“ od strane drugih koncepata da se ovaj odnos uzme u obzir).

ŠKOLA

VIŠE OBRAZOVNE USTANOVE

IZNAD A JAVNA ZGRADA

Odgovarajuća značenja riječi crkva ne tako blizu. Crkve Kao organizacija može imati veliki broj crkvenih objekata na različitim mjestima, a ima i mnogo drugih objekata. Izgradnja crkve je usko vezan za religiju i konfesiju, ali može promijeniti pripadnost crkvene organizacije. Crkva-organizacija I crkvenogradnja imaju različite podvrste. Zbog toga CRKVA (ORGANIZACIJA) I CRKVA (ZGRADA) predstavljeni su u RuTezu kao različiti koncepti.

Značajna divergencija u tezaurusnim vezama na zanimljiv način korelira sa sposobnošću denotata koji odgovaraju značenjima da postoje odvojeno jedan od drugog. Dakle, crkva-zgrada ne prestaje postojati, pa se čak i naziva crkvom čak i kada se promijeni njena namjena, za razliku od školske zgrade.

Proces provjere zastupljenosti vrijednosti u Tezaurusu je stalno u toku, počevši od najčešćih lema. Za svaki leksem frekvencije provjerava se kako su njegova značenja opisana u eksplanatornim rječnicima, koja se značenja koriste u zbirci i kako su predstavljena u Tezaurusu. Kao rezultat toga, sada je formirana lista od 10.000 leksema, čija višeznačnost još uvijek zahtijeva dodatnu analizu ili dodatni opis. Lista je dobijena na osnovu 30 hiljada najčešćih lema.

Treba napomenuti da je u Tezaurusu problem polisemije djelimično otklonjen zbog činjenice da se tezaurusne veze mogu opisati između različitih značenja riječi, te se stoga po defaultu može odabrati najviši pojam u hijerarhiji. O tome je svakako bilo reči u tekstu. Na primjer, riječ fotografija ima tri značenja: fotografija kao polje aktivnosti, fotografija kao fotografska slika, fotografija kao foto studio:

FOTOGRAFIJA(fotografisanje, foto biznis, ..., fotografija )

PART FOTOGRAFSKA SLIKA

(fotografija, fotografija, fotografija )

PART FOTO STUDIO (fotografija ).

Dakle, ako nije bilo moguće shvatiti koje je značenje riječi upotrijebljeno fotografija, podrazumevano je pretpostaviti da je fotografija snimljena (procesa, rezultata ili lokacije), što je dovoljno za mnoge aplikacije za automatsku obradu teksta.

Primjena RuTez tezaurusa

za automatsku obradu teksta

Od 1995. godine društveno-politička terminologija RuTez (društveno-politički tezaurus) se aktivno i uspješno koristi za različite primjene automatske obrade teksta, kao što su automatsko konceptualno indeksiranje, automatska rubrikacija korištenjem nekoliko rubrikatora, automatsko označavanje tekstova, uključujući i engleski jezik. one. Društveno-politički tezaurus (27 hiljada pojmova, 62 hiljade tekstualnih unosa) je osnovni alat za pretragu u sistemu pretraživanja UIS RUSIJA (www.cir.ru).

Sav vokabular RuTez tezaurusa koristi se u procedurama za automatsku kategorizaciju tekstova korištenjem složenih hijerarhijskih rubrikatora. U postojećoj tehnologiji, svaka kategorija je opisana kao Boolean izraz pojmova, nakon čega se originalna formula proširuje duž hijerarhije tezaurusa. Rezultirajući Boolean izraz možda već uključuje stotine i hiljade konjunkti i disjunkata.

Navedimo, kao primjer, fragment opisa koji koristi koncepte tezaurusa (i lingvističke izraze nakon proširenja formule) rubrike „Imidž žene“ rubrikatora SOFIST 2, koji VTsIOM koristi za klasifikaciju upitnika za ispitivanje javnog mnijenja:

(ŽENA[N]

|| DJEVOJKA[N]

|| ROĐAK [L] (baka, unuka, sestrična,

ćerka, snaja, majka, maćeha, snaha, poćerka, ...))

( OSOBINA KARAKTERA [L] (štedljiv, bezdušan, zaboravan,

neozbiljan, podrugljiv, netolerantan, društven,...)

|| SLIKA [E] (prezentacija, izgled, izgled,

izgled, izgled, slika, izgled)

|| PRIJETNO [L] (..., zanimljivo, lijepo, slatko,

privlačan, sladak, privlačan,...)

|| NEPRIJATNO[L] (nesimpatično, nepristojno, gadno, ...)

|| CIJENI[L] (poštovati, obožavati, obožavati,

obožavati, obožavati,...)

|| PREFERA[N]

Simbol “E” označava punu ekspanziju duž hijerarhije tezaurusa, simbol “L” - prema odnosima vrsta ("ISPOD"), simbol "N" - ne širi se.

Istraživanja se provode kako bi se razvila kombinovana tehnologija za automatsku kategorizaciju teksta, kombinujući znanje tezaurusa i procedure mašinskog učenja.

Istražuju se pitanja upotrebe tezaurusa za proširenje upita formulisanog na prirodnom jeziku (trenutno se samo društveno-politički dio tezaurusa koristi za proširenje terminološkog upita u sistemu za pronalaženje informacija UIS RUSIJA) i traženje odgovori na pitanja u velikim zbirkama tekstova.

7. Zaključak

U radu su prikazani osnovni principi razvoja jezičkih resursa za automatsku obradu velikih zbirki tekstova. Stvoreni lingvistički resurs - Tezaurus ruskog jezika RuTez - namijenjen je za korištenje u takvim aplikacijama za automatsku obradu teksta kao što su konceptualno indeksiranje dokumenata, automatska rubrika prema složenim hijerarhijskim rubrikatorima, automatsko proširenje upita prirodnog jezika.

Ovaj rad je djelimično podržan grantom Ruske humanitarne fondacije br. 00-04-00272a.

Književnost

Lukashevich N.V., Saliy A.D., Reprezentacija znanja u sistemu automatske obrade teksta //NTI, Ser.2. 1997. br. 3. str. 1‑6.
Zhuravlev S.V., Yudina T.N., Informacioni sistem RUSIJA //NTI, Ser.2. 1995. br. 3. str. 18‑20.
Winston M., Chaffin R., Herman D., A Taksonomy of Part-Chole Relations // Cognitive Science. 1987. br. 11. P. 417‑444.
Priss U.E., The Formalization of WordNet by Methods of Relational Concept Analysis // WordNet. Elektronska leksička baza podataka/Ed. od C. Fellbauma. Cambridge, Massachusetts, London, Engleska.: The MIT Press 1998. P. 179‑196.
Guarino N., Welty C., Formalna ontologija svojstava // Proceedings of the ECAI-00 Workshop on Applications of Ontology and Problem Solving Methods. Berlin: 2000. P. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Neki ontološki principi za dizajniranje leksičkih resursa višeg nivoa // First Int. Konf. o jezičkim resursima i evaluaciji. 1998.

Lukaševič N.V., Dobrov B.V., Modifikatori konceptualnih odnosa u tezaurusu za automatsko indeksiranje // NTI, Ser.2. 2000, br. 4, str. 21-28.
Veliki objašnjeni rječnik ruskog jezika / Ed. S.A. Kuznetsova. Sankt Peterburg: Norint, 1998.
Ozhegov S.I., Shvedova N.Yu, Objašnjavajući rečnik ruskog jezika - 3. izdanje. M.: Az, 1996.
Apresyan Yu.D., Izabrana djela, tom I. Leksička semantika: 2. izd. M.: Škola „Jezici ruske kulture“, ur. Firma "Orijentalna književnost" RAS, 1995.
G. Miller, R. Beckwith, C. Fellbaum, D. Gross i K. Miller, Pet radova o WordNetu, CSL izvještaj 43. Laboratorija za kognitivne nauke, Univerzitet Princeton, 1990.
Chugur, J. Gonzalo i F. Verdjeo, Razlike čula u NLP aplikacijama // Proceedings of “OntoLex-2000”: Ontologies and Lexical Knowledge Bases. Sofija: OntoTextLab. 2000.
Loukachevitch N., Dobrov B., Thesaurus-based Structural Thematic Summary in Multilingual Information Systems // Machine Translation Review. 2000. br. 11. P. 10‑20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Tezaurus ruskog jezika za obradu prirodnog jezika

velikih kolekcija tekstova

Natalia V. Loukachevitch, Boris V. Dobrov

Ključne riječi: tezaurus, obrada prirodnog jezika, pronalaženje informacija

U našoj prezentaciji razmatramo glavne principe razvoja leksičkih resursa za automatsku obradu velikih zbirki teksta i opisujemo strukturu Tezaurusa ruskog jezika, koji se od 1997. godine razvija posebno kao alat za automatsku obradu teksta. Sada je Tezaurus hijerarhijska mreža od 42 hiljade pojmova. Opisujemo trenutnu fazu razvoja Tezaurusa u poređenju sa 100.000 najčešćih lema zbirke tekstova Univerzitetskog informacionog sistema RUSIJA (www.cir.ru), uključujući 400 hiljada dokumenata. Takođe razmatramo upotrebu Tezaurusa u različitim aplikacijama automatske obrade teksta.

Konceptualni sistem predmetne oblasti Osnovu svake predmetne oblasti je sistem pojmova ove oblasti. Definicija pojma: Pojam je misao koja u generaliziranom obliku odražava predmete i pojave stvarnosti fiksirajući njihova svojstva i odnose; potonje (svojstva i odnosi) pojavljuju se u pojmu kao opća i specifična obilježja, u korelaciji sa klasama predmeta i pojava (Lingvistički rječnik)

Koncepti i pojmovi Za izražavanje koncepta predmetne oblasti u tekstovima, koriste se riječi ili fraze koje se nazivaju termini. Skup pojmova predmetne oblasti formira njen terminološki sistem. Odnos određenog pojma sa drugim pojmovima pojmovnog sistema predmetne oblasti precizira se definicijom

Definicije pojma? Riječ (ili kombinacija riječi) koja je tačna oznaka određenog pojma bilo koje posebne oblasti nauke, tehnologije, umjetnosti, društvenog života itd. || Posebna riječ ili izraz koji se koristi za označavanje nečega. u jednoj ili drugoj sredini, profesiji (Veliki objašnjavajući rečnik ruskog jezika)

Termini – tačni nazivi pojmova Obično svaki pojam u ovoj oblasti odgovara barem jednom nedvosmisleno shvaćenom pojmu, čije značenje je ovaj koncept. - termini, u smislu tradicionalne teorije terminologije Svojstva pojmova - tačni nazivi pojmova - termin se mora direktno odnositi na pojam, mora jasno izražavati pojam; - značenje pojma mora biti precizno i ne smije se po značenju preklapati sa drugim pojmovima; - značenje pojma ne bi trebalo da zavisi od konteksta. Termini koji tačno imenuju pojam predmet su istraživanja teorije terminologije, terminologa

Tekstualni termini U stvarnim tekstovima predmetne oblasti, za upućivanje na pojam, pored osnovnih pojmova, mogu se koristiti i mnogi različiti jezički izrazi koje nazivamo tekstualnim terminima: - sintaktičke i rečotvorne opcije: primalac budžetskih sredstava - budžet primalac; - leksičke opcije – direktan otpis, neosporan otpis; - polisemantički izrazi, u zavisnosti od konteksta, koji služe kao referenca na različite koncepte oblasti, na primjer, riječ valuta u različitim kontekstima može značiti nacionalnu valutu ili stranu valutu.

Deskriptori sa oznakama Smelo - dio naziva deskriptora dizalice (oprema za dizanje) vs dizalice (ptice) školjke (strukture) – poređenje različitih tezaurusa Preferencije za fraze: – Gramofonske ploče vs. ploče (fonograf) Oznake i množina: Drvo (materijal) Šuma (šumovita područja)

Uključivanje deskriptora zasnovanih na izrazima od više riječi Razdvajanje pojma povećava dvosmislenost: biljna hrana Značenje izraza ovisi o redoslijedu riječi: informatika - naučne informacije Jedna od sastavnih riječi je izvan opsega tezaurusa ili je previše općenito: prvo pomoć Relacije deskriptora ne proizilaze iz njegove strukture: –Veštački bubrezi, status izbeglice, semafori

Asocijativni odnosi Područje djelovanja - glumac - matematika - matematičar Disciplina - predmet proučavanja - neurologija - nervni sistem Djelovanje - agens ili oruđe - Lov - lovac Djelovanje - rezultat djelovanja - tkanje - tkanina Akcija - cilj - uvez knjige - knjiga Uzrok-posledica - Smrt – sahrana Vrijednost – mjerna jedinica – Jačina struje – amper Djelovanje – suprotna strana – Alergen – antialergijski lijek, itd.

Tezaurus za pronalaženje informacija: faze razvoja Prva faza: indeksatori opisuju glavnu temu teksta koristeći proizvoljne riječi i fraze Pojmovi dobijeni iz mnogih tekstova spajaju se Među pojmovima koji su slični po značenju, odabire se najreprezentativniji Neki od preostalih postaju uslovni sinonimi, ostali se brišu. Specifični pojmovi obično nisu uključeni

Tezaurus za pronalaženje informacija: umjetnost razvoja Deskriptori su termini koji su potrebni za izražavanje glavne teme dokumenta Sinonimi su uključeni samo najpotrebniji (na primjer, počinju drugim slovom) kako se ne bi komplicirao rad indeksatora. termine treba svesti na jedan termin kako bi se izbjeglo indeksiranje subjektivnosti. Nivoi hijerarhije, uključivanje specifičnih pojmova je ograničeno

Tezaurus za pronalaženje informacija: umjetnost razvoja - 2 U složenim slučajevima deskriptori su snabdjeveni oznakama i komentarima –LIV: bombardiranje – bombardiranje – Polisemantički termini: jedno značenje u tezaurusu (glavni dio), ne uklapaju se u tezaurus, oznake !!! Tradicionalni tezaurus za pronalaženje informacija je veštački jezik izgrađen na osnovu stvarnih termina

Tradicionalni IPT: aplikacija u automatskoj obradi Nedostatak znanja o stvarnom jeziku softvera Nedostatak znanja o pravom jeziku softvera Rečnik indeksiranja zakonodavstva: Rečnik indeksiranja zakonodavstva: – u tekstu TROOPS – u tezaurusu VOJNE SNAGE – u tekstu KAPITAL – veliko, u tezaurusu samo veliko. Predloženo: svaki deskriptor dopuniti listama riječi i pojmova. Predloženo je: svaki deskriptor se dopuniti listama riječi i pojmova Ali: polisemija ili se odnosi na različite deskriptore. Ali: polisemija ili odnos prema različitim deskriptorima. Rezolucija višeznačnosti Rezolucija višeznačne odrednice

Tradicionalni IPT: automatsko proširenje upita Problem s asocijacijama Predloženo: unesite težine unesite težine unesite nazive odnosa: objekt, svojstvo, itd. unesite nazive relacija: objekt, svojstvo, itd. ZAKLJUČAK: morate naučiti kako izgraditi jezičke resurse posebno za automatsku obradu zbirki teksta

Tezaurus EUROVOC – višejezični tezaurus Evropske zajednice Tezaurus na 9 jezika Ruska verzija EUROVOC – +5 hiljada koncepata koji odražavaju ruske specifičnosti Višejezični tezaurus – Deskriptor – imena na različitim jezicima – Akriptori – za neke jezike

Automatsko indeksiranje prema EUROVOC tezaurusu, zasnovano na pravilima (Hlava, Heinebach, 1996.) Primjer pravila: IF (blizu "Tehnologija" I sa "Razvoj") KORISTI Program zajednice USE razvojnu pomoć ENDIF 40 hiljada pravila. Testiranje: 20 najčešćih deskriptora u tekstu, generiranih automatski - 42% potpunosti, u poređenju sa ručnim rubrikiranjem

Automatsko indeksiranje zasnovano na uspostavljanju korespondencije između riječi i deskriptora (Steinberger et al., 2000.) Faza 1 - uspostavljanje korespondencije između tekstualnih riječi i dodijeljenih deskriptora na osnovu statističkih mjera (hi-kvadrat ili log vjerovatnoće) Deskriptor UPRAVLJANJA RIBOROM - sljedeće riječi (po opadajućem redoslijedu po težini): ribolov, riba, stoka, ribolov, očuvanje, upravljanje, plovilo, itd. Faza 2 samo indeksiranje - zbrajanje logaritama težina ili kao skalarni proizvod vektora

Kombinacija besplatnih upita i upita zasnovanih na tezaurusu za pronalaženje informacija. Ručno indeksirana kolekcija – uspostavljanje korelacija. Korisnik postavlja upit na prirodnom jeziku. Upit se proširuje deskriptorima tezaurusa koji su u najjačoj korelaciji s upitom (Petras 2004 ; Petras 2005). Na primjer, na zahtjev Insolventna preduzeća može se dobiti lista deskriptora likvidnost, zaduženost, preduzeće, firma, a upit se može proširiti.Tačnost u eksperimentu povećana je za 13%.