muudetud 27.04.11
Eesti keele automaatseks süntaktiliseks analüüsiks kasutatakse vabavaralist VISL kitsenduste grammatika parserit, mis on välja töötatud Lõuna-Taani ülikoolis.
Automaatse analüüsi käigus toimub nii morfoloogiline ühestamine, pindmine süntaktiline analüüs kui ka sügavam sõltuvusanalüüs.
Eesti keele süntaksianalüsaator eeldab, et sisendtekst on morfoloogiliselt analüüsitud.
Grammatikate väljatöötamise käigus on kasutatud Filosofti morfoloogiaanalüsaatorit ja märgendatud korpuse tekste, mis on teisendatud sobivale kujule.
Sellel lehel toodud automaattöötluse grammatikad on binaarsel kujul ja vabad kõigile kasutamiseks. Mahukama projekti korral andke siiski teada, kes, kus ja miks neid kasutab kaili.muurisep(ät)ut.ee Samuti ootan küsimusi, ettepanekuid, kriitikat samale meiliaadressile.
Kui kasutada veebis olevat morfoloogiaanalüsaatorit, on vaja tekst kõigepealt lausestada, teisendada morfoloogilised märgendid fs-kujult kym-kujule, lisada asesõnade liigitus ja kaassõnade ning verbide rektsioonid.
Veebiliidest kasutavad teisendusskriptid on mõeldud pigem üksikute lausete analüüsi katsetamiseks kui reaalseks tööks tekstidega. Vaja on muuta programmide asukoha rada failides estmorf.sh ja tolkija.pl (muutuja RADA shelli skriptis)
Kui teisendada morfoloogiliselt ühestatud korpuse faile, siis piisab asesõnaliikide ja kaassõna- ning verbirektsioonide lisamisest.
Kasutatud märgendid on kirjeldatud pindsüntaktiliselt analüüsitud korpuse lehel.
EstCG kujult VISLCG3 kujule teisendamine:
$RADA/estmorf.sh|$RADA/kms2cg3.pl|vislcg3 --grammar $GRAMMAR/trivial.rle|skript kms2cg3.pl ja teisenduse käigus tekkinud agrammatiliste mitmesuste eemaldamise reeglid.
Kõik skriptid ja grammatikafailid on allalaaditavad ühtse arhiveeritud failina
Morfoloogilise ühestamise reeglid töötas algselt välja Tiina Puolakainen oma doktoritöös (Tiina Puolakainen. Eesti keele arvutigrammatika: morfoloogiline ühestamine. Tartu, 2001, 138 p.) ning need olid mõeldud eesti keele kitsenduste grammatika parseri jaoks. Riikliku programmi "Eesti keele keeletehnoloogiline tugi (2006-2010)" projekti Süntaksianalüüsil põhinev keeletarkvara ning selle arendamiseks vajalikud keeleressursid käigus teisendas Kaili Müürisep need käsitsi VISL parseri jaoks sobivale kujule. Teisendus ei olnud alati üks-ühene.
Grammatikafail on pakitud eelpool nimetatud arhiivi
Käsurida: cat goldstandexample.cg3|vislcg3 --grammar morfyhest170609.rlb |less
Pindsüntaktilise analüüsi reeglid on algselt välja töötatud doktoritöös K. Müürisep. Eesti keele arvutigrammatika: süntaks. Dissertationes Mathematicae Universitatis Tartuensis 22. Tartu 2000. ning sama projekti käigus teisendatud uuele kujule.
Grammatikafailon pakitud eespool mainitud arhiivi.
Käsurida cat goldstandexample.cg3|vislcg3 --grammar morfyhest170609.rlb |vislcg3 --grammar pindsyn170609.rlb |less
Grammatikafail on pakitud eespool mainitud arhiivi.
Käsurida: cat goldstandexample.cg3|vislcg3 --grammar morfyhest170609.rlb |vislcg3 --grammar pindsyn170609.rlb |vislcg3 --grammar strukt170609.rlb |less
Pindsüntaktiliselt analüüsitud teksti üritati analüüsida ka fraasistruktuurigrammatikaga, kuid osutus, et VISL fraasistruktuurigrammatika formalismis on piisava katvusega eesti keele grammatikat väga raske kirjutada.
Käsurida: ./cg2tree grammatika < tekst | less
Kirjandus: Eckhard Bick, Heli Uibo, Kaili Müürisep. Arborest - a Growing Treebank of Estonian.