Puudepank
Selle sajandi alguses alustati eesti keele puudepanga loomist. Puudepanka on püütud esitada mitmel kujul: Penni puudepanga eeskujul, VISL Arboretum formaadis, TIGER XML kujul ja puhtakujulise sõltuvussüntaksina.
Hetkel käib töö sõltuvusesituses teksti märgendamisel.
Penni puudepanga kuju

2003-2004. a osales Tartu Ülikool Põhjamaade puudepanga võrgustiku töös. Selle käigus loodi Penni puudepanga stiilis märgendatud Sofie Parallel Treebank (süntaktiliselt märgendatud 1. peatükk J. Gaarderi romaanist "Sofie maailm" rootsi, norra, taani, saksa, eesti ja islandi keeles).
Märgendustööd tegid Heli Uibo ja Kadri Muischnek.
Arborest

Arborest on VISL-formaadis eesti keele puudepank. See ühendab endast fraasistruktuuri- ja sõltuvussüntaksit. Korpus koosneb 149 käsitsi märgendatud lausest ja umbes 2000 automaatselt genereeritud puust, mille korrektsus jääb alla 50%. Töö käigust saab ülevaate artiklitest:
- E. Bick, H. Uibo, K. Müürisep. Arborest - a VISL-Style Treebank Derived from Estonian Constraint Grammar Corpus. Proceedings of the Third Workshop on Treebanks and Linguistic Theories (TLT 2004). Tübingen, Germany, Dec 10-11, 2004.
- Eckhard Bick, Heli Uibo, Kaili Müürisep. Arborest - a Growing Treebank of Estonian. In: Nordisk Sprogteknologi 2004. Nordic Language Technology. Årbog for Nordisk Sprogteknologisk Forskningsprogram 2000-2004. Editor: Henrik Holmboe. Museum Tusculanums Forlag. Copenhagen 2005. Pp. 125-142.
Eesti TIGER XML kujul olevad korpused
Riikliku programmi "Eesti keele keeletehnoloogiline tugi (2006-2010)" projekti Süntaksianalüüsil põhinev keeletarkvara ning selle arendamiseks vajalikud keeleressursid käigus käsitsi loodud puudepangad on loodud VISL formaadis ja teisendatud siis TIGER XML formaati. Puudepank on saadud pindmiselt märgendatud korpusest, sellele on rakendatud fraasistruktuurianalüsaatorit, seejärel on puid käsitsi parandatud ja teisendatud xml-formaati.
Puudepank sisaldab:
- 388 liikumisverbiga lihtlauset Rätsepa korpusest (xml)
- 732 liikumisverbiga lauset eesti frameneti testkorpusest. Ühend- ja väljendverbide märgendus on ebaühtlane. (xml)
- 175 lauset Arboresti korpusest (xml) (visl).
- 20 lauset suulise keele korpusest (xml) (visl).
- 98 lauset J. Gaarderi romaanist "Sofie maailm"
XML-formaadis puude vaatamiseks laadige alla TIGER Searchi lehelt programmid TigerRegistry ja TigerSearch, registreerige korpused TigerRegistry abil ning seejärel saab neid lehitseda ja päringuid esitada TigerSearchi abil.
Teksti kujul sõltuvussüntaks
Projektis Vahendid teksti mitmekihiliseks märgendamiseks (rakendatuna Koondkorpusele) märgendatakse tekstid süvasüntaksi analüsaatoriga automaatselt ning seejärel parandatakse need käsitsi.
Hetkel on plaanis märgendada G. Orwelli "1984" ja osa J. Gaarderi romaanist "Sofie maailm", et oleks võimalik nende tekstide baasil luua paralleelset puudepanka.
Morfoloogiline ja süntaktiline märgendus on peaaegu sama kui pindsüntaktilisel korpusel. Kõik #-ga algavad rektsioonimärgendid on asetatud nurksulgudesse (näiteks <Intr> intransitiivsete verbide jaoks). Muutunud on "+" ja "-" märke ning alakriipse sisaldanud süntaktilised märgendid, vt märgendite dokumentatsioon. Sõltuvusseosed esitatakse kujul #jrk_nr->ülemuse_jrk_nr. Pealause finiitne verb on puu juurtipuks ja viitab 0-le.
Viidatud korpused, puudepangad ja grammatikad on vabaks kasutamiseks. Siiski palume suurema projekti korral kasutamisest teada anda meiliaadressile kaili.muurisep@ut.ee.