Süntaktiliselt märgendatud korpused

Eesti keele süntaktiliselt märgendatud korpuste loomine algas juba 1995. aastal koos süntaksianalüsaatori arendamisega. Esimeste korpuste märgendus arvestas morfoloogia-analüsaatori väljundit, jälgis väga rangelt "Eesti keele grammatika" (Tallinn, 1993) põhimõtteid ja oli äärmiselt pindmine. Tekstideks olid ilukirjanduskorpusest 5 erineva autori tekstidest 2000-sõnalised passaazhid (tkt0085-tkt0090).
Hiljem muudeti nii morfoloogilist kui ka süntaktilist märgendust ja korpuste mahtu suurendati. Süntaktiline märgendus jäi ikkagi pindmiseks, s.t märgend näitab, mis on antud sõna funktsioon lauses, kuid ilmutatult ei öelda, millise sõna juurde miline sõna kuulub, samuti puudub pea- ja kõrvallausete analüüs.
Selle sajandi alguses alustati eesti keele puudepanga loomist. Puudepanka on püütud esitada mitmel kujul: Penni puudepanga eeskujul, VISL Arboretum formaadis, TIGER XML kujul ja puhtakujulise sõltuvussüntaksina.
Pindsüntaktiliselt märgendatud korpused
Pindsüntaktiliselt märgendatud korpuste maht on hetkel ca 500000 sõna. Korpus koosneb eesti ilukirjanduse, tõlkekirjanduse, ajakirjanduse, seaduse ja suulise keele tekstidest. Osade tekstide märgendus on veel ühtlustamata.
Puudepank
Eesti keele puudepangad on nii Penni, VISL Arboretum , TIGER XML kui ka tekstilises sõltuvussüntaksi formaadis. Hetkel on TIGER XML formaadis puudepangas ligikaudu 1400 lauset.
Viidatud korpused, puudepangad ja grammatikad on vabaks kasutamiseks. Siiski palume suurema projekti korral kasutamisest teada anda meiliaadressile kaili.muurisep@ut.ee.