Skip to content

Armtreebank/Website

Repository files navigation

ArmTreeBank

«ՀայՇտեմ»-ը բազմամակարդակ որոնման համակարգով ու բարդ հարցումների հնարավորությամբ թվային մասնագիտացված կորպուս է՝ ուղղված արդի գրական արևելահայերեն տեքստերի շարահյուսական ծառերի շտեմարան (Treebank) ստեղծելու հիմնական նպատակին։

Լեզվական համաժամանակյա իրավիճակի ներկայացվածությունը կորպուսում ապահովվում է գեղարվեստական արձակ տեքստերի ու պարբերական մամուլից տարաբնույթ հրապարակումների միջոցով։ «ՀայՇտեմ»-ն ունի նաև բուհական լեզվաբանական դասագրքերից վերցված օրինակների ենթակորպուս (կորպուսի մասնագիտացված բնույթը)։ Կորպուսը պարունակում է շուրջ 100 հազար բառամթերք և 5 հազար շարահյուսական ծառ՝ ենթադրությամբ, որ այս ծավալը բավարար է լեզվական միավորների վերլուծության օրինաչափ հաճախականություն ապահովելու համար։

«ՀայՇտեմ»-ի մշակումները հիմնվում են տեքստի վերլուծության հաջորդական, բազմամակարդակ ներկայացման վրա. այն պարունակում է մոդուլային հետևյալ բաղադրիչները.

  • Գրանշանային վերլուծություն (բառանիշավորում, Tokenization and Word Segmentation),
  • Ձևաբանական վերլուծություն (բառույթավորում, խոսքիմասային ծանոթագրում, POS Tagging),
  • Շարահյուսական վերլուծություն (նախադասությունների կախվածության ծառերի կառուցում, Parsing)։

«ՀայՇտեմ»-ի հիմնական առավելությունն, այսպիսով, տեքստի խորը ծանոթագրումն է. կորպուսում յուրաքանչյուր բառանիշ պիտակավորված է ձևաբանորեն, լիովին նկարագրված է նախադասությունների շարահյուսական կառուցվածքը։ Լեզվաբանական ծանոթագրման համակարգը համահունչ է UD նախագծի մշակումներին և տրվում է CoNLL-U ձևաչափով։

«ՀայՇտեմ»-ի մշակումները բաց են, արտոնագրված ազատ հասանելիության CC-BY-SA պայմաններին համապատասխան։