کۆرپسی دەق
-
کۆرپسی دەقی کوردیی سۆرانیی ئاسۆسافت
کۆرپسی دەق کۆمەڵێکی زۆر دەقی پێکهاتەمەندە(structured)، کە بەشێک یان هەمووی دەقەکان پەراوێزنووسی(annotation) دەکرێن. کۆرپسی دەق سەرچاوەیەکی گرینگە بۆ زمان کە لە بوارەکانی پەرداوتنی زمانی نووسراوە و ئاخاوتندا بە کار دەبرێت. بۆ وێنە؛ لە ناسینەوەی ئاخاوتندا بۆ مۆدێلی زمانی و دەرهێنانی لێکسیکان یان سیستمەکانی وەرگرتنەوەی زانیاری کەڵکی لێ وەردەگیرێت.
کۆرپسی دەقی ئاسۆسافت گەورەترین کۆرپسی دەقی زمانی کوردییە کە تا ئێستا ئامادە کراوە. وەشانی یەکەمی ئەم کۆرپسە لە ١٩٠ ملیۆن نیشانە(token) پێکهاتوو. سەرچاوەکانی پێکهێنەری ئەم کۆرپسە ماڵپەڕەکان، کتێبە کوردییەکان و گۆڤارەکانن. کۆرپسەکە لە ٤٥٨،٠٠٠ بەڵگەنامە پێکهاتووە، کە هەر کام لە بەڵگەنامەکان براوانەتەوە شێوازی ستانداردی TEI.
پاش بڵاوبوونەوەی وەشانی یەکەمی کۆرپسەکە و لە ئێستادا خەریکی پەرەدانی زیاتری ئەم پڕۆژەین. لە ئێستادا کۆی گشتیی وشەکانی ئەم کۆرپسە گەیشتووەتە سەرووی ٢٠٠ ملیۆن نیشانە.بەشێک لە کۆرپسی ئاسۆسافت بۆ توێژینەوە (نەک کەڵکی بازرگانی) خراوەتە بەر دەستی توێژەران. دەتوانن لە ڕێگەی Githubی ئاسۆسافتەوە کۆرپسەکە دابگرن.
ئەو فایلانەی کە هاوپێچ کراون بریتین لە:
1. وەشانی یەکەمی کۆرپسی دەقی ئاسۆسافت، ٧٥ ملیۆن token
2. وشانی یەکەمی کۆرپسی بچوکی ئاسۆسافت، ٥ ملیۆن token
3. کۆمەڵەدراوەی پەراوێزنووسیکراو بۆ ناسینەوەی بابەت (topic identification)
ئەگەر لە توێژینەوەکانتاندا کەڵک لە کۆرپسی ئاسۆسافت وەردەگرن ئاماژە بە وتارەکەمان بکەن:
Hadi Veisi, Mohammad MohammadAmini, Hawre Hosseini, (2018), Toward Kurdish Language Processing: Experiments in Collecting and Processing the AsoSoft Text Corpus. Digital Scholarship in the Humanities, Oxford University Press. -
دەتوانن لە ڕێگەی ئەم بەستەرەوە کۆرپسی دەقی ئاسۆسافت دابگرن: