دليل المكانز العربية المتاحة AraCorpus

تم بحمد الله، اليوم، إطلاق نسخة تجريبية من دليل المكانز (المدونات اللغوية) المتاحة، على الموقع http://aracorpus.e3rab.com.

وكذا تم  إطلاق مكنز كلمات فيه قائمة مليون ونصف مليون كلمة، يمكن استعمالها في تجريب برامج علاج اللغة، على الموقع http://arabicwordcorpus.sf.net ومكنز الكلمات فيه قائمة طويلة من الكلمات خارج السياق النصي، بينما نجد في مكنز النصوص، عددا هائلا من النصوص.

ما هي المكانز؟

يعاني الكثير من العاملين على المعالجة الآلية للغة العربية من انعدام نصوص كبيرة يمكن التجريب عليها، لذا نجد الكثير منهم يقضي وقته في جمع النصوص، والبحث عنها، وقد صادفني مثل ذلك عند تجربة القاموس الجديد للتدقيق الإملائي. وقد تخصص بعض الباحثين في هذا المجال، في جمع ما يسمى المكانز (corpus, pl. corpora ) التي تعد من أهم الموارد اللسانية، بل وأغلاها كلفة، (راجع موقع LDC).

تعريف على ويكيبيديا

في علم اللغة، الذخيرة أو ذخيرة النصوص هي مجموعة كبيرة ومنظمة من النصوص (التي أصبحت الآن عادة مخزنة ومعالجة إلكترونيا). وهي تستخدم للقيام بالتحليل الإحصائي واختبار الفرضيات، والتحقق من الوقائع أو التحقق من صحة القواعد اللغوية على فضاء محدد. يرتبط مفهوم ذخيرة النصوص بما يسمى في اللغات اللاتينية “corpus” أو “corpora” فمن هنا يمكننا إعطاء اسم آخر إلى هذا المفهوم الجديد ‘المدونة’. والشعبة التي تهتم بهذا المفهوم هي ‘لسانيات المدونة’.

قد تحتوي الذخيرة على نصوص من لغة واحدة (ذخيرة أحادية اللغة) أو نصوص من لغات متعددة (ذخيرة متعددة اللغات). الذخائر التي تم تهيئتها خصيصا لمقارنتها جنبا إلى جنب تسمى الذخائر المتوازية.

دليل المكانز؟

لذا قمنا بوضع دليل خاص بالمكانز المتاحة، والتي تفضّل بها الإخوة الباحثون، وعلى رأسهم الدكتور أحمد عبد العالي، الذي وفّر مكنزا ضخمة من نصوص صحافية، لكن محدودية الاتصال بموقعه، جعله يتحرج من نشرها، كي لا يُزيد الحمل على الخادم، فكان لدى حامد الساحلي صاحب موقع إعراب الحل، ليوفر لنا مساحة لنشر المكنز (المدونة اللغوية).

واستكمالا للعملية ارتأينا أن نضع دليلا للمكانز المتاحة، وهي للدكتور مراد عباس من الجزائر، ومعتز خالد سعد من فلسطين، والدكتورة لطيفة السليطي من إنجلترا. كما أثريناها بقائمة ضخمة من مليون ونصف مليون كلمة مفردة، جُمعت من مكتبة ثواب.

لمن هذا المشروع؟

يستهدف هذا المشروع المطورين العاملين على برامج علاج اللغة العربية.

مكانز أم مدونات؟

يفضّل الباحثون في علوم اللسانيات الحاسوبية مصطلح المدونة(المدونة اللغوية)، كما يستعمل بعضهم “المكنز”،الذي آثرت استعماله في هذا السياق، رفعا للبس.

ألا تساهم معنا؟

إذا كانت لديك مجموعة من النصوص، أو قائمة ضخمة من الكلمات، أو مكنزك الخاص، ساهم معنا بفتحه للمطورين.

Advertisements

اترك رد

إملأ الحقول أدناه بالمعلومات المناسبة أو إضغط على إحدى الأيقونات لتسجيل الدخول:

WordPress.com Logo

أنت تعلق بإستخدام حساب WordPress.com. تسجيل خروج   / تغيير )

صورة تويتر

أنت تعلق بإستخدام حساب Twitter. تسجيل خروج   / تغيير )

Facebook photo

أنت تعلق بإستخدام حساب Facebook. تسجيل خروج   / تغيير )

Google+ photo

أنت تعلق بإستخدام حساب Google+. تسجيل خروج   / تغيير )

Connecting to %s


%d مدونون معجبون بهذه: