نشر مقال أكاديمي حول “تشكيلة” المدونة اللغوية للنصوص المشكولة

Data Article

Tashkeela: Novel corpus of Arabic vocalized texts, data for auto-diacritization systems

Under a Creative Commons license

Abstract

Arabic diacritics are often missed in Arabic scripts. This feature is a handicap for new learner to read َArabic, text to speech conversion systems, reading and semantic analysis of Arabic texts.

The automatic diacritization systems are the best solution to handle this issue. But such automation needs resources as diactritized texts to train and evaluate such systems.

In this paper, we describe our corpus of Arabic diacritized texts. This corpus is called Tashkeela. It can be used as a linguistic resource tool for natural language processing such as automatic diacritics systems, dis-ambiguity mechanism, features and data extraction.

The corpus is freely available, it contains 75 million of fully vocalized words mainly 97 books from classical and modern Arabic language.

The corpus is collected from manually vocalized texts using web crawling process.

Keywords

Natural language processing
Corpus
Arabic language
Diacritization

http://www.sciencedirect.com/science/article/pii/S2352340917300112

Advertisements

3 تعليقات to “نشر مقال أكاديمي حول “تشكيلة” المدونة اللغوية للنصوص المشكولة”

  1. فهد السعيدي Says:

    توجد إشكالية في وضع الفاصلة والفاصلة المنطوقة بالإضافة إلى الأعداد العربية المشرقية في المدونة اللغوية.
    فمثلا، كل النصوص توجد الفاصلة والفاصلة المنقوطة منفصلة عن الحرف الذي يسبقها، كذلك لا توجد الأعداد العربية المشرقية أو ما تسمى الهندية ١٢٣٤
    هذا النقص سيسبب قصورا في برامج التعرف الضوئي على الحروف OCR من مثل برنامج tesseract-ocr وهذا مجرب.

    • linuxscout Says:

      السلام عليكم
      يمكن حل هذه المسائل بواسطة سكريبت برمجي يصحح مواضع علامات الترقيم، ويستبدل كل الأرقام بنظيرتها المشرقية.
      هلا شرحت لي كيف تستعمل هذه المدونة في التعرف الضوئي

  2. فهد السعيدي Says:

    نعم، أعرف ذلك، ولكن يعتبر هذا جهد إضافي وخصوصا لغير المختصين، وبما أنها مدونة تجميعيه فمن المفترض أن توجد ببعض الكتب وليس شرطا كلها.

    بخصوص الاستخدام في tesseract-ocr فهذا أحد مطوري جوجل يشرح العملية هنا:
    https://github.com/tesseract-ocr/tesseract/issues/654#issuecomment-274574951

    طبعا لم يستخدم بعد تشكيلة لأنه لم يكن يدعم التشكيل، ولكن دعم التشكيل أضيف مؤخرا، شخصيا استخدم تشكيلة لتحسين وتدريب tesseract لإعطاء نتائج أفضل.

اترك رد

إملأ الحقول أدناه بالمعلومات المناسبة أو إضغط على إحدى الأيقونات لتسجيل الدخول:

شعار وردبرس.كوم

أنت تعلق بإستخدام حساب WordPress.com. تسجيل خروج   /  تغيير )

Google+ photo

أنت تعلق بإستخدام حساب Google+. تسجيل خروج   /  تغيير )

صورة تويتر

أنت تعلق بإستخدام حساب Twitter. تسجيل خروج   /  تغيير )

Facebook photo

أنت تعلق بإستخدام حساب Facebook. تسجيل خروج   /  تغيير )

w

Connecting to %s


%d مدونون معجبون بهذه: