كيفية تحويل النص العربي لصوت باستخدام البرامج الحرة

2017/12/07

مقدمة

يهدف هذا المشروع إلى دعم العربية في نظم النطق (تحويل النص إلى كلام) ويصف الطريقة التي تسمح بتشغيلها معا. أي تشغيل قارئ الشاشة بلغة عربية بمستوى جيد بأدوات مفتوحة المصدر.

إلام نحتاج؟

نحتاج إلى الأدوات الآتية:

  1. نظام النطق إسبيك مع دعم العربية
  2. Mbrola نظام النطق وأصواته
  3. قارئ للشاشة
  4. نظام توزيع الكلام
  5. برنامج تشكيل

سنحتاج إلى تشغيل نظام النطق إسبيك مزود بدعم للغة العربية، ثم نثريه بأصوات عربية من نظام النطق Mbrola للحصول على صوت أفضل. سنحتاج أيضا إلى مشكّل آلي للنصوص العربية باستعمال برنامج مشكال مفتوح المصدر. كما سنحاول تشغيل قارئ الشاشة Orca، ونظام إرسال الكلام speech dispatcher لاعتماده برنامجا وسيطا يسمح للتطبيقات الأخرى من تشغيل نظام النطق.

نهدف إلى الحصول على نطق صوت عربي جيد وصحيح قدر الإمكان مشكّل

تابع التوثيق بالعربية والإنجليزية

رابط المقال على وادي التقنية

Advertisements

نشر مقال أكاديمي حول “تشكيلة” المدونة اللغوية للنصوص المشكولة

2017/05/01
Data Article

Tashkeela: Novel corpus of Arabic vocalized texts, data for auto-diacritization systems

Under a Creative Commons license

Abstract

Arabic diacritics are often missed in Arabic scripts. This feature is a handicap for new learner to read َArabic, text to speech conversion systems, reading and semantic analysis of Arabic texts.

The automatic diacritization systems are the best solution to handle this issue. But such automation needs resources as diactritized texts to train and evaluate such systems.

In this paper, we describe our corpus of Arabic diacritized texts. This corpus is called Tashkeela. It can be used as a linguistic resource tool for natural language processing such as automatic diacritics systems, dis-ambiguity mechanism, features and data extraction.

The corpus is freely available, it contains 75 million of fully vocalized words mainly 97 books from classical and modern Arabic language.

The corpus is collected from manually vocalized texts using web crawling process.

Keywords

Natural language processing
Corpus
Arabic language
Diacritization

http://www.sciencedirect.com/science/article/pii/S2352340917300112

إصدار جديد من قاموس الراموز للتحليل الصرفي

2016/12/23

تم بحمد الله ومنته الانتهاء من  إصدار جديد لقاموس التحليل الصرفي المسمى ” الراموز الوسيط”.

معجم الراموز الوسيط ، معجم عربي حر مفتوح، يهدف إلى توفير البيانات المعجمية في شكل قابل للاستخدام والتطوير، للعاملين في مجال المعالجة الآلية للغة العربية.

مزايا

  • القاموس يضم المفردات مصنفة، ومرفقة بقائمة القواعد التصريفية الممكن تطبيقها عليها.
  • المعجم يحتوي على من 50.000 مفردة تتوزع على ما لا يقل عن 10.000 فعل عربي، و40.000 اسم وعشرات الحروف والأدوات النحوية وما استثني منها.
  • المفردات مشكولة شكلا تامّا ومرفقة بالمعلومات عن ما يلحقها من زيادات صرفية.

المزايا الجديدة:

تطبيق قطربي لتصريف الأفعال على الهواتف الذكية

2016/06/10

بحمد الله ومنته، أطلقنا تطبيق قطربي لتصريف الأفعال العربية على الهواتف الذكية التي تعمل بنظام أندرويد. التطبيق يمكّن المستخدم من تصريف الأفعال العربية في الأزمنة والضمائر المختلفة، وفيه أيضا ألعاب تعليمية .

مزايا التطبيق:

  • تصريف الأفعال في الأزمنة و مع الضمائر.
  • ألعاب تعليمية للتصريف.
  • قاعدة بياناته فيها 6000 فعل الأكثر شيوعا.
  • قطربي يُصرّف الأفعال دون اتصال حسب قاعدة بياناته
  • يسمح بالاتصال بموقع قطرب على النت لتصريف الأفعال غير الواردة في قاعدة البيانات.
  • الاستكمال التلقائي لتسهيل البحث عن الأفعال.
  • يسجل الأفعال المصرفة سابقا لتسهيل العودة إليها.

تطبيق قطربي هو برنامج حر مفتوح المصدر مجاني مبني على برنامج قطرب. صممه الطالبان أحمد بن زيتون و رضوان كيحال بإشراف الأستاذ طه زروقي في جامعة البويرة.

ويأتي تطبيق قطربي استكمالا لتوفير واجهات مختلفة لبرنامج قطرب لتصريف الأفعال المتوفر على سطح المكتب على نظامي وندوز ولينكس، والوب، وسطر الأوامر.

البرنامج مرشّح للمشاركة في مسابقة الألكسو للتطبيقات الجوّالة

للتحميل: من هنا

صفحة التطبيق على فيسبوك

صفحة التطبيق على منصة الألكسو للتطبيقات العربية الجوّالة

صور من التطبيق

  25872588 صور الألعاب

2589 2590 2591 2592

الفوز بجائزة الشيخ محمد بن راشد آل مكتوم للغة العربية – الدورة الثانية-

2016/05/10

الحمد لله الذي بحمده الصالحات، فزت بجائزة الشيخ محمد بن راشد آل مكتوم للغة العربية الدورة الثانية، محور التقانة عن أفضل مشروع لتطوير ونشر المحتوى الرّقميّ العربيّ أو معالجات اللّغة العربيّة (مثل المحلّلات الصّرفيّة والنّحويّة، والمدقّقات الإملائيّة، والكتابة العربيّة المنضبطة بالتّشكيل)، عن مبادرة ” مشاريع مفتوحة المصدر لمعالجة اللغة العربية“.

يسرني أن أشكر الشيخ محمد بن راشد آل مكتوم على هذه الجائزة، وهيئة الجائزة، ومن رشحني للجائزة، وكل من هنأني بهذا التكريم.

فيديو عن التكريم صوّره الصحافي حمزة دباح

 

تعريب برنامج الاستكمال التلقائي

2014/04/04

شرعنا بعون الله  في تعريب برنامج الاستكمال التلقائي (autocomplete)، برنامج الاستكمال التلقائي يهدف إلى مساعدة المستخدم في إكمال الكلمات أو الجمل من خلال الضغط على أول ثلاث أو أربعة حروف .. بالاعتماد على قائمة كلمات جاهزة قابلة للتحديث.

الميزة الأهم لا يشترط أن تكون الأحرف التي تكتبها في بداية الكلمة، بل يمكن أن تغفل بضعا منها

مثلا حين تكتب :
mngmt
أو
mgnt
فيقترح عليك كلمة
management
وذلك لأن جميع الحروف التي أدخلتها في الأولى موجودة في الثانية بالتتابع (لايشترط أن تكون متتالية مباشرة بل يمكن أن يكون بين كل حرف حروف أخرى).

وهذا يفيد في كتابة الاختصارات
ومثلا إذا كتبتها mana
فسيقترح عليك أيضاً:
managment
manager
managing
الخ

“أحتاج إليها في تعلّم كتابة كلمات  لغة أخرى”،

هذه إحدى فوائد هذا البرنامج، وكثير ممن يتعلمون اللغات الأخرى لديهم مشاكل في التهجئة فيتذكرون بعض الأحرف في الكلمات وينسون البعض الآخر .. فهذه ستفيدهم كثيراً ..
تطوير البرنامج:

صُمّم برنامج AutoHotKey لأداء مهام سريعة وأتمتة العمليات كالماكرو وما إلى ذلك ثم تطوّر ليصبح لغة برمجة بسيطة لأداء عمليات مختلفة. ميزة البرنامج الأهم أنه سهل بالنسبة لغير المتخصصين ويقوم بمهام رائعة جداً، ويمكّن تحويل السكريبتات المكتوبة به إلى برامج قائمة بذاتها.
برنامج الاستكمال التلقائي مصمم بهذه اللغة.

البرنامج الأصلي:

https://github.com/Uberi/Autocomplete/releases

وصلة مصدر البرنامج بعد التعريب

https://github.com/linuxscout/Autocomplete

أفكار مستقبلية:

–         هل يمكن استخدام هذا البرنامج لتصحيح الأخطاء الشائعة مثل الغلط في الهمزة، وبين الضاد والظاء.

–         هل يمكن استخدامه لاقتراح التشكيل عند الكتابة.

إطلاق إضافة مشكال لقارئ الشاشة NVDA

2014/04/04

أطلقنا – بحمد الله ومنّته- برمجية مُلحقة لبرنامج قارئ الشاشة مفتوح المصدر NVDA ، تسمح هذه الإضافة بتشكيل النصوص العربية بواسطة برنامج مشكال، وهذه الإضافة مفيدة جدا للمكفوفين الذين يستعينون بقارئ الشاشة لاستعمال الحاسوب.

البرمجية الإضافية للتشكيل تسمح حاليا للكفيف أن يشكّل أي نصِّ يحدده في أي مكان من الشاشة، ومِن ثمّ يمكنه الاستماع إليه مشكولا. ونطمح مستقبلا إلى ربط مشكال مباشرة بآلة النطق كي تشكّل كل النصوص قبل نطقها مباشرة.

وقد سبق لنا أن أطلقنا مشروع المنطيق لتحويل النص العربي إلى كلام، إذ أضفنا دعم العربية لبرنامج توليد الكلام إسبيك مفتوح المصدر، ويمكن تشغيله أيضا على قارئ الشاشة إن.في.دي.أ NVDA.

تحميل الإضافة: تحميل الإضافة موقع sourceforge

 

 

أقرأ باقي الموضوع »

التفقيط: تحويل الأعداد إلى كلمات

2013/07/14

التفقيط هو تحويل الأرقام إلى كلمات، مثلا 154 تصبح مئة وخمسة وأربعون. وسمي تفقيطا، لأنه كان يقال، خمس وأربعون دينارا فقط. يحتاج إليه في برمجيات المحاسبة، وفي قراءة النصوص، وغيرها، والحاجة إلى برمجية مفتوحة المصدر في هذا المجال مهم جدا، لاسيما مكتبات تدمج في تطبيقات أخرى.
إليكم بعض الروابط المفيدة للتفقيط بالعربية.

لغة php

يقدمها مفتوحة المصدر خالد الشمعة، في مكتبة ar-php/ويمكن تجربتها على الوب.

لغة دلفي

يقدّم فريق البرمجة العربي عنصرا بلغة دلفي للتحكم في التفقيط ويدعم أيضا لغة سي.

لغة C++

موجود ضمن حزمة التفقيط العربي لفريق البرمجة، يضم دلفي وسي.

لغة بيثون

توجد ميزة تحويل الأرقام في برنامج أدوات مفتوح المصدر، وقد اقتبسته من مكتبة ar-php،وقد أضيفت هذه الميزة إلى مكتبة العربية للغة بيثون، يمكن الاطلاع عليها في مستودع الأكواد

Access
برنامج كاتب الأعداد بالحروف العربية برنامج يعمل بنظام أكسس من تصميم الأستاذ سعد بن عبد الله الواصل – جامعة القصيم يقوم بتحويل الأرقام والأعداد إلى حروف وكلمات ، ويتناول المجالات الآتية :1. قواعد العدد في اللغة،2. تفقيط العملات والمواد والأشياء المختلفة،3. الترتيب والتعريف والتأريخ .

تغيير قواعد اللعبة

2013/07/14

حين تريد الانضمام للعبة جديدة، يتخوف الأوصياء عليها منك، فيعدّلون قوانين اللعبة، بما يضمن مصالحهم، وخسارتك، وحين تفوز رغم المصاعب والعراقيل، يثورون عليك، ويقلبون الطاولة، ويستندون إلى قواعد أخرى لم يعلموك بها.. المهم أن تخسر.

تستخدم هذه الطريقة في كثير من الميادين، فيفرض على الطالب (في الجزائر مثلا) أن يدرس وفقا لنظام جديد (ل.م.د)، وحين يجتاز هذا الطالب مراحله، ويصل إلى غايته ينعتونه بأنه غير مؤهل لأنه درس وفق نظام سيئ، فما ذنب الطالب، هل عليه أن يغيّر شيئا وهو لا يفقه.

وهنا يطرح السؤال، هل  تعادل شهادة الماستر درجة الماجستير، الجواب طبعا لا. ما الشهادة التي تؤهل الطالب للتدريس في الجامعة إذن، شهادة الدكتوراه نظام ل.م.د. وهنا يطرح سؤال جديد، ما طريقة ترقي الأستاذ صاحب دكتوراه ل.م.د، والسؤال يبقى مطروحا.

أما تطبيقات تغيير قواعد اللعبة في السياسة، يأتي الإسلاميون وهم يحملون مسبقا تهمة بأنهم لا يؤمنون بالديمقراطية، وعليهم اللعب وفق قواعد اللعبة الديمقراطية، واحترام قيم الديمقراطية، وحين يدخلون هذه اللعبة وفق مبادئها، ويفوزون بالانتخابات، تقلب عليهم الطاولة، والتاريخ القريب يثبت هذا.

إنّ تغيير قواعد اللعبة إحدى وسائل الاستبداد ومن طبائعه، وفقا للقانون.

الإصدار 0.2 من المنطيق (نطق نص عربي)

2013/03/04

بحمد الله رب العالمين، أطلقنا إصدارا جديدا من مشروع المنطيق رقمه 0.2، تحسينا للإصدار السابق منذ أسبوعين، وقد تحسّن أداء هذا الإصدار في نطق الكلمات العربية دون تشكيل.

ونعمل في تطوير هذا المشروع على منحيين أساسيين هما:

  • –         ربط إسبيك ببرنامج التشكيل مشكال، مما يحسّن نطق الكلمات.
  • –         تزويد إسبيك بأكبر قدر من القواعد ليتمكّن من نطق الكلمات دون تشكيل.

mintiq_big0.2

ويمكن الاستماع إلى عينات  صوتية

1- العينة الأولى منطوقة باستعمال برنامج أسبيك دون المرور بمشكال، أي أنّ النص غير مشكول.

https://soundcloud.com/linuxscout/ar-espeak0-2-khabar

2- العينة الثانية هي نفس النص السابق بعد تشكيله بمشكال

https://soundcloud.com/linuxscout/ar-espeak0-2-khabarvoca

أقرأ باقي الموضوع »