تجارب للأصوات العربية بنظام النطق فيستيفال

2020/05/21

هذه أوائل الأصوات العربية التي نعمل عليها من أجل توفير صوت عربي مفتوح المصدر ذي جودة يعمل على نظام Festival لتوليد الكلام بتقنية HTS الأصوات ذات التقنية العالية.

أمثلة:

المثال الأول

المثال الثاني

المثال الثالث

Festival HTS Arabic voice

إطلاق مشروع التدقيق النحوي العربي مفتوح المصدر

2020/05/21

التدقيق النحوي مهم جدا في الكتابة لسلامة اللغة وتصحيح الأخطاء، وهو يختلف عن التدقيق الإملائي الذي يعني بالكلمة خارج سياقها فيما يُعنى التدقيق النحوي بتركيب الجمل.

وتوفر l معظم البرامج المكتبية الأدوات المساعدة في الكتابة مثل التدقيق الإملائي والمترادفات والتدقيق النحوي والتصحيح التلقائي.

وقد عملنا سابقا على توفير هذه الأدوات حرة مفتوحة المصدر للغة العربية مما يسهل من انتشارها واستعمالها، فقد عملنا سابقا على التدقيق الإملائي والمترادفات في مشروع آيسبل، وها نحن اليوم نقدّم المدقق النحوي العربي مفتوح المصدر“.

إذ تم بحمد الله ومنته إطلاق دعم اللغة العربية في برنامج أداة اللغة Languagetool ” مفتوح المصدر متعدد اللغات. وهو يدعم أكثر من عشرين لغة، ويوفر خدماته على الوب وسطح المكتب وإضافات لبرامج مكتبية منها ليبرأوفيس وميكروسوفت وورد ولاتكس ومتصفحات مثل موزيلا فيرفكس، وبرامج ترجمة آلية مثل ترادوس.

ما هي أداة اللغة؟

مدقق تركيبي أسلوبي إملائي، يقدّم قواعد تكشف أخطاء لغوية تركيبية وأسلوبية وإملائية مثل :

التدقيق الإملائي

التدقيق في علامات الترقيم والتنقيط

تدقيق العبارات المركبة

فحص الأخطاء في الأسلوب واستعمال الكلمات في سياق خاطئ.

دعم العربية

يدعم البرنامج العربية منذ الإصدار 4.9، بأكثر من 300 قاعدة، تكشف أخطاء  في :

التأنيث والتذكير

العدد والمعدود

التعابير الشائعة و المتلازمات اللفظية مثل (إنشاء الله)

التشكيل مثل تجرُبة.

العامية أو الألفاظ الأجنبية المستبدلة.

وستضاف قواعد أخرى شيئا فشيئا.

خيارات أداة اللغة_430

مزايا البرنامج

توفر أداة اللغة مزايا كثيرة منها :

مدقق متعدد اللغات.

التدقيق في الوب.

برنامج بواجهة مكتبية.

وأدوات إضافية لعدد من البرامج المكتبية مثل LibreOffice، مايكروسوفت وورد، مستندات غوغل.

يدعم إضافات للمتصفحات مثل فيرفوكس وغوغل كروم.

وأدوات الترجمة الآلية مثل SDL trados، و OmegaT.

للتجربة

يمكن تجربة اللغة العربية على موقع البرنامج languagetool.org باستخدام ميزة كشف اللغة.

تحديد_434

أو بتحميل الإصدار 4.9 من أداة اللغة لسطح المكتب

LanguageTool 5.0-SNAPSHOT_432

ما أُنجز:

ينقسم مشروع دعم العربية إلى شطرين:

–         الشطر البرمجي : للعمل على دعم اللغة العربية في أداة اللغة LanguageTool المصمم بلغة جافا، وبناء المحلل والمولّد الصرفيين والواسم.

–         الجانب اللغوي أي العمل على توفير البيانات اللغوية والقواعد الخاصة بالأخطاء، ويعالج هذا الجانب الأخطاء التركيبية والأخطاء النحوية أو ما يسمى عموما الأخطاء الشائعة، ويتطلب استخلاص القواعد من معاجم الأخطاء الشائعة.

1-   برمجيا:

  1. دعم العربية في برنامج أداة اللغة ببناء المولد الصرفي والمحلل الصرفي والواسم الآلي.
  2. توفير قاموس تحليل صرفي وقاموس توليد صرفي اعتمادا على مشروع قاموس الراموز.
  3. بناء آلية الوسم للكلمات العربية حسب ما يحتاج إليه التدقيق النحوي.

2-   لغويا:

  • نمذجة وتوصيف أكثر من 400 قاعدة من الأخطاء الشائع بلغة XML حسب صيغة languagetool.
  • بناء معجم الأخطاء الشائعة الرقمي فارحالذي يحوي على أكثر من 500 مدخل، من أخطاء وتصحيحات وأمثلة بصيغة جداول يسهل استخلاص البيانات منها برمجيا، مع إضافة معلومات لصيقة، وتوفير سكريبت خاص للتحويل لصيغة البرنامج المستهدف.
  • ويستمد معجم فارح بياناته من المراجع اللغوية التي أتحفتا ببعضها الدكتور مروان البواب من مجمع دمشق، وسمح لنا باستعمال كتابه في هذا المشروع، وكذلك مكتبة العبيكان التي أمدتنا بمراجع رقمية للأخطاء اللغوية يجري العمل عليها.

للعمل

  • –         تجربة المزيد من أنماط الأخطاء مما يساهم في تطوير البرنامج ومزاياه
    • إثراء المعجم الالكتروني بالمزيد من القواعد
    • إثراء قواعد الأخطاء في المدقق.

فريق التطوير:

طه زروقي، جامعة البويرة، الجزائر

صهيب عفيفي، جامعة أرتوا، فرنسا، من الجزائر

شكر للمساهمين

وجدير بالشكر والعرفان الأستاذ مروان البواب من سوريا، و مكتبة العبيكان من السعودية، والاستاذ اسماعيل حجير من جامعة المدية والطلبة الذين عملوا على المشروع تاكوشت كريمة وكالي إيمان من جامعة المدية بالجزائر ووياسمين سعيدي وفلاك سامية من جامعة البويرة بالجزائر.

دعوة للمساهمة :

المشروع مفتوح المصدر، وأهم ما يمكن المساهمة فيه هو :

* مراجعة القواعد الموجودة وفحصها

* بناء قواعد جديدة بناء على بيانات تصحيح الأخطاء

* بناء القواعد ممكن باستعمال لغة xml لنمذجة الأخطاء المتنوعة، كما نوفر مقدمة وأمثلة عن أنواع الأخطاء المحتملة في العربية وكيفية تمثيلها.

كيف يمكنني المساهمة؟

توفر أداة اللغة في موقعها مجتمعا للتطوير على community.languagetool.org يوفر أدوات ومحررا لكتابة القواعد وتجربتها بما في ذلك اللغة العربية.

community_langaugetool_n

يستحسن الاطلاع على ملف القواعد في قسم اللغة العربية، وقراءة التوثيق الخاص بكتابة القواعد، ومراجعة القواعد السابقة للاطلاع على أمثلة مشابهة.

تتطلب كتابة القواعد الجديدة معرفة بلغة xml ودراسة كيفية تمثيل القواعد، وقواعد الوسم المستعملة في قسم اللغة العربية في البرنامج.

يمكن الاطلاع على شرح لكيفية كتابة القواعد للغة العربية في العرض التقديمي الخاص.

مشروع فارح

كما يوفر مشروع فارحلغتنا الجميلةقاموسا للأخطاء اللغوية الشائعة مرقمنة، ومزودة بسكريبت لتوليد القواعد بلغة XML لتسهيل إثراء برنامج أداة اللغة، والاستفادة من هذه القواعد الرقمية في مشاريع أخرى.

روابط المشروع :

مشروع أداة اللغة http://languagetool.org

مجتمع تطوير قواعد أداة اللغة http://community.languagetool.org

الكود المصدري الدعم العربية http://github.com/sohaibafifi/languagetool

مشروع فارح قاموس الأخطاء اللغوية الرقمي http://github.com/linuxscout/fareh

نبراس : قصة تعاون

2018/09/05
التبدل اللغوي بين الثانوية والجامعة في الشعب التقنية مسألة عويصة، وتتسبب في مشاكل كثيرة من صعوبة الفهم وتصل حتى الإعادة والإحباط والتفكير في تغيير الشعبة،
لذا اقترحنا دليل المصطلحات التقنية للسنة الأولى جامعي، من أجل مساعدة الطلبة،
ويسرنا أن تهدوه لأحبائكم ممن هم بأمّس الحاجة إليه
مشروع نبراس الطالب، دليل المصطلحات للشعب التقنية، هو مثال للتعاون البناء بين المعلوماتيين الجزائريين،
فقد ولد الدليل في المدرسة العليا للإعلام الآلي بواد السمّار سنة 2001 في شكل دليل ورقي مطبوع وزع عدة مرات على الطلبة هناك،
ثم عادة للظهور رقميا سنة 2010 في شكل ملف مخصص لطلبة المدرسة،
في سنة 2012 توسّع في جامعة البويرة ليشمل طلبة الشعب التقنية مثل شعبة علوم المادة وشعبة التكنولوجيا، وقد استفدنا من عمل المدرسة الوطنية لتحضير دراسات مهندس الذين حضروا دليلا لكل الشعب التي لديهم بنفس المشكلة وساهم فيها الأستاذ عبد الكريم شريفي.
وفي العام نفسه، ساهم فريق برمجة من جامعة عنابة (وليد زيوش، قرفي بلال وتصميم الشعار حسام ثغري) في تصميم واجهة البرنامج بشكل فعال وجذّاب.
وفي سنة 2016، برمج الطالبان مهدي عولمي وبلال عتيق تطبيقا للهاتف الجوّال على نظام الأندرويد يساهم في تقريب الدليل من الطلبة، وعلى التوازي ساهم بوبكر نور من جامعة سيدي بلعباس بتطوير تطبيق ثان لنبراس على نظام الأندوريد أيضا.
هذه قصة تعاون شباب من ربوع الجزائر لتطوير برنامج نبراس، والمساهمة ما زالت مفتوحة لمن يريد كما يريد.
روابط:
موقع البرنامج: http://nibras.sourceforge.net
صفحة البرنامج على فيسبوك: https://www.facebook.com/studentnibras/
التطبيق على متجر غوغل

الجزائر تسير بعجلة واحدة

2018/06/05

كل الإدارات تقريبا وفي كل مكان تجد عمالا يشتغلون بعقود مختلفة “شبكة اجتماعية” و”ما قبل التشغيل” و”الإدماج المهني” وهي وإن اختلفت أسماؤها، فهي مسمى للاستغلال واستحلال تشغيل الناس كالعبيد بأجر أقل من الأجر الوطني الأدنى.
وإن اعتقدت أنّ الدولة بهذا توفر المصاريف “بالرق” فاعلم جملة المشاكل التي تحصل حين يتم استبدال عبد بمستعبد جديد وتعليمه من جديد، وما إن يندمج في العمل، حتى يأتي أجله، عفوا أجل العقد، فلا يتجدد وتحتسب من المستفيدين. وتنفى الموارد، والبنى التحتية ويهرم الشاب، ولا سبيل.
في بلادي حتى الاسترقاق يعتبر استفادة، وربما حلما، كحلم المخطوبة بيوم العرس وقد طالت سنوات الخطوبة وربما وقعت في المحظور في انتظار المنظور الذي قد ينقطع ولا يتجدد.
كل هذا كان في سنوات ما يسمى “البحبوحة” التي أعتقد جازما أنها مشتقة من البح، وليس من الرخاء، أما في سنوات التقشف فامسح فمك بصبّار مشوّك.
بلاد كاملة تسير على كاهل شباب ليس له حتى الكرامة في أجر أو عمل، وتنتظر منه أن يضحّي ويصبر من أجل مصروف لا يكفي للجيب.
اللهم خفف عن معاناة شعبنا وشبابنا المستعبدين في أرضهم الحرة بل المسترقة أيضا في أيدي من لا يخافك ولا يرحمنا.
طه زروقي

إطلاق مكتبة ميسم لإدارة وسوم الكلمات العربية

2018/05/03

تم بحمد الله، أطلقنا مكتبة جديدة باسم “ميسم”  لإدارة وسوم الكلمات العربية،
هذه المكتبة توفر خدمة ترميز وسوم الكلمات (الخصائص الصرفية والنحوية والدلالية) في عبارة وسم مختصرة على شكل سلسلة حروف قصيرة مرمّزة نسميها سلسلة الوسوم.

يمكن الاستفادة من هذه المكتبة من أجل ترميز الوسوم وفك ترميزها، لذا سنستعملها في :

* التحليل الصرفي [مكتبة قلصادي]
* التحليل النحوي  [مكتبة ثعلب]
* التشكيل [برنامج مشكال]
* التدقيق اللغوي النحوي LanguageTool.

كما تقدّم خدمة متميزة في الإعراب بالطريقة القديمة

  •  قائمة الوسوم :  Noun, جامد, مضاف, مجرور, متحرك, ينون
  • سلسلة الوسوم المختصرة :

[N–;–I-;—H;—-]

  • جملة الإعراب: {اسم مجرور وهو مضاف، والضمير المتصل مبني في محل جر مضاف إليه}

** هذه ليست مكتبة للتوسيم، بل لإدارة الوسوم في معالجة اللغة**

 تطبيقات

  •  التنقيب عن المعلومات.
  •  التعرف على الجمل.
  •  التحليل النحوي.
  •  تسريع التحليل الصرفي.

 جرّب

يمكن التجربة على [موقع مشكال]،  اختر تشكيل، ثم مرّر الفأرة على الكلمة لرؤية التلميح

مكتبة واجهة برمجية لقاموس الراموز للتحليل الصرفي

2018/04/29

بحمد الله ومنّته، أطلقنا مكتبة  برمجية جديدة لقاموس الراموز ( قاموس للمطورين في التحليل الصرفي)، باسم arramooz-pysqlite.

معجم الراموز الوسيط ، معجم عربي حر مفتوح، يهدف إلى توفير البيانات المعجمية في شكل قابل للاستخدام والتطوير، للعاملين في مجال المعالجة الآلية للغة العربية.

المكتبة بلغة بيثون، وتخزن البيانات بصيغة sqlite

وتمكن من البحث في القاموس واستخلاص المعلومات عن كل كلمة معجمية.

يمكن تنزيل المكتبة من

قاموس الراموز للتحليل الصرفي Arramooz-pysqlite : arabic dictionary for morphology V0.1 pypi github

إصدارات جديدة من مكتبات اللغة العربية بالبايثون

2018/04/29

تم بحمد الله إطلاق إصدارات جديدة من مكتبات اللغة العربية بلغة بيثون

وهي

  • مكتبة العربية PyArabic 0.6.4
  • مكتبة تاشفين لتجذيع النصوص Arabic light stemmer  0.3.2
  • مكتبة نفطويه لتصنيف الكلمات v0.3
  • مكتبة قلصادي للتحليل الصرفي  v0.3
  • مكتبة قطرب لتصريف الأفعال v1.2.1

التحديثات الجديدة هي :

  • موافقة المكتبات للإصدار الثالث من بيثون
  • بنية أفضل للمكتبات
  • تحسين التوثيق
  • تصحيح بعض الأخطاء

تجربة الأداء

يمكن تجربة وظائف كل مكتبة على موقع مشكال، من قسم الأدوات

مكتبة جديدة لقاموس التحليل الصرفي

وقد أطلقنا أيضا مكتبة جديدة لقاموس الراموز ( قاموس للمطورين في التحليل الصرفي)، باسم arramooz-pysqlite.

المكتبة الإصدار رابط المكتبة المصدر
مكتبة العربية

PyArabic

0.6.4 pypi github
تاشفين لتجذيع النصوص 

Tashaphyne Arabic light stemmer

0.3.2 pypi github
نفطويه لتصنيف الكلمات

Naftawayh word tag guess

v0.3 pypi github
قلصادي للتحليل الصرفي 

Qalsadi Morphology analyzer

v0.3 pypi github
قطرب لتصريف الأفعال

Lib Qutrub : verb conjugation

v1.2.1 pypi github
قاموس الراموز للتحليل الصرفي Arramooz-pysqlite : arabic dictionary for morphology V0.1 pypi github

التطبيقات اللسانية الحاسوبية للغة العربية: البدائل مفتوحة المصدر

2017/12/18

كيفية تحويل النص العربي لصوت باستخدام البرامج الحرة

2017/12/07

مقدمة

يهدف هذا المشروع إلى دعم العربية في نظم النطق (تحويل النص إلى كلام) ويصف الطريقة التي تسمح بتشغيلها معا. أي تشغيل قارئ الشاشة بلغة عربية بمستوى جيد بأدوات مفتوحة المصدر.

إلام نحتاج؟

نحتاج إلى الأدوات الآتية:

  1. نظام النطق إسبيك مع دعم العربية
  2. Mbrola نظام النطق وأصواته
  3. قارئ للشاشة
  4. نظام توزيع الكلام
  5. برنامج تشكيل

سنحتاج إلى تشغيل نظام النطق إسبيك مزود بدعم للغة العربية، ثم نثريه بأصوات عربية من نظام النطق Mbrola للحصول على صوت أفضل. سنحتاج أيضا إلى مشكّل آلي للنصوص العربية باستعمال برنامج مشكال مفتوح المصدر. كما سنحاول تشغيل قارئ الشاشة Orca، ونظام إرسال الكلام speech dispatcher لاعتماده برنامجا وسيطا يسمح للتطبيقات الأخرى من تشغيل نظام النطق.

نهدف إلى الحصول على نطق صوت عربي جيد وصحيح قدر الإمكان مشكّل

تابع التوثيق بالعربية والإنجليزية

رابط المقال على وادي التقنية

نشر مقال أكاديمي حول “تشكيلة” المدونة اللغوية للنصوص المشكولة

2017/05/01
Data Article

Tashkeela: Novel corpus of Arabic vocalized texts, data for auto-diacritization systems

Under a Creative Commons license

Abstract

Arabic diacritics are often missed in Arabic scripts. This feature is a handicap for new learner to read َArabic, text to speech conversion systems, reading and semantic analysis of Arabic texts.

The automatic diacritization systems are the best solution to handle this issue. But such automation needs resources as diactritized texts to train and evaluate such systems.

In this paper, we describe our corpus of Arabic diacritized texts. This corpus is called Tashkeela. It can be used as a linguistic resource tool for natural language processing such as automatic diacritics systems, dis-ambiguity mechanism, features and data extraction.

The corpus is freely available, it contains 75 million of fully vocalized words mainly 97 books from classical and modern Arabic language.

The corpus is collected from manually vocalized texts using web crawling process.

Keywords

Natural language processing
Corpus
Arabic language
Diacritization

http://www.sciencedirect.com/science/article/pii/S2352340917300112