تم بحمد الله ومنته إطلاق مكتبة بيثون المسماة “أدوات” توفر وظائف مهمة لمعالجة النص العربي، وهي مكتبة تجمع الكثير من الوظائف من مكتباتنا المختلفة، وتهدف إلى تسهيل استعمال وظائف النص العربي مباشرة،

مزايا:

تجمع هذه المكتبة كل الأدوات المستعملة في معالجة النص العربي مثل:

  • التشكيل
    • تشكيل النص العربي، يستحسن استعمال مكتبة مشكال، أو برنامج مشكال
    • تشكيل مع اقتراحات تشكيلات أخرى لكل كلمة
    • اختزال الحركات من النص المشكول
    • إزالة التشكيل
    • مقارنة جملة مشكولة يدويا مع ما ينتج عن برنامج التشكيل
  • وظائف التحويل
    • نقحرة النص العربي بحروف لاتينية
    • تعريب نص مكتوب بحروف لاتينية
    • قلب نص
    • تفقيط: تحويل عدد إلى نص
    • تنميط النص: توحيد الهمزات والألفات
    • فك تشابك الحروف العربية
  • التحليل والتوليد
    • تحليل صرفي للنص
    • تفريق النص إلى كلمات وعلامات
    • تصنيف الكلمات إلى اسم وفعل وحرف
    • توليد كل الأشكال المختلفة للكلمة
  • استخلاص
    • استخلاص المتلازمات اللفظية
    • كشف اللغات المختلفة
    • استخلاص المسميات
    • استخلاص العبارات العددية
  • متفرقات
    • ضبط قصيدة شعرية عمودية
    • توليد نص عشوائي

معظم هذه الأدوات تتوفر في موقع مشكال النصوص العربية في قسم الأدوات، كما يتوفر برنامج “أدوات” للتحميل للاستفادة من هذه الوظائف.

 

adawat_header

استعمال المكتبة

التثبيت:

pip install adawat

مثال:

>>> lastmark = True
>>> text = u"تطلع الشمس صباحا"
>>> adawat.adaat.tashkeel_text(text, lastmark)
' تَطْلُعُ الشَّمْسُ صَبَاحًا'
>>> text = u"تَطْلُعُ الشَّمْسُ صَبَاحًا"
>>> adawat.adaat.romanize(text)
'taToluEu Al$~amosu SabaAHFA'
>>> text="2021"
>>> adawat.adaat.number2letters(text)
'ألفان و واحد و عشرون'

روابط