إطلاق دعم اللغة العربية في برنامج "أداة اللغة Languagetool "

نشره زايد في
مدقق النحوي

التدقيق النحوي مهم جدا في الكتابة لسلامة اللغة وتصحيح الأخطاء، وهو يختلف عن التدقيق الإملائي الذي يعني بالكلمة خارج سياقها فيما يُعنى التدقيق النحوي بتركيب الجمل.
وتوفر  معظم البرامج المكتبية الأدوات المساعدة في الكتابة مثل التدقيق الإملائي والمترادفات والتدقيق النحوي والتصحيح التلقائي.
وقد عملنا سابقا على توفير هذه الأدوات حرة مفتوحة المصدر للغة العربية مما يسهل من انتشارها واستعمالها،  فقد عملنا سابقا على التدقيق الإملائي والمترادفات في مشروع آيسبل، وها نحن اليوم نقدّم " المدقق النحوي العربي مفتوح المصدر".
إذ تم بحمد الله ومنته إطلاق دعم اللغة العربية في برنامج "أداة اللغة Languagetool " مفتوح المصدر متعدد اللغات. وهو يدعم أكثر من عشرين لغة، ويوفر خدماته على الوب وسطح المكتب وإضافات لبرامج مكتبية منها ليبرأوفيس وميكروسوفت وورد ولاتكس ومتصفحات مثل موزيلا فيرفكس، وبرامج ترجمة آلية مثل ترادوس.
كان إطلاق مشروع التدقيق النحوي العربي قبل سبع سنوات هو الأساس لإنجاز المشروع.
ينقسم مشروع دعم العربية إلى شطرين:
–         الشطر البرمجي : للعمل على دعم اللغة العربية في أداة اللغة LanguageTool المصمم بلغة جافا، وبناء المحلل والمولّد الصرفيين والواسم.
–         الجانب اللغوي أي  العمل على توفير البيانات اللغوية والقواعد الخاصة بالأخطاء، ويعالج هذا الجانب الأخطاء التركيبية والأخطاء النحوية أو ما يسمى عموما الأخطاء الشائعة، ويتطلب استخلاص القواعد من معاجم الأخطاء الشائعة.

ما هي أداة اللغة؟

مدقق تركيبي أسلوبي إملائي، يقدّم قواعد تكشف أخطاء لغوية تركيبية وأسلوبية وإملائية مثل :
- التدقيق الإملائي
- التدقيق في علامات الترقيم والتنقيط
- تدقيق العبارات المركبة
- فحص الأخطاء في الأسلوب واستعمال الكلمات في سياق خاطئ.

دعم العربية

يدعم البرنامج العربية منذ الإصدار 4.9، بأكثر من 300 قاعدة، تكشف أخطاء  في :
-  التأنيث والتذكير
- العدد والمعدود
- التعابير الشائعة و المتلازمات اللفظية مثل (إنشاء الله)
- التشكيل مثل تجرُبة.
- العامية أو الألفاظ الأجنبية المستبدلة.

وستضاف قواعد أخرى شيئا فشيئا.

مزايا البرنامج

توفر أداة اللغة مزايا كثيرة منها :
- مدقق متعدد اللغات.
- التدقيق في الوب.
- برنامج بواجهة مكتبية.
- وأدوات إضافية لعدد من البرامج المكتبية مثل LibreOffice، مايكروسوفت وورد، مستندات غوغل.
- يدعم إضافات للمتصفحات مثل فيرفوكس وغوغل كروم.
- وأدوات الترجمة الآلية مثل SDL trados، و OmegaT.

للتجربة

يمكن تجربة اللغة العربية على  موقع البرنامج languagetool.org باستخدام ميزة كشف اللغة.

أو بتحميل الإصدار 4.9 من أداة اللغة لسطح المكتب ، ستتوفر إضافة لحزمة المكتب المفتوح ليبرافيس لاحقا.

ما أُنجز

1-   برمجيا:
    1.  دعم العربية في برنامج أداة اللغة ببناء المولد الصرفي والمحلل الصرفي والواسم الآلي.
    2. توفير قاموس تحليل صرفي وقاموس توليد صرفي اعتمادا على مشروع قاموس الراموز.
    3. بناء آلية الوسم للكلمات العربية حسب ما يحتاج إليه التدقيق النحوي.
2-   لغويا:
    •  نمذجة وتوصيف أكثر من 400 قاعدة من الأخطاء الشائع بلغة XML حسب صيغة languagetool.
    • بناء معجم الأخطاء الشائعة الرقمي "فارح" الذي يحوي على أكثر من 500 مدخل،  من أخطاء وتصحيحات وأمثلة بصيغة جداول يسهل استخلاص البيانات منها برمجيا، مع إضافة معلومات لصيقة، وتوفير سكريبت خاص للتحويل لصيغة البرنامج المستهدف.
    • ويستمد معجم فارح بياناته من المراجع اللغوية التي أتحفتا ببعضها الدكتور مروان البواب من مجمع دمشق، وسمح لنا باستعمال كتابه في هذا المشروع، وكذلك مكتبة العبيكان التي أمدتنا بمراجع رقمية للأخطاء اللغوية يجري العمل عليها.
للعمل
    • –         تجربة المزيد من أنماط الأخطاء مما يساهم في تطوير البرنامج ومزاياه
        ◦  إثراء المعجم الالكتروني بالمزيد من القواعد
        ◦  إثراء قواعد الأخطاء في المدقق.


دعوة للمساهمة

المشروع مفتوح المصدر، وأهم ما يمكن المساهمة فيه هو :
* مراجعة القواعد الموجودة وفحصها
* بناء قواعد جديدة بناء على بيانات تصحيح الأخطاء
* بناء القواعد ممكن باستعمال لغة xml لنمذجة الأخطاء المتنوعة، كما نوفر مقدمة وأمثلة عن أنواع الأخطاء المحتملة في العربية وكيفية تمثيلها.

 كيف يمكنني المساهمة؟

توفر أداة اللغة في موقعها مجتمعا للتطوير على community.languagetool.org يوفر أدوات ومحررا لكتابة القواعد وتجربتها بما في ذلك اللغة العربية. يستحسن الاطلاع على ملف القواعد في قسم اللغة العربية، وقراءة التوثيق الخاص بكتابة القواعد، ومراجعة القواعد السابقة للاطلاع على أمثلة  مشابهة.
تتطلب كتابة القواعد الجديدة معرفة بلغة xml ودراسة كيفية تمثيل القواعد، وقواعد الوسم المستعملة في قسم اللغة العربية في البرنامج.
يمكن الاطلاع على شرح لكيفية كتابة القواعد للغة العربية في  العرض التقديمي الخاص.

 مشروع فارح

كما يوفر مشروع "فارح-لغتنا الجميلة" قاموسا  للأخطاء اللغوية الشائعة مرقمنة، ومزودة بسكريبت لتوليد القواعد بلغة XML لتسهيل إثراء برنامج أداة اللغة، والاستفادة من هذه القواعد الرقمية في مشاريع أخرى.


روابط المشروع

 مشروع أداة اللغة http://languagetool.org
مجتمع تطوير قواعد أداة اللغة http://community.languagetool.org
الكود المصدري الدعم العربية http://github.com/sohaibafifi/languagetool
مشروع فارح  قاموس الأخطاء اللغوية الرقمي http://github.com/linuxscout/fareh

المطوران الأساسيان

طه زروقي: مستودع جت هب و الموقع الرسمي.

صهيب عفيفي: مستودع جت هب.

شكر للمساهمين

وجدير بالشكر والعرفان الأستاذ مروان البواب من سوريا، و مكتبة العبيكان من السعودية، والأستاذ اسماعيل حجير من جامعة المدية والطلبة الذين عملوا على المشروع تاكوشت كريمة وكالي إيمان من جامعة المدية بالجزائر ووياسمين سعيدي وفلاك سامية من جامعة البويرة بالجزائر.