البرمجيات الحرة في المنظمة الأوروبية للأبحاث النووية

نشره Fahad في

البرمجيات الحرة في (المنظمة الأوروبية للأبحاث النووية) ، أو كيف تساعد البرمجيات المجانية مفتوحة المصدر على اكتشاف جسيم هيجز( الجسيم المسئول عن اكتساب الذرة لكتلتها)

ما هي المجالات الرئيسة التي تصبح فيها البرمجيات الحرة مفتوحة المصدر مهمه حقاً، وأعطت نجاحات كبيرة في هذه السنوات؟ الأبحاث هي واحدة من أهم المجالات على الأرجح، وعندما نتحدث عن البحث والبحث العلمي على الخصوص يجب أن نتحدث عن (المنظمة الأوروبية للأبحاث النووية).

في عدد مجلة جنو / لينكس الإيطالية في يناير، سوف تجد مقابلة قمت بها لاثنين من الباحثين حول هذا الموضوع: سيباستيان بونس هو رئيس CASTOR، النظام الخاص بالمنظمة الأوروبية للأبحاث النووية في تخزين البيانات (والمبني أساساً على نظام جنو / لينكس) وبوكليمان براين هو الفيزيائي الأمريكي الذي يعمل مع برنامج المنظمة لتحليل البيانات من تجارب ATLAS و CMS (واللذان اكتشفا وجود جسيمات هيجز).

أعتقد أنك سوف تجد إجاباتها مثيرة للاهتمام حقا.

أولا أود أن أشكر كل من بريان وسيباستيان، على الوقت اللذان أمضياه في الإجابة على أسئلتي ، ولكن أيضا أتوجه بالشكر لـ جيلارد ميليسا من المكتب الصحفي لمنظمة الأوروبية للأبحاث النووية على العمل الذي قامت به

هذا هو الحوار:

 من فضلك في البداية أخبرنا عن نفسك ...

سيباستيان بونس: أنا عالم حاسوب، ومتخصص في تطوير بنى البرمجيات الكبيرة لتحليل البيانات ووسائط التخزين، وأنا حاليا رئيس تطوير نظام التخزين في (المنظمة الأوروبية للأبحاث النووية) الشامل لل(CASTOR) التي يتم تخزين وإدارة معظم البيانات المنتجة في (المنظمة الأوروبية للأبحاث النووية) (حاليا 85 بيتا بايت، وتتزايد بمعدل واحد بيتا بايت في الأسبوع).

لقد بدأت باستخدام البرمجيات الحرة مفتوحة المصدر في المدرسة في التسعينات مع ديبيان2.0 وأنا ما زلت أستخدم البرمجيات الحرة ومفتوحة المصدر (ما زلت أستخدم دبيان) منذ ذلك الحين. وجميع البرامج التي كتبتها في السنوات 15 الماضية هي برامج حرة ومفتوحة المصدر، سواء كان ذلك لل(المنظمة الأوروبية للأبحاث النووية) أو خارجها.

بريان بوكليمان: أعمل في جامعة نبراسكا لنكولن فى مرحلة ما بعد الدكتوراه كما أني أعمل على شبكة العلوم المفتوحة (OSG) وCompact Muon Solenoid أحدة التجارب على مصادم الجسيمات الضخم (LHC) في (المنظمة الأوروبية للأبحاث النووية). في نبراسكا، لدينا واحد من مواقع الحوسبة المستوى-2 مخصصة لCMS، وهذا ما جعلني أبدأ مع أنظمة التخزين كبيرة الحجم كطالب دراسات عليا. لقد بدأت باستخدام لينكس منذ أواخر 90 - لقد لعبت مع توزيعات مختلفة، ولكن دائما ما كان ينتهي بي المطاف مع على فيدورا أو ريدهات.

 نحن نعلم أنكم في المنظمة الأوروبية للأبحاث النووية تستخدمون أنظمة جنو / لينكس. فهل تستخدمون توزيعات عامة من مثل (ديبيان، فيدورا، ...) أم طورتم توزيعتكم الخاصة؟

سيباستيان بونس: في الواقع تستخدم المنظمة الأوروبية للأبحاث النووية أساسا أنظمة جنو/ لينكس نظم لتخزين البيانات وتحليلها. وقد طورت توزيعة خاصة بالتعاون مع مختبر FermiLab و مختلف المختبرات والجامعات حول العالم. وأطلق عليها Scientific Linux لينكس العلمي أو SL والغرض الأساسي هو الحد من ازدواجية جهود المختبرات المشاركة في مشاريع المنظمة الأوروبية للأبحاث النووية، و لتوفير قاعدة تثبيت مشتركة لمختلف المختبرين. قاعدة SL الأساسية هي (ردهات) لينوكس إنتربرايز، معاد ترجمتها من المصدر.

بريان بوكليمان: في نبراسكا، نحن نستخدم أيضا لينكس العلمى 6.3. تجربة CMS تملك 50 موقع حوسبة في جميع أنحاء العالم وجميعها تستخدم تنويعات من ريدهات إنتربرايز لينوكس - سواء أكانت توزيعة ريدهات RHEL مرخصة أو Centos أوROCKS أو لينكس العلمية.

لماذا اخترتم البرمجيات الحرة مفتوحة المصدر؟ هل تستخدمون أيضا بعض الأدوات المملوكة؟

سيباستيان بونس: الوصول المفتوح يعد عرف قوي في المنظمة الأوروبية للأبحاث النووية.ففي عام 1953، نصت اتفاقيه تأسيس (المنظمة الأوروبية للأبحاث النووية) على ما يلى : "تنشر نتائج أعمال التجارب والنظريات أو توّفر بشكل عام". ولحد اليوم لا يزال هذا مطبقا في كافة المجالات التي تشارك فيها (المنظمة الأوروبية للأبحاث النووية) بما في ذلك علوم الحاسوب. فعلى سبيل المثال، فإنه يجدر الإشارة إلى مبادرتين من خارج عالم البرمجيات في هذا المجال: مبادرة الأجهزة المفتوحة بترخيص العتاد المفتوح واتحاد الممولين للنشر المفتوح في فيزياء الجسيمات. لذلك عندما نتحدث عن برمجيات، فإن المنظمة الأوروبية للأبحاث النووية تطلق شفرة برامجها بشكل طبيعي بموجب تراخيص مجانية مفتوحة المصدر وهي تستخدم البرمجيات الحرة ومفتوحة المصدر بشكل كثيف. أما وقد قلت ذلك، فنحن أيضا نستخدم برمجيات غير حرة، وأدوات مملوكة في مجالات متخصصة مثل الهندسة المدنية، وقواعد البيانات أو تخزين الشريط.

كيف يعمل توزيع البيانات ؟ أو هل يمكنك أن تشرح بشكل موجز Castor و آلية الطبقات ؟

بريان بوكليمان: بداية لدينا نوعين من البيانات: بيانات محاكاة الحدث، و بيانات تتم قراءتها من المتحسسات. تبدأ بيانات المتحسسات تحت الأرض في المنظمة الأوروبية للأبحاث النووية، حيث يتم نقلها إلى مركز البيانات. أول نقل سريع للبيانات (يسمى "إعادة الإنشاء") يتم هناك ،حيث تكتب في أشرطة خاصة بنظام التخزين ، وتنقل إلى مواقع متعددة من "المستوى-1" حول العالم. في المواقع المستوى-1، يتم كتابة نسخة ثانية إلى الشريط وتعالج البيانات مرة آخر. البيانات - والتي الآن في شكل مناسب ليستخدمها علماء الفيزياء في عملهم- تنسخ إلى أحد مواقع CMS الأربعين من المستوى الثاني مثل نبراسكا. بالمقارنة مع مستويات رقم 1، والتي تستخدم بالكامل من قبل خطة معالجه مركزيه، تعتبر بيانات المستوى 2 ، غير منظمة إلى حد ما، فكل مستخدم يقوم بتحليل مجموعة مختلفة من البيانات باستخدام مجموعه تطبيقات مختلفة، وقد يحتاج التحليل إلى العمل في عشرة مواقع مختلفة لإكماله. وقد أدت الطبيعة التوزيعية لعملنا إلى قدر كبيرا من تطوير برمجيات وسطية – فنحن بحاجة إلي توزيع بيتا بايتات من البيانات إلى مواقع متعددة وإعطاء المستخدم وصول شفاف لجميع البيانات.

ما هو أباتشي هدووب Apache Hadoop ، ولماذا تستخدموه؟

بريان بوكليمان: تكتب المنظمة الأوروبية للأبحاث النووية بياناتها فيCASTOR وتكتب مواقع المستوى-1 البيانات في نظم متخصصة تتكامل مباشرة مع الأشرطة. ومع ذلك، ففي المستوى 2، لدينا مرونة أكثر في اختيار نظام التخزين. نظام التخزين يحتاج إلى أن يكون قادرا على تجميع عدة خوادم تخزين معا (هناك حوالي 2.5 بيتابايت من القرص الخام في نبراسكا)، وتوفير نطاق أسماء موحد، ويجب أن يكون موثوق بشكل جيد، ولديه كفاءة عالية في الأداء. نحن بحاجة إلى أن نكون قادرين على إتاحة المكونات على شكل شبكةحتى يمكن الوصول للبيانات في مختلف الموقع. وأخيرا، كل هذا يجب أن يكون سهل الإدارة: مستوى2 بأكمله لديه مديرين أنظمة، ونحن لا نستطيع تحمل توفير شخص مكرس فقط لقضايا نظام الملفات. في أواخر عام 2008، بدأت اختبار نظام هدووب للملفات الموزعة (HDFS) من مؤسسة البرمجيات أباتشي. طوّر HDFS بلغة جافا و يتشارك بالعديد من الخصائص التصميم مع نظام ملفات جوجل. تعمل الخدمات في نطاق المستخدم وفي طبقة فوق نظام الملفات الخاص بخادم الأقراص. هناك نوعان من العقد الأساسية: namenode وdatanode (هناك عقدة ثالثة namenode الثانوية، والتي يمكن تجاهلها في الوقت الحالي). تدير namenode مساحة الاسم وتنظم الوصول إلى البيانات لعمليات المستخدم، ويتم الاحتفاظ بيانات الوسطية في الذاكرة، مما يسمح بتنفيذ صلاحيات القراءة بشكل سريعة جدا. كما أنه يقسم الملفات إلى كتل ذات حجم ثابت (نستخدم 128MB) وتحديد data node لاستضافة كل كتلة. ويقوم بتتبع المعلومات عن موقع كل كتلة والتأكد من وجود عدد كاف من النسخ المتماثلة (نحن نطلب نسختين متماثلتين لكل كتلة). بسبب عملية النسخ المتماثل، يعتبر HDFS مثل النسمة الهواء في إدارته. انهيار datanode بأكمله ليس حدثا خطيرا: فـ namenode سينشئ نسخة مكررة من آخر نسخة بما فيها من بيانات. في الواقع، نحن لا تهتم بإرجاع محركات الأقراص الصلبة الميتة حتى يتجمع لدينا ما لا يقل عن صندوق ممتلئ بها. المضيف الوحيد الذي يجب أن نبقي أعيننا مفتوحة عليه هو namenode، ولكن امتلاك نظام حساس واحد أسهل بكثير أن يكون لديك العديد منهن . وبالرغم من أن الأنظمة الأخرى قد يكون لديها خصائص أداء مماثلة أو أفضل،إلا أن الموثوقية وسهولة الإدارة هو الدافع لنا لاختيار HDFS في نهاية المطاف. كما انه مطمئن جدا أن نعرف أننا لن نكون أبدا أكبر مستخدم لHDFS، بل من الجيد أن يكون هناك شخص آخر يعمل على مشاكل التوسع. لقد نقلنا الموقع إلى HDFS في أوائل عام 2009، ومنذ نجاحنا الأولي، تحولت إليه ستة مواقع أخرى من مستوى-2 في الولايات المتحدة أيضا. لقد كنا سعداء منذ استخدامنا لـ HDFS ، ولكن سأحاول أن أبقى عيني مفتوحة للبدائل. نظم التي هي الأقرب إلى HDFS هي CEPH وGluster، ولكن نحن لا نخطط للانتقال في أي وقت قريب.

على وجه الخصوص، كيف تتم عملية تحليل البيانات فى ATLASk و CMS؟

بريان بوكليمان: القراء الذين على دراية بهدووب سيلاحظون أني وصفت فقط نظام الملفات، ولكن تخطيت توزيع مكون Map/Reduce. هذا لأننا في الواقع لا نستخدم Map/Reduce : تستخدم موارد CMS بالتداخل مع تلك التي تستخدمها التجارب LHC الأخرى في الشبكة. الشبكة كلها تتكون من حوالي 140 موقع للحوسبة؛ وجعل الجميع يتوافقون على تنفيذ تكنولوجيا واحدة يكاد يكون من المستحيل. بدلا من ذلك، نحن نعمل على التأكد من وجود توافق بين تكنولوجيا المواقع "باستخدام منصات من منظمات من مثل شبكة العلوم المفتوحة أو مبادرة الوسيطة الأوروبية. تستند تحليلاتنا على توزيع المهام الكبيرة إلى وظائف النظام مجمعة و التي توزع في كل الشبكة، وتقوم بقراءة البيانات مباشرة من نظام تخزين المواقع. من الناحية النظرية، فهي قريبة إلى مكون Map/Reduce: نحن في كثير من الأحيان إما نقوم بتحويل البيانات إلى أشكال مختلفة وتصفية البيانات غير ذات الصلة بعمل الشخص. يتم ذلك في عدد من الممرات، كل واحد يملك بيانات أصغر حجما وأكثر تخصصا من السابق. وأخيرا، في نهاية المطاف ننتهي مع شيء يمكن أن يحركه الفيزيائي خارج الشبكة إلى حاسوبه المحمول لبعض الأعمال النهائية باستخدام تقنيات مثل الشبكات العصبية وتحليل المتعدد.

هل هناك شيء تظن أنه ما زال مفقودا في FOSS للبحث (بحث فيزيائى)؟

بريان بوكليمان: كما ذكر سيباستيان، مجال فيزياء الطاقة العالية (HEP) لديه تاريخ طويل من التعاون، مما يؤدي إلى دوره الطبيعي المتكامل مع FOSS. ووفقا لذلك،فأساسا جميع الأدوات المستخدمة في البحث هي مفتوحة المصدر. وهذا ما يضاف إلى كم هائل من البرامج - برنامج الفيزياء الأساسية وحدهاCMS تبلغ نحو 6 ملايين سطر برمجي. لا شيء يبدو لي أنه "مفقود"، ولكن هناك دائما أشياء يمكننا القيام بها على نحو أفضل. أعمل عن كثب مع مدراء الأنظمة الذين يديرون عناقيد الحواسيب بالجامعة، لذلك كنت أسمع دائما آلامهم: - إدارة الحزم على RHEL لا يزال يمتلك بعض الأجزاء الصعبة. انه من المستحيل تقريبا العودة للوراء بعد ترقية كبيرة، وفي النهاية، نحن نضطر إلى إزالة المضيف و السماح لـ Cobbler/Puppet بإعادة بنائه. لدينا أيضا أدوات فقيرة للتثبيت في فضاء المستخدم: يضطر المستخدم في كثير من الأحيان إلى اللجوء إلى ترجمة عشرات من حزم البرامج من المصدر إذا رغب بتثبيت شيء ما في دليلهم من دون مساعدة مسؤول النظام، إلا أنهم قد لا يرغبون بتحمل مسؤوليات تشغيل بيئة تخيلية خاصة بهم ( والحفاظ على إعدادات آمنة وبها آخر التحديثات). مقدار العمل اللازم لمستخدم غير المسؤول لتثبيت وحدة بايثون المفضلة لهم للاستخدام الشخصي لا يقارن مع سهولته لمسؤول النظام. - نحن نميل إلى إعداد برنامج كقطعة واحدة في كل مرة، ولكن الخدمات المعقدة يمكن أن تنطوي على عشرات القطع البرمجية و إعدادات النظام متناثرة. ويبدو أنه لا يتوفر العديد من إعدادات البرامج ذات “ أفضل الممارسات” التي تتطلب تحرير العشرات من الملفات . التقدم المحرز منذ أن بدأت في الحقيقة مبهر، فعلى سبيل المثال، أنا متحمس بشكل لا يصدق لنشر systemd في العمل. لقد اكتفيت من شفرات init السيئة لكل حياتي.

ماذا رأيك في مستقبل التحليل بمساعدة الحاسوب، وما دور FOSS في ذلك؟

سيباستيان بونس: فرض التحليل بمساعدة الحاسوب نفسه كأداة رئيسية للباحثين العلمين وأعتقد أنه سيبقى لفترة طويلة. كان لـFOSS دور أساسي للعب هناك كنهج للبرمجيات أكثر فعالية لهذا المجتمع. كما أثبتت المنظمة الأوروبية للأبحاث النووية في السنوات ال 58 الماضية،أن التعاون هو مفتاح النجاح في مثل هذا السياق، والبرمجيات الحرة جعله يتحقق في مجال علوم الحاسوب. لذلك أرى FOSS كلاعب أساسي للتحليل بمساعدة الحاسوب في المستقبل (والآن بالفعل)، الذي قد يؤدى إلى هيكلة جميع البرامج في هذا المجال.

-هل يمكنك أن تعطينا رأيك الشخصي حول استخدام البرمجيات الحرة مفتوحة المصدر في الجامعات ومعاهد البحوث؟

بريان بوكليمان: أنا شخصيا أعتقد أن استخدام البرمجيات مفتوحة المصدر (والبرمجيات الحرة مفتوحة المصدر على وجه الخصوص) في الجامعات ومعاهد البحوث أمر أساسي وأرى سببين رئيسيين لهذا الغرض.

أولا بسبب طبيعة معاهد البحوث والجامعات: ففي العادة يكون لديها ميزانية صغيرة، ولكن أناس مهرة جدا والموهوبين. هذا عادة ما يجعل دفع تراخيص المرتبطة بالبرمجيات غير الحرة عقبة ثقيلة في حين أن المهارات اللازمة لدعم وصيانة البرمجيات مفتوحة المصدر غالبا ما تكون متاحة.

لذا البرمجيات الحرة مفتوحة المصدر تتناسب بشكل جيد هنا، بجانب البرمجيات غير مفتوحة المصدر عندما يكون الدعم و / أو الصيانة من مصادر خارجية. والسبب الثاني هو أن برمجيات المصدر المفتوح بشكل عام (حرة أم لا) تسمح للجامعة و المجتمعات البحثية ببناء أنظمة غير متجانسة كبيرة للغاية و(مثل شبكة الحوسبة LHC ). سيكون من الصعب للغاية الاتفاق على مجموعة فريدة من الأدوات المملوكة لمثل هذه النظم عبر مئات المختبرات بمختلف القيود والاستراتيجيات. مع برمجيات مفتوحة المصدر، يمكن للمرء أن يتكيف بسهولة مع الأدوات المتوفرة مما يؤدي لتعاون حلول مختلفة. وكان هذا عنصرا رئيسيا لنجاح الشبكة.

 هل هناك شيئا ترغب في إضافة لقرائنا الأعزاء؟

سيباستيان بونس: إذا كنت ترغب في معرفة المزيد عن المنظمة الأوروبية للأبحاث النووية وبحثنا هناك (بما في ذلك علوم الحاسوب)،ألق نظرة على موقعنا على شبكة الإنترنت (http://cern.ch) أو تعال لزيارتنا في جنيف. أنها مجانية ومركز الحاسوب يمكن أن يكون جزءا من هذه الجولة. قد تكون مهتمة أيضا بعروض العمل بالمنظمة الأوروبية للأبحاث النووية، كل ذلك متاح على موقعنا على شبكة الإنترنت.

 

هذه المقالة مترجمة من Free software at the CERN, or: how did FOSS help the discovery of Higgs boson