مقدمة من هايبرستيج

يعتبر علم المعلومات (Data Science) أحد أكثر وأهم الفروع حداثاً من الناحية التقنية لعدد كبير من الخدمات المقدمة عبر الإنترنت. التنقيب عن البيانات (Data Mining) هو الجزء الذي يوفر لهذه الأعمال معلومات غالية جداً تساعد في تحوير المسار الإستراتيجي لشركة ما، وهو الأمر الذي كان غالباً منسياً في الماضي.


مع إزدياد عدد مستخدمي الإنترنت بشكل ملحوظ في السنوات العشر الأخيرة، بدأ هذا القسم من الصناعة بالإزدهار، خصوصاً مع إعتماد شركات كبيرة مثل فيسبوك وغوغل عليه وإثراءها بشكل ملحوظ على التكنولوجيات التي تسهل التعامل معه، مثل خدمة Google Analytics.


في هذا المقال، يقوم براين بروفت من ReadWrite  بإستعراض الميزات التي جعلت أكثر الأنظمة إستخداماً في هذه الدراسات، النظام المعروف بإسم هادوب Hadoop، من أحد أهم التقنيات التي قُدمت  في هذا المجال، ومنصة واجبة على جميع علماء المعلومات (Data Scientists). لنتابع معاً.

هادوب هي طفل عالم البيانات الضخمة Big Data المدلل. مدلل لدرجة أن منصة البيانات المفتوحة المصدر هذه أصبحت عملياً مصطلحاً مرادفاً للمصطلح الشائع لتخزين وتحليل كميات كبيرة من المعلومات.

هادوب ليست اللاعب الوحيد في هذا العالم، لكن كان لهذا التطبيق البرمجي تأثيراً ملحوظاً في عالم البيانات. ما الذي يجعله مهماً لهذه الدرجة؟

قد تكون الأسباب الكامنة وراء نجاح شيء ما أمامك مباشرة أحياناً. لكن وبالنسبة لهادوب ونجاحه، كان المحفز الأكبر في السوق بسيط: قبل هادوب، تخزين البيانات كان باهظ الثمن.

يسمح لك هادوب بأن تخزن القدر الذي ترغبه من المعلومات بأي صيغة تريد عن طريق إضافة مزيد من المخدمات إلى كتلة هادوب Hadoop Cluster ببساطة. يضيف كل مخدم جديد (الذي يمكن أن يكون عبارة عن أجهزة  x86 بأسعار رخيصة نسبياً) تخزيناً أكثر وقدرة معالجة أكبر لكتلة هادوب ككل. يجعل هذا تخزين البيانات بواسطة هادوب أرخص بكثير من الطرق السابقة لتخزين البيانات.

وهذا.. ماخلق الحاجة لوجود هادوب

لا نتكلم هنا عن تخزين البيانات من ناحية أرشفة، فذاك مجرد وضع البيانات على شريط. 

تحتاج الشركات لأن تخزن بشكل متزايد كميات أكبر من البيانات وأن تمتلك القدرة على الرجوع إليها لأهداف عديدة. ذاك النوع من تخزين البيانات كان مكلفاً قبل هادوب.

وما هي البيانات التي نحتاج لتخزينها؟ تحاول المؤسسات والشركات الصغيرة تعقب عدد كبير من مجموعات البيانات: رسائل البريد الإلكتروني ونتائج البحث وبيانات المبيعات وبيانات الزبائن إضافة إلى أمور حتى مثل التفضيلات في المواقع. يأتي كل هذا بصورة أسرع من أي وقت مضى، ومحاولة إدارته في نظام إدارة قواعد بيانات علائقية RDBMS  هو عملية مكلفة للغاية.

تاريخياً، كانت الشركات التي تحاول أن تتدبر التكاليف تأخذ عينة من تلك البيانات لتحولها إلى مجموعة أصغر. ستحمل هذه العينة الصغيرة من البيانات تلقائياً افتراضات معينة، أولها أن بعض البيانات أهم من غيرها. مثال هذا حالة شركة تعتمد على بيانات المعاملات التجارية عن طريق الانترنت، سترتب هذه الشركة أولوية بياناتها على افتراض منطقي بأن بيانات بطاقات الائتمان أهم من بيانات المنتج، والتي بدورها أهم من بيانات التفضيلات في المواقع.

لكن يمكن لهذا أن يتغير.. 

الأمر جيد إن كان عملك قائماً على مجموعة واحدة من الافتراضات. لكن ماذا سيحدث إن تغيرت؟ ستضطر أي سيناريوهات جديدة للعمل لإستخدام عينات البيانات التي ما تزال في التخزين، البيانات المستعادة على أساس الافتراضات الأصلية. ستكون البيانات الخام قد انتهت من فترة طويلة، حيث من المكلف جداً إبقاؤها. وهذا السبب لأخذ عينات منها في المقام الأول.

قاد التخزين القائم على نظام إدارة قواعد بيانات منطقية إلى تخزين البيانات في مستوعبات محدودة. المبيعات، التسويق، المحاسبة، كل منها له بياناته الخاصة. وأسوأ من ذلك، كل قسم سيكون قد أخذ عينات من بياناته بناء على افتراضاته الخاصة. وهذا ما يجعل من الصعب والمضلل جداً أن تستخدم البيانات لقرارات هامة في الشركة.

لكن هادوب غير المعايير…

تستخدم طريقة هادوب في التخزين نظام ملفات موزع يقوم بكشف البيانات أينما كانت في كتلة مخدمات هادوب. كما أن أدوات معالجة تلك البيانات موزعة أيضاً، وتقع غالباً على نفس المخدمات التي تضم البيانات، هذا ما يفيد في جعل معالجة البيانات أسرع.

الآن يسمح هادوب للشركات أن تخزن بيانات بثمن أقل بكثير. بكم؟ قدرRainstore  في عام 2012 كلفة تشغيل كتلة هادوب بمواصفات 75 عقدة وسعة 300 تيرابايت  بحوالي 1.05 مليون دولار على مدى ثلاث سنوات. 

باعت أوراكل قاعدة بيانات بأكثر من نصف السعة تقريباً (حوالي 168تيرابايت) مقابل 2.33 مليون دولار، بدون أن يشمل الأمر تكاليف التشغيل. 

يعني هذا النوع من الادخار للسعر أن هادوب تسمح للشركات أن تتكلف مصاريف الاحتفاظ ببياناتها كلها، ليس فقط الأجزاء التي تم أخذ عينات منها. ولسنا بحاجة إلى افتراضات مسبقة. كل البيانات تصبح متاحة بالتساوي، وبالتالي يمكن العمل على سيناريوهات مع بيانات خام في أي وقت نريده، دون حدود أو افتراضات. الأمر هام، لأنه إن لم نحتاج لإلقاء بيانات، فأي نموذج بياني تريد الشركة أن تجربه يصبح لعبة عادلة.

المزيد من فوائد هادوب

تسمح هادوب للشركات أن تخزن بياناتها بالشكل التي هي عليه-منظمة أو غير منظمة-لذا من غير الضروري أن ننفق المال والوقت لتكوين بيانات لقواعد البيانات وجداولها الجامدة. 

وبما أن هادوب يمكنه يتعامل مع التضخم بسهولة، يمكن له أن يكون المنصة المثلى لالتقاط كافة البيانات الآتية من عدة مصادر في آن واحد.

أكثر صفات هادوب المحمودة هي قدرته على تخزين البيانات بثمن أقل بكثير مما يمكن فعله مع برمجيات نظام إدارة قواعد بيانات منطقية. لكن هذا يشكل الجزء الأول من القصة فقط. القدرة على الاحتفاظ بهذا الكم الهائل من البيانات بسعر بخس تعني شركات يمكن أن تستخدم كل بياناتها لصنع قرارات أفضل.

لايوجد المزيد من المقالات