جوجل تعالج كمية من المعلومات تفوق ما لدى أية شركة على هذا الكوكب
أشلي فانس 2014/07/01 - 03:00:00
على مدى السنوات الخمس الماضية أو نحو ذلك، كان من السهل جداً أن تدعي بأنك تعرف شيئا عن البيانات الكبيرة. حين تذهب إلى حفل كوكتيل، الذي يجمع جميع الرجال المتحضرين، تمسك الكأس ثم تقول «Hadoop» مراراً وتكراراً وتظل تكررها. يومئ الناس بالقبول. فتأتيك عروض العمل المجزية بعبثية في اليوم التالي. هذا ترتيب بسيط ورائع.
حسناً، وضعت جوجل رسمياً حداً للوقت الجيد هذا الاسبوع. خلال بعض المحادثات في المؤتمر السنوي لمطوري الشركة، أعلن مدراء جوجل التنفيذيون أنهم استطاعوا التفوق على Hadoop. وبالتالي أصبحت هذه الكلمة موضة قديمة. وسيتوجب على أي شخص يريد أن يكون الفارس في البيانات الكبيرة الحقيقية الآن أن يكون ملماً بظواهر جديدة مثل (Flume)، ومطحنة العجلات Mill Wheel، و جوجل تدفق بيانات السحاب Google Cloud Dataflow وكذلك Spurch (أنا أمزح فهذه الشركة الأخيرة من اختراعي).
لكن إليكم بيان ما يجري وكيف تستفيدون من ذلك. منذ حوالي عقد من الزمن، كتب مهندسو جوجل بعض الأوراق يبينون فيها بالتفصيل طريقة جديدة لتحليل مخازن ضخمة من البيانات. أطلقوا على الأسلوب اسم MapReduce: كانت البيانات تنتشر في قطع صغيرة وبمقدار وفير عبر الآلاف من الخوادم؛ طلب من الناس وضع الأسئلة حول المعلومات؛ وتلقوا إجابات بعد بضع دقائق أو ساعات.
قادت ياهو الهجوم الرامي إلى تحويل هذه التكنولوجيا الأساسية في منتج مفتوح المصدر يسمى Hadoop. ومنذ ذلك الحين ساعد مئات من الشركات على تثبيت موقع Hadoop على أنه بصورة أو بأخرى المعيار الذي تتم به أعمال تحليل البيانات الحديثة. (لقد كتب الكثير حول هذا الموضوع.) مثل هذه الشركات الناشئة من قبيل Cloudera، Hortonworks، وMapR لديهم الإصدارات الخاصة بهم من Hadoop التي يمكن للشركات استخدامها. وبالتالي فإن أية شركة تحتاج إلى تحليل الكثير من المعلومات لديها فريق هادوب Hadoop خاص بها.
ربما جوجل تعالج مزيداً من المعلومات يفوق ما لدى أية شركة على هذا الكوكب، وتميل لابتكار أدوات للتعامل مع البيانات. ونتيجة لذلك، تدير تقنيتها الجيدة المتقدمة من خمس إلى 10 سنوات في صدارة المنافسة. هذا الأسبوع، كشفت عن أنها تخلت عن نهج MapReduce / Hadoop منذ بعض الوقت لصالح بعض نظم تحليل البيانات الأكثر مرونة.
كان أحد القيود الكبيرة التي تضعف من قدرة تحليلات Hadoop هو أنك تميل للقيام بالعمليات على شكل «دفعة»، وهو ما يعني أن يؤمر الكمبيوتر بتنفيذ عملية بكميات كبيرة ومن ثم انتظار النتيجة. قد تسأل النظام الرئيسي لمعالجة الرواتب في الشركة كمهمة دفعية، أو في مثال أكثر معاصرة، أن تطلب من الكمبيوتر أن يعطيك تحليلاً لجميع مصطلحات البحث عن ما كتبه الناس في ولاية تكساس في جوجل يوم الثلاثاء الماضي.
وفقاً لجوجل، يمكن لخدمة السحاب لتدفق البيانات ان تفعل كل هذا في حين تقوم ايضا بعمل وظائف تحليل البيانات على المعلومات الصحيحة أثناء ورودها في قاعدة البيانات. أحد الأمثلة على ذلك هو ما عرضته جوجل في مؤتمرها، حيث قدمت تحليلاً لحظياً حول التغريدات عن مباريات كأس العالم. وهذه كما تعلمون مسألة حياة أو موت!
اتخذت جوجل أدوات داخلية غير تقليدية مثل تلك التي سميت بأسماء غريبة مثل المجرى وعجل المطحنة وMill Wheel وجمعتها في رزم ضمن خدمة السحابة لحركة البيانات، التي تعتزم بدء تقديمها للمطورين والزبائن كخدمة في السحابة الإلكترونية. والوعد المقدم من الشركة هو أن الشركات الأخرى سوف تكون قادرة من خلال هذه الأساليب الجديدة على التعامل مع مزيد من المعلومات على نحو أسهل وأسرع من أي وقت مضى.
في حين أن جوجل تاريخياً شركة سرية للغاية، فإنها تنفتح بالتكنولوجيا الداخلية لمناورة تنافسية. جوجل تثبت أكثر استعداداً من أمازون مثلا لتسليم أشياء ذكية بناها مهندسوها للآخرين. إنها خطوة مفهومة، نظرا لريادة أمازون الكبيرة في ساحة الحوسبة السحابية.
ما هو حال عشيرة Hadoop؟ قد تعتقد أن انفتاح جوجل ووصفها لأسلوب Hadoop بأنه أصبح من الماضي سيجعل من الصعب الحفاظ على تفوق Hadoop بوصفها المنتَج المطلوب بقوة من الجميع والذي لا يمكن لشركتك أن تعيش من دونه. وهناك بعض الحقيقة في كون هذا مثار خلاف.
رغم ما تقدم، حتى أكبر المشجعين لـ Hadoop مثل Cloudera استطاعت تجاوز هذه التكنولوجيا منذ فترة. Cloudera تعتمد على حفنة من محركات تحليل البيانات بسرعة فائقة مثل سبارك وإمبالا، والتي يمكنها انتزاع البيانات من أنظمة التخزين القائمة Hadoop وغربلتها بطرق مماثلة لما تقوم به جوجل.
لكن النتيجة المؤلمة هي أن الدخول بطريق التزوير إلى داخل عالم البيانات الكبيرة سيكون أصعب بكثير اعتباراً من الآن.