ما هي #تقنية الهادوبhadoop و ما هي البيانات العملاقة big data ??
لمحة عن البيانات الضخمة Big Data - عالم التقنية
https://www.tech-wd.com/wd/2013/07/24/what-is-big-data/amp/
تعريف
قبل أن نتطرق لتعريف البيانات الضخمة، علينا اولاً أن نعرف ما هي البيانات، وما اختلافها عن المعلومات.
البيانات هي الشكل الخام لأي محتوى ننتجه، مثلاً لو كان لديك عشرة أشخاص وقمت بقياس أطوالهم وسجلتها على ورقة، هذه الورقة تحوي بيانات.
المعلومات هي مخرجات أية عملية معالجة للبيانات الخام, بمعنى لو اخذت أطول هؤلاء الأشخاص العشرة وقمت بالحصول على متوسط حسابي لها، هذا المتوسط هو معلومة، لأنه يعطي مقياس مفيد. بينما البيانات مجرد أرقام مسجلة على ورقة.
عرف معهد ماكنزي العالمي سنة 2011 البيانات الضخمة أنها أي مجموعة من البيانات التي هي بحجم يفوق قدرة أدوات قواعد البيانات التقليدية من إلتقاط، تخزين، إدارة و تحليل تلك البيانات.
وتتألف البيانات الضخمة من كل من المعلومات المنظمة والتي تشكل جزء ضئيل يصل إلى 10% مقارنة بالمعلومات غير المنظمةوالتي تشكل الباقي.
والمعلومات غير المنظمة هي ما ينتجه البشر، كرسائل البريد الإلكتروني، مقاطع الفيديو، التغريدات، منشورات فيس بوك، رسائل الدردشة على الواتساب، النقرات على المواقع وغيرها.
البيانات الضخمة Big data أصبحت واقع نعيشه، حتى أن قاموس أوكسفورد اعتمد المصطلح و أضافه للقاموس مع مصطلحات مستحدثة أخرى مثل التغريدة tweet.
كم يعني ضخمة؟
ما هو ضخم اليوم، لن يكون كذلك غداً. وما هو ضخم بالنسبة لك، يعد صغيراً جداً لغيرك. وهنا يبرز التحدي لتعريف معنى الضخم.
ومنذ العام الماضي كانت الحدود المفروضة على حجم مجموعات البيانات الملائمة للمعالجة في مدة معقولة من الوقت خاضعة لوحدة قياس البيانات إكسابايت.
تقدر أبحاث شركة إنتل أن حجم البيانات التي ولدها البشر منذ بداية التاريخ وحتى عام 2003 ما قدره 5 إكسابايت، لكن هذا الرقم تضاعف 500 مرة خلال عام 2012 ليصل إلى 2.7 زيتابايت، ويتوقع أن يتضاعف هذا الرقم أيضاً ثلاث مرات حتى عام 2015.
مثال: طائرة ايرباص A380 تنتح مليار سطر من الشيفرات البرمجية كل نصف ساعة، أو لنقل 10 تيرابايت من البيانات، هذه البيانات تولدها المحركات والحساسات في الطائرة عن كل التفاصيل الدقيقة المصاحبة لرحلتها، و تذكر هذه مجرد نصف ساعة في رحلة واحدة فقط من طائرة واحدة فقط.
وبالمثل فلو سافرت بالطائرة في رحلة من مطار هيثرو إلى مطار كيندي، فإن الرحلة سينتج عنها 640 تيرابايت من البيانات. فتخيل كم رحلة تقطعها الطائرات يومياً، ومنه ستتخيل طبيعة حجم البيانات الضخمة. وبهذه المقاييس فإن كل ما كنا نعرفه على أنه بيانات ضخمة، يصبح قزماً.
و يقوم كل فرد منا بإطلاق 2.2 مليون تيرا بايت من البيانات يومياً، و هناك 12 تيرابايت من التغريدات يومياً مع 25 تيرابايت من سجلات الدخول على فيس بوك يومياً و على تويتر أكثر من 200 مليون مستخدم نشط يكتبون أكثر من 230 مليون تغريدة يوميا.
حجم البيانات كان في 2009 حوالي 1 زيتا بايت ( تريليون غيغابايت ) و في 2011 ارتفع إلى 1.8 زيتا بايت
تقول IBM إننا ننتج 2.5 كوينتيليون بايت من البيانات كل يوم (الكوينتيليون هو الرقم واحد متبوعاً بـ18 صفراً). هذه البيانات تنبع من كل مكان، مثل المعلومات حول المناخ والتعليقات المنشورة على مواقع التواصل الاجتماعي والصور الرقمية والفيديوهات ومعاملات البيع والشراء
تعد البيانات الضخمة الجيل القادم من الحوسبة والتي تعمل على خلق القيمة من خلال مسح وتحليل البيانات.
ومع مرور الزمن أصبحت البيانات التي ينتجها المستخدمين تنمو بشكل متسارع لعدة أسباب، منها بيانات المشتريات في محلات السوبر ماركت و الأسواق التجارية و فواتير الشحن و المصارف و الصحة والشبكات الإجتماعية.
ومع تطوير تقنيات التعرف على الوجه و الأشخاص، فإنها ستتمكن من العثور على المزيد من التفاصيل والمعلومات عن أي شخص، ومع تزايد عدد الأجهزة المتصلة بالإنترنت، الأجهزة التي لم نعتد عليها أن تتصل بالشبكة العالمية مثل السيارات و البرادات و الغسالات فإنها كلها تساهم في زيادة حجم البيانات المنتجة.
خصائص البيانات الضخمة
وحتى تكون البيانات ضخمة يجب توفر ثلاثة عوامل رئيسية:
– الحجم: وهو عدد التيراباتيت من البيانات التي نطلقها يومياً من المحتوى.
– التنوع: وهو تنوع هذه البيانات ما بين مهيكلة وغير مهيكلة ونصف مهيكلة
– السرعة: مدى سرعة تواتر حدوث البيانات، مثلاً تختلف سرعة نشر التغريدات عن سرعة مسح أجهزة الاستشعار عن بعد لتغييرات المناخ.
لكن ما هي خصائص البيانات الضخمة؟ يتم تمييز البيانات الضخمة من خلال الحجم، التنوع، و السرعة. ومن خلال دراسة الحجم الكبير للبيانات يمكن للشركات أن تفهم زبائنها بشكل أفضل، تخيل مثلاً البحث في بيانات مشتريات مليون شخص يتعامل مع متجر وول مارت، هذا البحث والتحليل في الكم الهائل من فواتير المشتريات وتكرار المشتريات و تنوعها، سيعطي معلومات مفيدة جداً للإدارة ومتخذي القرار.
وتبرز التحديات أمام أدوات إدارة قواعد البيانات التقليدية في التعامل مع البيانات المتنوعة و السريعة، حيث كانت قواعد البيانات التقليدية تتعامل مع المستندات النصية و الأرقام فقط، أما البيانات الضخمة اليوم تحوي أنواع جديدة من البيانات التي لا يمكن تجاهلها، كالصور و المقاطع الصوتية و الفيديو و النماذج ثلاثية الأبعاد وبيانات المواقع الجغرافية وغيرها.
ومع تزايد حجم وتنوع البيانات التي تتعامل معها الشركات اليوم وجدت نفسها أمام طريقين، إما تجاهل هذه البيانات، أو البدء بالتكيف معها تدريجياً لفهمها والإستفادة منها. لكن مع إستخدام الأدوات التقليدية المتبعة سابقاً لا يمكنك تحليل و الإستفادة من هذه البيانات الجديدة الضخمة.
وعلى سبيل المثال فإن غالبية المتاجر الضخمة و الأسواق التجارية التي تتعامل مع بطاقات الولاء، لا تستفيد من هذه البيانات وتعالجها بطريقة تساعدها على فهم المشترين بشكل أفضل لتطوير نموذج بطاقات الولاء.
وأيضاً كل مقاطع الفيديو التي تسجلها الأجهزة الطبية خلال العمليات الجراحية، لا يتم الإستفادة منها بالشكل المطلوب، بل ويتم حذفها خلال أسابيع.
واليوم تعد Hadoop من أفضل تقنيات التعامل مع البيانات الضخمة، وهي مكتبة مفتوحة المصدر مناسبة للتعامل مع البيانات الضخمة المتنوعة و السريعة، وتستخدم شركات كبرى خدمة Hadoop، مثلاً هناك لينكدإن الشبكة الإجتماعية المتخصصة بالوظائف والعمل تستخدم الخدمة من أجل توليد أكثر من 100 مليار مقترح على المستخدمين أسبوعياً.
لكن ما الفائدة من البيانات الضخمة؟ تقول IBM أن البيانات الضخمة تعطيك فرصة إكتشاف رؤى مهمة في البيانات، وتقول أوراكل أن البيانات الضخمة تتيح للشركات أن تفهم بعمق أكثر زبائنها.
قدرت شركة سيسكو أنه وبحلول عام 2015 فإن حركة الزيارات على الإنترنت بالشكل الإجمالي ستتجاوز 4.8 زيتابايت ( أي 4.8 مليار تيرا بايت ) سنوياً.
ما الذي يجعل هادوب Hadoop أمراً هاماً جداً في عالم البيانات؟ | Hyper Stage
https://hyperstage.net/2013/08/what-makes-hadoop-special/
هادوب هي طفل عالم البيانات الضخمة Big Data المدلل. مدلل لدرجة أن منصة البيانات المفتوحة المصدر هذه أصبحت عملياً مصطلحاً مرادفاً للمصطلح الشائع لتخزين وتحليل كميات كبيرة من المعلومات.
هادوب ليست اللاعب الوحيد في هذا العالم، لكن كان لهذا التطبيق البرمجي تأثيراً ملحوظاً في عالم البيانات. ما الذي يجعله مهماً لهذه الدرجة؟
قد تكون الأسباب الكامنة وراء نجاح شيء ما أمامك مباشرة أحياناً. لكن وبالنسبة لهادوب ونجاحه، كان المحفز الأكبر في السوق بسيط: قبل هادوب، تخزين البيانات كان باهظ الثمن.
يسمح لك هادوب بأن تخزن القدر الذي ترغبه من المعلومات بأي صيغة تريد عن طريق إضافة مزيد من المخدمات إلى كتلة هادوب Hadoop Cluster ببساطة. يضيف كل مخدم جديد (الذي يمكن أن يكون عبارة عن أجهزة x86 بأسعار رخيصة نسبياً) تخزيناً أكثر وقدرة معالجة أكبر لكتلة هادوب ككل. يجعل هذا تخزين البيانات بواسطة هادوب أرخص بكثير من الطرق السابقة لتخزين البيانات.
وهذا.. ماخلق الحاجة لوجود هادوب
لا نتكلم هنا عن تخزين البيانات من ناحية أرشفة، فذاك مجرد وضع البيانات على شريط.
تحتاج الشركات لأن تخزن بشكل متزايد كميات أكبر من البيانات وأن تمتلك القدرة على الرجوع إليها لأهداف عديدة. ذاك النوع من تخزين البيانات كان مكلفاً قبل هادوب.
وما هي البيانات التي نحتاج لتخزينها؟ تحاول المؤسسات والشركات الصغيرة تعقب عدد كبير من مجموعات البيانات: رسائل البريد الإلكتروني ونتائج البحث وبيانات المبيعات وبيانات الزبائن إضافة إلى أمور حتى مثل التفضيلات في المواقع. يأتي كل هذا بصورة أسرع من أي وقت مضى، ومحاولة إدارته في نظام إدارة قواعد بيانات علائقية RDBMS هو عملية مكلفة للغاية.
تاريخياً، كانت الشركات التي تحاول أن تتدبر التكاليف تأخذ عينة من تلك البيانات لتحولها إلى مجموعة أصغر. ستحمل هذه العينة الصغيرة من البيانات تلقائياً افتراضات معينة، أولها أن بعض البيانات أهم من غيرها. مثال هذا حالة شركة تعتمد على بيانات المعاملات التجارية عن طريق الانترنت، سترتب هذه الشركة أولوية بياناتها على افتراض منطقي بأن بيانات بطاقات الائتمان أهم من بيانات المنتج، والتي بدورها أهم من بيانات التفضيلات في المواقع.
لكن يمكن لهذا أن يتغير..
الأمر جيد إن كان عملك قائماً على مجموعة واحدة من الافتراضات. لكن ماذا سيحدث إن تغيرت؟ ستضطر أي سيناريوهات جديدة للعمل لإستخدام عينات البيانات التي ما تزال في التخزين، البيانات المستعادة على أساس الافتراضات الأصلية. ستكون البيانات الخام قد انتهت من فترة طويلة، حيث من المكلف جداً إبقاؤها. وهذا السبب لأخذ عينات منها في المقام الأول.
قاد التخزين القائم على نظام إدارة قواعد بيانات منطقية إلى تخزين البيانات في مستوعبات محدودة. المبيعات، التسويق، المحاسبة، كل منها له بياناته الخاصة. وأسوأ من ذلك، كل قسم سيكون قد أخذ عينات من بياناته بناء على افتراضاته الخاصة. وهذا ما يجعل من الصعب والمضلل جداً أن تستخدم البيانات لقرارات هامة في الشركة.
لكن هادوب غير المعايير…
تستخدم طريقة هادوب في التخزين نظام ملفات موزع يقوم بكشف البيانات أينما كانت في كتلة مخدمات هادوب. كما أن أدوات معالجة تلك البيانات موزعة أيضاً، وتقع غالباً على نفس المخدمات التي تضم البيانات، هذا ما يفيد في جعل معالجة البيانات أسرع.
الآن يسمح هادوب للشركات أن تخزن بيانات بثمن أقل بكثير. بكم؟ قدرRainstore في عام 2012 كلفة تشغيل كتلة هادوب بمواصفات 75 عقدة وسعة 300 تيرابايت بحوالي 1.05 مليون دولار على مدى ثلاث سنوات.
باعت أوراكل قاعدة بيانات بأكثر من نصف السعة تقريباً (حوالي 168تيرابايت) مقابل 2.33 مليون دولار، بدون أن يشمل الأمر تكاليف التشغيل.
يعني هذا النوع من الادخار للسعر أن هادوب تسمح للشركات أن تتكلف مصاريف الاحتفاظ ببياناتها كلها، ليس فقط الأجزاء التي تم أخذ عينات منها. ولسنا بحاجة إلى افتراضات مسبقة. كل البيانات تصبح متاحة بالتساوي، وبالتالي يمكن العمل على سيناريوهات مع بيانات خام في أي وقت نريده، دون حدود أو افتراضات. الأمر هام، لأنه إن لم نحتاج لإلقاء بيانات، فأي نموذج بياني تريد الشركة أن تجربه يصبح لعبة عادلة.
المزيد من فوائد هادوب
تسمح هادوب للشركات أن تخزن بياناتها بالشكل التي هي عليه-منظمة أو غير منظمة-لذا من غير الضروري أن ننفق المال والوقت لتكوين بيانات لقواعد البيانات وجداولها الجامدة.
وبما أن هادوب يمكنه يتعامل مع التضخم بسهولة، يمكن له أن يكون المنصة المثلى لالتقاط كافة البيانات الآتية من عدة مصادر في آن واحد.
أكثر صفات هادوب المحمودة هي قدرته على تخزين البيانات بثمن أقل بكثير مما يمكن فعله مع برمجيات نظام إدارة قواعد بيانات منطقية. لكن هذا يشكل الجزء الأول من القصة فقط. القدرة على الاحتفاظ بهذا الكم الهائل من البيانات بسعر بخس تعني شركات يمكن أن تستخدم كل بياناتها لصنع قرارات أفضل.
#منقول من مجموعة Telecom Engineering
Shared by Eng: Yaseen Alzuraiqi
No comments:
Post a Comment