منبع اصلی نوشتار زیر در این لینک قرار دارد

با hadoop آشنا شویم

\"Hadoop

هادوپ چارچوبی بازمتن برای نوشتن و اجرای برنامه‌های توزیع شده است که حجم بالایی از داده را پردازش می‌کنند. رایانش توزیع شده زمینه‌ای گسترده و متنوع است اما هادوپ ویژگی‌هایی متفاوت دارد:

دسترس‌پذیر است: هادوپ روی کلاسترهای بزرگ از سرورهای معمولی (در دسترس) یا روی سرویس‌های رایانش ابری همچون سرویس EC2 آمازون (Elastic Compute Cloud) اجرا می‌شود.
مقاوم است: زیرا بر روی سخت‌افزارهایی معمولی اجرا می‌شود، هادوپ بدون اینکه نشان دهد از عهده خرابی گره‌ها بر می‌آید.زیرا فرض می‌کندکه عناصر رایانشی و ذخیره‌سازی از کار خواهند افتاد، بنابرایم چندین کپی از داده‌ای که روی آن دارد کار می‌کند را نگه می‌دارد تا اطمینان حاصل کند که پردازش می‌تواند باز توزیع شود.
مقیاس‌پذیر است: هادوپ همچنان که حجم داده‌ها افزایش می‌یابد با افزودن گره‌های جدید به کلاستر به صورت خطی گسترش می‌یابد و با این کار اجازه عملیات روی هزاران گیگابایت از داده‌ها را می‌دهد.
ساده است: هادوپ به کاربران این اجازه را می‌دهد که به سرعت کًدهای موازی کارا بنویسند.
به خاطر ویژگی‌های یاد شده هادوپ به سرعت و به گستردگی از سوی شرکت‌ها و مؤسسات مختلف پذیرفته شده است.در پیوست ب فهرست برخی از این شرکت‌ها و مؤسسات آورده شده است.
همانگونه که در بالا هم گفته شده هادوپ روی سرورهای معمولی کار می‌کند، که استفاده  آن را ارزان کرده و برای کاربرد هر کسی امکان‌پذیر ‌می‌سازد.

هادوپ توسط Doug Cutting خالق Lucene (کتابخانه پرکاربرد جستجوی متن) ساخته شد. هادوپ پروژه Nutch (موتور جستجوی بازمتن وب) ریشه دارد که خود بخشی از پروژه Lucene بود.

ساخت موتور جستجوی وب از صفر هدفی بزرگ محسوب می‌شود چرا که از یک‌سو نوشتن نرم‌افزاری که در وب‌سایت‌ها بخزد و آن‌ها را نمایه‌سازی کند کاری پیچیده است و از دیگر سو اجرای آم بدون یک تیم عملیاتی تمام‌وقت اختصاصی چالش‌برانگیز است.

Nutch در سال ۲۰۰۲ آغاز شد و به سرعت یک خزنده‌ی وب و یک سامانه جستجو برای آن ساخته شد. تیم سازنده دریافتند که معماری آن‌ها برای میلیاردها صفحه روی وب گسترش‌پذیر نیست. چاپ مقاله‌ای در سال ۲۰۰۳ به آن‌ها کمک کرد که این مساله را حل نمایند. در این سال مقاله‌ای چاپ شد  که در آن معماری سیستم‌فایل توزیع‌شده گوگل یا همان GFS توضیح داده شده بود و این نیاز آن‌ها به ذخیره‌سازی فایل‌های بسیار بزرگی که از خروجی فرآیند خزیدن در وب و نمایه‌سازی آن ساخته شده بود را حل می‌کرد. در سال ۲۰۰۴ آن‌ها آغاز به پیاده‌سازی نسخه‌ای بازمتن از آن کردند و آن را سیستم‌فایل توزیع شده ناچ (NDFS) نامیدند.
سال ۲۰۰۴ گوگل مقاله‌ی دیگری چاپ کرد که در آن MapReduce را به جهانیان معرفی کرد. اوایل سال ۲۰۰۵ سازندگانNutch  نسخه‌ی پیاده‌سازی شده از MapReduce را ساخته بودند و در میانه سال همه‌ی الگوریتم‌های اصلی Nutch برای کار با MapReduce  و NDFS  تغییر یافته بودند.

نسخه‌ی پیاده‌سازی شده از MapReduce  و NDFS  در Nutch برای کاربری‌هایی فراتر از جستجو نیز کاربرد داشت بنابراین در آغاز ۲۰۰۶ آن‌ها از Nutch  جدا ومستقل شده و Hadoop  نام گرفتند.
تقریباً همزمان با این کار Doug Cutting  به یاهو پیوست که تیم و منابع اختصاصی را برای کار بر روی هادوپ فراهم کرده بود تا آن را به سیستمی برای کار در مقیاس وب تبدیل کند.
در فوریه ۲۰۰۸ یاهو اعلام کرد که نمایه جستجوی آن توسط کلاستری از هادوپ با ۱۰۰۰۰ هسته ساخته می‌شود.
در ژانویه ۲۰۰۸ هادوپ یک پروژه سطح بالای بنیاد آپاچی شد که نشان دهنده موفقیت، مقبولیت و جامعه کاربری فعال آن است.
تا این زمان هادوپ توسط شرکت‌های بسیاری دیگری جز یاهو نیز بکار گرفته شده است. از آن جمله‌اند Last.fm، فیس بوک و نیویورک تایمز.
در یک کار جالب نییورک تایمز از سرویس ابری EC2 آمازون استفاده کرد تا ۴  ترابایت صفحه اسکن شده را به PDF مناسب برای وب تبدیل نماید پردازش با استفاده از ۱۰۰ سرور کمتر از ۲۴ ساعت زمان برد.
در آوریل ۲۰۰۸ هادوپ رکورد جهانی را شکست و تیدیل به سریع‌ترین سیستم مرتب‌سازی یک ترابایت داده شد. با اجرا روی کلاستری با ۹۱۰ گره، هادوپ یک ترابایت را در ۲۰۹ ثانیه (کمتر از ۳/۵ دقیقه) مرتب کرد و از رکورد سال پیش که ۲۹۷ ثانیه بود گذشت.
در نوامبر گوگل اعلام کرد که پیاده‌سازی MapReduce  یک ترابایت را در ۶۸ ثانیه مرتب کرده است. در می ۲۰۰۹ یاهو اعلام کرد که توانسته یک ترابایت را با استفاده از هادوپ در ۶۲ ثاتیه مرتب نماید.
در سال ۲۰۱۰ هادوپ با اقبال عمومی روبرو شده است.



برچسب ها : , , , , , , , ,