هادوپ چارچوبی بازمتن برای نوشتن و اجرای برنامههای توزیع شده است که حجم بالایی از داده را پردازش میکنند. رایانش توزیع شده زمینهای گسترده و متنوع است اما هادوپ ویژگیهایی متفاوت دارد:
دسترسپذیر است: هادوپ روی کلاسترهای بزرگ از سرورهای معمولی (در دسترس) یا روی سرویسهای رایانش ابری همچون سرویس EC2 آمازون (Elastic Compute Cloud) اجرا میشود.
مقاوم است: زیرا بر روی سختافزارهایی معمولی اجرا میشود، هادوپ بدون اینکه نشان دهد از عهده خرابی گرهها بر میآید.زیرا فرض میکندکه عناصر رایانشی و ذخیرهسازی از کار خواهند افتاد، بنابرایم چندین کپی از دادهای که روی آن دارد کار میکند را نگه میدارد تا اطمینان حاصل کند که پردازش میتواند باز توزیع شود.
مقیاسپذیر است: هادوپ همچنان که حجم دادهها افزایش مییابد با افزودن گرههای جدید به کلاستر به صورت خطی گسترش مییابد و با این کار اجازه عملیات روی هزاران گیگابایت از دادهها را میدهد.
ساده است: هادوپ به کاربران این اجازه را میدهد که به سرعت کًدهای موازی کارا بنویسند.
به خاطر ویژگیهای یاد شده هادوپ به سرعت و به گستردگی از سوی شرکتها و مؤسسات مختلف پذیرفته شده است.در پیوست ب فهرست برخی از این شرکتها و مؤسسات آورده شده است.
همانگونه که در بالا هم گفته شده هادوپ روی سرورهای معمولی کار میکند، که استفاده آن را ارزان کرده و برای کاربرد هر کسی امکانپذیر میسازد.
هادوپ توسط Doug Cutting خالق Lucene (کتابخانه پرکاربرد جستجوی متن) ساخته شد. هادوپ پروژه Nutch (موتور جستجوی بازمتن وب) ریشه دارد که خود بخشی از پروژه Lucene بود.
ساخت موتور جستجوی وب از صفر هدفی بزرگ محسوب میشود چرا که از یکسو نوشتن نرمافزاری که در وبسایتها بخزد و آنها را نمایهسازی کند کاری پیچیده است و از دیگر سو اجرای آم بدون یک تیم عملیاتی تماموقت اختصاصی چالشبرانگیز است.
Nutch در سال ۲۰۰۲ آغاز شد و به سرعت یک خزندهی وب و یک سامانه جستجو برای آن ساخته شد. تیم سازنده دریافتند که معماری آنها برای میلیاردها صفحه روی وب گسترشپذیر نیست. چاپ مقالهای در سال ۲۰۰۳ به آنها کمک کرد که این مساله را حل نمایند. در این سال مقالهای چاپ شد که در آن معماری سیستمفایل توزیعشده گوگل یا همان GFS توضیح داده شده بود و این نیاز آنها به ذخیرهسازی فایلهای بسیار بزرگی که از خروجی فرآیند خزیدن در وب و نمایهسازی آن ساخته شده بود را حل میکرد. در سال ۲۰۰۴ آنها آغاز به پیادهسازی نسخهای بازمتن از آن کردند و آن را سیستمفایل توزیع شده ناچ (NDFS) نامیدند.
سال ۲۰۰۴ گوگل مقالهی دیگری چاپ کرد که در آن MapReduce را به جهانیان معرفی کرد. اوایل سال ۲۰۰۵ سازندگانNutch نسخهی پیادهسازی شده از MapReduce را ساخته بودند و در میانه سال همهی الگوریتمهای اصلی Nutch برای کار با MapReduce و NDFS تغییر یافته بودند.
نسخهی پیادهسازی شده از MapReduce و NDFS در Nutch برای کاربریهایی فراتر از جستجو نیز کاربرد داشت بنابراین در آغاز ۲۰۰۶ آنها از Nutch جدا ومستقل شده و Hadoop نام گرفتند.
تقریباً همزمان با این کار Doug Cutting به یاهو پیوست که تیم و منابع اختصاصی را برای کار بر روی هادوپ فراهم کرده بود تا آن را به سیستمی برای کار در مقیاس وب تبدیل کند.
در فوریه ۲۰۰۸ یاهو اعلام کرد که نمایه جستجوی آن توسط کلاستری از هادوپ با ۱۰۰۰۰ هسته ساخته میشود.
در ژانویه ۲۰۰۸ هادوپ یک پروژه سطح بالای بنیاد آپاچی شد که نشان دهنده موفقیت، مقبولیت و جامعه کاربری فعال آن است.
تا این زمان هادوپ توسط شرکتهای بسیاری دیگری جز یاهو نیز بکار گرفته شده است. از آن جملهاند Last.fm، فیس بوک و نیویورک تایمز.
در یک کار جالب نییورک تایمز از سرویس ابری EC2 آمازون استفاده کرد تا ۴ ترابایت صفحه اسکن شده را به PDF مناسب برای وب تبدیل نماید پردازش با استفاده از ۱۰۰ سرور کمتر از ۲۴ ساعت زمان برد.
در آوریل ۲۰۰۸ هادوپ رکورد جهانی را شکست و تیدیل به سریعترین سیستم مرتبسازی یک ترابایت داده شد. با اجرا روی کلاستری با ۹۱۰ گره، هادوپ یک ترابایت را در ۲۰۹ ثانیه (کمتر از ۳/۵ دقیقه) مرتب کرد و از رکورد سال پیش که ۲۹۷ ثانیه بود گذشت.
در نوامبر گوگل اعلام کرد که پیادهسازی MapReduce یک ترابایت را در ۶۸ ثانیه مرتب کرده است. در می ۲۰۰۹ یاهو اعلام کرد که توانسته یک ترابایت را با استفاده از هادوپ در ۶۲ ثاتیه مرتب نماید.
در سال ۲۰۱۰ هادوپ با اقبال عمومی روبرو شده است.