آموزش هدوپ از پایه – راه اندازی هدوپ و نصب ابزار لازم

برای آشنایی با جنبه های مختلف سامانه های کلان داده،بهتر است به جای خواندن مقالات مختلف و گشت و گذار در اینترنت ، دستها را بالا بزنیم و کار را به صورت عملی فرا بگیریم . سعی داریم از این پس ، به صورت هفتگی یک آموزش عملی از هدوپ را برای علاقه مندان روی سایت قرار دهیم که امیدوارم کمکی هر چند کوچک به رشد جامعه نوپای مهندسین داده کشور و بخصوص مبحث کلان داده باشد .
در این آموزش ها از ماشین مجازی آماده شده شرکت هورتن ورکز (Hortonworks Sandbox) استفاده می کنیم و در هر آموزش یک بخش از نرم افزارها و کتابخانه های کلان داده را با هم مرور خواهیم کرد.
چرا ماشین مجازی و چرا لینوکس ؟
برای کار با هدوپ، با توجه به اینکه تقریباً تمام فناوریهای مرتبط با آن، بر پایه لینوکس بنا شده اند، نیازمند لینوکس هستیم که به صورت حرفه ای با آن کار کنیم و برای محیط های واقعی هم آماده شویم . اما از آنجا که اکثر ما سیستم های مبتنی بر ویندوز داریم، بهتر است به جای نصب لینوکس در کنار ویندوز از نرم افزارهای شبیه ساز سیستم های عامل (ماشین های مجازی) استفاده کنیم که به ما اجازه اجرای لینوکس را درون ویندوز و در یک محیط کاملا ایزوله و شبیه به محیط واقعی می دهند.
دو تا از معروفترین این نرم افزارهای شبیه ساز، VMWare و VirtualBox هستند که هر چند ما در این آموزش از VB اوراکل استفاده کرده ایم اما اگر شما VmWare را ترجیح می دهید کافیست نسخه ماشین مجازی مخصوص VMWare را از سایت هورتون ورکز دانلود و اجرا کنید .
از طرفی نصب و پیکربندی هدوپ و انواع نرم افزار موردنیاز کار با کلان داده بر روی یک لینوکس خام ، کاری تخصصی است و نیاز به آشنایی مناسب با لینوکس و جاوا و … دارد و برای کاربران تازه کار این حوزه ممکن است زمان بر و اذیت کننده باشد، بنابراین ما تصمیم گرفتیم از محیط های مجازی آماده شده هدوپ استفاده کنیم و کار با هدوپ را به سرعت و به صورت عملی شروع کنیم .
در ادامه کار و با مهارت یافتن در در این حوزه، در صورت نیاز به نصب هدوپ و ابزارهای لازم روی سرورهای واقعی، هم می توانید از خود این ماشین مجازی آماده شده استفاده کنید و هم می توانید با استفاده از مستندات متنوع موجود، آنها را به ترتیب روی یک لینوکس خام نصب و پیکربندی کنید .
چرا هورتون ورکز ؟
مستندات و امکانات مختلف و آموزشهای متنوعی که هورتون ورکز برای کار با ماشین مجازی آماده شده خود (Hortonworks Sandbox) در نظر گرفته است، ما را بر آن داشت که از ماشین مجازی یکپارچه و کامل این شرکت استفاده کنیم . هرچند این انتخاب، چند ایراد نیز دارد . اول اینکه فعلاً ایران در لیست تحریم های این شرکت است و دانلود و مشاهده مستندات آن، چندان برای کاربران ایرانی آسان نیست اما امیدواریم در یکی دوماه آینده و با برداشته شدن تحریم های ایران این مشکل هم رفع شود. دومین مشکل هم حجم بالای نسخه آماده شده هدوپ این شرکت است که در حال حاضر حدود شش گیگابایت است. نکته منفی آخر این تصمیم هم نیاز به حداقل چهار گیگابایت رم برای ماشین مجازی و یک سخت افزار مناسب است .
اما با در نظر اینکه هر که طاووس خواهد جور هندوستان کشد، با همین ماشین مجازی هورتون ورکز کار خواهیم کرد .
دانلود ابزار و امکانات لازم
برای شروع کار، به سه نرم افزار یا ابزار نیاز خواهید داشت :
- نرم افزار VirtualBox – از اینجا دانلود کنید.
- ماشین مجازی آماده شرکت هورتون ورکز – hortonworks Sandbox
- نرم افزار PuTYY برای اتصال به خط فرمان لینوکس (و برای باز کردن چندین پنجره همزمان بهتر است SuperPuTTY را هم دانلود کنید)
با نصب VB و دانلود ماشین مجازی هدوپ، با گزینه Import Appliance از منوی فایل VB ماشین مجازی هدوپ را در ورچوال باکس بارگذاری کنید. اکنون کافیست روی این ماشین مجازی جدید، کلیک کرده و گزینه شروع را بزنید تا لینوکس مربوطه شروع به بارگذاری کند.
هنگام بالا آمدن لینوکس، پیغامهایی مشابه این را خواهید دید :
پس از چند لحظه (که بسته به سخت افزار سیستم شما ممکن است یکی دو دقیقه این فرآیند طول بکشد)، صفحه شروع به کار سرور را مشاهده خواهید کرد :
تبریک می گوییم . هدوپ شما آماده استفاده است !!
نام کاربر اصلی سیستم هم root و پسورد آن hadoop است.
و برای ورود به خط فرمان لینوکس هم می توانید از همین پنجره با زدن دکمه Alt+F5 یا از ایجاد اتصال ssh با نرم افزار PuTTY به آدرس ۱۲۷٫۰٫۰٫۱ و پورت ۲۲۲۲ استفاده کنید و نام کاربری و رمز عبور داده شده فوق را وارد کنید.
همانطور که می بینید و نمایش داده شده است ، برای ورود به سامانه مدیریتی هدوپ از آدرس زیر در مرورگر خود می توانید استفاده کنید :
۱۲۷٫۰٫۰٫۱:۸۸۸۸
با زدن این آدرس در نوار آدرس مرورگر، صفحه زیر را مشاهده خواهید کرد :
برای ورود به داشبورد مدیریتی Ambari که یک محیط گرافیکی و مناسب برای مدیریت کلاستر های هدوپ است و در این آموزش از آن به کرات استفاده خواهیم کرد از آدرس زیر در مرورگر استفاده کنید :
۱۲۷٫۰٫۰٫۱:۸۰۸۰
برای ورود به پنل مدیریتی از رمز عبور و پسورد admin استفاده کنید .
تصویر زیر نمونه ای از این داشبورد مدیریتی هدوپ و ابزارهای مرتبط را به شما نشان می دهد :
همانطور که می بینید همه چیز آماده است و کافیست طبق آموزشهای بعدی جلو بروید تا یک دید کلی نسبت به فناوریهای حوزه کلان داده پیدا کنید .
نصب هدوپ در اوبونتو
اگر مایل به نصب هدوپ بر روی اوبونتو سرور هستید، مقالات سری کلانداده به زبان ساده را از دست ندهید که به صورت گرافیکی و مرحله به مرحله، نصب هدوپ بر روی اوبونتو و ابزار لازم برای کار با آن، توضیح داده شده است.
سلام فایلهای virtual box شامل part1,4هستند ۲ تاش نیست!راهنمایی می فرمایید.
مهندسی داده :
به دلیل حجم بالا و در دسترس نبودن اینترنت مناسب این امر به تعویق افتاد . تا چند روز آینده ان شالله بارگذاری می شود.
از مشکل پیش آمده برای شما عذرخواهیم .
سلام .
فایلهای مورد نیاز در سایت دانشگاه بزرگمهر آپلود شد و لینک آن در مقاله جایگزین شد .
سلام
ممنون از آموزشتون
من با سیستم عامل لینوکس، اوبونتو کار میکنم. میخواستم بدونم امکانش هست HortonWork رو بدون ماشین مجازی مستقیم روی اوبونتو نصب کنم؟
ممنون
سلام .
ماشین مجازی ای که هورتون ورکز ارائه کرده خودش یک سیستم عامل کامله و امکان اینکه روی لینوکس نصب بشه را نداره .
سلام برای کار با hortonworks در حد ابتدایی و شروع کار باابزارها آموزشی رو پیشنهاد میدید؟
سلام. امروزه خیلی هدوپ به صورت عملی استفاده نمیشه . اگر نیاز به بالا آوردن هدوپ دارید از نسخه استاندارد هدوپ موجود در hub.docker.com استفاده کنید.