خانه / کلان داده / ابزار و کتابخانه ها

ابزار و کتابخانه ها

آپاچی اَپکس : چارچوب پردازش داده سازمانی

در ادامه مباحث آشنایی با چارچوب‌های پردازش داده‌های جریانی بنیاد آپاچی، در این نوشتار به معرفی آپاچی اَپکس می‌پردازیم. شرکت DataTorrent یکی از شرکتهای فعال در حوزه پردازش جریان و مستقر در دره سیلیکون آمریکاست. این شرکت در سال ۲۰۱۵ تصمیم گرفت یکی از محصولات تجاری پردازش جریان خود را ...

ادامه مطلب »

مدیریت گرافیکی پروژه‌های کلان‌داده با آپاچی نایفای

اگر قصد طراحی یک سامانه پردازش داده با ابزارهای متنوع متن‌باز امروزی مانند هدوپ، اسپارک، ایگنایت ، فلینک و مشابه آنرا دارید و خواندن از منابع داده و ذخیره نتایج را هم می‌خواهید خودتان مدیریت کنید، آپاچی نایفای به صورت گرافیکی و بسیار سریع، ابزار لازم را در اختیار شما می ‌گذارد. با هم به بررسی این پروژه رو به رشد آپاچی می‌پردازیم.

ادامه مطلب »

گامی به جلو در استفاده تجاری از هدوپ

در 12 مهر ماه سالجاری دو شرکت بزرگ هورتون‌ورکز و کلوداِرا رسما ادغام خود را اعلام کردند. خبری که نویدبخش گسترش هر چه بیشتر هدوپ در سامانه‌های تجاری دنیا خواهد بود.

ادامه مطلب »

سامانه‌های پردازش جریان : استورم و هِرون

در ادامه سری آموزشی آشنایی با فریم‌ورک‌های پردازش جریان، در این مقاله به مروری بر آپاچی استورم و نسخه جدید آن یعنی آپاچی هِرون می پردازیم

ادامه مطلب »

سامانه‌های پردازش جریان : اسپارک

در این مقاله ابتدا به بررسی معیارهای سنجش سامانه های پردازش جریان میپردازیم و سپس یکی از رایجترین این سامانه‌ها ، یعنی اسپارک استریمینگ معرفی خواهد شد.

ادامه مطلب »

نگاهی به امکانات هدوپ ۳ – بخش دوم

در ادامه بررسی امکانات جدید هدوپ ۳ که در بخش اول این نوشتار به آنها اشاره شد، در این مقاله به سایر امکانات و تغییراتی که در نسخه جدید هدوپ شاهد آنها هستیم، می پردازیم. معرفی نسخه ۲ سرویس خط زمان Yarn قبل از بررسی نسخه جدید سرویس خط زمان ...

ادامه مطلب »

نگاهی به تغییرات هدوپ در نسخه ۳ – بخش اول

در ماه های انتهایی سال ۲۰۱۷ بعد از چندین سال کار مداوم، نسخه ۳ هدوپ به صورت رسمی عرضه شد. در این مقاله به قابلیتهای نوین این نسخه از چارچوب پردازشی محبوب کلان داده خواهیم پرداخت. تغییرات اصلی که در این نسخه شاهد هستیم عبارتند از : با هم این ...

ادامه مطلب »

آپاچی پولسار : رقیب تازه نفس کافکا

کافکا به عنوان یک سامانه توزیع پیام  مقیاس پذیر، امروزه به یک استاندارد در طراحی سامانه های کلان اطلاعاتی و معماریهای بیگ داده تبدیل شده است. برای ساخت یک خط تولید پردازش داده، داده ها را از منابع مختلف مانند شبکه های اجتماعی، حسگرها، فراخوانی های  API، نقاط مهم در ...

ادامه مطلب »

سیستم فایل پیشنهادی برای ذخیره و بازیابی میلیون ها فایل

یکی از خوانندگان عزیز سایت مهندسی داده، سوالی از بنده پرسیده بود که برای یک سامانه که نیاز به ذخیره و بازیابی میلیون ها عکس دارد، از چه روشی برای مدیریت فایلها استفاده کنم ؟ به سراغ HDFS بروم یا بانک های اطلاعاتی نوین NoSQL را انتخاب کنم ؟ تصمیم ...

ادامه مطلب »

آموزش اسپارک: مفاهیم پایه

مقدمه در ادامه مباحث آموزشی اسپارک، در این نوشتار به توضیح مفاهیم پایه اسپارک و چگونگی استفاده از آن درون یک کتابچه پایتون (نوت بوک) خواهیم پرداخت. همانطور که می دانید بسیاری از چارچوب های سنتی پردازش داده برای اجرا درون یک کامپیوتر طراحی شده بودند. اما مجموعه داده های ...

ادامه مطلب »