خانه / کلان داده / ابزار و کتابخانه ها

ابزار و کتابخانه ها

نگاهی به امکانات هدوپ ۳ – بخش دوم

در ادامه بررسی امکانات جدید هدوپ ۳ که در بخش اول این نوشتار به آنها اشاره شد، در این مقاله به سایر امکانات و تغییراتی که در نسخه جدید هدوپ شاهد آنها هستیم، می پردازیم. معرفی نسخه ۲ سرویس خط زمان Yarn قبل از بررسی نسخه جدید سرویس خط زمان ...

ادامه مطلب »

نگاهی به تغییرات هدوپ در نسخه ۳ – بخش اول

در ماه های انتهایی سال ۲۰۱۷ بعد از چندین سال کار مداوم، نسخه ۳ هدوپ به صورت رسمی عرضه شد. در این مقاله به قابلیتهای نوین این نسخه از چارچوب پردازشی محبوب کلان داده خواهیم پرداخت. تغییرات اصلی که در این نسخه شاهد هستیم عبارتند از : با هم این ...

ادامه مطلب »

آپاچی پولسار : رقیب تازه نفس کافکا

کافکا به عنوان یک سامانه توزیع پیام  مقیاس پذیر، امروزه به یک استاندارد در طراحی سامانه های کلان اطلاعاتی و معماریهای بیگ داده تبدیل شده است. برای ساخت یک خط تولید پردازش داده، داده ها را از منابع مختلف مانند شبکه های اجتماعی، حسگرها، فراخوانی های  API، نقاط مهم در ...

ادامه مطلب »

سیستم فایل پیشنهادی برای ذخیره و بازیابی میلیون ها فایل

یکی از خوانندگان عزیز سایت مهندسی داده، سوالی از بنده پرسیده بود که برای یک سامانه که نیاز به ذخیره و بازیابی میلیون ها عکس دارد، از چه روشی برای مدیریت فایلها استفاده کنم ؟ به سراغ HDFS بروم یا بانک های اطلاعاتی نوین NoSQL را انتخاب کنم ؟ تصمیم ...

ادامه مطلب »

آموزش اسپارک: مفاهیم پایه

مقدمه در ادامه مباحث آموزشی اسپارک، در این نوشتار به توضیح مفاهیم پایه اسپارک و چگونگی استفاده از آن درون یک کتابچه پایتون (نوت بوک) خواهیم پرداخت. همانطور که می دانید بسیاری از چارچوب های سنتی پردازش داده برای اجرا درون یک کامپیوتر طراحی شده بودند. اما مجموعه داده های ...

ادامه مطلب »

نگاهی به روند رشد بسترهای پردازشی کلان داده

از سال ۲۰۰۴ که هدوپ به صورت رسمی معرفی و نسخه های عملیاتی آن برای عموم قابل استفاده شد تا امروزه که با معرفی و رواج استفاده از بسترهای نوین پردازشی کلان داده، هدوپ تا حدود زیادی از دور خارج شده است، شاهد رشد و تکامل سامانه های پردازشی مختلفی ...

ادامه مطلب »

معرفی سرویسهای تحلیل داده مایکروسافت

برای باقی ماندن و راضی نگه داشتن کاربران در دنیای بسیار رقابتی امروز نیاز به سرعت بالای پردازش اطلاعات و شناسایی سریع گلوگاه ها و برطرف کردن آنها هستیم. مثالهای زیر بخوبی اهمیت این مساله را بازگو می کنند : مثالهای بالا گوشه ای از نیازهای رو به رشد سامانه ...

ادامه مطلب »

آشنایی با OpenRefine‌- ابزاری برای پیش پردازش و پاکسازی داده ها – بخش اول

همانطور که میدانید یکی از وقت گیر ترین کارها در عملیات پردازش داده و ساخت مدلهای یادگیری ماشین روی آنها، پاکسازی و پیش پردازش داده هاست. این آموزش به معرفی نرم افزار OpenRefine‌ که قبلاً با نام Google Refine شناخته میشد، به عنوان یکی از ابزارهای متن باز پاکسازی و ...

ادامه مطلب »

شروع کار با اسپارک : راه اندازی محیط کار

آموزش اسپارک

اسپارک به عنوان یک جایگزین برای روش سنتی توزیع و تجمیع (MapReduce) در هدوپ، به موتور اصلی پردازش داده های حجیم در اکوسیستم های مبتنی بر کلان داده تبدیل شده است . البته شاید برای بعضی کاربردهای خاص که داده های بسیار حجیم و غیر قابل بارگذاری در حافظه دارند، ...

ادامه مطلب »

معرفی سایت : PredictiveAnalyticsToday مرجع نرم افزارها و خدمات حوزه پردازش و تحلیل داده

حوزه تحلیل و پردازش داده ها امروزه به قدری وسیع و متنوع شده است که انتخاب یک نرم افزار  در این حوزه، خود به یک تخصص و احاطه نسبی نیاز دارد . از طرفی، سرویس های مختلفی که برپایه رایانش ابری و بر روی اینترنت برای تحلیل و پردازش داده ...

ادامه مطلب »