خانه / کلان داده / ابزار و کتابخانه ها

ابزار و کتابخانه ها

آموزش اسپارک: مفاهیم پایه

مقدمه در ادامه مباحث آموزشی اسپارک، در این نوشتار به توضیح مفاهیم پایه اسپارک و چگونگی استفاده از آن درون یک کتابچه پایتون (نوت بوک) خواهیم پرداخت. همانطور که می دانید بسیاری از چارچوب های سنتی پردازش داده برای اجرا درون یک کامپیوتر طراحی شده بودند. اما مجموعه داده های ...

ادامه مطلب »

نگاهی به روند رشد بسترهای پردازشی کلان داده

از سال ۲۰۰۴ که هدوپ به صورت رسمی معرفی و نسخه های عملیاتی آن برای عموم قابل استفاده شد تا امروزه که با معرفی و رواج استفاده از بسترهای نوین پردازشی کلان داده، هدوپ تا حدود زیادی از دور خارج شده است، شاهد رشد و تکامل سامانه های پردازشی مختلفی ...

ادامه مطلب »

معرفی سرویسهای تحلیل داده مایکروسافت

برای باقی ماندن و راضی نگه داشتن کاربران در دنیای بسیار رقابتی امروز نیاز به سرعت بالای پردازش اطلاعات و شناسایی سریع گلوگاه ها و برطرف کردن آنها هستیم. مثالهای زیر بخوبی اهمیت این مساله را بازگو می کنند : مثالهای بالا گوشه ای از نیازهای رو به رشد سامانه ...

ادامه مطلب »

آشنایی با OpenRefine‌- ابزاری برای پیش پردازش و پاکسازی داده ها – بخش اول

همانطور که میدانید یکی از وقت گیر ترین کارها در عملیات پردازش داده و ساخت مدلهای یادگیری ماشین روی آنها، پاکسازی و پیش پردازش داده هاست. این آموزش به معرفی نرم افزار OpenRefine‌ که قبلاً با نام Google Refine شناخته میشد، به عنوان یکی از ابزارهای متن باز پاکسازی و ...

ادامه مطلب »

شروع کار با اسپارک : راه اندازی محیط کار

آموزش اسپارک

اسپارک به عنوان یک جایگزین برای روش سنتی توزیع و تجمیع (MapReduce) در هدوپ، به موتور اصلی پردازش داده های حجیم در اکوسیستم های مبتنی بر کلان داده تبدیل شده است . البته شاید برای بعضی کاربردهای خاص که داده های بسیار حجیم و غیر قابل بارگذاری در حافظه دارند، ...

ادامه مطلب »

معرفی سایت : PredictiveAnalyticsToday مرجع نرم افزارها و خدمات حوزه پردازش و تحلیل داده

حوزه تحلیل و پردازش داده ها امروزه به قدری وسیع و متنوع شده است که انتخاب یک نرم افزار  در این حوزه، خود به یک تخصص و احاطه نسبی نیاز دارد . از طرفی، سرویس های مختلفی که برپایه رایانش ابری و بر روی اینترنت برای تحلیل و پردازش داده ...

ادامه مطلب »

آپاچی Mesos : چارچوبی برای ساخت سامانه های توزیع شده

آپاچی Mesos

در این اپیزود که درآگوست ۲۰۱۵ منتشر شده است، جف میرسون با بنجامین هایندمن مصاحبه می‌کند. بنجامین، همکار در تولید Apache Mesos بوده که یک پروژه متن باز است کهCPU، حافظه، فضای ذخیره‌سازی و دیگر منابع کامپیوتر را از ماشین انتزاع می‌کند و این امکان را فراهم می‌کند که سیستم‌‌های ...

ادامه مطلب »

مقدمه ای بر پیکان (Apache Arrow) : تحلیل درون حافظه داده های ستونی

پروژه متن باز پیکان ، علیرغم نوپا بودنش در اکو سیستم آپاچی، در حال تبدیل شدن به یک استاندارد در حوزه پردازش داده و ایجاد یک بستر مناسب برای تعامل بین فناوریهای مختلف کلان داده است. توسعه گران ارشد ۱۳ پروژه متن باز اصلی دنیای کلان داده، یک تیم مشترک ...

ادامه مطلب »

فناوریهای حوزه کلان داده در یک نگاه

سایت InsightDataEngineering یک نمودار تعاملی ساده و جمع و جور برای آشنایی با فناوریهای حوزه کلان داده منتشر کرده است که در نه گروه مختلف این فناوری ها را طبقه بندی کرده است . این طبقه بندی به صورت فهرست وار طبق این نمودار از قرار زیر است : ابزار ...

ادامه مطلب »

ارزیابی نرم افزارهای هوش تجاری و آنالیز داده توسط گارتنر

امروزه داده ها با قالب های مختلف و اشکال متنوع در سازمانها در قالب بانک های اطلاعاتی مختلف و فایلهای لاگ و …. توزیع شده اند و برای استخراج اطلاعات مفید و بصری سازی داده ها یا باید از مهندسین داده کمک گرفت که به صورت حرفه ای به تجمیع ...

ادامه مطلب »