نوشته های تازه

نگاهی به امکانات هدوپ ۳ – بخش دوم

در ادامه بررسی امکانات جدید هدوپ ۳ که در بخش اول این نوشتار به آنها اشاره شد، در این مقاله به سایر امکانات و تغییراتی که در نسخه جدید هدوپ شاهد آنها هستیم، می پردازیم. معرفی نسخه ۲ سرویس خط زمان Yarn قبل از بررسی نسخه جدید سرویس خط زمان ...

ادامه مطلب »

دست به کد : جمع آوری و پردازش توئیت های فارسی

در ادامه سلسله مباحث آموزشی پردازش زبان طبیعی و قبل از اینکه بخواهیم به صورت کامل به مباحث مرتبط با این موضوع به صورت عملی بپردازیم، نیازمند متون فارسی اولیه برای تحلیل های متنی هستیم. با توجه به اینکه نوشته های رسمی روزنامه ها و سایتهای خبری، خیلی نیاز به ...

ادامه مطلب »

گزارش تحلیلی نخستین پیمایش کلان داده‌ها در ایران

پژوهشگاه ارتباطات و فناوری اطلاعات با هدف شناسایی شرکتهای فعال در زمینه فناوری اطلاعات، اقدام به  پیمایش کلان داده‌ها در ایران برای نخستین بار نموده است که علاقه مندان به بررسی وضعیت فعلی اکوسیستم کلان داده در ایران می توانند به این گزارش مراجعه نمایند. خلاصه گزارش را در ادامه ...

ادامه مطلب »

نگاهی به تغییرات هدوپ در نسخه ۳ – بخش اول

در ماه های انتهایی سال ۲۰۱۷ بعد از چندین سال کار مداوم، نسخه ۳ هدوپ به صورت رسمی عرضه شد. در این مقاله به قابلیتهای نوین این نسخه از چارچوب پردازشی محبوب کلان داده خواهیم پرداخت. تغییرات اصلی که در این نسخه شاهد هستیم عبارتند از : با هم این ...

ادامه مطلب »

تحلیل رگرسیون

هنگام کار با داده در نرم افزارهای مختلف داده کاوی، وقتی از رگرسیون استفاده می شود، با نتایج زیر روبرو می شویم. در این مقاله قصد داریم به معرفی هر یک از نتایج بپردازیم. باقیمانده ها (Residuals): باقیمانده برابر تفاوت بین مقادیر مشاهده شده و مقادیر پیش بینی شده است. ...

ادامه مطلب »

TiDB جایگزین مقیاس پذیر MySQL

مای اس کیو ال به عنوان دومین بانک اطلاعاتی محبوب و رایج دنیا (بر طبق رتبه بندی سایت DB-Engines)، برای تمامی فعالان حوزه آی تی، کاملاً شناخته شده است. دیتابیسی قدیمی و متن باز که با خریداری شدن مالک اصلی آن یعنی شرکت Sun Microsystems توسط اوراکل، شاهد شکل گیری ...

ادامه مطلب »

آموزش عملی یادگیری ماشین با بستر آموزشی کگل

در مورد کگل در این سایت بارها دست به قلم شده ایم (برجسپ : کگل). سایتی که ابتدا به عنوان یک بستر برگزاری آنلاین مسابقات پردازش داده کاربردی در دنیا پا به عرصه وجود گذاشت و به تدریج امکاناتی مانند مجموعه داده ها، رتبه بندی کاربران، امکان اجرای آنلاین کدهای ...

ادامه مطلب »

آپاچی پولسار : رقیب تازه نفس کافکا

کافکا به عنوان یک سامانه توزیع پیام  مقیاس پذیر، امروزه به یک استاندارد در طراحی سامانه های کلان اطلاعاتی و معماریهای بیگ داده تبدیل شده است. برای ساخت یک خط تولید پردازش داده، داده ها را از منابع مختلف مانند شبکه های اجتماعی، حسگرها، فراخوانی های  API، نقاط مهم در ...

ادامه مطلب »

پستگرس : بانک اطلاعاتی منتخب سال ۲۰۱۷

اگر اخبار دنیای بانک های اطلاعاتی را دنبال می کنید، مطمئنا با پستگرس به عنوان یکی از بانک های اطلاعاتی محبوب در چند سال اخیر آشنا خواهید بود و وب سایت مهندسی داده هم مقالات زیادی راجع به این بانک اطلاعاتی متن باز رایگان و بسیار قدرتمند، منتشر کرده است. ...

ادامه مطلب »

آموزش مقدماتی الاستیک سرچ و کیبانا

همانطور که قبلاً هم در این سایت توضیح داده ام، الاستیک سرچ یکی از بهترین بانکهای اطلاعاتی سندگرا و همچنین جزء بهترین کتابخانه های جستجوی متن است که بر پایه کتابخانه معروف لوسین بنا شده است و علاوه بر سرعت بسیار بالا در پاسخگویی به انواع پرس و جوهای موردنیاز، ...

ادامه مطلب »

یادگیری ماشین – مفاهیم پایه درخت تصمیم #۱

درخت تصمیم چیست؟ در ادامه معرفی الگوریتمهای ضروری یادگیری ماشین، به بررسی مفاهیم پایه درخت تصمیم می پردازیم که یکی از الگوریتم‌ها و روش‌های محبوب در حوزه طبقه‌بندی یا دسته‌بندی داده‌ها، است و در این مقاله سعی شده است به زبان ساده و به‌دوراز پیچیدگی‌های فنی توضیح داده شود. درخت ...

ادامه مطلب »

دورنمای فضای تجاری رایانش ابری ایران

جامعه آزاد رایانش ابری ایران، در بخش طبقه بندی (Taxonomy) سایت خود، اقدام به معرفی شرکتهای فعال در حوزه رایانش ابری کشور نموده است که بسیاری از این شرکتها، خدمات زیرساخت کلان داده هم ارائه می کنند.برای جامعه آزاد رایانش ابری ایران هم آرزوی موفقیت روزافزون و انجام کارهایی حرفه ...

ادامه مطلب »