خانه / علم داده / ابزار و کتابخانه ها / دیتا آی کو : بستری مناسب برای شروع علم داده

دیتا آی کو : بستری مناسب برای شروع علم داده

همانطور که قبلا اشاره شد، یادگیری ماشین و علم داده جزء برترین شغل های ۲۰۱۸ آمریکا به عنوان یکی از پیشرفته ترین کشورهای دنیا از لحاظ فناوری، قرار گرفته است و روز به روز بر تعداد علاقه مندان و مشتاقان این حوزه نوین از علم ، افزوده میشود.

بسیاری از این علاقه مندان به زبان های برنامه نویسی و تحلیل داده مانند پایتون و R تسلط ندارند و یا برای سرعت بیشتر کار، نیازمند ابزارهایی هستند که به صورت بصری و با روش «انتخاب و کلیک» بتوانند مراحل مختلف کار با داده شامل پیش پردازش، تحلیل اکتشافی و بررسی اولیه ، تجمیع داده از منابع مختلف، ساخت مدل های مختلف یادگیری ماشین، آزمایش هر مدل و نهایتاً تبدیل این مدل به یک محصول تجاری را به راحتی و با حداقل زمان ممکن انجام دهند.

از طرفی امروزه تحلیل داده با دنیای کلان داده گره خورده است و نیازمند ابزاری در حوزه تحلیل و مدلسازی داده هستیم که بتواند به راحتی داده ها را در حجم بالا بخواند، با کتابخانه های مختلف هدوپ و اسپارک و مانند آن ارتباط برقرار کند و نتایج و تحلیل ها را هم در خروجی های مرتبط مانند پارکوئت و ORC درون HDFS و سایر فایل سیستم های کلان داده، ذخیره کند.

برای مطالعه :   هشت گام برای تبدیل شدن به یک دانشمند داده

چندی پیش با استودیودی علم داده دیتا آی کو – Dataiku Data Science Studio آشنا شدم. محیطی که یک ماشین مجازی از پیش تنظیم شده است با حجم حدود ۲ گیگابایت که پس از نصب به راحتی اجرا شده و از طریق مرورگر امکان اتصال به آن، فراهم میشود.

محیطی که جذابیت بصری و سادگی کار بالایی دارد و ترکیب برنامه نویسی با قابلیت های بصری آنرا به یک گزینه بسیار مناسب برای شروع به کار با علم داده برای علاقه مندان این حوزه تبدیل کرده است. استارتاپ Dataiku در دو سال اخیر جزء شرکتهای برتر ارائه دهنده بسترکار علم داده (Data Science Platforms) به انتخاب گارتنر (ر.ک. آشنایی با گارتنر ) قرار گرفته است و وب سایت مهندسی داده، سعی خواهد کرد با تولید مقالاتی در این حوزه، علاقه مندان را با جنبه های مختلف این بستر نوین و جذاب آشنا کند.

نسخه رایگان استودیو علم داده دیتا آی کو، تا ۳۰ هزار داده را پشتیبانی کرده، امکان اتصال به مای اسکیو ال و پستگرس و نوشتن کدهای پایتون و R بر روی داده های درج شده در آن را فراهم می کند که برای بسیاری از کاربردهای دنیای واقعی و اثبات اولیه یک ایده و مدل، مناسب به نظر می رسد.

برای مطالعه :   مقدمه ای بر پایتون

توصیه می کنم با مراجعه به سایت دیتا آی کو و دانلود و اجرای آن در VirtualBox، سه آموزش اولیه تهیه شده توسط خود سایت دیتا آی کیو که از این آموزش شروع میشود را انجام دهید تا از نزدیک با امکانات بسیار متنوع و کامل این مجموعه ، آشنا شوید.

از نقاط قوت اصلی این نرم افزار امکان ایجاد یک خط پردازش داده به صورت ویژوال و بصری (البته مشابه با رپیدماینر و Knime و H2O.io و سایر ابزار علم داده) به سادگی و درج کدنویسی در هر جای این خط پردازش است. در زیر یک خط پردازش داده تولید شده با دیتا آی کو را مشاهده می کنید :

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

This site uses Akismet to reduce spam. Learn how your comment data is processed.