آموزش و راهنمایی

شروع کار در حوزه علم داده

گسترش استفاده از فناوری اطلاعات در بخش های مختلف کسب و کار، باعث افزایش منبع ارزشمندی به نام داده شده است. هر چند در گذشته نیز سازمان  ها این منبع را در اختیار داشتند، اما حجم ، تنوع  و سرعت  تولید این داده ها به مراتب کمتر بوده است. علم داده به عنوان علمی کاملا کاربردی می تواند پاسخی مناسب به این داده های عظیم تولید شده باشد. به منظور استفاده از این منابع ارزشمند وجود نیروی ماهر بسیار ضروری است. متاسفانه اکثر صاحبان صنایع در دنیا از کمبود نیروی ماهر در این حوزه شکایت دارند. این نگرانی از سوی صنعت حاوی دو پیام بسیار مهم می باشد.

اول اینکه صاحبان صنایع به اهمیت این علم پی برده اند و

دوم اینکه فرصت های شغلی مناسبی برای افراد خوش فکر و با استعداد در این حوزه به وجود آمده است.

آمارهای مختلف بین المللی نیز حاکی از رشد استخدام در این حوزه است. به عنوان مثال در تحقیق انجام شده در آمریکا، فرصت شغلی علم داده در سال ۲۰۱۵ نسبت به سال ۲۰۱۴ با رشد ۵۷ درصدی همراه بوده است. در نشست داده های بزرگ که در “سیلیکون ولی” برگزار شد نیز تقریبا تمام سخنرانان به مسئله کمبود نیروی متخصص در این حوزه اذعان داشتند؛ و البته به این مسئله نیز اشاره شد که کسب وکارها دیر به فکر استفاده از این علم افتاده اند. مجله مروری کسب وکار هاروارد  نیز در سال ۲۰۱۲ علم داده را اینگونه توصیف کرده است: “جذاب ترین شغل قرن ۲۱  5” در واقع پس از این توصیف بود که علم داده بیشتر از گذشته مطرح شد. در این گزارش از مسئله کمبود متخصص علم داده به عنوان محدودیت جدی در بخش های مختلف کسب وکار نیز یاد شده است. حال سوال این است که با توجه مطالب گفته شده چگونه می توان به یک متخصص علم داده تبدیل شد. اگر شما عبارت “چگونه می توان یک متخصص علم داده شد” را جستجو کنید با نظرات مختلفی روبه رو می شوید. مقالات متعددی وجود دارد که ابزارها، دوره ها و کابردهای متعددی را به افراد پیشنهاد می دهند. در واقع هیچ محدودیتی از این نظر وجود ندارد. اما به طور خلاصه یک متخصص داده فردی است که “دانش آماری قوی تری نسبت به یک مهندس نرم افزار دارد و نیز از دانش مهندسی نرم افزاری قوی تری نسبت به یک فرد آماری برخوردار است”.
یک متخصص علم داده در هر روز ممکن است نیازمند مهارت هایی باشد که می توان به موارد زیر اشاره کرد:

۱-    انجام پژوهش های بدون جواب که به دنبال سوال در صنعت مورد نظر باشد.
۲-    به دست آوردن حجم عظیمی از داده ها از منابع مختلف داخلی و خارجی
۳-    استفاده از برنامه های پیشرفته تجزیه و تحلیل، یادگیری ماشین و روش های آماری برای استفاده در مدل سازی های تجویزی و پیش بینی
۴-    پاک سازی و کنار گذاشتن اطلاعات بی ربط
۵-    کاوش و بررسی داده ها از جوانب مختلف به منظور مشخص کردن فرصت ها و روند های پنهان شده در داده ها
۶-    اتخاذ راه حل های مبتنی بر داده در چالش های پر فشار
۷-    توسعه الگوریتم های جدید به منظور ایجاد ابزاری جدید در تحلیل داده ها
۸-    ایجاد ارتباط موثر بین مدیریت و دپارتمان فناوری اطلاعات از طریق مصور سازی داده ها و گزارش ها
۹-    ارائه تغییرات اقتصادی در روند ها و استراتژی های موجود

هر شرکت با توجه به شرایط و ابعاد خود می تواند برداشت های مختلفی از وظایف شغلی یاد شده داشته باشد. به عنوان مثال یک سازمان  می تواند از تحلیل گر داده به عنوان متخصص علم داده استفاده کند که وظیفه ی آن ها با مهندس داده ادغام شده است، و یا سازمانی دیگر از مهارت های یادگیری ماشین و مصورسازی داده استفاده نماید.  (این بخش مقدمه، عیناً از مطلب جناب پوریا اکبری با عنوان «دانشمند داده : یک فرصت شغلی مهم در حوزه فناوری اطلاعات و ارتباطات» نقل شده است)

برای تبدیل شدن به یک دانشمند داده و یادگیری مهارت های مختلفی که برای جمع آوری ، پاکسازی، تحلیل و پردازش و نمایش نتایج لازم است، نیاز به مسیر یادگیری (Learning Path) داریم که مطمئن باشیم در انتهای آن ، این مهارت را به خوبی و با تمام جزییات لازم فراگرفته ایم .

در حوزه پردازش و مهندسی داده، مهارت های مختلفی باید فراگرفته شود (در این مقاله ۲۲ مهارت مختلف نام برده شده است) تا بتوان این حجم عظیم داده هایی که امروزه در بانک های اطلاعاتی ، فایلها و دریای عظیم  وب در حال ذخیره شدن هستند و از منابع مختلفی مانند تراکنش های سازمانی ، لاگ های اطلاعاتی ، دوربین های نظارتی ، حسگرها ، شبکه های اجتماعی و … تولید می شوند، به درستی درک نموده ، پردازش کرد و از آنها نتایج مناسب و کاربردی به دست آورد.

امروزه در تمامی ادارات و سازمانها و شرکتها، داده های مختلف در حال ذخیره شدن هستند و استفاده اصلی که از آنها می شود در حد چک کردن سوابق، ویرایش و ثبت اطلاعات ، جستجوی آنها و نهایتا چند گزارش ساده مانند مشاهده کارنامه و صورتحساب هستند . در صورتیکه برای تک تک این بانکهای اطلاعاتی ، می توان تحلیل های دقیق ارائه داد و به مدیران مربوطه داشبوردهای تحلیلی و گزارش های هوشمندی ارائه داد که بتوانند ضعف ها و نواقص حوزه زیرمجموعه خود را شناسایی کنند . مهارتی که امروزه به عنوان یک عضو جامعه اداری کشور، آنرا به ندرت در جایی دیده ام. هدف از یک مهندس داده، فردیست که بتواند با شناخت سازمان و حوزه مورد نظر  و تسلط بر روشها و ابزار های تحلیل، از داده های مختلف جمع آوری شده (که گاهی حتی باید آنها را خود این شخص از منابعی مانند شبکه های اجتماعی و وب جمع آوری کند) ، یک شناخت توصیفی ایجاد کند مانند شناسایی گروه های مختلف دانشجویان بسته به شرایط خانوادگی و تحصیلی و رشته ای ، مدلهایی برای پیش بینی رفتار داده ها ایجاد کند مثلا اینکه تشخیص دهد چه دانشجویانی در معرض مشروطی قرار دارند و قبل از مشروط شدن به اساتید راهنما اطلاع دهد و یا اینکه کدام مراجعه کنندگان آزمایشگاه با احتمال زیاد فلان بیماری را دارند و بتواند انواع گزارشات و نمودارهای مربوطه را در یک داشبورد مدیریتی (مثلا یک وب سایت یا نرم افزار) در اختیار مدیران قرار دهد.

حال که با یک مهندس داده و ضرورت وجود آن در جامعه امروزی آشنا شدیم ، به عنوان شخصی که چندین سال است با سعی و خطا، با جنبه های مختلف این شاخه از علم آشنا شده ام ، برای علاقه مندانی که می خواهند تازه به جمع تحلیلگران داده و شاخه مهندسی داده که یکی از موردنیاز ترین مهارت های تخصصی دنیاست ، یک راهنمای شروع کار و یک مسیر یادگیری به شرح زیر پیشنهاد می کنم .

ابتدا مهارتهای لازم برای یک مهندس داده را با هم مرور می کنیم :

Modern-Data-Scientists

همانطور که از شکل مشخص است مهارتهای اصلی یک مهندس داده را در چهار گروه اصلی می توان طبقه بندی کرد :

  1. آشنایی با علم آمار و ریاضی شامل الگوریتم های یادگیری ماشین و الگوریتم های بهینه سازی
  2. برنامه نویسی و اصول بانکهای اطلاعاتی شامیل یادگیری R و پایتون و بانکهای اطلاعاتی و مفاهیم کلان داده (بیگ دیتا)
  3. مهارتهای ارتباطی و علم بصری سازی یا نمایش تصویری و نموداری آمار و اطلاعات
  4. آشنایی با حوزه کاری شرکت یا سازمان مورد نظر

حال برای تبدیل شدن به یک مهندس داده حرفه ای می توان فرآیند آموزشی زیر را پیشنهاد داد :

  1. ابتدا مهارتهای ریاضی ، آماری و یادگیری ماشین خود را تقویت کنید
    1. یادگیری ریاضیات و جبر خطی دکتر شهشانی
    2. آمار و احتمال مهندسی : جلسات درس دکتر ربیعی دانشگاه شریف و یا درسهای مختلف آمار سایت Coursera (و یا این درس دانشگاه جان هاپکینز) و سایت تخصصی OpenIntro
    3. یادگیری ماشین : دروس ارائه شده دانشگاه استنفورد و دانشگاه جان هاپکینز
  2. یادگیری زبانهای برنامه نویسی مرتبط
    1. پایتون :
      1. نصب و یادگیری IPython برای کار با پایتون در محیط مرورگر که بسیاری از آموزشهای پایتون در این محیط ارائه شده اند.
      2. آموزش پایتون برای محققین علوم اجتماعی : مجموعه ای از آموزش ها و منابع مختلف
      3. مهندسی داده به کمک پایتون . مجموعه ای از پانزده آموزش مبتی بر IPython  (لیست کامل کتابچه های مفید پایتون)
  3. آشنایی با بانکهای اطلاعاتی  کلاسیک و نوین
  4. آشنایی با مفاهیم پاکسازی داده، بصری سازی و گزارش گیری از آن
  5. آشنایی با مفاهیم کلان داده
  6. تجربه ، تمرین ، مسابقه
  7. گرفتن یک کار عملی یا انجام داوطلبانه یک مورد واقعی از کاربرد مهندسی داده
  8. در ارتباط بودن با جامعه تحلیلگران و مهندسین داده دنیا برای بروز بودن اطلاعات

این گامها را به تدریج و به صورت دقیق تر ، توضیح خواهم داد.

یک مسیریادگیری دیگری نیز در این سایت پیشنهاد شده است که می توانید مرحله به مرحله تکمیل شدن آنرا علامت بزنید و میزان پیشرفت خود را بسنجید.

یک طبقه بندی ۱۰ گانه نیز در این نمودار به صورت کامل برای یادگیری مفاهیم مهندسی داده به تصویر کشیده شده است که بعد از آشنایی اولیه با مفاهیم پایه این حوزه ،  می توانید آنرا چک کنید تا مطمئن شوید چیزی را از قلم نینداخته اید .

مهندسی داده: نیاز امروز شرکت‌های داده محور ایرانی | نیک آموز

مهندسی داده: نیاز امروز شرکت‌های داده محور ایرانی | نیک آموز

پردازش داده یکی از روبه رشدترین حوزه‌های دانش و مهندسی در جهان معاصر است. ظهور نیازمندی‌های جدید در حوزه جمع‌آوری، ذخیره، تحلیل، پردازش و

مهندسی داده: نیاز امروز شرکت‌های داده محور ایرانی

پی نوشت :

این مقاله را هم از دست ندهید : مهارت های حوزه تحلیل و پردازش داده در یک نگاه

این اینفوگرافیک هم در همین زمینه در سایت مهندسی داده کار شده است .

مقاله مسیر علم داده در ایران هم برای شما مفید خواهد بود.

در ابتدای سال ۲۰۱۷ سایت آنالیتیکز ویدیا یک مقاله بسیار کامل و جامع درباره مسیر یادگیری علم داده از مبتدی تا پیشرفته منتشر کرده است که تمام مسیر اشاره شده فوق را با ذکر منابع دانشگاهی و کتابها و میزان هفته و زمان مورد نیاز در یک برنامه یکساله گنجانده است. اگر به این حوزه علاقه مند شده اید، بر طبق مسیر یاد شده حرکت کنید.

مجتبی بنائی

دانشجوی دکترای نرم‌افزار دانشگاه تهران (yun.ir/smbanaie)، مدرس دانشگاه و فعال در حوزه توسعه نرم‌افزار و مهندسی داده که تمرکز کاری خود را در چند سال اخیر بر روی مطالعه و تحقیق در حوزه کلان‌داده و زیرساخت‌های پردازش داده و تولید محتوای تخصصی و کاربردی به زبان فارسی و انتشار آنها در سایت مهندسی داده گذاشته است. مدیریت پروژه‌های نرم‌افزاری و طراحی سامانه‌های مقیاس‌پذیر اطلاعاتی از دیگر فعالیتهای صورت گرفته ایشان در چند سال گذشته است.

۸ دیدگاه

  1. بسيار عالي ممنون از زحمتي كه ميكشيد من به اين رشته براي ادامه تحصيل علاقه مند شدم اما تا قبل از اين سايت منبع خوبي پيدا نكردم واقعا سپاس .

  2. بینهایت سپاسگذارم. شفاف کردن مسیر به این پیچیدگی ، بهتر از این ممکن نبود

    1. سلام. Orange جزء نرم افزارهای قدیمی و پرکاربرد در حوزه داده کاوی است اما اگر با مفاهیم پایه داده کاوی آشنا هستید و با زبان پایتون هم اندک آشنایی ای دارید توصیه من به شما استفاده از
      Dataiku
      است که البته فیلم فارسی برای اون پیدا نخواهید کرد اما منابع لاتین متنوعی برای شروع کار با آن وجود دارد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

جای خالی در معادله زیر را با کی برد انگلیسی وارد کنید : * Time limit is exhausted. Please reload CAPTCHA.

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

دکمه بازگشت به بالا