خانه / علم داده / آموزش و راهنمایی / شروع کار در حوزه مهندسی داده
323c41b

شروع کار در حوزه مهندسی داده

برای تبدیل شدن به یک مهندس داده (که آنرا معادل فارسی Data Scientist گرفته ام هر چند در عمل با هم اختلافاتی دارند اما با توجه به مهارتهایی که باید کسب کند عنوان مهندس داده مناسب به نظر می رسد و برای Data Engineering عبارت مهندس عملیات داده را در نظر گرفته ام)  و یادگیری مهارت های مختلفی که برای جمع آوری ، پاکسازی، تحلیل و پردازش و نمایش نتایج لازم است، نیاز به مسیر یادگیری (Learning Path) داریم که مطمئن باشیم در انتهای آن ، این مهارت را به خوبی و با تمام جزییات لازم فراگرفته ایم .

در حوزه پردازش و مهندسی داده، مهارت های مختلفی باید فراگرفته شود (در این مقاله ۲۲ مهارت مختلف نام برده شده است) تا بتوان این حجم عظیم داده هایی که امروزه در بانک های اطلاعاتی ، فایلها و دریای عظیم  وب در حال ذخیره شدن هستند و از منابع مختلفی مانند تراکنش های سازمانی ، لاگ های اطلاعاتی ، دوربین های نظارتی ، حسگرها ، شبکه های اجتماعی و … تولید می شوند، به درستی درک نموده ، پردازش کرد و از آنها نتایج مناسب و کاربردی به دست آورد.

امروزه در تمامی ادارات و سازمانها و شرکتها، داده های مختلف در حال ذخیره شدن هستند و استفاده اصلی که از آنها می شود در حد چک کردن سوابق، ویرایش و ثبت اطلاعات ، جستجوی آنها و نهایتا چند گزارش ساده مانند مشاهده کارنامه و صورتحساب هستند . در صورتیکه برای تک تک این بانکهای اطلاعاتی ، می توان تحلیل های دقیق ارائه داد و به مدیران مربوطه داشبوردهای تحلیلی و گزارش های هوشمندی ارائه داد که بتوانند ضعف ها و نواقص حوزه زیرمجموعه خود را شناسایی کنند . مهارتی که امروزه به عنوان یک عضو جامعه اداری کشور، آنرا به ندرت در جایی دیده ام. هدف از یک مهندس داده، فردیست که بتواند با شناخت سازمان و حوزه مورد نظر  و تسلط بر روشها و ابزار های تحلیل، از داده های مختلف جمع آوری شده (که گاهی حتی باید آنها را خود این شخص از منابعی مانند شبکه های اجتماعی و وب جمع آوری کند) ، یک شناخت توصیفی ایجاد کند مانند شناسایی گروه های مختلف دانشجویان بسته به شرایط خانوادگی و تحصیلی و رشته ای ، مدلهایی برای پیش بینی رفتار داده ها ایجاد کند مثلا اینکه تشخیص دهد چه دانشجویانی در معرض مشروطی قرار دارند و قبل از مشروط شدن به اساتید راهنما اطلاع دهد و یا اینکه کدام مراجعه کنندگان آزمایشگاه با احتمال زیاد فلان بیماری را دارند و بتواند انواع گزارشات و نمودارهای مربوطه را در یک داشبورد مدیریتی (مثلا یک وب سایت یا نرم افزار) در اختیار مدیران قرار دهد.

حال که با یک مهندس داده و ضرورت وجود آن در جامعه امروزی آشنا شدیم ، به عنوان شخصی که چندین سال است با سعی و خطا، با جنبه های مختلف این شاخه از علم آشنا شده ام ، برای علاقه مندانی که می خواهند تازه به جمع تحلیلگران داده و شاخه مهندسی داده که یکی از موردنیاز ترین مهارت های تخصصی دنیاست ، یک راهنمای شروع کار و یک مسیر یادگیری به شرح زیر پیشنهاد می کنم .

ابتدا مهارتهای لازم برای یک مهندس داده را با هم مرور می کنیم :

Modern-Data-Scientists

همانطور که از شکل مشخص است مهارتهای اصلی یک مهندس داده را در چهار گروه اصلی می توان طبقه بندی کرد :

  1. آشنایی با علم آمار و ریاضی شامل الگوریتم های یادگیری ماشین و الگوریتم های بهینه سازی
  2. برنامه نویسی و اصول بانکهای اطلاعاتی شامیل یادگیری R و پایتون و بانکهای اطلاعاتی و مفاهیم کلان داده (بیگ دیتا)
  3. مهارتهای ارتباطی و علم بصری سازی یا نمایش تصویری و نموداری آمار و اطلاعات
  4. آشنایی با حوزه کاری شرکت یا سازمان مورد نظر

حال برای تبدیل شدن به یک مهندس داده حرفه ای می توان فرآیند آموزشی زیر را پیشنهاد داد :

  1. ابتدا مهارتهای ریاضی ، آماری و یادگیری ماشین خود را تقویت کنید
    1. یادگیری ریاضیات و جبر خطی دکتر شهشانی
    2. آمار و احتمال مهندسی : جلسات درس دکتر ربیعی دانشگاه شریف و یا درسهای مختلف آمار سایت Coursera (و یا این درس دانشگاه جان هاپکینز) و سایت تخصصی OpenIntro
    3. یادگیری ماشین : دروس ارائه شده دانشگاه استنفورد و دانشگاه جان هاپکینز
  2. یادگیری زبانهای برنامه نویسی مرتبط
    1. پایتون :
      1. نصب و یادگیری IPython برای کار با پایتون در محیط مرورگر که بسیاری از آموزشهای پایتون در این محیط ارائه شده اند.
      2. آموزش پایتون برای محققین علوم اجتماعی : مجموعه ای از آموزش ها و منابع مختلف
      3. مهندسی داده به کمک پایتون . مجموعه ای از پانزده آموزش مبتی بر IPython  (لیست کامل کتابچه های مفید پایتون)
  3. آشنایی با بانکهای اطلاعاتی  کلاسیک و نوین
  4. آشنایی با مفاهیم پاکسازی داده، بصری سازی و گزارش گیری از آن
  5. آشنایی با مفاهیم کلان داده
  6. تجربه ، تمرین ، مسابقه
  7. گرفتن یک کار عملی یا انجام داوطلبانه یک مورد واقعی از کاربرد مهندسی داده
  8. در ارتباط بودن با جامعه تحلیلگران و مهندسین داده دنیا برای بروز بودن اطلاعات

این گامها را به تدریج و به صورت دقیق تر ، توضیح خواهم داد.

یک مسیریادگیری دیگری نیز در این سایت پیشنهاد شده است که می توانید مرحله به مرحله تکمیل شدن آنرا علامت بزنید و میزان پیشرفت خود را بسنجید.

آنتولوژی یا ساختار مفهومی و درختی تمام مباحث موجود در بحث مهندسی داده  به صورت یکجا در این نمودار زیبا قابل مشاهده است .

یک طبقه بندی ۱۰ گانه نیز در این نمودار به صورت کامل برای یادگیری مفاهیم مهندسی داده به تصویر کشیده شده است که بعد از آشنایی اولیه با مفاهیم پایه این حوزه ،  می توانید آنرا چک کنید تا مطمئن شوید چیزی را از قلم نینداخته اید .

پی نوشت :

این مقاله را هم از دست ندهید : مهارت های حوزه تحلیل و پردازش داده در یک نگاه

این اینفوگرافیک هم در همین زمینه در سایت مهندسی داده کار شده است .

 

۴ نظرات

  1. واقعا مطلب دقیقی بود ممنونم

  2. بسيار عالي ممنون از زحمتي كه ميكشيد من به اين رشته براي ادامه تحصيل علاقه مند شدم اما تا قبل از اين سايت منبع خوبي پيدا نكردم واقعا سپاس .

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

Time limit is exhausted. Please reload CAPTCHA.