
امروز را وقت گذاشتم تا بر اساس تجربهی بیش از ده سال فعالیت عملی و همچنین نیازمندیهای بازار ایران و بر اساس ابزارهای متنباز، یک نقشه راه جامع برای مهندسی داده و البته برای مدرسه مهندسی داده سپهرام آماده کنم.
این مسیر بهویژه برای علاقهمندانی طراحی شده است که ممکن است از رشتههایی غیر از مهندسی نرمافزار یا علوم کامپیوتر وارد شوند. به همین دلیل، بخش ابتدایی آن شامل پیشنیازها و مهارتهای پایه است تا بدانید قبل از شروع چه باید یاد بگیرید یا بهتر است داشته باشید.
🔹 گام اول: اصول اولیه – Foundations
این گام مربوط به پیشنیاز ورود به مهندسی داده است.
📌 پایتون عمیق: یادگیری پایتون فراتر از سطح مقدماتی؛ از برنامهنویسی شیگرا و ماژولار تا مباحث پیشرفته مثل async/await، decorators و context managers.
📌 اصول توسعه سرویسها: آشنایی با REST و gRPC، سریالیزیشن (JSON/Protobuf/Avro)، امنیت و ساخت سرویسهای پایدار.
📌 مبانی پردازش داده: کار با Pandas/Numpy/Polars، آشنایی با ابزارهای پردازش توزیعشده (مثل Celery/Daft) و حتی وبکراولینگ برای جمعآوری داده.
برای مشاهده جزییات این گام به این لینک مراجعه کنید
🔹 گام دوم: مبانی مهندسی داده
در این مرحله با کلیت ابزارها و معماریهای اصلی آشنا میشویم و یک دید عملیاتی پیدا میکنیم.
📌 محیط توسعه و ابزارهای پایه: کار با لینوکس، خط فرمان و Docker.
📌 دیتابیسها: یادگیری PostgreSQL و SQL در کنار آشنایی با انواع دیتابیسهای NoSQL، ستونی، سریزمانی و برداری.
📌 مدیریت جریان داده: طراحی و اجرای pipelineها با ابزارهایی مثل Airflow، Prefect، Kafka و Spark.
🔹 گام سوم: عمیق شدن در مهندسی داده
اینجا وارد بخش جدیتر و تخصصیتر میشویم.
📌 دیتابیسهای غیررابطهای: کار عملی با MongoDB، Redis، Cassandra و Elasticsearch و Qdrant برای ذخیرهسازی و بازیابی دادههای متنوع.
📌 دیتابیسهای تحلیلی و Lakehouse: تسلط بر ClickHouse، StarRocks، Doris و همچنین طراحی Lakehouse با MinIO و Open Table Formats مثل Apache Iceberg.
📌 پردازش جریان و ETL حرفهای: تسلط عملی بر Kafka و اکوسیستم آن، ابزارهای ETL/ELT (مثل dbt، Airbyte، Arroyo) و کار با دیتابیسهای جریانی و پردازش توزیعشده.
🔹 گام چهارم: به سوی باشگاه حرفهایها
در این مرحله شما به سطحی میرسید که میتوانید خود را یک مهندس داده حرفهای بدانید.
📌 استقرار مدرن سرویسها: تسلط بر Kubernetes
📌 زیرساخت بهعنوان کد (IaC): کار با Terraform، Ansible یا Pulumi.
📌 ابر داخلی و خارجی: آشنایی با AWS، Azure، Databricks، ستون و آروان برای طراحی زیرساختهای داده.
📌 عاملهای هوشمند و MLOps : پیوند دادن داده با یادگیری ماشین (MLFlow) و استفاده از AI Agents برای پایش و اتوماسیون پایپلاینها.
📌 حاکمیت و کیفیت داده: آشنایی با اصول Data Governance و ابزارهایی مثل Great Expectations برای اطمینان از صحت و اعتمادپذیری داده.
✍️ در نهایت این مسیر چهارگانه به شما نشان میدهد از کجا شروع کنید، چگونه پیش بروید و در چه نقطهای به مرحلهی حرفهای برسید.
🔗 نقشه راه : https://sepahram.ir/data-engineering-roadmap