دست به کد

دست به کد : یک پروژه عملی طراحی خطوط پردازش داده

چگونه کانال‌های تلگرامی / داده‌های توئیتر فارسی را رصد و پردازش کنیم ؟

برای پروژه پایانی درس کلان‌داده که برای دانشجویان تحصیلات تکمیلی دانشکده مهندسی برق و کامپیوتر دانشگاه تهران توسط دکتر اسدپور در ترم بهار ۱۴۰۰ ارائه شده بود، یک خط کامل پردازش داده برای تحلیل محتوای کانال‌های پیام‌رسان‌ها و یا توئیت‌های فارسی طراحی کرده بودم که از دریافت داده و ارسال آنها به الستیک سرچ،‌ پردازش اولیه و ذخیره تاریخچه هشتگ‌ها/کانال‌ها در کاساندرا، ذخیره آمار لحظه‌ای در ردیس و تحلیل آماری داده‌ها به کمک سوپرست/کلیک‌هوس تشکیل میشد و محوریت انتقال داده‌ها در آن با کافکا بود.

امروز که آخرین گروه‌ها، پروژه خود را تحویل دادند، با کسب اجازه از دو گروه از این عزیزان، گزارش کامل آنها به همراه کدها و توضیحات، ضمیمه نمونه سوال شده و در اختیار علاقه مندان قرار گرفته است. (برای دریافت نسخه PDF، کلیک کنید)

امید است دوستانی که علاقه‌مند به مباحث زیرساختی و مهندسی داده هستند و نیاز به یک پروژه عملی دارند بتوانند از این گزارش و کدهای نوشته شده استفاده کنند.

منبع دریافت داده در پروژه اول، داده‌های کانال‌های تلگرامی و تحلیل آنهاست و در پروژه دوم از توئیتر برای دریافت و پردازش داده‌ها استفاده شده است.

مجتبی بنائی

دانشجوی دکترای نرم‌افزار دانشگاه تهران (yun.ir/smbanaie)، مدرس دانشگاه و فعال در حوزه توسعه نرم‌افزار و مهندسی داده که تمرکز کاری خود را در چند سال اخیر بر روی مطالعه و تحقیق در حوزه کلان‌داده و زیرساخت‌های پردازش داده و تولید محتوای تخصصی و کاربردی به زبان فارسی و انتشار آنها در سایت مهندسی داده گذاشته است. مدیریت پروژه‌های نرم‌افزاری و طراحی سامانه‌های مقیاس‌پذیر اطلاعاتی از دیگر فعالیتهای صورت گرفته ایشان در چند سال گذشته است.

1 دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

جای خالی در معادله زیر را با کی برد انگلیسی وارد کنید : * Time limit is exhausted. Please reload CAPTCHA.

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

دکمه بازگشت به بالا