دست به کد: جمع آوری و تحلیل دادههای توئیتر فارسی در چند دقیقه

از حدود یکسال پیش که کدهای اولیه خواندن و پردازش توئیتهای فارسی را در قالب نوشتاری در مهندسی داده منتشر کردهام، هر از گاهی با سوالات خوانندگان عزیز سایت راجع به برخی مشکلات در اجرای این کدها مواجه شدهام. سیاستهای اخیر توئیتر که محدودیتهایی را برای ساخت برنامههای کاربردی جدید ایجاد کرده است هم انگیزه مضاعفی شد که کل این پروژه را به کتابچههای پایتون آنلاین مایکروسافت منتقل کنم تا علاقهمندان به کار با دادههای فارسی به سرعت و در کمتر از پنج دقیقه بتوانند به جمع آوری و تحلیل دادهها و اعمال الگوریتمهای مختلف بر روی آنها به صورت آنلاین و بدون محدودیتهای تحریم و فیلترینگ، بپردازند.
کتابچههای پایتون که البته امروزه با نام کتابچههای ژوپیتر شناخته میشوند، یکی از ابزارهای دم دستی تحلیلگران داده است که به کمک آن، میتوانید کدهای خود را درون مرورگر وب نوشته و اجرا کنید، توضیحاتی راجع به آنها کنار کدها اضافه کرده و خروجی هر بخش را همراه با کدها ذخیره کنید. جهت آشنایی و نحوه استفاده از این کتابچهها به این مقاله رجوع کنید.
سرویسهای آنلاین زیادی برای اجرا و نوشتن آنلاین کدهای پایتون در قالب کتابچههای ژوپیتر فراهم شده است که از جمله معروف ترین آنها سرویس مایکروسافت و گوگل است که از این بین کار با محصولات مایکروسافت را سادهتر و بدون دردسرتر یافتم. بخصوص اینکه مدیریت هر پروژه در بخش کتابچههای مایکروسافت، به صورت مدون و پوشه بندی شده است که به ما امکان میدهد دادهها و خروجیهای خود را به صورت دلخواه سازماندهی کنیم و آنها را با بقیه به اشتراک بگذاریم.
بنابراین اگر قصد جمعآوری و تحلیل دادههای توئیتر فارسی را دارید، میتوانید بدون نیاز به نصب نرم افزار خاصی و یا حتی آشنایی با زبان پایتون، مراحل زیر را برای جمع آوری و تجزیه و تحلیل اولیه دادههای فارسی در توئیتر انجام دهید:
۱- مراجعه به آدرس پروژه تحلیل دادههای توئیتر سایت مهندسی داده
کافی است با کلیک بر روی این لینک، به صفحه پروژه تحلیل دادههای توئیتر سایت مهندسی داده مراجعه کنید.

۲- بر روی دکمه کلون (یا همان کپی) در بالای صفحه کلیک کنید
با اینکار، به مایکروسافت اعلام میکنید که قصد کپی گرفتن از این پروژه را بر روی فضای کاربری خود دارید تا بتوانید کدها را تغییر داده و خروجیها را ذخیره کنید.

۳- با اکانت مایکروسافت خود لاگین کنید
بعد از زدن روی دکمه کلون، پنجرهای باز میشود و از شما میخواهد که یکی از
شناسههای کاربری مرتبط با مایکروسافت مانند شناسه اسکایپ، ایمیل هاتمیل و
یا شناسه سرویس ایمیل اوتلوک مایکروسافت را وارد کنید. اگر هم حساب کاربری در مایکروسافت ندارید، در همان صفحه میتوانید به ساختن این حساب مبادرت کنید.

۴- اگر قصد بررسی دادههای دریافتی توئیتر را دارید، بر روی گام صفر کلیک کنید
حال که پروژه به حساب کاربری شما منتقل شده است، کافی است که بر روی My Projects در بالای صفحه کلیک کنید تا وارد فضای کاربری شما شود، بر روی پروژه فوق کلیک کنید تا لیست فایلهای پروژه به شما نشان داده شود.
برای مشاهده ساختار دادههای ارسالی از توئیتر کافیست بر روی فایل twitter-step-0-Get-Your-Hands-Dirty.ipynb کلیک کنید تا صفحه اجرایی کتابچه مرحله صفر کار باز شود.
بر روی هر سلول به ترتیب کلیک کنید و گزینه Run را بزنید یا با زدن آیکون Run All تمام کدها را ابتدا به صورت خودکار اجرا کنید. در آخرین سلول، کلماتی که توئیتها را بر اساس آن از توئیتر درخواست میکنیم را میبینید که میتوانید به دلخواه، آنرا تغییر دهید.
باید در انتهای کار مشاهده کنید که توئیتها در حال دریافت هستند و اطلاعات کامل هر توئیت شامل اطلاعات کاربر، میزان ریتوییت، میزان لایک ، هشتگها و مانند آن به شما در سلول آخر این کتابچه نمایش داده شود.
اگر احیاناً با کلیک بر روی هر فایل، مجددا به همین صفحه برگشت، از حالت Private Browsing یا مرور ناشناس استفاده کنید و مجدداً آدرس پروژه را وارد کنید، وارد فضای کاربری خود شوید و دوباره امتحان کنید.

۵- شروع به دریافت توئیتها کنید
در گام یک این فرآیند، شروع به دریافت توئیتها و ذخیره آنها در فایلی با
نام روز جاری در پوشه tweets میکنیم. روی فایل
twitter-step-1-Get-Tweets.ipynb کلیک کرده، کتابچه را اجرا کنید. توئیتها
شروع به دریافت شدن و نمایش به شما و همزمان ذخیره در پوشه tweets خواهند
شد.! به همین راحتی …
اگر سایر اطلاعات یک توئیت را هم نیاز دارید،
به مرحله صفر بازگشته، نام آیتم داده مورد نظر را یافته و به خروجی اضافه
کنید. نمونه ای از این کار در فایل twitter-step-1-Get-Tweets-Hashtags
انجام دادهام که در آن فایل هشتگهای هر توئیت هم در فایل خروجی اضافه شده
است. (البته خروجی این فایل دوم در پوشه tweets-hashtags ریخته میشود)
برای
اطمینان از درستی کار، اگر بخش مدیریت فایلهای پروژه برگردید، درون پوشه
tweets باید فایل جدیدی ایجاد شده باشد که با کلیک بر روی آن، پیشنمایش
محتوای آن به شما نشان داده خواهد شد.
۶- پردازش اولیه توئیتهای دریافت شده
در گام دوم این فرآیند، شروع به حذف کاراکترهای خاص و ایموجیها و مانند آن از توئیتها و ذخیره آنها در پوشه output پوشه step1 میکنیم.
۷ – تحلیل و پردازش توئیتهای آماده شده
در گام آخر این پروژه، به کمک امکانات کتابخانه معروف pandas در پایتون، که دادهها را به صورت جدولی در آورده و امکان کار بر روی هر ستون را به صورت جداگانه به ما میدهد، چند پردازش و تحلیل ساده بر روی دادهها انجام دادیم.
تحلیلهایی مانند اینکه میانگین طول کلمات هر توئیت چقدر است، تعداد کلمات هر توئیت چندتاست، کدام کلمات بیش از همه در توئیتها تکرار شده اند و مانند آن را در این گام انجام دادهایم که کدهای ساده و قابل فهمی دارد و اگر هم با پانداز و پایتون، قبلا کار نکردهاید با نگاه به این کدها، خودتان روند کار و نحوه تغییردادن آنها را تا حدود زیادی فراخواهید گرفت.
۸- کتابچهها و گامهای خود را به این پروژه اضافه کنید
ابتدا گام پنجم را در روزهای متوالی اجرا کنید تا تعداد معتنابهی توییت جمع
آوری نمایید. سپس با بازکردن هر کتابچه، گزینه make a copy را بزنید و
گامها و تغییرات خود را از روی کدهای موجود ایجاد کنید و یا در صفحه اصلی
پروژه، از منوی ساخت کتابچه، یک کتابچه با پایتون ۳٫۶ ایجاد و شروع به
ایجاد کدها و تولید خروجیهای مخصوص خود نمایید

۹- دادن ستاره به ما در پروژه تحلیل دادهها
برای اینکه دلگرمتر از گذشته به کار ادامه دهیم، از دادن ستاره به این پروژه که لینک آن در گام اول آمده است، یادتان نرود….
پ.ن : میتوانید به کدهای نوشته شده در این آدرس گیتهاب دسترسی داشته باشید.