پردازش زبان طبیعیدست به کد

دست به کد: جمع آوری و تحلیل داده‌های توئیتر فارسی در چند دقیقه

از حدود یکسال پیش که کدهای اولیه خواندن و پردازش توئیت‌های فارسی را در قالب نوشتاری در مهندسی داده منتشر کرده‌ام، هر از گاهی با سوالات خوانندگان عزیز سایت راجع به برخی مشکلات در اجرای این کدها مواجه شده‌ام. سیاستهای اخیر توئیتر که محدودیتهایی را برای ساخت برنامه‌های کاربردی جدید ایجاد کرده است هم انگیزه‌ مضاعفی شد که کل این پروژه را به کتابچه‌های پایتون آنلاین مایکروسافت منتقل کنم تا علاقه‌مندان به کار با داده‌های فارسی به سرعت و در کمتر از پنج دقیقه بتوانند به جمع آوری و تحلیل داده‌ها و اعمال الگوریتم‌های مختلف بر روی آنها به صورت آنلاین و بدون محدودیت‌های تحریم و فیلترینگ، بپردازند.

کتابچه‌های پایتون که البته امروزه با نام کتابچه‌های ژوپیتر شناخته می‌شوند، یکی از ابزارهای دم دستی تحلیلگران داده است که به کمک آن، می‌توانید کدهای خود را درون مرورگر وب نوشته و اجرا کنید، توضیحاتی راجع به آنها کنار کدها اضافه کرده و خروجی هر بخش را همراه با کدها ذخیره کنید. جهت آشنایی و نحوه استفاده از این کتابچه‌ها به این مقاله رجوع کنید.

سرویس‌های آنلاین زیادی برای اجرا و نوشتن آنلاین کدهای پایتون در قالب کتابچه‌های ژوپیتر فراهم شده است که از جمله معروف ترین آنها سرویس مایکروسافت و گوگل است که از این بین کار با محصولات مایکروسافت را ساده‌تر و بدون دردسرتر یافتم. بخصوص اینکه مدیریت هر پروژه در بخش کتابچه‌های مایکروسافت، به صورت مدون و پوشه بندی شده است که به ما امکان میدهد داده‌ها و خروجی‌های خود را به صورت دلخواه سازماندهی کنیم و آنها را با بقیه به اشتراک بگذاریم.

بنابراین اگر قصد جمع‌آوری و تحلیل داده‌های توئیتر فارسی را دارید، می‌توانید بدون نیاز به نصب نرم افزار خاصی و یا حتی آشنایی با زبان پایتون، مراحل زیر را برای جمع آوری و تجزیه و تحلیل اولیه داده‌های فارسی در توئیتر انجام دهید:

۱- مراجعه به آدرس پروژه تحلیل داده‌های توئیتر سایت مهندسی داده

کافی است با کلیک بر روی این لینک، به صفحه پروژه تحلیل داده‌های توئیتر سایت مهندسی داده مراجعه کنید.

۲- بر روی دکمه کلون (یا همان کپی) در بالای صفحه کلیک کنید

با اینکار، به مایکروسافت اعلام می‌کنید که قصد کپی گرفتن از این پروژه را بر روی فضای کاربری خود دارید تا بتوانید کدها را تغییر داده و خروجی‌ها را ذخیره کنید.

۳- با اکانت مایکروسافت خود لاگین کنید

بعد از زدن روی دکمه کلون، پنجره‌ای باز می‌شود و از شما میخواهد که یکی از شناسه‌های کاربری مرتبط با مایکروسافت مانند شناسه اسکایپ، ایمیل هات‌میل و یا شناسه سرویس ایمیل اوتلوک مایکروسافت را وارد کنید. اگر هم حساب کاربری در مایکروسافت ندارید، در همان صفحه می‌توانید به ساختن این حساب مبادرت کنید.

۴- اگر قصد بررسی داده‌های دریافتی توئیتر را دارید، بر روی گام صفر کلیک کنید

حال که پروژه به حساب کاربری شما منتقل شده است، کافی است که بر روی My Projects در بالای صفحه کلیک کنید تا وارد فضای کاربری شما شود، بر روی پروژه فوق کلیک کنید تا لیست فایلهای پروژه به شما نشان داده شود.

برای مشاهده ساختار داده‌های ارسالی از توئیتر کافیست بر روی فایل twitter-step-0-Get-Your-Hands-Dirty.ipynb کلیک کنید تا صفحه اجرایی کتابچه مرحله صفر کار باز شود.
بر روی هر سلول به ترتیب کلیک کنید و گزینه Run را بزنید یا با زدن آیکون Run All تمام کدها را ابتدا به صورت خودکار اجرا کنید. در آخرین سلول، کلماتی که توئیت‌ها را بر اساس آن از توئیتر درخواست می‌کنیم را می‌بینید که می‌توانید به دلخواه، آنرا تغییر دهید.
باید در انتهای کار مشاهده کنید که توئیت‌ها در حال دریافت هستند و اطلاعات کامل هر توئیت شامل اطلاعات کاربر، میزان ریتوییت، میزان لایک ، هشتگ‌ها و مانند آن به شما در سلول آخر این کتابچه نمایش داده شود.

اگر احیاناً با کلیک بر روی هر فایل، مجددا به همین صفحه برگشت، از حالت Private Browsing یا مرور ناشناس استفاده کنید و مجدداً آدرس پروژه را وارد کنید، وارد فضای کاربری خود شوید و دوباره امتحان کنید.

۵- شروع به دریافت توئیت‌ها کنید

در گام یک این فرآیند، شروع به دریافت توئیت‌ها و ذخیره آنها در فایلی با نام روز جاری در پوشه tweets می‌کنیم. روی فایل twitter-step-1-Get-Tweets.ipynb کلیک کرده، کتابچه را اجرا کنید. توئیت‌ها شروع به دریافت شدن و نمایش به شما و همزمان ذخیره در پوشه tweets‌ خواهند شد.! به همین راحتی …
اگر سایر اطلاعات یک توئیت را هم نیاز دارید، به مرحله صفر بازگشته، نام آیتم داده مورد نظر را یافته و به خروجی اضافه کنید. نمونه ای از این کار در فایل twitter-step-1-Get-Tweets-Hashtags انجام داده‌ام که در آن فایل هشتگ‌های هر توئیت هم در فایل خروجی اضافه شده است. (البته خروجی این فایل دوم در پوشه tweets-hashtags ریخته می‌شود)
برای اطمینان از درستی کار، اگر بخش مدیریت فایلهای پروژه برگردید، درون پوشه tweets باید فایل جدیدی ایجاد شده باشد که با کلیک بر روی آن، پیش‌نمایش محتوای آن به شما نشان داده خواهد شد.

۶- پردازش اولیه توئیت‌های دریافت شده

در گام دوم این فرآیند، شروع به حذف کاراکترهای خاص و ایموجی‌ها و مانند آن از توئیت‌ها و ذخیره آنها در پوشه output‌ پوشه step1 می‌کنیم.

۷ – تحلیل و پردازش توئیت‌های آماده شده

در گام آخر این پروژه، به کمک امکانات کتابخانه معروف pandas‌ در پایتون، که داده‌ها را به صورت جدولی در آورده و امکان کار بر روی هر ستون را به صورت جداگانه به ما میدهد، چند پردازش و تحلیل ساده بر روی داده‌ها انجام دادیم.

تحلیل‌هایی مانند اینکه میانگین طول کلمات هر توئیت چقدر است، تعداد کلمات هر توئیت چندتاست، کدام کلمات بیش از همه در توئیت‌ها تکرار شده اند و مانند آن را در این گام انجام داده‌ایم که کدهای ساده و قابل فهمی دارد و اگر هم با پانداز و پایتون، قبلا کار نکرده‌اید با نگاه به این کدها، خودتان روند کار و نحوه تغییردادن آنها را تا حدود زیادی فراخواهید گرفت.

۸- کتابچه‌ها و گام‌های خود را به این پروژه اضافه کنید

ابتدا گام پنجم را در روزهای متوالی اجرا کنید تا تعداد معتنابهی توییت جمع آوری نمایید. سپس با بازکردن هر کتابچه، گزینه make a copy را بزنید و گام‌ها و تغییرات خود را از روی کدهای موجود ایجاد کنید و یا در صفحه اصلی پروژه، از منوی ساخت کتابچه، یک کتابچه با پایتون ۳٫۶ ایجاد و شروع به ایجاد کدها و تولید خروجی‌های مخصوص خود نمایید

۹- دادن ستاره به ما در پروژه تحلیل داده‌ها

برای اینکه دلگرم‌تر از گذشته به کار ادامه دهیم، از دادن ستاره به این پروژه که لینک آن در گام اول آمده است، یادتان نرود….

پ.ن : می‌توانید به کدهای نوشته شده در این آدرس گیت‌هاب دسترسی داشته باشید.

امتیاز کاربران: ۴٫۵۶ ( ۱۰ رای)

مجتبی بنائی

دانشجوی دکترای نرم‌افزار دانشگاه تهران (yun.ir/smbanaie)، مدرس دانشگاه و فعال در حوزه توسعه نرم‌افزار و مهندسی داده که تمرکز کاری خود را در چند سال اخیر بر روی مطالعه و تحقیق در حوزه کلان‌داده و زیرساخت‌های پردازش داده و تولید محتوای تخصصی و کاربردی به زبان فارسی و انتشار آنها در سایت مهندسی داده گذاشته است. مدیریت پروژه‌های نرم‌افزاری و طراحی سامانه‌های مقیاس‌پذیر اطلاعاتی از دیگر فعالیتهای صورت گرفته ایشان در چند سال گذشته است.
3 2 رای ها
Article Rating
اشتراک در
اطلاع از
guest

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

41 Comments
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
دکمه بازگشت به بالا
41
0
افکار شما را دوست داریم، لطفا نظر دهید.x