ابزار و کتابخانه ها

استخراج اطلاعات متنی وب سایت ها با نرم افزار OutWit

بخش مهمی از داده های دنیای معاصر، در صفحات وب ذخیره شده است. اگر قصد بررسی محتوای یک سایت خبری یا مجموعه اطلاعات نظرات کاربران یک سایت فروش کالا و امثالهم را داشته باشید، روند معمول کار این است که دست به کد شوید و برنامه ای برای استخراج اطلاعات از این سایتها بنویسید، هر چند به لطف کتابخانه های مختلفی که امروزه برای این منظور نوشته شده است مانند Scrapy یا Beautiful Soup می توان به راحتی و در عرض چند ساعت یک کاوشگر وب سفارشی نوشت اما برای کارهایی که می خواهید تست اولیه را به سرعت روی مجموعه داده های متنی اعمال کنید یا دانش برنامه نویسی زیادی ندارید، می توانید از نرم افزارهای خاص این منظور استفاده کنید.

نرم افزاری که قصد معرفی آنرا دارم OutWit است که هم به صورت مستقل برای ویندوز و لینوکس قابل دانلود است و هم به عنوان یک افزونه روی فایر فاکس نصب می شود که توصیه می کنم از همین افزونه فایر فاکس آن استفاده کنید .

هنگامی که قصد واکشی اطلاعات یک سایت را دارید، ابتدا یک صفحه نمونه از اطلاعاتی که نیاز دارید را بارگذاری کنید و بعد وارد بخش Scraper‌ آن شوید و یک Scraper یا استخراج کننده جدید بسازید. برای ساخت این استخراج کننده هم فیلدهایی که باید استخراج شوند را در جدول پایین تعریف کرده مثلاً برای اخبار شما نیاز به عنوان خبر، متن خبر، نویسنده، تاریخ نشر، برچسب ها و گروه خبری آن دارید.برای هر کدام از این اطلاعات، مکانی از صفحه وب را که در آن جا قرار گرفته اند را باید مشخص کنید که این کار با ذکر برچسب های ابتدایی و انتهایی آن بخش صورت می گیرد . مثلاً عنوان یک خبر در بین برچسب های <title> و </title> قرار گرفته است که در بخش بالایی صفحه قابل مشاهده است .

با اینکار شما Scraper یا استخراج کننده خاص خودتان را ساخته اید. حالا کافیست یک گروه خبری یا صفحه اول سایت را باز کنید و روی بخش لینک ها یا لیست ها کلیک کرده و صفحات خبری را با موس انتخاب کرده و با کلیک راست و انتخاب گزینه Auto Explorer Page و انتخاب گزینه بعدی Fast Scrape و انتخاب Scraper ایجاد شده ، فرآیند استخراج اطلاعات آنها به طور خودکار شروع می شود که البته در نسخه رایگان تا صد صفحه بیشتر قابل استخراج نیست و در پایان مرحله استخراج می توانید خروجی مورد نظر خود مانند خروجی متن یا اکسل را ایجاد کنید. می توانید برای هر گروه خبری این فرآیند را تکرار کنید .

آخرین نکته درباره OutWit این است که این سایت مجموعه نرم افزارهایی برای استخراج عکس و مستنداتی مانند پی دی اف هم دارد که می توانید بسته به نیاز خود از آنها نیز استفاده کنید.

پی نوشت :

اگر اندک آشنایی با پایتون دارید و قصد استخراج اطلاعات یک وب سایت به صورت حرفه ای را دارید، این مقاله سایت مهندسی داده  را از دست ندهید .

مجتبی بنائی

دانشجوی دکترای نرم‌افزار دانشگاه تهران (yun.ir/smbanaie)، مدرس دانشگاه و فعال در حوزه توسعه نرم‌افزار و مهندسی داده که تمرکز کاری خود را در چند سال اخیر بر روی مطالعه و تحقیق در حوزه کلان‌داده و زیرساخت‌های پردازش داده و تولید محتوای تخصصی و کاربردی به زبان فارسی و انتشار آنها در سایت مهندسی داده گذاشته است. مدیریت پروژه‌های نرم‌افزاری و طراحی سامانه‌های مقیاس‌پذیر اطلاعاتی از دیگر فعالیتهای صورت گرفته ایشان در چند سال گذشته است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

جای خالی در معادله زیر را با کی برد انگلیسی وارد کنید : * Time limit is exhausted. Please reload CAPTCHA.

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

دکمه بازگشت به بالا