کلان داده چگونه باعث ایجاد بحرانی بزرگ در علم شده است؟

۰ 467 زمان تقریبی مطالعه 4 دقیقه

این مقاله در وب سایت زومیت و به قلم مهدی زارع سریزدی منتشر شده است و مهندسی داده با هدف جمع آوری اطلاعات مفید حوزه کلان داده در این سایت، به بازنشر آن اقدام کرده است.

کلان‌داده امروزه طرفداران زیادی دارد و بسیاری از فعالان علمی نیز از آن استفاده می‌کنند. البته، این پدیده‌ی مدرن ضعف‌هایی نیز دارد که در مقاله‌های علمی و داده‌های مرتبط خود را نشان داده است.

فعالان دانشگاهی و محققان با نگرانی جدیدی در حوزه‌ی تحقیقات و مقالات علمی روبه‌رو شده‌اند: در بسیاری از زمینه‌های علمی،‌ نتایج منتشرشده‌ی مشهور قابلیت تکرارشدن ندارند. این بحران ممکن است نتایج خطرناکی داشته باشد. به‌عنوان مثال، در سال ۲۰۱۱ سازمان Bayer Healthcare بررسی ۶۷ پروژه‌ی تحقیقاتی را شروع و بخت تکرارپذیری آن‌ها را کمتر از ۲۵ درصد عنوان کرد. به‌علاوه، بیش از دوسوم پروژه‌ها تناقض‌های بزرگی داشتند. پروژه‌ی مشابه دیگر که اخیرا انجام شد، ۲۸ مقاله‌ی روان‌شناسی را بررسی کرد که طبق بررسی‌ها، فقط نیمی از مقاله‌ها قابلیت تکرارپذیری داشتند.

پروژه‌هایی شبیه به آنچه گفته شد، در حوزه‌های متنوع علمی هچون پزشکی و ریاضیات انجام شده‌اند و نتایج مشابهی را نشان داده‌اند. نتایج مذکور تقریبا اعتبار تحقیقات تمامی دانشمندان را خدشه‌دار می‌کند.

چه عواملی باعث ایجاد این مشکل شده‌اند؟ دراین‌میان، عوامل تأثیرگذار متعددی وجود دارند. نویسنده‌ی مقاله‌ی منبع، یعنی کای ژنگ، در مقام کارشناس آمار اعتقاد دارد مشکل اصلی نحوه‌ی انجام تحقیقات علمی در عصر کنونی، یعنی عصر کلان‌داده، تشریح می‌شود. بخشی از بحران تکرارناپذیری نتایج تحقیقات علمی، به‌دلیل تحلیل‌های غیرمعتبر آماری از فرضیه‌های مبتنی بر داده است. روش کنونی برخلاف روش‌هایی است که در قدیم استفاده می‌شد.

روش علمی

در آزمایش‌های سنّتی، ابتدا کارشناس آمار و دانشمند حوزه‌ی علمی مذکور، فرضیه را با همکاری یکدیگر شکل می‌دادند. سپس، دانشمند آزمایش‌ها را برای جمع‌آوری داده انجام می‌داد که درنهایت، کارشناس آمار آن را تحلیل می‌کرد.مطالعات سنّتی روی داده‌های محدودتری انجام می‌شد

یکی از نمونه‌های مشهور آزمایش‌های سنّتی، داستان آزمایش طعم چای است. در دهه‌ی ۱۹۲۰، زنی ادعا کرد می‌تواند تفاوت طعم چای را درمقایسه‌با اول ریخته‌شدن چای یا شیر تشخیص دهد. رونالد فیشر، کارشناس آمار، به ادعای او شک کرد. طبق نظریه‌های آماری، فیشر گفت اگر در مسئله‌ای در ۴ فنجان ابتدا چای و در ۴ فنجان دیگر ابتدا شیر بریزیم، تعداد فنجان‌هایی که آن زن به‌درستی حدس می‌زند، از مدل احتمالاتی توزیع فوق‌هندسی پیروی خواهد کرد.

آزمایش مدنظر فیشر با ۸ فنجان انجام شد که به‌ترتیب گفته‌شده، از چای و شیر پر شده بودند. فنجان‌ها تصادفی برای آزمایش آن زن مرتب شدند. طبق داستان، آن زن توانست هر ۸ فنجان را به‌درستی حدس بزند. چنین نتیجه‌ای کاملا برخلاف فرضیه‌ی فیشر بود. احتمال اینکه آن زن بتواند همه‌ی پاسخ‌های صحیح را براساس حدس‌زدن تصادفی بیابد، ۱.۴ درصد بود. فرایند مذکور، یعنی فرضیه‌سازی و جمع‌آوری داده و سپس تحلیل، در دوران کلان‌داده به‌ندرت یافت می شود. فناوری امروزی حجم عظیمی از داده را حدود ۲.۵ اگزابایت در هرروز جمع‌آوری می‌کند.

اگرچه دستاوردهای کلان‌داده و تحلیل ماشینی آن بسیار مفید محسوب می‌شود، علم با سرعتی بسیار آهسته‌تر حرکت می‌کند؛ درنتیجه، شاید دانشمندان نمی‌دانند چگونه فرضیه‌ی صحیح را در تحلیل داده وارد کنند. به‌عنوان مثال، دانشمندان امروزی ده‌ها هزار بیان ژن را از مردم جمع‌آوری می‌کنند؛ اما تشخیص این امر دشوار خواهد بود که کدام ژن در فرضیه‌ی درحال‌جریان استفاده شود.

در فرضیه‌ی گفته‌شده درباره‌ی تحقیقات ژنتیک، افراد به شکل‌دهی فرضیه براساس داده ترغیب می‌شوند. چنین فرضیه‌ای متقاعدکننده به‌نظر می‌رسد؛ اما نتیجه‌گیری‌ها مرسوم از آن‌ها عموما نامعتبر هستند. دلیل اصلی نیز آن است که در این روش، روند شکل‌دهی فرضیه و مشاهده‌ی داده‌ها معکوس شده است.

مشکلات داده‌ها

اکنون به این سؤال می‌رسیم: «چرا معکوس‌کردن روند بررسی و تحلیل داده‌های علمی، نتایج مفیدی به‌همراه نخواهد داشت؟» فرض کنید داستان آزمایش چای را با روش کلان‌داده انجام دهیم؛ یعنی مثلا ۱۰۰ زن چای‌ها را امتحان کنند.بسیاری از یافته‌های کنونی علمی قابلیت تکرارپذیری ندارند

فرض کنید ۱۰۰ زن در آزمایش حضور دارند و هیچ‌کدام نمی‌توانند وضعیت چای را شناسایی کنند. آن‌ها فقط با حدس‌زدن ۸ فنجان روبه‌روی خود را امتحان می‌کنند. طبق نظریه‌های آماری، ۷۵.۶ درصد احتمال دارد که حداقل یکی از زنان تمام فنجان‌های چای را درست حدس بزند.

اکنون فرض کنید دانشمندی از میان زنان حاضر در این آزمایش زنی را ببیند که در کمال تعجب، همه‌ی فنجان‌ها را می‌تواند درست تشخیص دهد. او سپس تحلیل آماری خود را برپایه‌ی توزیع فوق‌هندسی توضیح‌داده‌شده انجام می‌دهد. او نتیجه خواهد گرفت که این زن قابلیت تشخیص صحیح همه‌ی لیوان‌ها را دارد؛ اما نتیجه‌گیری او قابلیت تکرار ندارد. درواقع، اگر او باردیگر آزمایش را انجام دهد؛ چون در مرتبه‌ی اول، تنها با حدس موفق شده فنجان‌ها را شناسایی کند، به‌احتمال زیاد ناموفق خواهد بود.

مثال بالا نشان داد چقدر احتمال دارد دانشمندان از روی بخت‌واقبال سیگنال‌های جالب، اما غیرواقعی را از مجموعه‌ی داده‌ها استخراج کنند. آن‌ها احتمالا براساس همین سیگنال‌ها فرضیه‌سازی و از همان مجموعه‌ی داده‌ی قبلی برای نتیجه‌گیری استفاده می‌کنند. درنهایت، احتمالا زمانی به‌طول خواهد انجامید تا آن‌ها متوجه تکرارپذیرنبودن یافته‌هایشان شوند. چنین مشکلی عموما در تحلیل‌هایی براساس کلان‌داده رخ می‌دهد.

به‌طور خلاصه، به‌‌دلیل فراوانی حجم داده احتمال یافتنِ اتفاقی سیگنال‌های مثبت وجود دارد.

ایراد نگران‌کننده‌تر در استفاده از روش کلان‌داده آن است که احتمال دست‌کاری داده‌ها برای رسیدن به نتایج و انتشار عمومی آن‌ها را برای دانشمندان آسان‌تر می‌کند. متخصصان آماری به‌نوعی چنین روش‌هایی را به‌سخره می‌گیرند. آن‌ها می‌گویند اگر به‌اندازه‌ی کافی داده جمع کنید، احتمالا به نتیجه‌ی دلخواه می‌رسید. سؤال این است: «نتیجه‌ی به‌دست‌آمده منطقی و صحیح نیز محسوب می‌شود؟» احتمالا خیر.

تحلیل‌های قوی‌تر

دانشمندان چگونه می‌توانند بدون گرفتارشدن به مشکل گفته‌شده، نتایج صحیح و تکرارپذیر را با تحلیل‌های کلان‌داده به‌دست بیاورند؟ پاسخ ساده است. آن‌ها باید بیشتر مراقب باشند. اگر دانشمندان به‌دنبال نتایج تکرارپذیر از فرضیه‌های مبتنی بر داده هستند، باید آن روش را با دقت فراوان در تحلیل‌هایشان به‌کار بگیرند. به‌علاوه، متخصصان آمار نیز باید فرایندهای جدید و بهتری برای نتیجه‌گیری‌های معتبر طراحی کنند. درحال‌حاضر، تدوین چند فرایند و روند تحلیلی جدید در دستورکار دانشمندان مشهور آمار قرار دارد.

علم آمار به‌معنای استفاده از بهینه‌ترین راه برای استخراج اطلاعات از داده است. با استفاده از این مفهوم، می‌توان آمار را علمی نامید که با تکامل داده کامل‌تر می‌شود. دانشمندان حوزه‌های مختلف باید تغییرات جاری در حوزه‌ی داده را قدر بدانند؛ چراکه به توسعه‌ی روش‌های آماری بهینه‌تر و درنتیجه، فرصت‌های علمی بیشتر منجر می‌شود. درنهایت، این پیشرفت‌ها موجب کشف‌های جدید و البته معتبر علمی خواهد شد.

کلان داده و یادگیری ماشین، مانع از وقوع بحران مالی جهانی نمی‌شوند – زومیت

الگوریتم‌های پیچیده‌ی کلان داده و یادگیری ماشین که امروزه در سطحی وسیع مورداستفاده قرار می‌گیرند، لزوماً روندهای مالی آینده را به‌درستی برآورد نمی‌کنند.

https://www.zoomit.ir/2018/9/23/287207/big-data-machine-learning-financial-crisis/

مجتبی بنائی 1397/11/10

۰ 467 زمان تقریبی مطالعه 4 دقیقه

دیدگاهتان را بنویسید لغو پاسخ

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

مجتبی بنائی
سلام. امروزه خیلی هدوپ به صورت عملی استفاده نمیشه . اگر نیاز...
فاطمه
سلام برای کار با hortonworks در حد ابتدایی و شروع کار باابزا...
اصغر
از خواندن نظرات برخی افراد خیلی تعجب میکنم. متن بسیار کلی، ب...
محمد
باسلام. بسیار عالی و واضح توضیح داده شده است. باتشکر...

کلان داده چگونه باعث ایجاد بحرانی بزرگ در علم شده است؟

روش علمی

مشکلات داده‌ها

تحلیل‌های قوی‌تر

مجتبی بنائی

بعدی را بخوانید

آشنایی با بسترهای توسعه بدون‌کد برای مدیریت داده‌ها

معرفی بنتوس :‌ یک ابزار ETL‌ ساده، سبک و موثر

معرفی کتاب : مصاحبه طراحی سیستم‌های نرم‌افزاری

معرفی کتاب : Database Performance at Scale

آشنایی با بسترهای توسعه بدون‌کد برای مدیریت داده‌ها

معرفی بنتوس :‌ یک ابزار ETL‌ ساده، سبک و موثر

معرفی کتاب : مصاحبه طراحی سیستم‌های نرم‌افزاری

معرفی کتاب : Database Performance at Scale

دیدگاهتان را بنویسید لغو پاسخ

روش علمی

مشکلات داده‌ها

تحلیل‌های قوی‌تر

مجتبی بنائی

بعدی را بخوانید

آشنایی با بسترهای توسعه بدون‌کد برای مدیریت داده‌ها

معرفی بنتوس :‌ یک ابزار ETL‌ ساده، سبک و موثر

معرفی کتاب : مصاحبه طراحی سیستم‌های نرم‌افزاری

معرفی کتاب : Database Performance at Scale

آشنایی با بسترهای توسعه بدون‌کد برای مدیریت داده‌ها

معرفی بنتوس :‌ یک ابزار ETL‌ ساده، سبک و موثر

معرفی کتاب : مصاحبه طراحی سیستم‌های نرم‌افزاری

معرفی کتاب : Database Performance at Scale

با عضویت در خبرنامه ما

آخرین مطالب سایت را سریع تر از دیگران دریافت کنید

نگاهی به صنعت مانیتورینگ با معرفی Prometheus

دست به کد: جمع آوری و تحلیل داده‌های توئیتر فارسی در چند دقیقه

دیدگاهتان را بنویسید لغو پاسخ