پردازش یک میلیارد داده تاکسی های نیویورک

۰ 1,111 زمان مطالعه یک دقیقه

وبلاگ marksblogg اخیراً مجموعه مقالاتی را منتشر کرده است در خصوص پردازش داده های مسیرهای طی شده توسط تاکسی های نیویورک در شش سال گذشته که بالای یک میلیارد رکورد را شامل می شود.

کار بسیار خوبی که نویسنده مقاله انجام داده است، اجرای چند کوئری مشخص روی معماری ها و دیتابیس های مختلف است به گونه ای که کاربر بتواند آنها را با هم مقایسه کند. نحوه تنظیم و بارگذاری داده ها در هریک و نیز محدودیت ها و معایب هر کدام با توضیحات کامل مشخص شده است .

برخی از مقالات، به صورت فهرست وار از قرار زیر هستند :

البته مقاله اصلی که الهام بخش این مجموعه مقالات بوده است ، مقاله ایست با عنوان Analyzing 1.1 Billion NYC Taxi and Uber Trips, with a Vengeance که با استفاده از پستگرس به تحلیل این حجم از داده ها و رسم نمودارها و تحلیل آنها نموده است .

نکته بسیار جالب در رابطه با معماری های مختلف آزمایش شده برای کوئری گرفتن از یک میلیارد داده، سرعت بسیار بالای الاستیک سرچ نسبت به بقیه موارد است که در حد چند ثانیه کوئری ها را جواب داده است و بقیه در حد چند دقیقه . البته به خاطر محدودیت های سخت افزاری ، حجم فیلدهای رکوردها را برای الاستیک پایین آورده بودند اما با این وجود، نتیجه خیلی متفاوت بوده است .

برچسب ها

مجتبی بنائی 1395/02/03

۰ 1,111 زمان مطالعه یک دقیقه

بعدی را بخوانید

دیدگاهتان را بنویسید لغو پاسخ

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

اصغر
از خواندن نظرات برخی افراد خیلی تعجب میکنم. متن بسیار کلی، ب...
محمد
باسلام. بسیار عالی و واضح توضیح داده شده است. باتشکر...
رضا مجردی
ای کاش نویسنده محترم در خصوص ارتباط و کاربرد و تاثیر محاسبات...
علیرضا
سلام و تشکر از توضیحات خیلی خوب شما - استفاده کردم...

پردازش یک میلیارد داده تاکسی های نیویورک

A Billion Taxi Rides on Amazon EMR running Spark

A Billion Taxi Rides in Elasticsearch

A Billion Taxi Rides on Google’s BigQuery

A Billion Taxi Rides in PostgreSQL

A Billion Taxi Rides on Google’s Dataproc running Presto (سرویس جدید ابری گوگل)

A Billion Taxi Rides in Hive & Presto

n Redshift

مجتبی بنائی

بعدی را بخوانید

ابزارهای نوین پردازش داده در یک نگاه – معرفی سایت OSS Insight

معرفی سایت dbdb.io

دست به کد : تمرین عملی با مانگودی‌بی

تحلیل سریع رابطه زبان‌ برنامه‌نویسی و سرعت پاسخ‌گویی یک فریمورک

ابزارهای نوین پردازش داده در یک نگاه – معرفی سایت OSS Insight

معرفی سایت dbdb.io

دست به کد : تمرین عملی با مانگودی‌بی

تحلیل سریع رابطه زبان‌ برنامه‌نویسی و سرعت پاسخ‌گویی یک فریمورک

دیدگاهتان را بنویسید لغو پاسخ

بعدی را بخوانید

ابزارهای نوین پردازش داده در یک نگاه – معرفی سایت OSS Insight

معرفی سایت dbdb.io

دست به کد : تمرین عملی با مانگودی‌بی

تحلیل سریع رابطه زبان‌ برنامه‌نویسی و سرعت پاسخ‌گویی یک فریمورک

با عضویت در خبرنامه ما

آخرین مطالب سایت را سریع تر از دیگران دریافت کنید

هدوپ در ده سالی که گذشت ....

Oracle Live SQL : سرویسی آنلاین برای آموزش و کار با اوراکل

دیدگاهتان را بنویسید لغو پاسخ