معرفی Apache XTable

۰ 50 زمان تقریبی مطالعه 2 دقیقه

یکی از پروژه‌های بنیاد آپاچی که امروزه به تدریج در اخبار و مقالات حوزه داده در حال ظاهر شدن است، Apache XTable است. این پروژه تنها یک هدف دارد و آن هم امکان تبدیل سه فرمت رایج ساخت Lakehouse یعنی

Deltalake

Apache Iceberge

Apache Hudi

به یکدیگر است.

توضیح اینکه برای ساخت Lakehouse‌ که ترکیب انباره‌های داده سنتی با مفهوم دریاچه داده است امروزه سه قالب رایج Hudi, Iceberge‌ و Deltalake را داریم که معمولاً هر سازمان یا ابزاری در حوزه توسعه و مدیریت دریاچه داده، با یکی از این‌ها کار خود را پیش برده است اما عدم سازگاری این سه قالب، باعث وجود مشکلاتی برای یک سازمان و به تبع آن، عدم گسترش مفهوم Lakehouse‌ می‌شد چون انتخاب هر یک از این سه قالب، الزامات و محدودیت‌هایی را با خود به ارمغان می‌آورد که اکنون XTable‌ نگرانی سازمان‌ها را از این لحاظ مرتفع می‌کند. به کمک XTable با هر قالبی که یک سازمان داده‌های خام خود را ذخیره کند، می‌تواند به راحتی آنها را به هم تبدیل کرده و نیاز خود را مرتفع سازد. (البته این کار، باعث افزونگی داده‌ هم خواهد شد)

به عنوان مثال، فرض کنید که بخشی از سازمان، داده‌های خود را به صورت Hudi و بخش دیگر سازمان، داده‌های خود را به صورت Iceberge‌ ذخیره کرده است. حال اگر یکی از این بخش‌ها به همه داده‌ها نیاز داشته باشد، به مشکل بر می خورد.

Xtable Use Case — https://www.onehouse.ai/blog/dremio-lakehouse-analytics-with-hudi-and-iceberg-using-xtable

این موضوع در شکل فوق، ترسیم شده است . در این شکل تیم B از طریق XTable, داده‌های تیم A که به فرمت Hudi ذخیره شده است را به Iceberge تبدیل کرده و در کنار سایر داده‌های خود، آنها را با Dremio پردازش میکند.

بنابراین اگر در انتخاب فناوری نهایی برای ساخت Lakehouse‌ خود شک دارید، می‌توانید یکی از این سه قالب را انتخاب کرده و هر جا نیاز به تبدیل آنها به یکدیگر داشتید از XTable‌ استفاده کنید.

امروزه به نظر می‌رسد که Apache Iceberge در حال جذب کاربران بیشتری است و اگر قصد طراحی یک Lakehouse را دارید، شاید بهتر باشد این فرمت را به عنوان قالب اصلی ذخیره داده‌ها انتخاب کنید.

Lakehouse

Lakehouse ترکیب دریاچه داده (که داده‌ها را به صورت خام و معمولا به صورت Parquet و مانند آن نگهداری می‌کند) و انباره داده است که اجازه میدهد بتوانیم داده‌های خام را با ذخیره‌کردن متادیتا، به نوعی دیتابیس تبدیل کنیم که مستقیما قابل کوئری گرفتن و استفاده در ابزارهای تحلیلی و گزارش سازی باشد

برچسب ها

مجتبی بنائی 1403/02/10

۰ 50 زمان تقریبی مطالعه 2 دقیقه

بعدی را بخوانید

دیدگاهتان را بنویسید لغو پاسخ

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

اصغر
از خواندن نظرات برخی افراد خیلی تعجب میکنم. متن بسیار کلی، ب...
محمد
باسلام. بسیار عالی و واضح توضیح داده شده است. باتشکر...
رضا مجردی
ای کاش نویسنده محترم در خصوص ارتباط و کاربرد و تاثیر محاسبات...
علیرضا
سلام و تشکر از توضیحات خیلی خوب شما - استفاده کردم...

معرفی Apache XTable

مجتبی بنائی

بعدی را بخوانید

Data Mesh : معماری داده مقیاس‌پذیر،‌ دامنه‌محور و غیرمتمرکز

آشنایی با معماری‌های داده در طراحی سامانه‌های جریان‌پرداز

دریاچه داده به عنوان بستر حکمرانی داده در سازمان

دریاچه داده : معماری جدید برای زیرساخت تحلیل و پردازش اطلاعات

Data Mesh : معماری داده مقیاس‌پذیر،‌ دامنه‌محور و غیرمتمرکز

آشنایی با معماری‌های داده در طراحی سامانه‌های جریان‌پرداز

دریاچه داده به عنوان بستر حکمرانی داده در سازمان

دریاچه داده : معماری جدید برای زیرساخت تحلیل و پردازش اطلاعات

دیدگاهتان را بنویسید لغو پاسخ

مجتبی بنائی

بعدی را بخوانید

Data Mesh : معماری داده مقیاس‌پذیر،‌ دامنه‌محور و غیرمتمرکز

آشنایی با معماری‌های داده در طراحی سامانه‌های جریان‌پرداز

دریاچه داده به عنوان بستر حکمرانی داده در سازمان

دریاچه داده : معماری جدید برای زیرساخت تحلیل و پردازش اطلاعات

Data Mesh : معماری داده مقیاس‌پذیر،‌ دامنه‌محور و غیرمتمرکز

آشنایی با معماری‌های داده در طراحی سامانه‌های جریان‌پرداز

دریاچه داده به عنوان بستر حکمرانی داده در سازمان

دریاچه داده : معماری جدید برای زیرساخت تحلیل و پردازش اطلاعات

با عضویت در خبرنامه ما

آخرین مطالب سایت را سریع تر از دیگران دریافت کنید

Mojo‌ در مقابل Rust‌ :‌برنده قطعا Mojo خواهد بود!

دیدگاهتان را بنویسید لغو پاسخ