تحقیقات دانشگاهی

مقالاتی که دنیای کلان داده را تغییر دادند

در حوزه کلان داده در سالهای اخیر مقالات بسیار زیادی منتشر شده است و با توجه به گرایشات جهانی به این حوزه ، سال به سال نیز در حال افزایش است اما در این بین ، بعضی مقالات نقش پایه ای و اساسی در این حوزه ایفا کرده اند مانند مقاله ای که گوگل در سال ۲۰۰۶ با موضوع کلان جدول یا BigTable منتشر کرد و پایه ای شد برای طراحی بانکهای سطر گسترده ای مانند آمازون داینامو و کاساندرا .
در این مقاله این مقالات که نقطه عطفی در حوزه کلان داده بوده اند به صورت زیر فهرست شده اند که برای دانشجویان و محققین این حوزه توصیه میشود برای شروع کار ، از این مقالات پایه ای استفاده کنند :

  1.  MapReduce: Simplified Data Processing on Large Clusters
  2. The Google File System
  3. Bigtable: A Distributed Storage System for Structured Data
  4. Dynamo: Amazon’s Highly Available Key-value Store
  5. The Chubby lock service for loosely-coupled distributed systems
  6. Chukwa: A large-scale monitoring system
  7. Cassandra – A Decentralized Structured Storage System
  8. HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads
  9. S4: Distributed Stream Computing Platform.
  10. Dremel: Interactive Analysis of Web-Scale Datasets
  11. Large-scale Incremental Processing Using Distributed Transactions and Notifications
  12. Pregel: A System for Large-Scale Graph Processing
  13. Spanner: Google’s Globally-Distributed Database
  14. Shark: Fast Data Analysis Using Coarse-grained Distributed Memory
  15. The PageRank Citation Ranking: Bringing Order to the Web
  16. A Few Useful Things to Know about Machine Learning
  17. Random Forests
  18. A Relational Model of Data for Large Shared Data Banks
  19. Map-Reduce for Machine Learning on Multicore
  20. Megastore: Providing Scalable, Highly Available Storage for Interactive Services
  21. Finding a needle in Haystack: Facebook’s photo storage
  22. Spark: Cluster Computing with Working Sets
  23. The Unified Logging Infrastructure for Data Analytics at Twitter
  24. F1: A Distributed SQL Database That Scales
  25. MLbase: A Distributed Machine-learning System
  26. Scalable Progressive Analytics on Big Data in the Cloud
  27. Big data: The next frontier for innovation, competition, and productivity
  28. The Promise and Peril of Big Data
  29. TDWI Checklist Report: Big Data Analytics

در صورت نیاز به دانلود این مقالات ، می توانید از سایت تراپیپر یا PaperDL استاده کنید.

یک فهرست ۳۸ تایی از مقالات پایه ای حوزه کلان داده هم در سایت   DataScienceCentral برای علاقه مندان تهیه شده است .

فهرستی دیگر از مقالات مفید و ضروری حوزه کلان داده رادر  این آدرس  به تفکیک سال می توانید مشاهده کنید.

مجتبی بنائی

دانشجوی دکترای نرم‌افزار دانشگاه تهران (yun.ir/smbanaie)، مدرس دانشگاه و فعال در حوزه توسعه نرم‌افزار و مهندسی داده که تمرکز کاری خود را در چند سال اخیر بر روی مطالعه و تحقیق در حوزه کلان‌داده و زیرساخت‌های پردازش داده و تولید محتوای تخصصی و کاربردی به زبان فارسی و انتشار آنها در سایت مهندسی داده گذاشته است. مدیریت پروژه‌های نرم‌افزاری و طراحی سامانه‌های مقیاس‌پذیر اطلاعاتی از دیگر فعالیتهای صورت گرفته ایشان در چند سال گذشته است.
دکمه بازگشت به بالا