کتاب مهندسی داده از حرف تا عمل

کتاب مهندسی داده از حرف تا عمل

استفاده از ابزارها و فریم‌ورک‌های مختلف بدون اینکه درک عمیقی از پشت‌صحنه وجود داشته باشد شاید برای انجام یک کار در اندازهٔ کوچک یا متوسط کافی باشد. ولی قطعا برای انجام یک کار در اندازهٔ بزرگ با وجود شاخصه‌هایی مثل قابلیت اطمینان  (Reliability) ، مقیاس‌پذیری (Scalable) و قابلیت نگهداری (Maintainable) کافی نیست. اینجاست که باید درک عمیقی از پشت‌صحنهٔ ابزارها و فریم‌ورک‌ها داشته باشیم تا بتوانیم ابزار مناسب را انتخاب کنیم و بدانیم در شرایط مختلف به چه شکل عمل می کنند و اصلا چه تنظیماتی باید به چه شکل انجام شود تا از ابزار انتخابی به بهترین شکل استفاده کنیم. این مسئله در دنیای پردازش داده‌های حجیم با توجه به پیچیدگی‌های ذاتی پردازش توزیع‌شده و تنوع ابزارهای موردنیاز با شدت بیشتری وجود دارد.

مهندسی داده (Data Engineering) یک عنوان شغلی نسبتا جدید است که هدفش طراحی و پیاده‌سازی پایپ‌لاین‌های دریافت، ذخیره‌سازی، آماده‌سازی و بازیابی داده‌ها با هدف تسهیل امکان اجرای پردازش‌های تحلیلی پیچیده بر روی داده است. مطالعات متعددی در سطح بین‌المللی نشان داده که جایگاه شغلی مهندس داده به لحاظ نرخ رشد و همچنین سطح پرداخت‌ها، در رتبهٔ نخست جایگاه‌های شغلی قرار دارد:

کتاب مهندسی داده از حرف تا عمل

طبیعتا طراحی پایپ‌لاین‌های داده و عملا معماری محصول، متناسب با ویژگی‌های مسئله متفاوت است و اولین مرحله، طراحی معماری سیستم است. در طراحی معماری سیستم باید دانش کافی در مورد انواع مدل‌های پردازشی و ذخیره‌سازی و بازیابی داده و همچنین شناخت درستی از نیازمندی‌ها و ویژگی‌های مسئله موردنظر وجود داشته باشد:

  • حجم داده‌ها، نرخ ورود و تنوع آن به چه شکل است و کجا و به چه شکل باید به صورت موقت یا دائمی ذخیره شود؟
  • چه تضمینی در مورد داده‌ها نیاز است؟ سازگاری داده (Data Consistency) تا چه حد مهم است؟ دسترس‌پذیری (Availability) چطور؟
  • ازدست‌رفتن یک داده چقدر اهمیت دارد؟
  • کش کردن داده نیاز است یا نه؟
  • برای ذخیره‌سازی از پایگاه داده‌های رابطه‌ای (Relational Database) استفاده شود یا بر پایهٔ سند (Document-Based) یا فایل سیستم توزیعی؟
  • نیاز به پردازش جریانی (Stream Processing) وجود دارد یا پردازش دسته‌ای (Batch Processing) یا هر دو؟
  • و …

بر اساس این معیارها باید نوع مولفه‌ها در معماری یک سیستم داده‌ای انتخاب شود.

در مرحلهٔ بعد برای پیاده‌سازی بخش‌های مختلف متناسب با معماری طراحی‌شده از ابزارهای مختلفی استفاده می‌شود. عوامل زیادی در انتخاب ابزار برای هر بخش تاثیر‌گذار است. از وجود نیروی انسانی متخصص گرفته تا انطباق با نیاز ما.

مرحلهٔ بعد پیکربندی ابزار است. عموما تعداد پارامترهای قابل تنظیم ابزارهای داده خیلی زیاد است. برای استفاده‌های دم‌دستی معمولا تنظیمات پیش فرض به‌خوبی کار می‌کند و کافی است. برای استفادهٔ حرفه‌ای و در مقیاس بزرگ از یک ابزار، باید معماری آن را بشناسیم و از پشت‌صحنهٔ آن مطلع باشیم، تنظیمات اصلی را بدانیم و بر اساس صورت مساله‌ای که داریم پیکربندی را انجام دهیم.

با توجه به مواردی که تا اینجا گفته شده است، برای اینکه بتوانیم معماری درستی طراحی کنیم، انتخاب‌های درست برای نوع مولفه‌ها در معماری داشته باشیم، ابزار درستی برای هر مولفه معماری انتخاب کنیم، ابزار را به نحو مناسب پیکربندی کنیم و در نهایت در مواجهه با مشکلات و باگ‌ها بتوانیم مشکلات را برطرف کنیم باید دید خوبی نسبت به پایه‌های دانشی سیستم‌های داده‌ای توزیع شده داشته باشیم. حال که به نظر می‌رسد نیاز است پشت‌صحنه را تا حد خوبی بدانیم و عمیق شویم، این سوال مطرح می شود که از کجا شروع کنیم.

معرفی کتاب مهندسی داده از حرف تا عمل (Designing Data Intensive Applications)

کتابی که قصد داریم در این مطلب معرفی کنیم دقیقا در این جایگاه قرار دارد و قصد دارد شما را با مفاهیم و چالش‌ها و مزایا و معایب انواع پیاده‌سازی بخش‌های زیرساختی یک سیستم داده‌ای آشنا کند. عنوان کتاب طراحی برنامه‌های داده‌محور (Designing Data-Intensive Applications) با زیرعنوان «ایده‌های اصلی پشت سیستم‌های قابل اطمینان، مقیاس پذیر و با قابلیت نگهداری بالا» است. نویسندهٰ این کتاب آقای مارتین کلپمن استاد دانشگاه کمبریج انگلستان است و کتاب در سال ۲۰۱۷ منتشر شده است. این کتاب از سه بخش کلی تشکیل شده است. بخش  اول کتاب به بیان مفاهیم پایه‌ای سیستم‌های داده می‌پردازد. در بخش دوم مباحث مرتبط با توزیع‌شدگی ارائه شده است. در نهایت در بخش سوم هم معماری کلی سیستم‌های داده بیان شده است.

معرفی کتاب مهندسی داده از حرف تا عمل

در بخش اول کتاب بعد از شرح دقیق قابلیت اطمینان، مقیاس‌پذیری و قابلیت نگهداری به بیان مدل‌های داده و زبان‌های پرس‌و‌جوی داده‌ها پرداخته شده است. در ادامه، بحث ذخیره‌سازی و بازیابی داده با بیانی گام‌به‌گام و با شروع از مفاهیم پایه‌ای ذخیره‌گاه داده (Data Storage) و مقایسهٔ انواع پایگاه دادهٔ رابطه‌ای و بر پایهٔ سند، بحث را تا طراحی انبارهٔ داده (Data Warehouse) و ذخیره‌سازی ستونی (Columnar Storage) پیش برده است. با خواندن این فصل عملا دید خوبی در خصوص انواع ذخیره‌گاه‌های داده و مفاهیم پایه‌ای آن‌ها به‌ دست می آید. در نهایت در فصل پایانی این بخش بحث کدگذاری (Encoding) و سریال‌سازی اشیا داده‌ای بیان شده است.

یکی از نکات خوب این کتاب این است که پس از توضیح روش‌های مختلف پیاده‌سازی یک مفهوم مثل ذخیره‌گاه داده، گریزی به ابزارهای معروف زده شده است و این نکته به درک پشت‌صحنه ابزارهای مرسوم کمک کرده و در انتخاب ابزار مناسب نیز به ما کمک می‌کند. مثلا فرض کنید در فرآیند طراحی معماری به این نتیجه رسیده‌ایم که به یک پایگاه داده NoSQL نیاز داریم. توجه کنید که مفاهیم مرتبط با انواع پایگاه داده و تفاوت‌های اصلی آن‌ها در بخش اول کتاب بیان شده است. در مرحلهٔ بعد باید ابزار مناسب را انتخاب کنیم. دو نمونهٔ اصلی از ذخیره‌گاه‌ها برای داده‌های حجیم HBase و Cassandra است که در بخش اول کتاب و در بحث ذخیره‌سازی مطرح شده است. این پایگاه‌های داده، داده‌ها را در قالب کلید-مقدار ذخیره می‌کنند و ذخیره و بازیابی با کلید به سرعت بالا انجام می‌شود. مثلا فرض کنید برای یک مسئله به این نتیجه می‌رسیم که باید قابلیت جستجو روی بعضی از فیلدهای مقدار داشته باشیم. طبیعتا اگر حجم داده خیلی زیاد باشد نمی‌توانیم داده‌ها را چند بار ذخیره کنیم و هر بار یکی از فیلدها را کلید قرار دهیم. یعنی عملا بهتر است امکانی مثل اندیس‌گذاری (Index) روی برخی از فیلدهای مقدار داشته باشیم. در این حالت به جای گزینه‌هایی مثل HBase می‌توانیم از Cassandra که اندیس ثانویه (Secondary Index) را پشتیبانی می‌کند استفاده کنیم. البته توجه کنید که در حالت کلی باید مسئله را از ابعاد مختلف تحلیل و بررسی کنیم.

بخش دوم کتاب در مورد داده‌های توزیع‌شده است. رونوشت‌برداری (Replication) و چندپاره کردن (Partitioning) و انواع روش‌های مرسوم و چالش‌های مربوطه در فصل‌های اول و دوم این بخش ارائه شده است. تقریبا می‌توان گفت که رونوشت‌برداری و چندپاره کردن در اغلب سیستم‌های داده‌ای توزیع‌شده (از Kafka گرفته تا HBase و HDFS , …) وجود دارد و مسیر به سمت مقیاس‌پذیری، دسترس‌پذیری بالا و تحمل‌پذیری خطا Fault-Tolerance) از این مفاهیم گذر می‌کند. در ادامهٔ این بخش از کتاب بحث تراکنش‌ها مطرح شده است. اگر قصد دارید خواص ACID (Atomicity, Consistency, Isolation, Durability) پایگاه داده را عمیق درک کنید حتما این فصل را مطالعه کنید. نکتهٔ قابل توجهی که در این فصل بیان شده است این است که Isolation و Consistency و Durability سطوح مختلفی دارد و برخلاف تصور اولیه که مثلا پایگاه داده‌های رابطه‌ای مرسوم ACID را به صورت کامل پشتیبانی می‌کنند و پیش‌فرض اولیهٔ انواع پایگاه داده رابطه‌ای است، باید به صورت دقیق‌تر گفت که به عنوان مثال سطوحی از Isolation را پشتیبانی می‌کنند و عموما قابل تنظیم است. در فصل بعدی مشکلات متداول در سیستم‌های توزیع‌شده مثل بحث توافق و همگام شدن زمان سیستم‌ها و غیرقابل‌اطمینان بودن شبکه مطرح شده است و در نهایت در فصل آخر این بخش از کتاب مسئلهٔ سازگاری و اجماع (Consensus) بیان شده است و سطوح سازگاری و همچنین چالش‌هایی که در رسیدن به اجماع در سیستم‌های توزیع شده وجود دارد مطرح شده است.

شاید شنیده باشید که طبق تئوری CAP(Consistency, Availability, Partitioning)، در یک سیستم توزیع‌شده همزمان دو مورد از این موارد می‌تواند وجود داشته باشد. با توجه به اینکه از دوپاره شدن شبکه نمی‌توان جلوگیری کرد در نتیجه یا باید سیستم به سمت سازگاری برود یا اینکه دسترس‌پذیری را انتخاب کنیم. به عنوان مثال ابزار HBase به سمت CP متمایل است و Cassandra به سمت AP. نکته‌ای که قابل توجه است این است که بدانیم وقتی ابزاری AP است یا CP به چه معنی است. مثلا AP یعنی اینکه کلا سازگاری داده را در این ابزار نداریم؟ باید بدانیم که سازگاری سطوحی دارد و قابل تنظیم است. کلا دنیا دنیای مصالحه است. باید یک چیز داده شود تا چیز دیگری به دست آید. یا حداقل باید از یک مورد کمتر بخواهیم تا از مورد دیگر بیشتر داشته باشیم. توضیح دقیق این مفاهیم در بخش دوم کتاب بیان شده است.

در نهایت در بخش سوم کتاب به بحث تجمیع سیستم‌های مختلف داده‌ای (انواع مختلف ذخیره‌سازی موقت و دائمی، پردازش دسته‌ای و جریانی) در جهت ایجاد یک سیستم با یک معماری یکپارچه پرداخته شده است. در فصل اول از این بخش، پردازش دسته‌ای و مدل پردازشی (Map-Reduce) مورد بحث قرار گرفته است و در ادامه در فصل دوم پردازش جریانی ارائه شده است. در نهایت در فصل آخر، آیندهٔ سیستم‌های داده بیان شده و ایده‌هایی برای ساخت برنامه‌هایی قابل اطمینان، مقیاس پذیر و با قابلیت نگهداری بالا مطرح شده است.

جمع بندی

کتاب معرفی شده در این مطلب برای مهندسین نرم‌افزار که تمایل به ورود به بحث سیستم‌های توزیع‌شده، سیستم‌های با کارایی بالا و در حالت کلی سیستم‌های ذخیره‌سازی و پردازش داده‌های حجیم دارند حاوی مطالب بسیار آموزنده‌ای است. این کتاب علاوه بر بیان مفاهیم بنیادین در سیستم‌های داده‌ای به بیان انواع تصمیم‌های طراحی و معماری سیستم‌های زیرساختی و چالش‌ها و مصالحه‌های موجود در آنها می‌پردازد. از طرف دیگر صحبت در مورد اینکه ابزارهای معروف در این حوزه از چه انتخاب‌های طراحی استفاده کرده‌اند به خواننده در انتخاب ابزار مناسب و پیکربندی‌های مهم متناسب با نیازمندی های مسئله کمک می‌کند. در نهایت خواندن این کتاب را به همهٔ مهندسین نرم‌افزار و علاقمندان به حوزهٔ مهندسی داده توصیه می‌کنم.

برچسب ها

دیدگاه شما