چه زمانی می‌توان رابطه همبستگی را مبنای عمل قرار داد؟

«با دردست‌داشتن پتابایت‌ها داده، دیگر می‌توان گفت: همبستگی کفایت می‌کند.»

کریس اندرسون (Chris Anderson)، Wired Magazine، ۲۳ ژوئن ۲۰۰۸

این عقیدهٔ کریس اندرسون که می‌گوید «با دردست‌داشتن پتابایت‌ها داده، دیگر می‌توان گفت: همبستگی کفایت می‌کند [و نیازی به علیت نیست]» از همان سال ۲۰۰۸، در انجمن‌های کلان‌داده، تبدیل به جمله‌ای کلیشه‌ای شده است. اساتید فن علم تحلیل و یادگیری ماشین شعارشان این است: «علیت مرده است.» آنها می‌گویند اگر به‌اندازهٔ کافی شواهد آماری وجود داشته باشد، دیگر اصلاً لازم نیست که بفهمیم چرا فلان اتفاق رخ‌داده است. فقط لازم است بفهمیم کدام امور با هم رخ می‌‌دهند.

اما صرف پرداختن به این پرسش که آیا همبستگی به‌تنهایی کافی است یا خیر، روش صحیحی نیست. استفاده‌کنندگان از کلان‌داده‌ها به‌جای این پرسش باید از خود بپرسند: «آیا می‌توانم بر مبنای تشخیص فلان همبستگی دست به عمل بزنم یا خیر؟» پاسخ درست به این پرسش هم این است: «بستگی دارد». در واقع، برای رسیدن به پاسخ صحیح به این پرسش، باید این دو عامل را در نظر گرفت:

اطمینان از اینکه همبستگی تشخیص‌داده‌شده، به‌احتمال زیاد در آینده نیز برقرار خواهد بود. هرچقدر سطح این اطمینان بالاتر باشد، اتکا به این همبستگی، برای عمل بر مبنای آن، توجیه‌پذیرتر خواهد بود.
باید بین سود و زیان احتمالیِ عمل بر مبنای هر همبستگی‌ای، توازن وجود داشته باشد. اگر ریسک و زیان آن در صورت اشتباه بودن پیش‌بینی ما بسیار زیاد باشد، حتی با وجود همبستگی بسیار شدید بین دو پدیده هم، عمل بر مبنای آن همبستگی توجیه‌پذیر نیست.

خود عامل اول، یعنی اطمینان از برقرار بودن همبستگی در آینده، نیز باید مبتنی بر دو فاکتور دیگر سنجیده شود:

الف) میزان تکرار (بسامد تاریخی) همبستگی (هرچقدر چند پدیده در تاریخ خود، هم‌زمانی و همراهی بیشتری داشته باشند، بیشتر احتمال دارد که در آینده هم با هم اتفاق بیفتند).

ب) وضوح عِلّی (باید فهمی از این موضوع داشت که علت شکل گرفتن رابطهٔ آماری منجر به تشخیص همبستگی بین دو یا چند اتفاق چیست).

وضوح عِلّی، مبتنی بر این واقعیت است که هرچقدر توضیح‌های بالقوهٔ جایگزین، در مورد یک همبستگی کمتر باشد، یعنی هرچقدر در فهم یک همبستگی توضیح‌های درست محدودتر باشد، احتمال عِلّی بودن رابطهٔ دو رخداد در عالم واقع، بیشتر است. اگر بسامد و وضوح را با همدیگر در نظر بگیریم،‌ اطمینان کلی به یک همبستگی، اعتبار بیشتری خواهد داشت تا اینکه فقط یکی از این دو عامل را، به‌تنهایی در نظر بگیریم.

فهم تأثیرهای متقابل سطح اطمینان و میزان توازن بین سود و زیان، یعنی فهم تأثیر متقابل فاکتور اول و دوم، ما را قادر می‌سازد که در اتخاذ تصمیم بر اساس یافته‌های آماری، مستدل و صحیح عمل کنیم. ختم کلام: علیت هم ممکن است بی‌نهایت موضوع مهمی باشد. یعنی تلاش برای دستیابی به بینش‌های درست‌تر در مورد علت یک همبستگی، سطح اطمینان به آن همبستگی را افزایش می‌‌دهد و دراین‌صورت، راحت‌تر می‌‌توان آن همبستگی را مبنای عمل قرار داد.

این مفاهیم به گروه مشاوران بوستون (BCG) این امکان را داد که یک نمودار متقارن (prism) طراحی کنند که با آن می‌توان هریک از اقدام‌های محتمل را ارزشیابی کرد. اگر ارزش اقدام بالا باشد و در صورت اشتباه بودن، تصمیم برای انجام آن اقدام، زیان کمی به سازمان وارد شود، آنگاه حتی اگر درجهٔ همبستگی پایین باشد، عمل بر مبنای آن توجیه‌پذیر خواهد بود. برای توضیح بیشتر می‌توانیم عبور از خیابان را در نظر بگیریم: ما هر دو طرف خیابان را پیش از اینکه وارد خیابان شویم نگاه می‌کنیم، زیرا هزینهٔ اجرای این عمل (نگاه‌کردن به دو طرف خیابان) نسبت به زیانی که ممکن است به ما وارد شود (احتمال تصادف)، بسیار ناچیز است. (در زبان فنی رایج بین آماردان‌ها «تابع زیان نامتقارن» (asymmetric loss function) به چنین چیزی گفته می‌شود.)

در مقابل، اگر به یافتهٔ خود کاملاً مطمئن نباشید، یعنی اگر نتوانید توضیحی برای این موضوع پیدا کنید که چرا دو رخداد به هم مرتبط هستند، باید از رغبت شما به اقدامی که آثار منفی بالقوهٔ آن ممکن است بسیار زیاد باشد، کاسته شود.

یکی از مثال‌های معروف در این زمینه، مربوط به فاضلاب شهر نیویورک است. یکی از انواع حسگرهای نصب شده در فاضلاب نیویورک، میزان چربی فاضلاب در قسمت‌های مختلف شهر را نشان می‌‌دهد. هرگاه مشخص شود که در نقطه‌ای خاص از شهر، میزان غلظت چربی در فاضلاب، بدون توضیح خاصی، افزایش پیدا کرده ، حدس اول این خواهد بود که یک رستوران بدون مجوز در آن منطقه آغاز به‌کار کرده است. اولین اقدام در این موارد این است که یک گشت نظارتی، برای بررسی این موضوع به آن مکان فرستاده شود. هرچند سطح اطمینان به معنایی که از داده‌های حسگر اخذ شده، در این مورد بسیار پایین است (یعنی، دلایل متعددی می‌‌تواند سبب سرریز روغن به درون فاضلاب شود)،‌ اما فرستادن گشت، حتی اگر هیچ نتیجه‌ای هم نداشته باشد، اقدام کاملاً بی‌ضرری است.

غربالگری به‌وسیلهٔ اندازه‌گیری سطح PSA در خون مردان، برای تشخیص سرطان پروستات، موردی است که توازن بین سود و زیان آن کاملاً برخلاف مورد بالاست (در هر دو مورد سطح اطمینان پایین است). اطمینان به اینکه اندازه‌گیری سطح PSA خون، می‌تواند به تشخیص سرطان پروستات کمک کند بسیار پایین است، زیرا همبستگی این دو مورد با یکدیگر بسیار کم است (افزایش سطح PSA معمولاً در افرادی مشاهده می‌شود که مبتلا به سرطان نیستند.) از طرف دیگر، توضیح عِلّی دقیقی نیز وجود ندارد که نشان دهد میزان PSA در خون، چه ربطی به ابتلا به سرطان دارد. از سوی دیگر، جراحی‌های پیشگیرانه، در طولانی‌مدت، نرخ بقاء (survival rate) را افزایش نداده است. همچنین، تا پیش‌ازاین، زیان‌های مربوط به درمان بر اساس آزمایش‌های غربالگری که به‌غلط بیماری را در یک فرد نشان می‌دهد، بسیار بالا بود، یعنی منجر به درمان‌های غیر لازم و بسیار سخت و فرسایشی می‌شد. در نتیجه، انجمن پزشکی آمریکا (the American Medical Association) دستورالعمل پیشین خود را کاملاً تغییر داد: دیگر از مردان بالای ۵۰ سال خواسته نمی‌شود که به طور مرتب برای اندازه‌گیری سطح PSA در خون خود، آزمایش بدهند.

البته، معمولاً این‌گونه نیست که در واکنش به یک یافتهٔ آماری، تنها یک اقدام امکان‌پذیر باشد، بلکه اغلب باید گستره‌ای از اقدام‌های محتمل را در نظر داشت. همین موضوع، اخیراً در رابطه ‌با شراکت یک سوپرمارکت استرالیایی و یک شرکت بیمهٔ اتومبیل، خود را نشان داد. با ترکیب داده‌های برنامهٔ باشگاه مشتریان وفادار (supermarket’s loyalty card program) این سوپرمارکت با اطلاعات مربوط به ادعاهای مطالبهٔ خسارت شرکت بیمه، همبستگی جالبی نمایان شد. داده‌ها نشان دادند که کسانی که گوشت قرمز و شیر در سبد خریدشان وجود دارد، مشتریان کم‌ریسک‌تری برای شرکت بیمه هستند. در عوض، کسانی که پاستا و نوشیدنی غیرمجاز می‌خرند و باک بنزین خود را نیمه‌شب پر می‌کنند، مشتری‌های پرریسک‌تری هستند. هرچند این یافتهٔ آماری، به‌خودی‌خود می‌تواند نشان‌دهندهٔ رفتارهای پرخطر باشد (مثلاً آیا رانندگی تحت تأثیر نوشیدنی‌های الکلی سبب رفتارهای پرخطر شده است؟)، اما تنها یک توضیح برای توجیه این یافته وجود ندارد و باید دلایل احتمالی متعددی را برای فهم معنای این یافته بررسی کرد.

از بین واکنش‌های مختلف به این همبستگی، یکی از این دو رویکرد می‌تواند مبنای عمل قرار بگیرد:

بازاریاب‌های شرکت بیمه، از بین اعضای باشگاه مشتریان سوپرمارکت، کسانی را هدف قرار دهند که از الگوی خرید کم‌ریسک‌تری پیروی می‌‌کنند.
قیمت‌گذاری بیمه بر مبنای الگوی خرید از سوپرمارکت تنظیم شود.

اتخاذ رویکرد دوم، در صورت برملاشدن آن، ممکن است به هر دو برند آسیب اساسی برساند. با نگاه به چارچوبی که ما تدارک دیده‌ایم، می‌توان فهمید که چرا بدون اضافه‌شدن به سطح اطمینان دربارهٔ این یافتهٔ آماری، اتخاذ رویهٔ اول قابل‌قبول‌تر به نظر می‌رسد.

با این‌ حال، اگر بتوانیم توضیح عِلّی شفافی برای این همبستگی پیدا کنیم، ممکن است بتوانیم سطح اطمینان به این یافته را چنان بالا ببریم که دیگر افزایش قیمت برای مشتری‌های پرخطر، یعنی اتخاذ تصمیم پرارزش‌تر برای ما، توجیه‌پذیر باشد. برای مثال، الگوی خرید مشتریان پرخطر ممکن است نشانگر زندگی در شرف تغییر مشتری باشد، مثلاً ممکن است مشتری در شرف بیکار شدن یا طلاق باشد. این توضیح‌های محتمل، باید با اضافه و کم کردن داده‌های دیگر، در معرض آزمون قرار گیرد.

بنابراین عِلّیت بسیار مهم است. فاکتورهای جدید بالقوه‌ای را می‌‌توان بازشناسی کرد که به‌کارگیری آنها به ایجاد فهم درست‌تری از پویایی امور جاری منجر می‌شود. هدف نهایی این است که بتوان برخی از علت‌های احتمالی را کنار گذاشت تا مشخص شود که در واقع چه چیزی به همبستگی منجر شده است. این فهم، سطح کلی اطمینان به این را که همبستگیِ تشخیص‌ داده‌شده در آینده نیز برقرار خواهد بود،‌ افزایش می‌‌دهد (یعنی در این مورد اقدامات محتملی که دربارهٔ اجرا شدن یا نشدن آن مردد هستیم، به قسمت بالایی نمودار منتقل خواهد شد.) اگر با این روش، سطح کلی اطمینان به همبستگی افزایش پیدا کند، ممکن است به این نتیجه برسیم که یکی از اقداماتی که قبلاً کنار گذاشته شده است، اکنون می‌تواند به‌عنوان اقدام مناسب برای ما در نظر گرفته شود. به‌علاوه، داشتن بینش دربارهٔ علت همبستگی، به شما این امکان را می‌‌دهد که بفهمید به چه علت ارتباط بین دو پدیده، به‌مرور زمان کم‌رنگ می‌شود یا از بین می‌رود. برخی از رویدادها ممکن است پاسخ‌های درستِ پیشین را رد کنند. با داشتن فهمی درست از علت‌های احتمالی همبستگی، می‌توانید روی این پدیده‌ها با دقت بیشتری نظارت کنید و واکنش درست در قبال آنها را بهتر تشخیص دهید.

نمونه‌هایی که واکنش مناسب در قبال آن منوط است به «وضوح عِلّی»، بسیار فراوان است. برای مثال، در ارتش آمریکا روی یک نرم‌افزار پردازش تصویر برای تشخیص موقعیت احتمالی تک‌تیرانداز با استفاده از الگوهای تصویری نور حاصل از شلیک، کار شده است. اما مشکل این است که نور فلاش دوربین‌ها هم شبیه آتش لولهٔ تفنگ است. اطمینان به این الگوی تصویری در این نرم‌افزار اگر فقط یک توجیه برای شکل‌گیری این الگو وجود داشت، بسیار بالا می‌‌بود؛ اما چون دو دلیل احتمالی باعث شکل‌گیری این الگوی تصویری می‌شود، سطح اطمینان به این الگو پایین است. همین موضوع تعیین می‌کند که چگونه باید به یافته‌های این نرم‌افزار واکنش مناسب نشان داد. البته این موضوع باید به‌همراه مشخص شدن این امر که چه مقدار زیان و خطر در هر مورد قابل قبول است، در نظر گرفته شود.

وقتی با کلان‌ داده کار می‌کنید، گاهی می‌توان گفت که همبستگی کفایت می‌کند؛ اما در بسیاری از موارد درک عِلّیت بسیار مهم است. نکتهٔ کلیدی این است که باید بتوانیم بفهمیم کجا همبستگی کفایت می‌کند و اگر همبستگی کفایت نکرد، چگونه باید تصمیم‌گیری کرد.

منبع

HBR