«با دردستداشتن پتابایتها داده، دیگر میتوان گفت: همبستگی کفایت میکند.»
کریس اندرسون (Chris Anderson)، Wired Magazine، ۲۳ ژوئن ۲۰۰۸
این عقیدهٔ کریس اندرسون که میگوید «با دردستداشتن پتابایتها داده، دیگر میتوان گفت: همبستگی کفایت میکند [و نیازی به علیت نیست]» از همان سال ۲۰۰۸، در انجمنهای کلانداده، تبدیل به جملهای کلیشهای شده است. اساتید فن علم تحلیل و یادگیری ماشین شعارشان این است: «علیت مرده است.» آنها میگویند اگر بهاندازهٔ کافی شواهد آماری وجود داشته باشد، دیگر اصلاً لازم نیست که بفهمیم چرا فلان اتفاق رخداده است. فقط لازم است بفهمیم کدام امور با هم رخ میدهند.
اما صرف پرداختن به این پرسش که آیا همبستگی بهتنهایی کافی است یا خیر، روش صحیحی نیست. استفادهکنندگان از کلاندادهها بهجای این پرسش باید از خود بپرسند: «آیا میتوانم بر مبنای تشخیص فلان همبستگی دست به عمل بزنم یا خیر؟» پاسخ درست به این پرسش هم این است: «بستگی دارد». در واقع، برای رسیدن به پاسخ صحیح به این پرسش، باید این دو عامل را در نظر گرفت:
- اطمینان از اینکه همبستگی تشخیصدادهشده، بهاحتمال زیاد در آینده نیز برقرار خواهد بود. هرچقدر سطح این اطمینان بالاتر باشد، اتکا به این همبستگی، برای عمل بر مبنای آن، توجیهپذیرتر خواهد بود.
- باید بین سود و زیان احتمالیِ عمل بر مبنای هر همبستگیای، توازن وجود داشته باشد. اگر ریسک و زیان آن در صورت اشتباه بودن پیشبینی ما بسیار زیاد باشد، حتی با وجود همبستگی بسیار شدید بین دو پدیده هم، عمل بر مبنای آن همبستگی توجیهپذیر نیست.
خود عامل اول، یعنی اطمینان از برقرار بودن همبستگی در آینده، نیز باید مبتنی بر دو فاکتور دیگر سنجیده شود:
الف) میزان تکرار (بسامد تاریخی) همبستگی (هرچقدر چند پدیده در تاریخ خود، همزمانی و همراهی بیشتری داشته باشند، بیشتر احتمال دارد که در آینده هم با هم اتفاق بیفتند).
ب) وضوح عِلّی (باید فهمی از این موضوع داشت که علت شکل گرفتن رابطهٔ آماری منجر به تشخیص همبستگی بین دو یا چند اتفاق چیست).
وضوح عِلّی، مبتنی بر این واقعیت است که هرچقدر توضیحهای بالقوهٔ جایگزین، در مورد یک همبستگی کمتر باشد، یعنی هرچقدر در فهم یک همبستگی توضیحهای درست محدودتر باشد، احتمال عِلّی بودن رابطهٔ دو رخداد در عالم واقع، بیشتر است. اگر بسامد و وضوح را با همدیگر در نظر بگیریم، اطمینان کلی به یک همبستگی، اعتبار بیشتری خواهد داشت تا اینکه فقط یکی از این دو عامل را، بهتنهایی در نظر بگیریم.
فهم تأثیرهای متقابل سطح اطمینان و میزان توازن بین سود و زیان، یعنی فهم تأثیر متقابل فاکتور اول و دوم، ما را قادر میسازد که در اتخاذ تصمیم بر اساس یافتههای آماری، مستدل و صحیح عمل کنیم. ختم کلام: علیت هم ممکن است بینهایت موضوع مهمی باشد. یعنی تلاش برای دستیابی به بینشهای درستتر در مورد علت یک همبستگی، سطح اطمینان به آن همبستگی را افزایش میدهد و دراینصورت، راحتتر میتوان آن همبستگی را مبنای عمل قرار داد.
این مفاهیم به گروه مشاوران بوستون (BCG) این امکان را داد که یک نمودار متقارن (prism) طراحی کنند که با آن میتوان هریک از اقدامهای محتمل را ارزشیابی کرد. اگر ارزش اقدام بالا باشد و در صورت اشتباه بودن، تصمیم برای انجام آن اقدام، زیان کمی به سازمان وارد شود، آنگاه حتی اگر درجهٔ همبستگی پایین باشد، عمل بر مبنای آن توجیهپذیر خواهد بود. برای توضیح بیشتر میتوانیم عبور از خیابان را در نظر بگیریم: ما هر دو طرف خیابان را پیش از اینکه وارد خیابان شویم نگاه میکنیم، زیرا هزینهٔ اجرای این عمل (نگاهکردن به دو طرف خیابان) نسبت به زیانی که ممکن است به ما وارد شود (احتمال تصادف)، بسیار ناچیز است. (در زبان فنی رایج بین آماردانها «تابع زیان نامتقارن» (asymmetric loss function) به چنین چیزی گفته میشود.)
در مقابل، اگر به یافتهٔ خود کاملاً مطمئن نباشید، یعنی اگر نتوانید توضیحی برای این موضوع پیدا کنید که چرا دو رخداد به هم مرتبط هستند، باید از رغبت شما به اقدامی که آثار منفی بالقوهٔ آن ممکن است بسیار زیاد باشد، کاسته شود.
یکی از مثالهای معروف در این زمینه، مربوط به فاضلاب شهر نیویورک است. یکی از انواع حسگرهای نصب شده در فاضلاب نیویورک، میزان چربی فاضلاب در قسمتهای مختلف شهر را نشان میدهد. هرگاه مشخص شود که در نقطهای خاص از شهر، میزان غلظت چربی در فاضلاب، بدون توضیح خاصی، افزایش پیدا کرده ، حدس اول این خواهد بود که یک رستوران بدون مجوز در آن منطقه آغاز بهکار کرده است. اولین اقدام در این موارد این است که یک گشت نظارتی، برای بررسی این موضوع به آن مکان فرستاده شود. هرچند سطح اطمینان به معنایی که از دادههای حسگر اخذ شده، در این مورد بسیار پایین است (یعنی، دلایل متعددی میتواند سبب سرریز روغن به درون فاضلاب شود)، اما فرستادن گشت، حتی اگر هیچ نتیجهای هم نداشته باشد، اقدام کاملاً بیضرری است.
غربالگری بهوسیلهٔ اندازهگیری سطح PSA در خون مردان، برای تشخیص سرطان پروستات، موردی است که توازن بین سود و زیان آن کاملاً برخلاف مورد بالاست (در هر دو مورد سطح اطمینان پایین است). اطمینان به اینکه اندازهگیری سطح PSA خون، میتواند به تشخیص سرطان پروستات کمک کند بسیار پایین است، زیرا همبستگی این دو مورد با یکدیگر بسیار کم است (افزایش سطح PSA معمولاً در افرادی مشاهده میشود که مبتلا به سرطان نیستند.) از طرف دیگر، توضیح عِلّی دقیقی نیز وجود ندارد که نشان دهد میزان PSA در خون، چه ربطی به ابتلا به سرطان دارد. از سوی دیگر، جراحیهای پیشگیرانه، در طولانیمدت، نرخ بقاء (survival rate) را افزایش نداده است. همچنین، تا پیشازاین، زیانهای مربوط به درمان بر اساس آزمایشهای غربالگری که بهغلط بیماری را در یک فرد نشان میدهد، بسیار بالا بود، یعنی منجر به درمانهای غیر لازم و بسیار سخت و فرسایشی میشد. در نتیجه، انجمن پزشکی آمریکا (the American Medical Association) دستورالعمل پیشین خود را کاملاً تغییر داد: دیگر از مردان بالای ۵۰ سال خواسته نمیشود که به طور مرتب برای اندازهگیری سطح PSA در خون خود، آزمایش بدهند.
البته، معمولاً اینگونه نیست که در واکنش به یک یافتهٔ آماری، تنها یک اقدام امکانپذیر باشد، بلکه اغلب باید گسترهای از اقدامهای محتمل را در نظر داشت. همین موضوع، اخیراً در رابطه با شراکت یک سوپرمارکت استرالیایی و یک شرکت بیمهٔ اتومبیل، خود را نشان داد. با ترکیب دادههای برنامهٔ باشگاه مشتریان وفادار (supermarket’s loyalty card program) این سوپرمارکت با اطلاعات مربوط به ادعاهای مطالبهٔ خسارت شرکت بیمه، همبستگی جالبی نمایان شد. دادهها نشان دادند که کسانی که گوشت قرمز و شیر در سبد خریدشان وجود دارد، مشتریان کمریسکتری برای شرکت بیمه هستند. در عوض، کسانی که پاستا و نوشیدنی غیرمجاز میخرند و باک بنزین خود را نیمهشب پر میکنند، مشتریهای پرریسکتری هستند. هرچند این یافتهٔ آماری، بهخودیخود میتواند نشاندهندهٔ رفتارهای پرخطر باشد (مثلاً آیا رانندگی تحت تأثیر نوشیدنیهای الکلی سبب رفتارهای پرخطر شده است؟)، اما تنها یک توضیح برای توجیه این یافته وجود ندارد و باید دلایل احتمالی متعددی را برای فهم معنای این یافته بررسی کرد.
از بین واکنشهای مختلف به این همبستگی، یکی از این دو رویکرد میتواند مبنای عمل قرار بگیرد:
- بازاریابهای شرکت بیمه، از بین اعضای باشگاه مشتریان سوپرمارکت، کسانی را هدف قرار دهند که از الگوی خرید کمریسکتری پیروی میکنند.
- قیمتگذاری بیمه بر مبنای الگوی خرید از سوپرمارکت تنظیم شود.
اتخاذ رویکرد دوم، در صورت برملاشدن آن، ممکن است به هر دو برند آسیب اساسی برساند. با نگاه به چارچوبی که ما تدارک دیدهایم، میتوان فهمید که چرا بدون اضافهشدن به سطح اطمینان دربارهٔ این یافتهٔ آماری، اتخاذ رویهٔ اول قابلقبولتر به نظر میرسد.
با این حال، اگر بتوانیم توضیح عِلّی شفافی برای این همبستگی پیدا کنیم، ممکن است بتوانیم سطح اطمینان به این یافته را چنان بالا ببریم که دیگر افزایش قیمت برای مشتریهای پرخطر، یعنی اتخاذ تصمیم پرارزشتر برای ما، توجیهپذیر باشد. برای مثال، الگوی خرید مشتریان پرخطر ممکن است نشانگر زندگی در شرف تغییر مشتری باشد، مثلاً ممکن است مشتری در شرف بیکار شدن یا طلاق باشد. این توضیحهای محتمل، باید با اضافه و کم کردن دادههای دیگر، در معرض آزمون قرار گیرد.
بنابراین عِلّیت بسیار مهم است. فاکتورهای جدید بالقوهای را میتوان بازشناسی کرد که بهکارگیری آنها به ایجاد فهم درستتری از پویایی امور جاری منجر میشود. هدف نهایی این است که بتوان برخی از علتهای احتمالی را کنار گذاشت تا مشخص شود که در واقع چه چیزی به همبستگی منجر شده است. این فهم، سطح کلی اطمینان به این را که همبستگیِ تشخیص دادهشده در آینده نیز برقرار خواهد بود، افزایش میدهد (یعنی در این مورد اقدامات محتملی که دربارهٔ اجرا شدن یا نشدن آن مردد هستیم، به قسمت بالایی نمودار منتقل خواهد شد.) اگر با این روش، سطح کلی اطمینان به همبستگی افزایش پیدا کند، ممکن است به این نتیجه برسیم که یکی از اقداماتی که قبلاً کنار گذاشته شده است، اکنون میتواند بهعنوان اقدام مناسب برای ما در نظر گرفته شود. بهعلاوه، داشتن بینش دربارهٔ علت همبستگی، به شما این امکان را میدهد که بفهمید به چه علت ارتباط بین دو پدیده، بهمرور زمان کمرنگ میشود یا از بین میرود. برخی از رویدادها ممکن است پاسخهای درستِ پیشین را رد کنند. با داشتن فهمی درست از علتهای احتمالی همبستگی، میتوانید روی این پدیدهها با دقت بیشتری نظارت کنید و واکنش درست در قبال آنها را بهتر تشخیص دهید.
نمونههایی که واکنش مناسب در قبال آن منوط است به «وضوح عِلّی»، بسیار فراوان است. برای مثال، در ارتش آمریکا روی یک نرمافزار پردازش تصویر برای تشخیص موقعیت احتمالی تکتیرانداز با استفاده از الگوهای تصویری نور حاصل از شلیک، کار شده است. اما مشکل این است که نور فلاش دوربینها هم شبیه آتش لولهٔ تفنگ است. اطمینان به این الگوی تصویری در این نرمافزار اگر فقط یک توجیه برای شکلگیری این الگو وجود داشت، بسیار بالا میبود؛ اما چون دو دلیل احتمالی باعث شکلگیری این الگوی تصویری میشود، سطح اطمینان به این الگو پایین است. همین موضوع تعیین میکند که چگونه باید به یافتههای این نرمافزار واکنش مناسب نشان داد. البته این موضوع باید بههمراه مشخص شدن این امر که چه مقدار زیان و خطر در هر مورد قابل قبول است، در نظر گرفته شود.
وقتی با کلان داده کار میکنید، گاهی میتوان گفت که همبستگی کفایت میکند؛ اما در بسیاری از موارد درک عِلّیت بسیار مهم است. نکتهٔ کلیدی این است که باید بتوانیم بفهمیم کجا همبستگی کفایت میکند و اگر همبستگی کفایت نکرد، چگونه باید تصمیمگیری کرد.
منبع | HBR |
دیدگاه شما