توزیع دم کلفت درباره وقوع رویدادهای با احتمال کم نیست، بلکه درباره سهم رویدادهای با فاصله زیاد از مرکز توزیع، در خصوصیت کل جمعیت است.

نسیم طالب در بسیاری از بحث‌های خودش از Fat Tail یا توزیع دم کلفت صحبت می‌کنه و این بحث رو هم از توضیحات خودش در اینجا گرفتم.

در تصویر زیر می‌تونید به قسمت دُم دو نمودار توزیع نرمال نگاه کنید.

اما کلفت بودن دم نمودار نارنجی به خاطر اختلاف در عدد انحراف معیار است و ربطی به توزیع دم کلفت ندارد.

توزیع دم کلفت واقعی زمانی است که نمودار سومی را اضافه کنیم که با انحراف معیار و میانگین برابر، گردنی درازتر و دمی کلفت‌تر از توزیع نرمال داشته باشد.

در چنین توزیعی سهم رویدادهای نادر یا داده‌های پرت در خصوصیات کلی جمعیت زیاد می‌شود.

برای مثال اگر 1000 نفر آدم داشته باشید، سنگین‌وزن‌ترین فرد این 1000 نفر نمی‌تونه بیشتر از 0.2 درصد از سهم کل وزن جمعیت رو به خودش اختصاص بده. در اینجا توزیع دم کلفت نداریم.

اما اگر به توزیع ثروت این آدم‌ها نگاه کنید و مثلا شخصی مثل بیل گیتس توی اون هزار نفر باشه، ثروت بیل گیتس می‌تونه نزدیک به 100 درصد ثروت کل جمعیت رو شامل بشه. این توزیع یک توزیع دم کلفت است.

اشتباه بزرگ زمانی رخ می‌دهد که شخص بیل گیتس رو از محاسبات آماری جمعیت به خاطر دور بودن از مرکز توزیع یا مقدار میانگین حذف کنیم یا نادیده بگیریم. در صورتی که مهم‌ترین داده در کل اون جمعیت برای بررسی ثروت، این شخص هست.

در پدیده‌هایی که توزیع دم کلفت وجود داشته باشد، استفاده از روش‌های رایج آماری باعث ایجاد خطای زیاد در تفسیر داده‌ها می‌شود.

برای مثال قانون اعداد بزرگ برای پدیده‌هایی با توزیع دم کلفت صادق نیست.

نسیم طالب از دو کلمه Mediocristan و Extremistan برای توضیح این دو نوع توزیع استفاده می‌کنه.

سرزمین میانگین‌ها Mediocristan که سرزمینی (دامنه‌ای) هست که وضعیت میانگین رو به خود می‌گیرد و توزیع دم نازک بر آن صادق است. در چنین سرزمینی هیچ مشاهده‌ای نمی‌تواند خصوصیت‌های آماری را تغییر چندانی دهد.

سرزمین بیشینه‌ها Extremistan که سرزمینی هست که وضعیت بیشینه رو به خود می‌گیرد و توزیع دم کلفت بر آن صادق است. در چنین سرزمینی مشاهده‌های بیشینه‌ای می‌توانند سهم زیادی در تعیین خصوصیت‌های آماری داشته باشند.

فرض کنید دو نفر از سرزمین میانگین‌ها انتخاب شوند که جمع قدشان روی هم 4.1 متر باشد. بر اساس توزیع نرمال محتمل‌ترین توزیع قد بین این دو نفر 2.05 و 2.05 متر است.

حالا فرض کنید وارد سرزمین بیشینه‌ها بشیم، که توزیع 80 به 20 پارتو به عنوان یکی از انواع توزیع در اون زیاد دیده می‌‌شه، و دو نفر رو از اون‌جا انتخاب کنیم که در جمع ثروتی برابر با 36 میلیون پوند داشته باشند. در اینجا محتمل‌ترین توزیع این نیست که هر کدام از آن‌ها 18 میلیون پوند داشته باشند. بلکه به طور تقریبی می‌شه گفت یک نفر 35,999,000 پوند دارد و دیگری 1000 پوند دارد.

این تفاوت بارزی هست که بین دو دامنه میانگین‌ها و بیشینه‌ها وجود داره.

در توزیع دم کلفت رویدادهای بیشینه‌ای و دور از مرکز نقش بسیار مهمی رو ایفا می‌کنند.

توزیع دم کلفت می‌تواند بسیار گول زننده باشد. برای مثال در توزیع نرمال در حدود 68 درصد از مشاهدات در فاصله 1 انحراف معیار از میانگین قرار می‌گیرند. وقتی توزیع به سمت توزیع دم کلفت تغییر پیدا می‌کند، ممکن است 75 درصد یا حتی 95 درصد از داده‌ها در فاصله 1 انحراف معیار از میانگین قرار بگیرند. چنین توزیعی گردنی دراز و دمی کلفت دارد. این امر باعث به وجود آمدن خطای تایید می‌شه. بیشتر داده‌های موجود دارند میانگین را تایید می‌کنند.در صورتی که تمامی آن 95 درصد داده در وسط در برابر یک داده در دم اهمیت چندانی ندارد.

وقتی که با توزیع دم کلفت مواجه هستیم مقدار میانگین نماینده خوبی برای تخمین خصوصیت نیست. مقدار خطا در تخمین مقدار میانگین می‌تواند به مراتب بالاتر از پدیده‌های با توزیع دم باریک باشد. به گفته نسیم طالب حتی بسیاری از افرادی که مقاله‌های علمی منتشر می‌کنند از چنین موضوعی اطلاع ندارند.

برای مثال در روش‌های آماری از مقدار انحراف معیار مشاهدات برای محاسبه تعداد داده‌ی لازم برای استفاده از قانون اعداد بزرگ استفاده می‌شود. اما در توزیع دم کلفت انحراف معیاری وجود ندارد و اگر هم وجود داشته باشد مقدار آن پایدار نیست.

پینوشت:

- برای ایجاد نمودار توزیع نرمال در اکسل می‌توان از تابع NORM.DIST استفاده کرد.

- مقاله‌های مفیدی برای فهمیدن این بحث هست که وقتی بهتر فهمیدمشون دوباره احتمالا راجع بهشون اینجا می‌نویسم.

The Law of Large Numbers Under Fat Tails

Probability, Risk, and Extremes

که هر دوی این‌ها از سایت fooledbyrandomness قابل دسترسی هستند.

- مطلب دیگری در این وبلاگ هست که درباره برخی از کتاب‌های توصیه شده از نسیم طالب است.