تعداد کسانی که از قایق ماهیگیری بیرون می‌افتند و غرق می‌شند دارای ضریب همبستگی 0.95 با نرخ ازدواج در ایالت کنتاکی است.

همبستگی مقدار ارتباط دو متغیر را با یکدیگر مشخص می‌کند. رابطه‌ی بین دو متغیر می‌تواند به صورت خطی یا غیر‌خطی یا به شکل‌های دیگر باشد.

این مقدار ارتباط می‌تواند به روش‌های مختلفی اندازه‌گیری شود که یکی از روش‌های رایج آن استفاده از ضریب همبستگی پیرسون Pearson’s correlation coefficient است. مقدار این ضریب عددی بین 1- و 1+ می‌شود. هر چقدر به 1+ نزدیک‌تر باشد به معنای این است که رابطه‌ی همبستگی مثبت بین دو متغیر وجود دارد. اگر به 1- نزدیک باشد به معنای این است که رابطه‌ی همبستگی منفی بین دو متغیر وجود دارد. و اگر نزدیک به 0 باشد به معنای این است که همبستگی بین آن دو متغیر وجود ندارد.

همبستگی مثبت:

- افزایش دما همراه با افزایش فروش بستنی در فصل تابستان است

- ورزش کردن همراه با افزایش بازدهی در درس خواندن است

همبستگی منفی:

- افزایش استرس همراه با کاهش عملکرد در امتحان است

- ورزش کردن زیاد همراه با کاهش بازدهی در درس خواندن است

زمانی می‌تونیم میزان همبستگی بین دو متغیر را محاسبه کنیم که از چگونگی توزیع داده‌ها اطلاع داشته باشیم.

یعنی از مقدار میانگین و انحراف معیار اطلاع داشته باشیم.

رابطه‌ی همبستگی را نباید با رابطه‌ی علیت اشتباه گرفت که باعث اشتباه‌های فاجعه‌بار می‌شود.

اگر تو اخبار جایی گفتند که خوردن صبحانه باعث کاهش وزن می‌‌شه باید متوجه شد که از همون اول کار دارند یه حرف اشتباهی رو می‌زنند. این تحقیقات معمولا بر اساس مشاهده و اندازه‌گیری هست و رابطه‌ی همبستگی را نشان می‌دهد و نه این که صبحانه خوردن علت کم شدن وزن است. در غیر این صورت کسی که صبحانه نمی‌خورد، از امروز به بعد با صبحانه خوردن باید لاغر شود.

به طور کلی  در تفسیر رابطه همبستگی باید دقت زیادی به کار برده شود.

همیشه نمی‌توان از مطالعات آماری نظریات علمی استخراج کرد

در این وبسایت رابطه‌ها‌ی همبستگی احمقانه‌ای نشان داده شده‌اند. اگر کسی بخواد با دلیل و مدرک جعلی صحبت کنه می‌تونه از روابط همبستگی احمقانه برای اثبات حرف خودش استفاده کنه.

برای مثال میزان مصرف پنیر موتزارلا به ازای هر شهروند دارای ضریب همبستگی 0.95 با تعداد مدارک دکترا اعطا شده در مهندسی عمران دارد.

یا میزان بودجه اختصاص داده شده به علوم، فضا و تکنولوژی در آمریکا همبستگی 99.8 درصد با تعداد خودکشی از طریق دارزدن و خفه کردن داره.

پیشنهاد می‌کنم به سایتش سر بزنید و به روابط همبستگی جالب دیگه هم نگاهی بندازید.

می‌شه دید که رابطه‌ی همبستگی می‌تونه یکی از قدرت‌مندترین ابزارها برای داستان‌سرایی باشه که اتفاقا خیلی هم بهش استناد می‌شه. البته تو مثال‌های بالا راحت می‌شه بی‌ربط بودن دو متغیر رو فهمید اما در بسیاری از موارد اینکار ساده نیست. برای مثال زمانی که رابطه‌ی همبستگی بالا بین چربی خون و مبتلا شدن به بیماری‌های قلبی وجود داره، سخت می‌شه تشخیص داد که ارتباطی بینشون نیست/هست.

چطور همبستگی را محاسبه کنیم؟

برای محاسبه رابطه‌ی همبستگی در اکسل می‌توان از تابع CORREL استفاده کرد. به این صورت که به ورودی اول تابع داده‌های متغیر اول را می‌دهیم و به ورودی دوم تابع داده‌های متغیر دوم را می‌دهیم.

برای مثال در تصویر زیر میزان همبستگی تابع x برای مقادیر صحیح 1 تا 10 با تابع x^2 و تابع –x^3/3 و تابع RANDBETWEEN(-100,100) که عددی تصادفی بین 100- تا 100+ را تولید می‌کند نشان داده شده است.

همبستگی بین تابع x و x^2 مثبت است و ضریب همبستگی برابر با 0.97 است.

همبستگی بین تابع x و –x^3/3 منفی است و ضریب همبستگی برابر با 0.93- است.

بین تابع x و تابع randbetween(-100,100) همبستگی خاصی وجود ندارد و مقدار آن برابر با 0.22 است.

همبستگی x با خودش هم برابر با 1 است که یک همبستگی کامل است.

اما اگر بخواهیم به صورت جزیی‌تر خودمان محاسبات همبستگی را انجام دهیم باید چه کنیم؟

Math is Fun

برای مثال تعداد کلمات 10 پست قبلی وبلاگ من در برابر تعداد عکس‌های هر پست به صورت جدول زیر است:

این‌ها دو متغیر هستند که می‌خوام میزان همبستگیشون رو محاسبه کنم. اولین کار این هست که میانگین این دو متغیر یعنی تعداد کلمات و تعداد عکس یا ویدئو را حساب کنیم.

سپس باید اختلاف هر یک از داده‌های یک متغیر را با مقدار میانگین محاسبه کرد. اختلاف داده‌ها از میانگین را برای متغیر اول a می‌نامیم و اختلاف داده‌ها از میانگین برای متغیر دوم را b می‌نامیم.

با داشتن مقادیر a و b می‌توان مقادیر a*b و a^2 و b^2 را محاسبه کرد. سپس با تقسیم جمع مقادیر a*b به ریشه‌ی دوم جمع مقادیر a^2 ضرب در جمع مقادیر b^2 مقدار همبستگی را به شکل زیر می‌توان محاسبه کرد.

میزان همبستگی 0.75 شده است. یعنی افزایش تعداد کلمات یک پست تا حدودی همراه با افزایش تعداد عکس‌های یک پست است.

فرمول رابطه همبستگی که در بالا محاسبه شد به صورت زیر است:

فرمول ضریب همبستگی پیرسون

rxy مقدار ضریب همبستگی هست.

در صورت کسر جمع a*b ها قرار می‌گیرد.

در مخرج کسر ریشه‌ی دوم حاصل‌ضرب جمع a^2 ها در جمع b^2 ها قرار می‌گیرد.