استراتژی های ارزیابی خوشه بندی

  • 2022-02-25

خوشه بندی یک الگوریتم یادگیری ماشین بدون نظارت است. این به داده های خوشه ای به گروه ها کمک می کند. اعتبار سنجی الگوریتم خوشه بندی در مقایسه با الگوریتم یادگیری ماشین نظارت شده کمی مشکل است زیرا فرآیند خوشه بندی حاوی برچسب های حقیقت زمینی نیست. اگر کسی بخواهد با برچسب های حقیقت زمینی خوشه بندی کند ، می توان از روش های اعتبار سنجی و معیارهای الگوریتم های یادگیری ماشین نظارت شده استفاده کرد. این پست وبلاگ سعی می کند وقتی که برچسب های حقیقت زمین مشخص نیست ، استراتژی های ارزیابی را مورد بررسی قرار دهد.

چگونه می توان خوشه بندی را ارزیابی کرد؟

سه عامل مهم که توسط آنها می توان خوشه بندی کرد

(الف) گرایش خوشه بندی (ب) تعداد خوشه ها ، K (C) کیفیت خوشه بندی

گرایش خوشه بندی

قبل از ارزیابی عملکرد خوشه بندی ، اطمینان از اینکه مجموعه داده هایی که ما در حال کار هستیم تمایل به خوشه بندی دارد و حاوی نقاط توزیع یکنواخت نیست بسیار مهم است. اگر داده ها تمایل به خوشه بندی ندارند ، پس خوشه هایی که توسط هر حالت از الگوریتم های خوشه بندی هنری مشخص شده اند ممکن است بی ربط باشند. توزیع غیر یکنواخت نقاط در مجموعه داده ها در خوشه بندی مهم می شود.

برای حل این مسئله ، تست هاپکینز ، یک آزمایش آماری برای تصادفی مکانی یک متغیر ، می تواند برای اندازه گیری احتمال نقاط داده ایجاد شده توسط توزیع داده های یکنواخت استفاده شود.

Null Hypothesis (Ho) : Data points are generated by uniform distribution (implying no meaningful clusters) Alternate Hypothesis (Ha): Data points are generated by random data points (presence of clusters) If H>0. 5 ، فرضیه تهی را می توان رد کرد و بسیار محتمل است که داده ها حاوی خوشه باشند. اگر H به 0 نزدیکتر باشد ، مجموعه داده ها تمایل به خوشه بندی ندارند.

تعداد خوشه های بهینه ، k

برخی از الگوریتم های خوشه بندی مانند K-Mean ، به عنوان پارامتر خوشه بندی به تعداد خوشه ها ، K نیاز دارند. دریافت تعداد بهینه خوشه ها در تجزیه و تحلیل بسیار قابل توجه است. اگر K خیلی زیاد باشد ، هر نقطه به طور گسترده ای شروع به نمای یک خوشه می کند و اگر K خیلی کم باشد ، نقاط داده به طور نادرست خوشه بندی می شوند. پیدا کردن تعداد بهینه خوشه ها منجر به دانه بندی در خوشه بندی می شود.

هیچ پاسخ قطعی برای یافتن تعداد مناسب خوشه وجود ندارد زیرا بستگی به (الف) شکل توزیع (ب) در مجموعه داده ها (ج) وضوح خوشه بندی مورد نیاز کاربر دارد. اگرچه پیدا کردن تعداد خوشه ها یک مشکل بسیار ذهنی است. دو روش اصلی برای یافتن تعداد بهینه خوشه ها وجود دارد: (1) دانش دامنه (2) رویکرد داده محور

دانش دامنه - دانش دامنه ممکن است اطلاعات قبلی را در مورد یافتن تعداد خوشه ها ارائه دهد. برای مثال، در مورد خوشه‌بندی مجموعه داده‌های عنبیه، اگر دانش قبلی از گونه‌ها (سرتوسا، ویرجینیکا، ورسیکالر) داشته باشیم، k = 3. ارزش k مبتنی بر دانش دامنه، بینش مرتبط‌تری را به دست می‌دهد.

رویکرد مبتنی بر داده - اگر دانش دامنه در دسترس نباشد، روش‌های ریاضی به یافتن تعداد مناسب خوشه‌ها کمک می‌کنند.

روش تجربی: یک روش تجربی ساده برای یافتن تعداد خوشه ها، جذر N/2 است که در آن N تعداد کل نقاط داده است، به طوری که هر خوشه دارای جذر 2 * N است.

روش زانویی: - واریانس درون خوشه ای معیاری برای فشردگی خوشه است. هرچه مقدار واریانس درون خوشه ای کمتر شود، فشردگی خوشه تشکیل شده بیشتر می شود.

مجموع واریانس درون خوشه‌ای، W، برای تحلیل‌های خوشه‌بندی انجام‌شده با مقادیر مختلف k محاسبه می‌شود. W یک معیار تجمعی است که چگونه نقاط در تجزیه و تحلیل خوشه بندی شده اند. رسم مقادیر k و مجموع واریانس درون خوشه ای مربوط به آنها به یافتن تعداد خوشه ها کمک می کند.

نمودار نشان می دهد که تعداد خوشه های بهینه = 4 است. در ابتدا، اندازه گیری خطا (واریانس درون خوشه ای) با افزایش تعداد خوشه کاهش می یابد. بعد از یک نقطه خاص، k=4، اندازه گیری خطا شروع به صاف شدن می کند. تعداد خوشه مربوط به آن نقطه خاص، k=4، باید به عنوان تعداد بهینه خوشه در نظر گرفته شود.

آمار شکاف یک روش آماری قدرتمند برای یافتن تعداد بهینه خوشه ها، k است.

مشابه روش Elbow، مجموع واریانس درون خوشه ای (درون خوشه ای) برای مقادیر مختلف k محاسبه می شود. سپس نقاط داده تصادفی از توزیع صفر مرجع تولید می شود و مجموع واریانس درون خوشه ای برای خوشه بندی انجام شده برای مقادیر مختلف k محاسبه می شود.

به عبارت ساده‌تر، واریانس مجموع درون خوشه‌ای مجموعه داده‌های اصلی برای مقادیر مختلف k با واریانس مجموع درون خوشه‌ای مجموعه داده‌های مرجع (مجموعه داده‌های مرجع صفر توزیع یکنواخت) مقادیر متناظر k مقایسه می‌شود. برای یافتن مقدار k ایده‌آل که در آن 'انحراف' یا 'شکاف' بین دو بالاترین است. همانطور که آمار شکاف این انحراف را کمی می کند، آمار شکاف بیشتر به معنای انحراف بیشتر است.

تعداد خوشه با حداکثر مقدار آماری شکاف مربوط به تعداد بهینه خوشه است.

کیفیت خوشه بندی

پس از انجام خوشه بندی ، چقدر خوشه بندی می تواند توسط تعدادی از معیارها اندازه گیری شود. خوشه بندی ایده آل با حداقل فاصله داخل خوشه داخل و حداکثر فاصله بین خوشه بین.

عمدتا دو نوع اقدامات برای ارزیابی عملکرد خوشه بندی وجود دارد.

(i) اقدامات بیرونی که به برچسب های حقیقت زمین نیاز دارند. نمونه ها از شاخص RAND تنظیم شده ، نمرات Fowlkes-Mallows ، نمرات مبتنی بر اطلاعات متقابل ، همگن بودن ، کامل بودن و اندازه V استفاده می شوند.

(ب) اقدامات ذاتی که نیازی به برچسب های حقیقت زمینی ندارد. برخی از اقدامات عملکرد خوشه بندی عبارتند از: ضریب Silhouette ، شاخص کالینسکی-هاراباس ، شاخص دیویس-بولدین و غیره.

لینک های مفید

Clustertend - بسته R برای یافتن گرایش خوشه ای

NBClust - بسته R برای یافتن تعداد خوشه ها

Sklearn - بسته پایتون برای ارزیابی عملکرد خوشه بندی در Sklearn

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.