خوشه بندی یک الگوریتم یادگیری ماشین بدون نظارت است. این به داده های خوشه ای به گروه ها کمک می کند. اعتبار سنجی الگوریتم خوشه بندی در مقایسه با الگوریتم یادگیری ماشین نظارت شده کمی مشکل است زیرا فرآیند خوشه بندی حاوی برچسب های حقیقت زمینی نیست. اگر کسی بخواهد با برچسب های حقیقت زمینی خوشه بندی کند ، می توان از روش های اعتبار سنجی و معیارهای الگوریتم های یادگیری ماشین نظارت شده استفاده کرد. این پست وبلاگ سعی می کند وقتی که برچسب های حقیقت زمین مشخص نیست ، استراتژی های ارزیابی را مورد بررسی قرار دهد.
چگونه می توان خوشه بندی را ارزیابی کرد؟
سه عامل مهم که توسط آنها می توان خوشه بندی کرد
(الف) گرایش خوشه بندی (ب) تعداد خوشه ها ، K (C) کیفیت خوشه بندی
گرایش خوشه بندی
قبل از ارزیابی عملکرد خوشه بندی ، اطمینان از اینکه مجموعه داده هایی که ما در حال کار هستیم تمایل به خوشه بندی دارد و حاوی نقاط توزیع یکنواخت نیست بسیار مهم است. اگر داده ها تمایل به خوشه بندی ندارند ، پس خوشه هایی که توسط هر حالت از الگوریتم های خوشه بندی هنری مشخص شده اند ممکن است بی ربط باشند. توزیع غیر یکنواخت نقاط در مجموعه داده ها در خوشه بندی مهم می شود.
برای حل این مسئله ، تست هاپکینز ، یک آزمایش آماری برای تصادفی مکانی یک متغیر ، می تواند برای اندازه گیری احتمال نقاط داده ایجاد شده توسط توزیع داده های یکنواخت استفاده شود.
Null Hypothesis (Ho) : Data points are generated by uniform distribution (implying no meaningful clusters) Alternate Hypothesis (Ha): Data points are generated by random data points (presence of clusters) If H>0. 5 ، فرضیه تهی را می توان رد کرد و بسیار محتمل است که داده ها حاوی خوشه باشند. اگر H به 0 نزدیکتر باشد ، مجموعه داده ها تمایل به خوشه بندی ندارند.
تعداد خوشه های بهینه ، k
برخی از الگوریتم های خوشه بندی مانند K-Mean ، به عنوان پارامتر خوشه بندی به تعداد خوشه ها ، K نیاز دارند. دریافت تعداد بهینه خوشه ها در تجزیه و تحلیل بسیار قابل توجه است. اگر K خیلی زیاد باشد ، هر نقطه به طور گسترده ای شروع به نمای یک خوشه می کند و اگر K خیلی کم باشد ، نقاط داده به طور نادرست خوشه بندی می شوند. پیدا کردن تعداد بهینه خوشه ها منجر به دانه بندی در خوشه بندی می شود.
هیچ پاسخ قطعی برای یافتن تعداد مناسب خوشه وجود ندارد زیرا بستگی به (الف) شکل توزیع (ب) در مجموعه داده ها (ج) وضوح خوشه بندی مورد نیاز کاربر دارد. اگرچه پیدا کردن تعداد خوشه ها یک مشکل بسیار ذهنی است. دو روش اصلی برای یافتن تعداد بهینه خوشه ها وجود دارد: (1) دانش دامنه (2) رویکرد داده محور
دانش دامنه - دانش دامنه ممکن است اطلاعات قبلی را در مورد یافتن تعداد خوشه ها ارائه دهد. برای مثال، در مورد خوشهبندی مجموعه دادههای عنبیه، اگر دانش قبلی از گونهها (سرتوسا، ویرجینیکا، ورسیکالر) داشته باشیم، k = 3. ارزش k مبتنی بر دانش دامنه، بینش مرتبطتری را به دست میدهد.
رویکرد مبتنی بر داده - اگر دانش دامنه در دسترس نباشد، روشهای ریاضی به یافتن تعداد مناسب خوشهها کمک میکنند.
روش تجربی: یک روش تجربی ساده برای یافتن تعداد خوشه ها، جذر N/2 است که در آن N تعداد کل نقاط داده است، به طوری که هر خوشه دارای جذر 2 * N است.
روش زانویی: - واریانس درون خوشه ای معیاری برای فشردگی خوشه است. هرچه مقدار واریانس درون خوشه ای کمتر شود، فشردگی خوشه تشکیل شده بیشتر می شود.
مجموع واریانس درون خوشهای، W، برای تحلیلهای خوشهبندی انجامشده با مقادیر مختلف k محاسبه میشود. W یک معیار تجمعی است که چگونه نقاط در تجزیه و تحلیل خوشه بندی شده اند. رسم مقادیر k و مجموع واریانس درون خوشه ای مربوط به آنها به یافتن تعداد خوشه ها کمک می کند.
نمودار نشان می دهد که تعداد خوشه های بهینه = 4 است. در ابتدا، اندازه گیری خطا (واریانس درون خوشه ای) با افزایش تعداد خوشه کاهش می یابد. بعد از یک نقطه خاص، k=4، اندازه گیری خطا شروع به صاف شدن می کند. تعداد خوشه مربوط به آن نقطه خاص، k=4، باید به عنوان تعداد بهینه خوشه در نظر گرفته شود.
آمار شکاف یک روش آماری قدرتمند برای یافتن تعداد بهینه خوشه ها، k است.
مشابه روش Elbow، مجموع واریانس درون خوشه ای (درون خوشه ای) برای مقادیر مختلف k محاسبه می شود. سپس نقاط داده تصادفی از توزیع صفر مرجع تولید می شود و مجموع واریانس درون خوشه ای برای خوشه بندی انجام شده برای مقادیر مختلف k محاسبه می شود.
به عبارت سادهتر، واریانس مجموع درون خوشهای مجموعه دادههای اصلی برای مقادیر مختلف k با واریانس مجموع درون خوشهای مجموعه دادههای مرجع (مجموعه دادههای مرجع صفر توزیع یکنواخت) مقادیر متناظر k مقایسه میشود. برای یافتن مقدار k ایدهآل که در آن 'انحراف' یا 'شکاف' بین دو بالاترین است. همانطور که آمار شکاف این انحراف را کمی می کند، آمار شکاف بیشتر به معنای انحراف بیشتر است.
تعداد خوشه با حداکثر مقدار آماری شکاف مربوط به تعداد بهینه خوشه است.
کیفیت خوشه بندی
پس از انجام خوشه بندی ، چقدر خوشه بندی می تواند توسط تعدادی از معیارها اندازه گیری شود. خوشه بندی ایده آل با حداقل فاصله داخل خوشه داخل و حداکثر فاصله بین خوشه بین.
عمدتا دو نوع اقدامات برای ارزیابی عملکرد خوشه بندی وجود دارد.
(i) اقدامات بیرونی که به برچسب های حقیقت زمین نیاز دارند. نمونه ها از شاخص RAND تنظیم شده ، نمرات Fowlkes-Mallows ، نمرات مبتنی بر اطلاعات متقابل ، همگن بودن ، کامل بودن و اندازه V استفاده می شوند.
(ب) اقدامات ذاتی که نیازی به برچسب های حقیقت زمینی ندارد. برخی از اقدامات عملکرد خوشه بندی عبارتند از: ضریب Silhouette ، شاخص کالینسکی-هاراباس ، شاخص دیویس-بولدین و غیره.
لینک های مفید
Clustertend - بسته R برای یافتن گرایش خوشه ای
NBClust - بسته R برای یافتن تعداد خوشه ها
Sklearn - بسته پایتون برای ارزیابی عملکرد خوشه بندی در Sklearn