ارزیابی خوشه بندی
چهارشنبه, ۱۱ دی ۱۳۹۲، ۱۰:۴۱ ق.ظ
1- آزمون یکنواخت بودن: چک کنید که توزیع تصادفی نقاط همین خوشه ای که شما پیدا کردید تولید نکند.
راه انجام: n نقطه تصادفی از D (مجموعه نقاط اولیه) انتخاب کنید و فاصله شان را تا نزدیک ترین همسایه شان در D پیدا کنید (x) و یکبار دیگر n نقطه تصادفی انتخاب کنید و فاصله ی هر کس را تا نزدیک ترین همسایه شان در D پیدا کنید که جزو همین نقاط نباشد (y). شاخص Hopkin را برای آن حساب کنید:
اگر توزیع تصادفی باشد این مقدار به 0.5 نزدیک می شود چون مجموع xi ها و مجموع yi ها تقریبا مساوی می شود و اگر D خوشه بندی شده باشد این مقدار به 1 نزدیک می شود.
2- پیدا کردن تعداد خوشه ها:
روش Empirical: نصف جذر تعداد نقاط = تعداد خوشه ها
روش Elbow: جمع تعداد نقاط عطف منحنی واریانس درون خوشه ای
روش cross validation:
نقاط یک fold را تا نزدیک ترین مرکز خطای MSE شان را حساب کن (به ازای هر fold یک بار) و این کار را برای تعداد خوشه های مختلف تکرار کن و بهترین تعداد را به عنوان تعداد خوشه ها در نظر بگیر.
3- کیفیت خوشه ها:
#روش با نظارت: مقایسه با حالت بهینه (نوشته ground truth من به نظرم یعنی حالت بهینه) با شاخص های racall با BCube precision و مثل آنها را به کار ببر.
اصولی که در روش بانظارت (extrinsic) باید برای کیفیت بررسی شود:
homogeneity:(همگن بودن) آنهایی که شبیه تر هستند در یک خوشه بیفتند.
کامل بودن: آنهایی که در جواب بهینه با هم هستند با هم بیندازد.
rag bag: داده ی پرت را در یک خوشه ی "other" یا کمکی بگذاریم نه اینکه به خوشه ها تخصیص بدهیم.
حفظ خوشه های کوچک: بین تقسیم کردن خوشه ی کوچک و بزرگ، بهتر است خوشه بزرگ را تقسیم کند.
#روش بدون نظارت: میزان تفکیک خوشه ها و میزان فشرده بودن خوشه ها. مثل: ضریب Silhouette
۹۲/۱۰/۱۱