الگوریتم امروز

وبلاگ تخصصی الگوریتم

الگوریتم امروز

وبلاگ تخصصی الگوریتم

وبلاگ علمی و مخصوص مباحث الگوریتمی است.
نظر خصوصی نگذارید چون جواب نمی‌دهم نظر عمومی بگذارید بدون نام هم که باشد همانجا جواب می‌دهم.

بایگانی

ارزیابی خوشه بندی

چهارشنبه, ۱۱ دی ۱۳۹۲، ۱۰:۴۱ ق.ظ
1- آزمون یکنواخت بودن: چک کنید که توزیع تصادفی نقاط همین خوشه ای که شما پیدا کردید تولید نکند.
راه انجام: n نقطه تصادفی از D (مجموعه نقاط اولیه) انتخاب کنید و فاصله شان را تا نزدیک ترین همسایه شان در D پیدا کنید (x) و یکبار دیگر n نقطه تصادفی انتخاب کنید و فاصله ی هر کس را تا نزدیک ترین همسایه شان در D پیدا کنید که جزو همین نقاط نباشد (y). شاخص Hopkin را برای آن حساب کنید:
اگر توزیع تصادفی باشد این مقدار به 0.5 نزدیک می شود چون مجموع xi ها و مجموع yi ها تقریبا مساوی می شود و اگر D خوشه بندی شده باشد این مقدار به 1 نزدیک می شود.
2- پیدا کردن تعداد خوشه ها:
روش Empirical: نصف جذر تعداد نقاط = تعداد خوشه ها
روش Elbow: جمع تعداد نقاط عطف منحنی واریانس درون خوشه ای
روش cross validation:
نقاط یک fold را تا نزدیک ترین مرکز خطای MSE شان را حساب کن (به ازای هر fold یک بار) و این کار را برای تعداد خوشه های مختلف تکرار کن و بهترین تعداد را به عنوان تعداد خوشه ها در نظر بگیر.
3- کیفیت خوشه ها:
#روش با نظارت: مقایسه با حالت بهینه (نوشته ground truth من به نظرم یعنی حالت بهینه) با شاخص های racall با BCube precision و مثل آنها را به کار ببر.
اصولی که در روش بانظارت (extrinsic) باید برای کیفیت بررسی شود:
homogeneity:(همگن بودن) آنهایی که شبیه تر هستند در یک خوشه بیفتند.
کامل بودن: آنهایی که در جواب بهینه با هم هستند با هم بیندازد.
rag bag: داده ی پرت را در یک خوشه ی "other" یا کمکی بگذاریم نه اینکه به خوشه ها تخصیص بدهیم.
حفظ خوشه های کوچک: بین تقسیم کردن خوشه ی کوچک و بزرگ، بهتر است خوشه بزرگ را تقسیم کند.
#روش بدون نظارت: میزان تفکیک خوشه ها و میزان فشرده بودن خوشه ها. مثل: ضریب Silhouette

موافقین ۰ مخالفین ۰ ۹۲/۱۰/۱۱
سپیده آقاملائی

نظرات  (۳)

سلام. مطالبتون خیلی خوبه. همین که دسته بندی میکنین و سر نخ میدین خیلی خوبه.   موفق باشین :)
با سلام و وقت بخیر 
در مورد مفهوم cluster tendency اطلاعاتی دارید؟ ممنون میشم
سلام
خسته نباشید

در مورد روش ارزیابی خوشه بندی با ماتریس در هم آمیختگی ( یا confiusion matrix یا pairwise) اطلاعاتی دارید تا راهنماییم بفرمایید؟
خیلی سرچ کردم اما فقط بررسی ماتریس درهم آمیختگی در دسته بندی را تونستم پیدا کنم متاسفانه
لطفا زود راهنمایی بفرمایید دوست عزیز
پاسخ:
همون چیزی که پیدا کردید درسته:
https://en.wikipedia.org/wiki/Confusion_matrix
هدف این است که با دانستن اینکه جواب واقعی چیست بتوانید کارایی روشتان را بفهمید. در خوشه‌بندی چون فرض بر این است که جواب را نمی‌دانیم نمی‌شود از اینها ساخت. اگر ناظر داشته باشید که برچسب بزند، می‌توانید یک بار بدهید به مدل که جواب بدهد یک بار هم که جواب ناظر را دارید بعد اندازه بگیرید که چندتا درست و غلط است و در جدول بنویسید.

ارسال نظر

ارسال نظر آزاد است، اما اگر قبلا در بیان ثبت نام کرده اید می توانید ابتدا وارد شوید.
شما میتوانید از این تگهای html استفاده کنید:
<b> یا <strong>، <em> یا <i>، <u>، <strike> یا <s>، <sup>، <sub>، <blockquote>، <code>، <pre>، <hr>، <br>، <p>، <a href="" title="">، <span style="">، <div align="">
تجدید کد امنیتی