الگوریتم امروز

وبلاگ تخصصی الگوریتم

الگوریتم امروز

وبلاگ تخصصی الگوریتم

وبلاگ علمی و مخصوص مباحث الگوریتمی است.
نظر خصوصی نگذارید چون جواب نمی‌دهم نظر عمومی بگذارید بدون نام هم که باشد همانجا جواب می‌دهم.

بایگانی

خوشه بندی سلسله مراتبی

چهارشنبه, ۱۱ دی ۱۳۹۲، ۱۱:۰۸ ق.ظ

BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)

یک روش افزایشی که در آن یک درخت ویژگی خوشه بندی (CF-tree) را به صورت افزایشی می سازیم.

1- از روی داده های حافظه یک CF-tree اولیه بساز.

2- یک روش خوشه بندی را به کار ببر تا برگهای CF-tree را خوشه بندی کنی.

Clustering Feature (CF):  CF = (N, LS, SS)

که در آن LS جمع خطی داده ها و N تعداد داده ها و SS جمع توان دوم آنهاست. در هر گره میانی جمع CF گره های فرزند آن است.

تنها برای داده های عددی قابل استفاده است.

در الگوریتم BIRCH، درخت ویژگی (CF-Tree) دو پارامتر تعداد فرزندان (branching factor) و threshold ( حداکثر قطر زیرخوشه های برگهای آن زیر درخت) را دارد.

پایین ترین سطح درخت (برگها) بینشان لیست پیوندی دو طرفه است.

قطر خوشه:

الگوریتم:

هر داده را به نزدیک ترین برگ درخت اختصاص بده و CF آن را به روز کن. اگر قطر داده های آن برگ از مقدار آستانه بیشتر شد آن را به دو درخت تقسیم کن.

ایرادها:

به ترتیب وابسته است.

چون حداکثر تعداد در هر برگ داریم، خوشه هایی که می سازد طبیعی نیستند.

خوشه های محدب می سازد که به قطر و شعاع بستگی دارند.

CHAMELEON ( Hierarchical Clustering using dynamic modeling)

تعریف inter connectivity: جمع وزن یالهای بین دو خوشه

تعریف فاصله ی بین خوشه ای: min cut (وزن یالهایی که باید قطع کنیم تا دو خوشه جدا شوند)

ادغام: آنهایی که فاصله شان از یک حد آستانه کمتر باشد ادغام می کند.

ملاک فاصله: وزن یالهای بین دو خوشه تقسیم بر میانگین (وزن یالهای درون هر خوشه) برای دو خوشه

(برای فاصله بین دو خوشه وزن mincut را به جای مجموع بذارید.)

موافقین ۰ مخالفین ۰ ۹۲/۱۰/۱۱
سپیده آقاملائی

نظرات  (۳)

سلام_دانشجوی ارشد علوم کامپوترم و برای پایان نامم دارم clusteringکار میکنم...امکانش هست مطالب مرتبط اگه دارید برام میل کنید
در مبحث chameleon هم ک واقعا مبهمم...لطفا اگه امکانش هست همکاری کنید
تشکر
پاسخ:
کتاب Data Mining Concepts and Techniques نوشته‌ی Jiawei Han و Micheline Kamber را دانلود کنید. در فصل سلسله مراتبی توضیح داده شده است. (دو سه صفحه انگلیسی با تصویر بیشتر نیست.)
سلام من دارم روی این موضوع کار میکنم واقعا عالی این مبحث رو خلاصه وار توضیح دادین
خیلی وقت بود دنبال مفهوم دقیق و روان این الگوریتم میگشتم
یه سوالی که دارم اینه که الگوریتم chamelon برای چه نوع داده هایی هست؟ برای بیگ دیتا بکار میره؟
پاسخ:
این که من نوشتم نسخه‌ی معمولیش است که گراف k-نزدیکترین همسایه را روی یک ماشین می‌سازد اما دلیلی ندارد که نشود تعمیمش داد به حالت‌های دیگر. من خودم در موردش تحقیق نکردم. قسمت آخرش که یک سری ملاک را حساب می‌کند شاید مشکل ایجاد کند برای پیاده‌سازیش برای حجم بالا.

ارسال نظر

ارسال نظر آزاد است، اما اگر قبلا در بیان ثبت نام کرده اید می توانید ابتدا وارد شوید.
شما میتوانید از این تگهای html استفاده کنید:
<b> یا <strong>، <em> یا <i>، <u>، <strike> یا <s>، <sup>، <sub>، <blockquote>، <code>، <pre>، <hr>، <br>، <p>، <a href="" title="">، <span style="">، <div align="">
تجدید کد امنیتی