داده کاوی :: الگوریتم امروز

۳۹ مطلب با موضوع «داده کاوی» ثبت شده است

الگوریتم های بهینه برای خوشه بندی تقریبی

فاصله درون خوشه ای:

1- حداکثر فاصله بین نقاط درون یک خوشه (فاصله زوج نقاط: بدون مرکز)

2- حداکثر فاصله بین نقاط درون یک خوشه و مرکز خوشه (دارای مرکز)

الگوریتمی که ضریب تقریب بهتری از 2 داشته باشد برای ابعاد 2 و بالاتر وجود ندارد مگر اینکه P=NP باشد. الگوریتم با زمان O(nlogk) داریم که طبق algebraic decision tree بهینه است. اگر (حداکثر) اندازه ی خوشه مشخص باشد تعداد خوشه ها را با تقریب 1+epsilon خواهیم داشت.

از گونه های دیگر مساله مرکزهای ممنوعه، مساله تامین کنندگان و مساله تامین کنندگان وزن دار است که با زمان O(nlogk) به جواب بهینه یا نزدیک بهینه تقریبی می رسند.

۰ نظر

۰ ۰۸ بهمن ۹۲ ، ۰۷:۲۳

سپیده آقاملائی

خوشه بندی گراف

من همیشه فکر می کردم خوشه بندی گراف کار سختی است در حالی که کل کاری که باید بکنیم این است که یک سری خوشه بسازیم و مرکز انتخاب کنیم و هر نودی را به مرکز خوشه ی خودش وصل کنیم و مرکز خوشه ها را هم بر اساس فاصله ی نقاط درون خوشه های متناظر آنها (یا ملاک های دیگر) به هم وصل کنیم (یا وزن برای آن تعیین کنیم.)

۰ نظر

۰ ۰۶ بهمن ۹۲ ، ۰۹:۰۵

سپیده آقاملائی

پایان ترم داده کاوی شریف

سوال 1- سوال 1 پست قبلی (خوشه بندی که شکل دارد و DBSCAN هم دارد)

سوال 2- روشهای تشخیص outlier را توضیح دهید.

سوال 3- آیا با شبکه عصبی که از تابع سیگموئید استفاده می کند می توان نمونه های زیر را جدا کرد؟ (نمونه های (0,0) (0,1) (1,1) مربوط به یک کلاس و (1,0) مربوط به کلاس دیگر)

سوال 4- در یک شبکه بیز، کدام متغیرها از هم مستقلند و کدام متغیرها وابسته؟ تابع احتمال توام آنها را بنویسید و برای (یک مقدار داده شده در مساله) حساب کنید.

۱ نظر

۰ ۱۸ دی ۹۲ ، ۱۲:۱۵

سپیده آقاملائی

مرجع سوالهای داده کاوی

الآن دیدم سوالهای میان ترم از اینجا بوده:

http://www.it.uu.se/edu/course/homepage/infoutv2/vt13/Exam-DUT-070816-ans.pdf

http://www.it.uu.se/edu/course/homepage/infoutv2/vt13/Exam-DM2-110527.pdf

۱ نظر

۰ ۱۷ دی ۹۲ ، ۲۱:۱۲

سپیده آقاملائی

سوال داده کاوی

۰ نظر

۰ ۱۷ دی ۹۲ ، ۱۹:۱۷

سپیده آقاملائی

ساخت گراف برای خوشه بندی

linkage measures

بر اساس معیارهای زیر می توانیم گرافهای متفاوتی برای خوشه بندی نقاط بسازیم. اولین چیزی که به ذهن آدم می رسد یک گراف کامل است که فاصله ی هر دو نقطه را وزن یال قرار بدهیم، اما این کار هزینه ی زیادی دارد.

1- کمترین فاصله: فاصله ی هر نقطه از یک خوشه را تا یک نقطه از خوشه ی دیگر مینیمم کند.

به این روش ها نزدیک ترین همسایه می گویند. کلا هر روشی که بر مبنای نزدیک ترین خوشه به یک نقطه عمل کند single linkage است.

در ساخت گراف آن، به این معنی است که بین نزدیک ترین دو نقطه ی دو خوشه (نزدیک ترین خوشه ها) متفاوت یک یال رسم کنیم. (راسهای گراف نقاط هستند). چون همیشه یالها بین خوشه های متفاوت رسم می شوند، گراف ساخته شده یک درخت است. به همین دلیل به این روشها minimal spanning tree هم می گویند.

(هر نقطه به نزدیک ترین مرکز خود وصل است)

(نزدیک بودن محلی)

2- بیشترین فاصله: فاصله ی بین نقاط دو خوشه متمایز را ماکسیمم می کند. (بین هر دو خوشه نه، بین هر خوشه تا نزدیک ترین خوشه ها به آن)

به این روشها دورترین همسایه می گویند. اگر تا جایی ادامه دهیم که فاصله ی دو خوشه از یک حد آستانه مشخص شده توسط کاربر بیشتر شود، به آن اتصال کامل می گویند.

با این روش گرافی که ساخته می شود، هر خوشه آن یک زیرگراف کامل است.

هدف این الگوریتم ها مینیمم کردن قطر خوشه ها است و وقتی بهترین جواب را می دهند که خوشه ها فشرده باشند و اندازه ی تقریبا مساوی داشته باشند.

(نزدیک بودن سراسری)

** هر دوی روشهای بالا به داده های پرت (که با داده های دیگر فاصله زیاد دارند) و نویز (خطای تصادفی) حساس هستند. به همین دلیل روش های دیگری ارائه شد که بین این دو روش افراطی بودند:

3- فاصله میانگینها: بین میانگین دو خوشه فاصله را مینیمم کنیم.

** این روش مشکل قبل را حل می کند و محاسبه ی آن ساده است، اما برای داده های غیر عددی جواب نمی دهد، در نتیجه ملاک دیگری ارائه شد:

4- میانگین فاصله ی نقاط دو خوشه

1/(n1*n2) * sum (pi, qj)

pi in C1, q in C2

بر خلاف تعریف فاصله ی مرکزها، میانگین را می توانیم برای داده های غیرعددی هم تعریف کنیم. (مثلا مد یا میانه)

**** این روشها برای خوشه بندی سلسله مراتبی هستند.