الگوریتم امروز

وبلاگ تخصصی الگوریتم

الگوریتم امروز

وبلاگ تخصصی الگوریتم

وبلاگ علمی و مخصوص مباحث الگوریتمی است.
نظر خصوصی نگذارید چون جواب نمی‌دهم نظر عمومی بگذارید بدون نام هم که باشد همانجا جواب می‌دهم.

بایگانی

۳۹ مطلب با موضوع «داده کاوی» ثبت شده است

فاصله درون خوشه ای:

1- حداکثر فاصله بین نقاط درون یک خوشه (فاصله زوج نقاط: بدون مرکز)

2- حداکثر فاصله بین نقاط درون یک خوشه و مرکز خوشه (دارای مرکز)

الگوریتمی که ضریب تقریب بهتری از 2 داشته باشد برای ابعاد 2 و بالاتر وجود ندارد مگر اینکه P=NP باشد. الگوریتم با زمان O(nlogk) داریم که طبق algebraic decision tree بهینه است. اگر (حداکثر) اندازه ی خوشه مشخص باشد تعداد خوشه ها را با تقریب 1+epsilon خواهیم داشت.

از گونه های دیگر مساله مرکزهای ممنوعه، مساله تامین کنندگان و مساله تامین کنندگان وزن دار است که با زمان O(nlogk) به جواب بهینه یا نزدیک بهینه تقریبی می رسند.


۰ نظر موافقین ۰ مخالفین ۰ ۰۸ بهمن ۹۲ ، ۰۷:۲۳
سپیده آقاملائی
من همیشه فکر می کردم خوشه بندی گراف کار سختی است در حالی که کل کاری که باید بکنیم این است که یک سری خوشه بسازیم و مرکز انتخاب کنیم و هر نودی را به مرکز خوشه ی خودش وصل کنیم و مرکز خوشه ها را هم بر اساس فاصله ی نقاط درون خوشه های متناظر آنها (یا ملاک های دیگر) به هم وصل کنیم (یا وزن برای آن تعیین کنیم.)
۰ نظر موافقین ۰ مخالفین ۰ ۰۶ بهمن ۹۲ ، ۰۹:۰۵
سپیده آقاملائی

سوال 1- سوال 1 پست قبلی (خوشه بندی که شکل دارد و DBSCAN هم دارد)

سوال 2- روشهای تشخیص outlier را توضیح دهید.

سوال 3- آیا با شبکه عصبی که از تابع سیگموئید استفاده می کند می توان نمونه های زیر را جدا کرد؟ (نمونه های (0,0) (0,1) (1,1) مربوط به یک کلاس و (1,0) مربوط به کلاس دیگر)

سوال 4- در یک شبکه بیز، کدام متغیرها از هم مستقلند و کدام متغیرها وابسته؟ تابع احتمال توام آنها را بنویسید و برای (یک مقدار داده شده در مساله) حساب کنید.

۱ نظر موافقین ۰ مخالفین ۰ ۱۸ دی ۹۲ ، ۱۲:۱۵
سپیده آقاملائی
۱ نظر موافقین ۰ مخالفین ۰ ۱۷ دی ۹۲ ، ۲۱:۱۲
سپیده آقاملائی



۰ نظر موافقین ۰ مخالفین ۰ ۱۷ دی ۹۲ ، ۱۹:۱۷
سپیده آقاملائی

linkage measures

بر اساس معیارهای زیر می توانیم گرافهای متفاوتی برای خوشه بندی نقاط بسازیم. اولین چیزی که به ذهن آدم می رسد یک گراف کامل است که فاصله ی هر دو نقطه را وزن یال قرار بدهیم، اما این کار هزینه ی زیادی دارد.

1- کمترین فاصله: فاصله ی هر نقطه از یک خوشه را تا یک نقطه از خوشه ی دیگر مینیمم کند.

به این روش ها نزدیک ترین همسایه می گویند. کلا هر روشی که بر مبنای نزدیک ترین خوشه به یک نقطه عمل کند single linkage است.

در ساخت گراف آن، به این معنی است که بین نزدیک ترین دو نقطه ی دو خوشه (نزدیک ترین خوشه ها) متفاوت یک یال رسم کنیم. (راسهای گراف نقاط هستند). چون همیشه یالها بین خوشه های متفاوت رسم می شوند، گراف ساخته شده یک درخت است. به همین دلیل به این روشها minimal spanning tree هم می گویند.

(هر نقطه به نزدیک ترین مرکز خود وصل است)

(نزدیک بودن محلی)

2- بیشترین فاصله: فاصله ی بین نقاط دو خوشه متمایز را ماکسیمم می کند. (بین هر دو خوشه نه، بین هر خوشه تا نزدیک ترین خوشه ها به آن)

به این روشها دورترین همسایه می گویند. اگر تا جایی ادامه دهیم که فاصله ی دو خوشه از یک حد آستانه مشخص شده توسط کاربر بیشتر شود، به آن اتصال کامل می گویند.

با این روش گرافی که ساخته می شود، هر خوشه آن یک زیرگراف کامل است.

هدف این الگوریتم ها مینیمم کردن قطر خوشه ها است و وقتی بهترین جواب را می دهند که خوشه ها فشرده باشند و اندازه ی تقریبا مساوی داشته باشند.

(نزدیک بودن سراسری)

** هر دوی روشهای بالا به داده های پرت (که با داده های دیگر فاصله زیاد دارند) و نویز (خطای تصادفی) حساس هستند. به همین دلیل روش های دیگری ارائه شد که بین این دو روش افراطی بودند:

3- فاصله میانگینها: بین میانگین دو خوشه فاصله را مینیمم کنیم.

** این روش مشکل قبل را حل می کند و محاسبه ی آن ساده است، اما برای داده های غیر عددی جواب نمی دهد، در نتیجه ملاک دیگری ارائه شد:

4- میانگین فاصله ی نقاط دو خوشه

1/(n1*n2) * sum (pi, qj)

pi in C1, q in C2

بر خلاف تعریف فاصله ی مرکزها، میانگین را می توانیم برای داده های غیرعددی هم تعریف کنیم. (مثلا مد یا میانه)

**** این روشها برای خوشه بندی سلسله مراتبی هستند.

۰ نظر موافقین ۰ مخالفین ۰ ۱۲ دی ۹۲ ، ۰۸:۴۹
سپیده آقاملائی

maximize margine

max(2/||w||)

اگر خطی جداناپذیر باشد، به ابعاد بالاتر می بریم.

۰ نظر موافقین ۰ مخالفین ۰ ۱۱ دی ۹۲ ، ۲۲:۳۳
سپیده آقاملائی
۰ نظر موافقین ۰ مخالفین ۰ ۱۱ دی ۹۲ ، ۲۲:۳۲
سپیده آقاملائی
۱ نظر موافقین ۰ مخالفین ۰ ۱۱ دی ۹۲ ، ۱۹:۰۱
سپیده آقاملائی

مثال: بر اساس داده ی جدید x وزن یالها را به روز کنید. (ضریب یادگیری 0.9)

روابط:

جواب:

در خطا Oi(1-Oi) مشتق تابع سیگموئید است.

۰ نظر موافقین ۰ مخالفین ۰ ۱۱ دی ۹۲ ، ۱۷:۵۱
سپیده آقاملائی