شباهت
پنجشنبه, ۱۶ آبان ۱۳۹۲، ۰۶:۴۷ ب.ظ
برای تعریف شباهت یا همون یک منهای فاصله (در اکثر موارد) یه سری معیار هست که توشون یه سری خصوصیت ها باید باشه تا بشه با الگوریتم های مختلف ازشون استفاده کرد.
خصوصیت هایی که باید داشته باشند:
- تقارن: فاصله ی x تا y با فاصله ی y تا x برابر باشه. مثالی از یه فاصله ی نامتقارن n امین نزدیک ترین نقطه به یه نقطه ی دیگه است.
- نامساوی مثلث: (همون قضیه حمار!) یعنی مجموع فاصله x تا y و y تا z از فاصله ی x تا z بیشتر باشه. (این در واقع اصلی ترین شرطه)
- فاصله ی هر نقطه تا خودش صفر باشه.
- فاصله های خیلی متداول:
- فاصله ی اقلیدسی (فاصله ی مستقیم دو تا نقطه)
- فاصله ی منهتن (که روی صفحه ی چهارخونه تعداد یالهاییه که با هم فاصله دارن = جمع اختلاف xها و yهای دو نقطه)
- نُرم ها (مینکفسکی):
- برای بینهایتش میشه ماکسیمم قدر مطلق اختلاف مولفه ها (xها با هم، yها با هم، ...)
- نرم 1 = قدر مطلق = مجموع قدر مطلق اختلاف مولفه ها
- نرم های دیگه! (p-norm) = مجموع اختلاف مولفه ها رو به توان p برسونیم ریشه p-ام بگیریم.
- فاصله های گسسته
- فاصله ی n-امین نقطه یا رنک (چندمین دورترین نقطه از این نقطه است) = روی فاصله های دیگه می تونه تعریف بشه
- فاصله ی جاکارد: شباهتش رو تعریف می کنم چون آسون تره (فاصله میشه یک منهای شباهت): تعداد اعضای اشتراک به تعداد اعضای اجتماع. شکل برداری اش رو هم میگن تانیموتو.
- فاصله های جالب
- یه فاصله ی دیگه که توی الگوریتم خوشه بندی doubling ازش استفاده میشه و اسمش رو درست نمی دونم: تعداد نقطه هایی که توی دایره به شعاع r هستند به تعداد نقطه هایی که توی شعاع 2r از یه نقطه هستند.
- یه فاصله که یکی از روی این فاصله قبلیه تعریف کرده و توش یه احتمال هم توی صورت ضرب کرده.
- simrank: یه فاصله ی برداری بر مبنای random walk
۹۲/۰۸/۱۶