الگوریتم امروز

وبلاگ تخصصی الگوریتم

الگوریتم امروز

وبلاگ تخصصی الگوریتم

وبلاگ علمی و مخصوص مباحث الگوریتمی است.
نظر خصوصی نگذارید چون جواب نمی‌دهم نظر عمومی بگذارید بدون نام هم که باشد همانجا جواب می‌دهم.

بایگانی

۳۹ مطلب با موضوع «داده کاوی» ثبت شده است

فرض کنید با یک روش ارزیابی به نرخ خطایی برای دو دسته بند M1 و M2 رسیده اید. (error rate = 1- accuracy)

به طور شهودی می دانیم که باید دسته بندی را انتخاب کنیم که نرخ خطای آن کمتر باشد، اما این نرخ خطا می تواند تا نرخ خطای واقعی فاصله ی زیادی داشته باشد. بنابراین باید یک confidence level به دست بیاوریم که احتمال اینکه خطا خارج از یک بازه ی مشخص باشد از حدی کمتر باشد.

مثال:

۰ نظر موافقین ۰ مخالفین ۰ ۰۹ دی ۹۲ ، ۱۸:۵۹
سپیده آقاملائی
مثال روشهای ensemble:
bagging, boosting, random forests
ensemble method: روشهایی که در آنها k دسته بند یا مدل یاد گرفته شده با هم ترکیب می شوند تا مدل قوی تری بسازند. دقت مدل ترکیبی از هر کدام از مدلهای اولیه بیشتر است. یکی از روشهای ترکیب دسته بندها رای اکثریت است.
روشهای ensemble:
1- bagging: boostrap aggregation
مرحله آموزش: هر بار d نمونه با جایگذاری بر می داریم و از روی آنها دسته بند می سازیم.
مرحله ی دسته بندی: هر نمونه را به همه ی دسته بندهای ساخته شده می دهیم و ماکزیمم تعداد رای ها را در نظر می گیریم. (رای اکثریت) برای داده های پیوسته میانگین جوابهای دسته بندها.
boosting: میانگین وزن دار جواب مجموعه ای از دسته بندها
adaboost (adaptive boosting)
مرحله آموزش: ابتدا به تاپلها احتمال انتخاب شدن یکنواخت می دهیم و نمونه برداری می کنیم و دسته بند می سازیم. سپس احتمال انتخاب داده هایی که اشتباه دسته بندی شده اند بیشتر می کنیم.
مرحله دسته بندی: وزن جواب هر دسته بند، دقت آن است. میانگین وزن دار جواب دسته بندها را بر می گردانیم.
random forests
دسته بندهایی که می سازد درخت تصمیم هستند. دو نوع دارد:
random input selection: صفتهایی که به عنوان جداکننده انتخاب می شوند رندم انتخاب کند. - درخت با CART ساخته می شود.
random linear combination: صفتهای جدیدی می سازد که ترکیب خطی صفت های قبلی هستند و با این کار همبستگی بین دسته بندها را کاهش می دهد.

۰ نظر موافقین ۰ مخالفین ۰ ۰۹ دی ۹۲ ، ۱۷:۵۶
سپیده آقاملائی
نمودار ROC
این نمودار برای مقایسه ی دو روش دسته بندی به کار می رود. محور عمودی آن TPR (نسبت مثبت های درست) و محور افقی آن FPR (نسبت مثبت های غلط) است.
TPR = TP/P
FPR = FP/N=1-specificity
این نمودار برای دسته بندی دو کلاسه (yes و no) نشان دهنده ی  trade off بین TPR و FPR است.
برای رسم این نمودار برای احتمال یک threshold در نظر می گیریم و بیشتر از آن را yes و کمتر از آن را no می دهیم. (با فرض اینکه روش دسته بندی ما برای هر نمونه یک احتمال تعلق به یک کلاس را برگرداند.)
مثال: در جدول زیر برچسب واقعی و احتمال برگردانده شده توسط دسته بند داده شده است. مقدار t مناسب را بیابید. (با رسم ROC)
برای این مثال از روی مقادیر دو ستون اول بقیه را محاسبه می کنیم. (نمونه ها بر حسب احتمال yes بودن مرتب شده اند.)
برای t=0.90 نمونه ی 1 را در دسته ی مثبت می گذاریم و از روی داده های اصلی می بینیم که درست دسته بندی کرده ایم. یک نقطه روی ROC در (0,0.2) می گذاریم. بعد t را کم می کنیم تا نمونه ی بعدی را شامل شود و همین کار را ادامه می دهیم تا نمودار کامل رسم شود.
نمودار ROC این مثال:
مقایسه ی دو دسته بند بر اساس نمودار ROC آنها
خط y=x در این نمودار نشان دهنده ی احتمال 1/2 برای تعلق به هر کلاس است. (حدس زدن). هر چه نموداری به این خط نزدیک تر باشد دقت آن کمتر است. در مثال زیر M1 از M2 دقیق تر است.

۸ نظر موافقین ۰ مخالفین ۰ ۰۹ دی ۹۲ ، ۱۷:۳۷
سپیده آقاملائی

داشتم دنبال فیلم هندسه محاسباتی می گشتم اینها را پیدا کردم! :)

دریافت

دریافت

دریافت

دریافت

باید در اولین فرصت بخوانمشان.

یک سری مقاله هم ضمیمه شان است که خیلی زیاد هستند و نمی شود آپلود کرد!

۰ نظر موافقین ۰ مخالفین ۰ ۰۸ دی ۹۲ ، ۱۰:۱۰
سپیده آقاملائی

به دلیل نامعلومی تصمیم گرفتم ارائه هام رو آپلود کنم.

دریافت
عنوان: fault tolerant clustering

دریافت
عنوان: P3C clustering algorithm
توضیحات: projected + subspace

دریافت
عنوان: online unit clustering
توضیحات: randomized clustering

۰ نظر موافقین ۰ مخالفین ۰ ۰۲ دی ۹۲ ، ۱۵:۳۴
سپیده آقاملائی

جوابها رو خودم نوشتم ممکنه درست نباشن! :)

دریافت

عنوان: جواب میان ترم داده کاوی
حجم: 39.3 کیلوبایت
۰ نظر موافقین ۰ مخالفین ۰ ۲۷ آبان ۹۲ ، ۰۹:۱۱
سپیده آقاملائی
برای تعریف شباهت یا همون یک منهای فاصله (در اکثر موارد) یه سری معیار هست که توشون یه سری خصوصیت ها باید باشه تا بشه با الگوریتم های مختلف ازشون استفاده کرد.
خصوصیت هایی که باید داشته باشند:
  • تقارن: فاصله ی x تا y با فاصله ی y تا x برابر باشه. مثالی از یه فاصله ی نامتقارن n امین نزدیک ترین نقطه به یه نقطه ی دیگه است.
  • نامساوی مثلث: (همون قضیه حمار!) یعنی مجموع فاصله x تا y و y تا z از فاصله ی x تا z بیشتر باشه. (این در واقع اصلی ترین شرطه)
  • فاصله ی هر نقطه تا خودش صفر باشه.
خب معیارهایی که هست هم بعضی هاشو میگم:
  • فاصله های خیلی متداول:
    • فاصله ی اقلیدسی (فاصله ی مستقیم دو تا نقطه)
    • فاصله ی منهتن (که روی صفحه ی چهارخونه تعداد یالهاییه که با هم فاصله دارن = جمع اختلاف xها و yهای دو نقطه)
    • نُرم ها (مینکفسکی):
      • برای بینهایتش میشه ماکسیمم قدر مطلق اختلاف مولفه ها (xها با هم، yها با هم، ...)
      • نرم 1 = قدر مطلق = مجموع قدر مطلق اختلاف مولفه ها
      • نرم های دیگه! (p-norm) = مجموع اختلاف مولفه ها رو به توان p برسونیم ریشه p-ام بگیریم.
  • فاصله های گسسته
    • فاصله ی n-امین نقطه یا رنک (چندمین دورترین نقطه از این نقطه است) = روی فاصله های دیگه می تونه تعریف بشه
    • فاصله ی جاکارد: شباهتش رو تعریف می کنم چون آسون تره (فاصله میشه یک منهای شباهت): تعداد اعضای اشتراک به تعداد اعضای اجتماع. شکل برداری اش رو هم میگن تانیموتو.
  • فاصله های جالب
    • یه فاصله ی دیگه که توی الگوریتم خوشه بندی doubling ازش استفاده میشه و اسمش رو درست نمی دونم: تعداد نقطه هایی که توی دایره به شعاع r هستند به تعداد نقطه هایی که توی شعاع 2r از یه نقطه هستند.
    • یه فاصله که یکی از روی این فاصله قبلیه تعریف کرده و توش یه احتمال هم توی صورت ضرب کرده.
    • simrank: یه فاصله ی برداری بر مبنای random walk
این داستان ادامه دارد!
۰ نظر موافقین ۰ مخالفین ۰ ۱۶ آبان ۹۲ ، ۱۸:۴۷
سپیده آقاملائی

لینک دانلود پاورپوینت خلاصه مقالات: www.di.uniba.it/~malerba/courses/bcdm/2012-13/SMOTI.pps

برای به دست آوردن خط رگرسیون هم با رگرسیون خطی میشه درآورد که اون هم میشه این طوری حساب کرد:

y-miangin(y) = (covariance(x,y)/var(x))*(x-miangin(x))

توی پست قبلی هم سوال آخر امتحان توش عدد تکراری داشت، نمی دونم برای binning بر اساس سایز باید در نظر می گرفتم یا نه.

راستی این هم توی امتحان نیومد.

۰ نظر موافقین ۰ مخالفین ۰ ۱۶ آبان ۹۲ ، ۱۸:۲۳
سپیده آقاملائی

۰ نظر موافقین ۱ مخالفین ۰ ۱۶ آبان ۹۲ ، ۱۸:۰۹
سپیده آقاملائی