الگوریتم امروز

وبلاگ تخصصی الگوریتم

الگوریتم امروز

وبلاگ تخصصی الگوریتم

وبلاگ علمی و مخصوص مباحث الگوریتمی است.
نظر خصوصی نگذارید چون جواب نمی‌دهم نظر عمومی بگذارید بدون نام هم که باشد همانجا جواب می‌دهم.

بایگانی

داده های پرت

چهارشنبه, ۱۱ دی ۱۳۹۲، ۰۴:۰۰ ب.ظ

داده هایی که انقدر اختلاف زیادی با داده های ما دارند طوری که به نظر می رسد با روش دیگری ساخته شده اند. مثال: خرید کالای ورزشی یک ورزشکار حرفه ای

نویز با داده ی پرت متفاوت است: نویز خطای (یا واریانس) تصادفی در داده است که باید قبل از تشخیص داده پرت حذف شود.

تفاوت آن با داده نوظهور: داده ی نوظهور در ابتدا داده ی پرت است اما بعدا به مدل اضافه می شود.

انواع داده ی پرت:

1- global outlier: (نقطه نامتعارف) نقطه ای که نسبت به همه ی داده ها داده ی پرت باشد.

2- contextual outlier: (داده پرت مشروط) بر اساس context مشخص شده داده ی پرت باشند. مثلا دمای هوای 10 درجه در تابستان در تهران

contextual attributes: صفت هایی که به context مربوط اند. (در این مثال فصل و شهر)

behavioral attributes: صفت هایی که مشخصات شی را معلوم می کنند و برای تشخیص داده ی پرت بودن به کار می روند. (در این مثال دما)

می شود این نوع داده پرت را تعمیم داده پرت محلی دانست که چگالی آن به نسبت اطراف آن متفاوت است.

3- collective outlier: دسته ای از داده ها که با هم نسبت به کل داده ها نامتعارف هستند نه تک تک. مثل: intrusion detection

برای تشخیص این دسته باید دسته های داده را چک کرد.

--------------------------------------

روشهای تشخیص داده پرت:

روشهای آماری: احتمال اینکه یک نقطه وجود داشته باشد با استفاده از توزیع نرمال حساب کنید و اگر کم بود داده ی پرت است. (پارامتری و غیرپارامتری)

روش بر مبنای نزدیکی: نزدیک ترین همسایه: هر کس را مثلا با سه نزدیک ترین همسایه اش در نظر بگیریم، اگر نزدیک بودن آن به این سه همسایه خیلی بیشتر از نزدیک بودن آن به بقیه داده ها است یعنی داده ی پرت است.

روشهای مبتنی بر خوشه بندی: خوشه های با تعداد کم

روشهای مبتنی بر دسته بندی: داده ها را به دو دسته ی پرت و نرمال تقسیم کنید.

برای تشخیص انواع دیگر داده پرت ابتدا دسته ها را مشخص کنید بعد همین روشها را انجام دهید. روشهای داده های با ابعاد بالا هم مشابه همین ها است.

مثال:

حل: اگر حریصانه اختصاص بدهیم (maximum likelihood) و m میانگین و s انحراف معیار نمونه باشد:

m= 28.61

var = 2.29

s = 1.51

می دانیم m+3s و m-3s دارای 99.7% داده ها به شرط نرمال بودن توزیع هستند.

m+3s = 28.61+3*1.51=33.14

m-3s=28.61-3*1.51=24.08

پس داده های خارج این بازه به احتمال کمتر از 0.15% دارای توزیع نرمال هستند پس داده ی پرت هستند. داده های پرت: 24.0

حل 2: ملاک IQR: ابتدا Q1 و Q2 و Q3 را به دست می آوریم (چارکها). بعد بازه ی زیر را در نظر می گیریم و هر داده خارج آن را پرت اعلام می کنیم:

IQR = Q3-Q1

interval = [Q1-1.5IQR, Q3+1.5IQR]

در این بازه 99.3% داده ها قرار دارند.

------------------------------------------------------------

روشهای غیرپارامتری

مثال: هیستوگرام: 

کل بازه ی 0 تا 5 روی محور x را که جمع کنیم 99.8 می شود یعنی 0.02% داده ها خارج این بازه و پرت هستند. چون داده ها نامنفی اند پس مربوط به بیشتر از 5 است (یعنی 5000$) = داده های پرت

یعنی داده های پرت داده هایی هستند که در نمودار ناچیز بوده اند.

-------------------

بر مبنای فاصله: فاصله ی دو به دوی نقاط را چک کنیم و آنهایی که از حدی بیشتر است پرت در نظر بگیریم.

بر مبنای grid : قبل از محاسبه ی فاصله ی دو به دو هرس می کنیم، به این صورت که فقط خانه های اطراف را چک می کنیم:

یک grid می سازیم و از هر نقطه یک دایره به شعاع r/2 می زنیم اگر نقطه ی دیگری درون این دایره بود همچنان آن خانه grid سطح یک است در غیر این صورت سطح 2 می شود. همه ی نقاط سطح 2 داده ی پرت هستند و همه ی نقاط سطح 1 داده ی پرت نیستند.

بر مبنای چگالی: همان روش k نزدیک ترین همسایه که در ابتدای همین نوشته گفته شد.

موافقین ۰ مخالفین ۰ ۹۲/۱۰/۱۱
سپیده آقاملائی

نظرات  (۴)

salam . estefade kardam. mamnun
مرسی بسیااار
این روش بر مبنای grid رو بیشتر توضیح میدید. لطفا
پاسخ:
اگر تعداد نقاطی که در یک خانه توری و خانه‌های مجاور آن هستند به مقدار آستانه بود، هیچ کدام دورافتاده نیستند.
اگر تعداد نقاطی که در یک خانه توری، خانه‌های همسایه‌ی آن و خانه‌های غیرمجاور آن هستند از مقدار آستانه کمتر بود، همه دورافتاده هستند.
این دو قانون را اعمال می‌کنیم تا خانه‌های توری را به دو دسته‌ی دورافتاده و غیردورافتاده تقسیم کنیم تا به جای اینکه نقاط را یکی یکی بررسی کنیم، خانه خانه بررسی کنیم.
خانه‌های توری را طوری می‌سازیم که r/2 قطر آنها باشد. در نتیجه فاصله‌ی کمتر از r حتماً در همسایگی می‌افتد و فاصله‌ی بیشتر از r حتماً خارج از همسایگی می‌افتد.
سلام.روش مبتنی بر خوشه بندی را بیشتر توضبح دهید
پاسخ:
نوشتم دیگه! اگر یک خوشه‌ای تعداد اعضایش کم باشد خود به خود همه‌شان به عنوان داده پرت در نظر گرفته می‌شوند.

ارسال نظر

ارسال نظر آزاد است، اما اگر قبلا در بیان ثبت نام کرده اید می توانید ابتدا وارد شوید.
شما میتوانید از این تگهای html استفاده کنید:
<b> یا <strong>، <em> یا <i>، <u>، <strike> یا <s>، <sup>، <sub>، <blockquote>، <code>، <pre>، <hr>، <br>، <p>، <a href="" title="">، <span style="">، <div align="">
تجدید کد امنیتی