داده هایی که انقدر اختلاف زیادی با داده های ما دارند طوری که به نظر می رسد با روش دیگری ساخته شده اند. مثال: خرید کالای ورزشی یک ورزشکار حرفه ای
نویز با داده ی پرت متفاوت است: نویز خطای (یا واریانس) تصادفی در داده است که باید قبل از تشخیص داده پرت حذف شود.
تفاوت آن با داده نوظهور: داده ی نوظهور در ابتدا داده ی پرت است اما بعدا به مدل اضافه می شود.
انواع داده ی پرت:
1- global outlier: (نقطه نامتعارف) نقطه ای که نسبت به همه ی داده ها داده ی پرت باشد.
2- contextual outlier: (داده پرت مشروط) بر اساس context مشخص شده داده ی پرت باشند. مثلا دمای هوای 10 درجه در تابستان در تهران
contextual attributes: صفت هایی که به context مربوط اند. (در این مثال فصل و شهر)
behavioral attributes: صفت هایی که مشخصات شی را معلوم می کنند و برای تشخیص داده ی پرت بودن به کار می روند. (در این مثال دما)
می شود این نوع داده پرت را تعمیم داده پرت محلی دانست که چگالی آن به نسبت اطراف آن متفاوت است.
3- collective outlier: دسته ای از داده ها که با هم نسبت به کل داده ها نامتعارف هستند نه تک تک. مثل: intrusion detection
برای تشخیص این دسته باید دسته های داده را چک کرد.
--------------------------------------
روشهای تشخیص داده پرت:
روشهای آماری: احتمال اینکه یک نقطه وجود داشته باشد با استفاده از توزیع نرمال حساب کنید و اگر کم بود داده ی پرت است. (پارامتری و غیرپارامتری)
روش بر مبنای نزدیکی: نزدیک ترین همسایه: هر کس را مثلا با سه نزدیک ترین همسایه اش در نظر بگیریم، اگر نزدیک بودن آن به این سه همسایه خیلی بیشتر از نزدیک بودن آن به بقیه داده ها است یعنی داده ی پرت است.
روشهای مبتنی بر خوشه بندی: خوشه های با تعداد کم
روشهای مبتنی بر دسته بندی: داده ها را به دو دسته ی پرت و نرمال تقسیم کنید.
برای تشخیص انواع دیگر داده پرت ابتدا دسته ها را مشخص کنید بعد همین روشها را انجام دهید. روشهای داده های با ابعاد بالا هم مشابه همین ها است.
مثال:
حل: اگر حریصانه اختصاص بدهیم (maximum likelihood) و m میانگین و s انحراف معیار نمونه باشد:
m= 28.61
var = 2.29
s = 1.51
می دانیم m+3s و m-3s دارای 99.7% داده ها به شرط نرمال بودن توزیع هستند.
m+3s = 28.61+3*1.51=33.14
m-3s=28.61-3*1.51=24.08
پس داده های خارج این بازه به احتمال کمتر از 0.15% دارای توزیع نرمال هستند پس داده ی پرت هستند. داده های پرت: 24.0
حل 2: ملاک IQR: ابتدا Q1 و Q2 و Q3 را به دست می آوریم (چارکها). بعد بازه ی زیر را در نظر می گیریم و هر داده خارج آن را پرت اعلام می کنیم:
IQR = Q3-Q1
interval = [Q1-1.5IQR, Q3+1.5IQR]
در این بازه 99.3% داده ها قرار دارند.
------------------------------------------------------------
روشهای غیرپارامتری
مثال: هیستوگرام:
کل بازه ی 0 تا 5 روی محور x را که جمع کنیم 99.8 می شود یعنی 0.02% داده ها خارج این بازه و پرت هستند. چون داده ها نامنفی اند پس مربوط به بیشتر از 5 است (یعنی 5000$) = داده های پرت
یعنی داده های پرت داده هایی هستند که در نمودار ناچیز بوده اند.
-------------------
بر مبنای فاصله: فاصله ی دو به دوی نقاط را چک کنیم و آنهایی که از حدی بیشتر است پرت در نظر بگیریم.
بر مبنای grid : قبل از محاسبه ی فاصله ی دو به دو هرس می کنیم، به این صورت که فقط خانه های اطراف را چک می کنیم:
یک grid می سازیم و از هر نقطه یک دایره به شعاع r/2 می زنیم اگر نقطه ی دیگری درون این دایره بود همچنان آن خانه grid سطح یک است در غیر این صورت سطح 2 می شود. همه ی نقاط سطح 2 داده ی پرت هستند و همه ی نقاط سطح 1 داده ی پرت نیستند.
بر مبنای چگالی: همان روش k نزدیک ترین همسایه که در ابتدای همین نوشته گفته شد.