An Adaptive Outlier Detection For Scatter Points Of Unascertained Models

Pengesanan titik terpencil adalah proses pengenalpastian corak luar biasa dalam data. Kajian ini memperkenalkan satu kaedah baru untuk mengesan titik terpencil yang terdapat dalam data serakan multivariat yang mana titik terpencil adalah terdiri daripada titik-titik yang berada jauh daripada majo...

Full description

Saved in:
Bibliographic Details
Main Author: Davinna Jeremiah, Davinna Jeremiah
Format: Thesis
Language:English
Published: 2016
Subjects:
Online Access:http://eprints.usm.my/31781/1/DAVINNA_JEREMIAH_24%28NN%29.pdf
http://eprints.usm.my/31781/
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:Pengesanan titik terpencil adalah proses pengenalpastian corak luar biasa dalam data. Kajian ini memperkenalkan satu kaedah baru untuk mengesan titik terpencil yang terdapat dalam data serakan multivariat yang mana titik terpencil adalah terdiri daripada titik-titik yang berada jauh daripada majoriti titik. Antara cabaran dalam pengesanan titik terpencil adalah kesukaran untuk menentukan taburan bagi memodelkan suatu data serakan. Ini disebabkan oleh ciri-ciri tertentu yang sememangnya telah wujud dalam data itu sendiri, misalnya kepencongan dan kurtosis. Disebabkan ciri-ciri ini, adalah agak mustahil untuk menentukan dengan betul model taburan tanpa sebarang pengetahuan sedia ada ataupun input pengguna. Keadaan ini bertambah teruk apabila data adalah multivariat yang mana akan menyebabkan titik serakan tidak dapat diteliti secara visual. Outlier detection is the identification of unusual patterns in data. This research presents a new method of detecting outliers found in multivariate scatter data, where outliers are those points that lie far away from the majority of points. One of the challenges in outlier detection is the difficulty of determining the distribution to model a scatter data. This is due to the data’s certain inherent characteristics, for example, its skewness and kurtosis. Owing to these characteristics, it is therefore quite impossible for the right distribution model to be determined without any prior knowledge or user input. This problem aggravates when data are multivariate, where the scatter of data points cannot be visually inspected.