Pembersihan Data Menjamin Penghasilan Kualiti Maklumat
21 November 2025
Pembersihan Data Menjamin Penghasilan Kualiti Maklumat
21 November 2025
Ditulis oleh:
Prof. Madya Dr. Nurulkamal Masseran
Pensyarah
Jabatan Sains Matematik,
Universiti Kebangsaan Malaysia
Dalam bidang sains data yang popular pada masa kini, ramai yang bercakap tentang pembelajaran mesin, teknologi AI, analitik data, pengvisualan data dan lain-lain topik yang selari dengannya. Namun, di sebalik setiap papan pemuka yang bersifat interaktif, plot-plot yang indah dan model-model ramalan kompleks yang dihasilkan oleh penganalisis data, terdapat satu proses yang sangat penting namun kurang diberikan perhatian, iaitu pembersihan data.
Titik tolak rasional proses pembersihan data ini wujud disebabkan masalah “data kotor” yang seringkali dipandang ringan oleh kebanyakan pengguna dan sebahagian penganalisis data juga. Walaupun data pada masa kini adalah mudah untuk diperolehi dan ianya seringkali dicerap dalam kuantiti yang besar. Namun, umumnya penganalisis data seringkali akan berdepan dengan masalah data yang lenyap, data tidak konsisten, atribut atau pemboleh ubah yang terlalu banyak dan hampir sama, masalah data pencil, dan lain-lain. Permasalahan-permasalahan ini memberi kesan kepada kualiti data. Data dengan kualiti rendah akan membawa kepada hasil perlombongan data yang rendah kualiti. Seperti ungkapan “garbage in, garbage out”. Iaitu, jika input maklumat data yang diberikan adalah bermasalah, hasil analisis yang diperolehi walaupun dengan menggunakan perisian yang canggih dan teknik perlombongan data yang kompleks sebenarnya tidak memberi apa-apa makna dan keputusan yang diperolehi adalah tidak boleh dipercayai. Masalah ini dikenali sebagai “data kotor”. “Data kotor” ini perlu diperbaiki untuk meningkatkan kualiti data bagi tujuan meningkatkan kualiti analisis statistik dan perlombongan data yang dijalankan. Ini kerana, analisis data yang diperolehi daripada “data kotor” boleh memberi kesan yang sangat buruk terhadap keputusan yang dibuat oleh mana-mana organisasi yang terlibat. Sebagai contoh, Harvard Business Review melaporkan pada tahun 2016 bahawa IBM menganggarkan kos yang dialami di Amerika disebabkan oleh masalah “data kotor” ialah sekitar 3.1 trilion dolar per tahun. Walaupun laporan ini sudah agak lama, namun ianya memberikan pengajaran yang sangat penting terutama kepada negara membangun seperti Malaysia bahawa proses pembersihan data merupakan suatu elemen yang sangat perlu dititik-beratkan dengan teliti sebelum mana-mana organisasi ingin membuat keputusan berasaskan data.
Masalah “Data Kotor”
“Data kotor” boleh berpunca dari pelbagai faktor, antaranya:
Kesilapan dalam pencerapan dan perekodan data
Kerosakan alat perekod data.
Keengganan pelanggan untuk memberikan maklumat.
Data yang sememangnya tidak wujud bagi fitur-fitur tertentu.
Disebabkan faktor-faktor tersebut, data yang “kotor” ini boleh dikenal pasti menerusi beberapa sifat berikut:
Data yang mempunyai maklumat yang tidak tepat ataupun tidak konsisten.
Data yang mengandungi banyak anomali atau data pencil.
Data yang terkandung maklumat berulang dan bertindan.
Wujud data lenyap atau maklumat tidak lengkap.
Format data yang tidak konsisten.
Penggunaan simbol yang berubah-ubah dan mengelirukan.
“Garbage in, garbage out”, untuk mendapatkan hasil analisis yang tepat.
Bagaimana “Data Kotor” Boleh “Dibersihkan”?
Terdapat pelbagai kaedah pembersihan data yang berbeza-beza yang boleh digunakan secara serentak atau berasingan bergantung pada ciri dan sifat set data. Antara kaedah-kaedah yang boleh digunakan untuk membersihkan data ialah:
Penyahpenduaan: Teknik ini dijalankan bagi tujuan untuk mengenal pasti dan mengeluarkan data-data yang didapati mempunyai maklumat yang berulang dan bertindan antara satu sama lain. Oleh itu, data yang dikekalkan merupakan maklumat yang unik bagi setiap unit cerapan.
Imputasi: Teknik ini dijalankan bagi tujuan untuk mengesan dan seterusnya meramal data-data lenyap menggunakan pelbagai kaedah seperti penggantian berasaskan sukatan memusat (min, median, mod), model regresi ataupun yang agak popular pada masa kini ialah anggaran menggunakan teknik pembelajaran mesin.
Pempiawaian dan Penyeragaman: Teknik ini dijalankan bagi tujuan untuk memastikan data mempunyai bentuk yang seragam. Di samping itu, bagi data dengan pemboleh ubah berganda yang setiap pemboleh ubah mempunyai unit yang berbeza, pempiawaian perlu dijalankan agar setiap pemboleh ubah tersebut adalah setara dari segi perbandingan relatif unit.
Pengesahan: Teknik ini dijalankan bagi tujuan untuk menyemak dan memastikan bahawa nilai-nilai data adalah konsisten, tepat, boleh dipercayai dan juga boleh ditafsir.
Pengecaman data pencil atau anomali: Teknik ini dijalankan bagi tujuan untuk mengenal pasti dan mengurus data-data yang mempunyai nilai yang jauh berbeza berbanding kebanyakan data lain. Ini kerana data pencil boleh mempengaruhi ketepatan hasil perlombongan data jika ianya tidak dikenal pasti dan dikendalikannya dengan sewajarnya.
Penjelmaan Data: Teknik ini diperlukan untuk mengubahsuai data menjadi bentuk yang lebih mudah dan bersesuaian terhadap kaedah perlombongan data yang dijalankan.
Penurunan data: Teknik ini diperlukan untuk mempersembahkan data dalam bentuk yang lebih kecil, namun masih mengekalkan maklumat yang hampir sama dengan data asal. Penurunan data juga bertujuan untuk menjadikan analisis perlombongan data lebih efisien. Ini kerana Al-Khwarizmi umumnya akan menjadi lebih cekap terhadap data yang berdimensi lebih rendah. Malah, hasil analisis yang diperolehi juga akan menjadi lebih mudah untuk ditafsir. Teknik penurunan data boleh dijalankan sama ada menerusi i) Penurunan Dimensi Data, atau ii) Penurunan Amaun (Numerositi) Data.
Teknologi AI dalam Pembersihan Data
Dalam beberapa tahun kebelakangan ini, teknologi-teknologi AI telah mula dibangunkan untuk menjalankan poses pembersihan data. Pelbagai model pembelajaran mesin telah digunakan untuk mengesan anomali, meramal data lenyap dan mempiawaikan data secara automatik. Namun, disebalik semua teknologi dan kemudahan AI ini, semakan dan pertimbangan secara manual oleh penganalisis data tetap merupakan elemen yang sangat penting. Ini kerana teknologi AI umumnya tidak memahami konteks sebenar atau nuansa disebalik makna data berbanding kefahaman manusia. Disamping itu, tanpa kemahiran dan pengetahuan yang baik berkaitan teknik pembersihan data, penganalisis akan secara naif menerima segala output dari pelantar pembersihan data AI tanpa ada kemanpuan untuk meneliti dan mengesahkan keteguhan dan ketepatan output tersebut. Maka, jika berlaku sebarang kesalahan dalam proses pembuatan keputusan disebabkan ralat pembersihan data dari teknologi AI, yang akan memikul tanggungjawab ialah penganalisis data dan bukannya teknologi AI itu sendiri.
Akhir kata, data yang berkualiti tinggi seharusnya berfungsi sebagai asas untuk menjamin penghasilan kualiti maklumat. Sebaliknya, data yang “kotor” akan membawa kepada analisis perlombongan data yang cacat dan keputusan yang salah.
Rujukan:
Aggarwal, C.C. (2015). Data Mining. The Textbook. Springer, New York.
García, S., Luengo, J., Herrera, F. (2015). Data Preprocessing in Data Mining. Springer, New York.
Ilyas, I. F., & Chu, X. (2019). Data cleaning. Morgan & Claypool.
Jafari, R. (2022). Hands-On Data Preprocessing in Python: Learn how to effectively prepare data for successful data analytics. 1st Edition. Packt Publishing.
Jäger, S., Allhorn, A., Bießmann, F. (2021). A benchmark for data imputation methods. Frontiers in big Data, 4, 693674.
Khoei, T. T., Singh, A. (2025). Data reduction in big data: a survey of methods, challenges and future directions. International Journal of Data Science and Analytics, 20(3), 1643-1682.
Luengo, J., García-Gil, D., Ramírez-Gallego, S., García, S., Herrera, F. (2020). Big Data Preprocessing. Springer, Switzerland.
Mumuni, A., Mumuni, F. (2025). Automated data processing and feature engineering for deep learning and big data applications: a survey. Journal of Information and Intelligence, 3(2), 113-153.
Redman, T. C. (2016). Bad Data Costs the U.S. $3 Trillion Per Year. Harvard Business Review. Boleh diakses menerusi: https://hbr.org/2016/09/bad-data-costs-the-u-s-3-trillion-per-year