Pengertian Himpunan Data Dalam Data Mining
Sebelum mempelajari dari karakteristik dari himpunan data, mungkin kita harus tahu terlebih dahulu pengertian dari himpunan data itu sendiri, Himpunan data (data-set) adalah kumpulan dari objek dan atributnya. Atribut merupakan sifat atau karakteristik dari suatu objek. Contohnya : Warna mata seseorang, suhu, dsb.Atribut juga dikenal sebagai variabel, field, karakteristik atau fitur. Kumpulan dari atribut menggambarkan sebuah Objek. Objek juga disebut dengan record, titik, kasus, sample, entitas atau instance. (Baca Juga: Definisi dan Tipe Data: Himpunan Data, Nilai Atribut, Sifat Atribut dan Tipe Atribut)
Karakteristik Umum Himpunan Data (Data-set) Dalam data Mining
Himpunan data (data-set) mempunyai beberapa karakteristik umum yaitu :
1. Dimensionality
2. Sparsity
Sebelum mempelajari dari karakteristik dari himpunan data, mungkin kita harus tahu terlebih dahulu pengertian dari himpunan data itu sendiri, Himpunan data (data-set) adalah kumpulan dari objek dan atributnya. Atribut merupakan sifat atau karakteristik dari suatu objek. Contohnya : Warna mata seseorang, suhu, dsb.Atribut juga dikenal sebagai variabel, field, karakteristik atau fitur. Kumpulan dari atribut menggambarkan sebuah Objek. Objek juga disebut dengan record, titik, kasus, sample, entitas atau instance. (Baca Juga: Definisi dan Tipe Data: Himpunan Data, Nilai Atribut, Sifat Atribut dan Tipe Atribut)
Simber gambar: indiadataentry.co.uk
Karakteristik Umum Himpunan Data (Data-set) Dalam data Mining
Himpunan data (data-set) mempunyai beberapa karakteristik umum yaitu :
1. Dimensionality
- Dimensionalitas dari sebuah data-set adalah'jumlah atribut yang dimiliki oleh objek-objek dalam data-set.
- Data dengan jumlah dimensi kecil punya kecenderungan berbeda secara kualitatif dibandingkan dengan data dimensi tinggi.
- Kesulitan yang berhubungan dengan data dimensi tinggi sering disebut sebagai curse ofdimensionality.
- Untuk itu pada tahap preprocessing perlu dilakukan pengurangan dimensi (dimensionality reduction).
2. Sparsity
- Untuk beberapa data-set, misalkan data dengan fitur asimetris, kebanyakan atribut dari suatu objek mempunyai nilai 0; dan biasanya kurang dari 1% mempunyai nilai tidak nol.
- Sparsity mempunyai keuntungan dalam waktu komputasi dan penyimpanan data.
- Sifat dari data berbeda pada resolusi yang berbeda.
- Pola dalam data bergantung pada level resolusi.
- Jika resolusi terlalu baik [tidak ada perbedaan/halus), pola mungkin tidak akan kelihatan; jika resolusi terlalu kasar, pola juga akan hilang