This is default featured slide 1 title

Go to Blogger edit html and find these sentences.Now replace these sentences with your own descriptions.

This is default featured slide 2 title

Go to Blogger edit html and find these sentences.Now replace these sentences with your own descriptions.

This is default featured slide 3 title

Go to Blogger edit html and find these sentences.Now replace these sentences with your own descriptions.

This is default featured slide 4 title

Go to Blogger edit html and find these sentences.Now replace these sentences with your own descriptions.

This is default featured slide 5 title

Go to Blogger edit html and find these sentences.Now replace these sentences with your own descriptions.

Senin, 01 Oktober 2018

Karakteristik Umum Himpunan Data (Data-set) Dalam data Mining

Pengertian Himpunan Data Dalam Data Mining

Sebelum mempelajari dari karakteristik dari himpunan data, mungkin kita harus tahu terlebih dahulu pengertian dari himpunan data itu sendiri, Himpunan data (data-set) adalah kumpulan dari objek dan atributnya. Atribut merupakan sifat atau karakteristik dari suatu objek. Contohnya : Warna mata seseorang, suhu, dsb.Atribut juga dikenal sebagai variabel, field, karakteristik atau fitur. Kumpulan dari atribut menggambarkan sebuah Objek. Objek juga disebut dengan record, titik, kasus, sample, entitas atau instance. (Baca Juga: Definisi dan Tipe Data: Himpunan Data, Nilai Atribut, Sifat Atribut dan Tipe Atribut)

Simber gambar: indiadataentry.co.uk

Karakteristik Umum Himpunan Data (Data-set) Dalam data Mining

Himpunan data (data-set) mempunyai beberapa karakteristik umum yaitu :
1. Dimensionality
  • Dimensionalitas dari sebuah data-set adalah'jumlah atribut yang dimiliki oleh objek-objek dalam data-set.
  • Data dengan jumlah dimensi kecil punya kecenderungan berbeda secara kualitatif dibandingkan dengan data dimensi tinggi.
  • Kesulitan yang berhubungan dengan data dimensi tinggi sering disebut sebagai curse ofdimensionality.
  • Untuk itu pada tahap preprocessing perlu dilakukan pengurangan dimensi (dimensionality reduction). 
Baca Juga: Tantangan dan Permasalahan data Mining

2. Sparsity
  • Untuk beberapa data-set, misalkan data dengan fitur asimetris, kebanyakan atribut dari suatu objek mempunyai nilai 0; dan biasanya kurang dari 1% mempunyai nilai tidak nol.
  • Sparsity mempunyai keuntungan dalam waktu komputasi dan penyimpanan data.
3. Resolution
  • Sifat dari data berbeda pada resolusi yang berbeda.
  • Pola dalam data bergantung pada level resolusi.
  • Jika resolusi terlalu baik [tidak ada perbedaan/halus), pola mungkin tidak akan kelihatan; jika resolusi terlalu kasar, pola juga akan hilang

Definisi dan Tipe Data: Himpunan Data, Nilai Atribut, Sifat Atribut dan Tipe Atribut

Pengertian Himpunan Data Dalam Data Mining

Himpunan data (data-set) merupakan kumpulan dari objek dan atributnya. Atribut merupakan sifat atau karakteristik dari suatu objek. Contohnya : Warna mata seseorang, suhu, dsb.Atribut juga dikenal sebagai variabel, field, karakteristik atau fitur. Kumpulan dari atribut menggambarkan sebuah Objek. Objek juga disebut dengan record, titik, kasus, sample, entitas atau instance.


Nilai-Nilai Atribut Dalam Data Mining

Nilai- nilai atribut adalah angka atau simbol yang memberi nilai pada atribut tersebut. Perbedaan antara atribut dan nilai- nilai atribut.
  1. Atribut yang sama dapat dipetakan ke nilai atribut yang berbeda. Contoh: ketinggian dapat diukur dengan satuan kaki atau meter.
  2. Atribut yang berbeda dapat dipetakan ke himpunan nilai yang sama. Contoh: Nilai atribut untuk ID dan umur adalah bilangan bulat,tetapi sifat dari nilai atribut dapat berbeda. ID tidak terbatas tetapi umur mempunyai nilai minimal dan nilai maksimal.
Tipe dari suatu atribut tergantung pada sifat yang dimiliki berikut ini:
  • Pembeda (Distinctness): = 1
  • Urutan (Order):  <>
  • Penjumlahan (Addition): + -
  • Perkalian (Multiplication): * /
Baca Juga: Tantangan dan Permasalahan Data Mining

Tipe-tipe Atribut Dalam Data Mining

Atribut dapat dibedakan dalam tipe-tipe yang berbeda bergantung pada tipe domainnya, yaitu bergantung pada tipe nilai yang diterima. Atribut katagorikal (categorical attribute) adalah salah satu tipe yang domainnya merupakan sebuah himpunan simbol berhingga. Contoh :Ienis kelamin, status, dan pendidikan, dimana domainUenis kelamin) = {L, P},
domain(status) = {Menikah, Belum Menikah} dan domain(Pendidikan) = {SD: SMP, SMA, D3, 51, 52, S3, lainnya}.

Atribut katagorikal dibedakan menjadi dua tipe,yaitu :
  1. Nominal: Sebuah atribut dikatakan nominal j ika nilai-nilainya tidak dapat diurutkan Contoh: Jenis kelamin, warna mata. Atribut nominal mempunyai sifat pembeda (distinctness).
  2. Ordinal: Disebut atribut ordinal jika nilai-nilainya dapat diurutkan dalam beberapa cara, contoh: ranking (misal, rasa dari keripik kentang pada skala 1-10), grade, tinggi dalam {tinggi, medium, pendek} atau'pendidikan (karena kita dapat mengatakan bahwa pendidikan Sl lebih tinggi dari SMA maupun D3). Sifat dari ordinal atribut adalah pembeda dan urutan (order).
Baca Juga: Teknik Pencarian Pola Sekuensial(Sequence Mining) Pada Data Mining

Tipe atribut kedua adalah atribut numerik (numeric attribute) yang domainnya berupa bilangan riil atau integer.Contohnya umur dan gaji.Domain(umur) = domain(gaji) = bilangan riil positif. Atribut numerik juga dibedakan menjadi dua,yaitu :
  1. Interval: Untuk jenis atribut ini mempunyai sifat bahwa perbedaan antara nilai-nilainya sangat berarti. Contoh: tanggal, suhu dalam Celsius atau Fahrenheit, karena tidak ada bedanya jika kita menyatakan bahwa 20°C = dua kali dinginnya 10°C.
  2. Rasio: Dalam atribut jenis ini, baik beda maupun rasio sangat berarti. Contoh atribut rasio: suhu dalam Kelvin, panjang, waktu, jumlah, Kita dapat menyatakan bahwa orang berumur 20 tahun dua kali lebih tua dari yang berusia 10 tahun. 
Atribut berdasarkan jumlah nilainya dibedakan menjadi dua yaitu :
  1. Atribut Diskrit (Discrete Attribute) yaitu atribut yang hanya menggunakan sebuah himpunan nilai berhingga atau himpunan nilai tak berhingga yang dapat dihitung. Contoh: zip codes, jumlah, atau himpunan kata dalam kumpulan dokumen. Sering dinyatakan sebagai variabel bilangan bulat (integer). Catatan: atribut biner merupakan kasus khusus dari atribut diskrit.
  2. Atribut Kontinyu (Continudus Attribute) yaitu atribut yang menggunakan bilangan riil sebagai nilai atribut. Contoh: suhu, ketinggian atau berat. Pada kenyataannya, nilai riil hanya dapat diukur dan dinyatakan menggunakan sejumlah digit yang berhinggaAtribut kontinyu secara khusus dinyatakan sebagai variabel decimal (floating-point).

Minggu, 30 September 2018

Tantangan dan Permasalahan Data Mining

Pengertian Data Mining

Data mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara otomatis. Dengan perkembangan ilmu dan teknologi yang semakin pesat ini maka kita sering menjumpai implementasi atau penerapan data mining dilingkungan sekitar kita. Akan tetapi implementasi dari data mining tentu tidak bisa berjalan mulus, ada beberapa tantangan yang harus dihadapai dalam data mining


Baca Juga: Teknik Pencarian Pola Sekuensial (Sequence Mining) pada Data Mining

Tantangan Dalam Data mining

Tantangan dalam data mining meliputi :

  1. Scalability, yaitu besarnya ukuran basis data yang digunakan.
  2. Dimensionality, yaitu banyaknya jumlah atribut dalam data yang akan diproses.
  3. Complex and Heterogeneous Data, yaitu data yang kompleks dan mempunyai variasi yang beragam.
  4. Data'QuaIity, kualitas data yang akan diproses seperti data yang bersih dari noise, missing value, dsb.
  5. Data Ownership and Distribution, yaitu siapa yang memiliki data dan bagaimana distribusinya.
  6. Privacy Preservation, yaitu menjaga kerahasiaan data yang banyak diterapkan pada data nasabah perbankan.
  7. Streaming Data, yaitu aliran data itu sendiri.

Baca Juga: Teknik Kaidah Asosisasi(association rules Discovery/Descriptive) pada Data Mining

Permasalahan Dalam Data mining

Sistem data mining berdasar pada basis data yang menyediakan data mentah dan ini memunculkan permasalahan dalam basis data yang cenderung dinamis, tidak lengkap, ber-noise dan besar. Permasalahan lain muncul sebagai akibat dari kecukupan dan relevansi dari informasi yang disimpan.

Basis data seringkali didesain untuk tujuan yang berbeda dari data mining dan kadangkala properti atau atribut yang akan menyederhanakan pekerjaan pembelajaran tidak tersedia atau tidak dapat dimintai dari dunia nyata. Data yang tidak meyakinkan menyebabkan permasalahan karena jika ada atribut-atribut esensial bagi pengetahuan tentang domain aplikasi tidak ada dalam data tidak memungkinkan untuk menemukan pengetahuan yang tepat mengenai domain yang diberikan.

Teknik Pencarian Pola Sekuensial (Sequence Mining) pada Data Mining

Pengertian Data Mining

Data mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara otomatis.
Setelah sebelumnya membahas tentang Teknik Kaidah Asosisasi(association rules Discovery/Descriptive) pada Data Mining, pada pembahasan kali ini Tutorial Komputer akan membahas tentang salah satu teknik lagi yang ada di dalam data mining. Kita tahu bahwa ada banyak teknik yang bisa digunakan dalam data mining yang meliputi: Classification/Predictive, Clustering/Descriptive, Association Rule Discovery/Descriptive, Sequential Pattern Discovery/Descriptive, Regression/Predictive, dan DeviationDetection/Predictive. Akan tetapi teknik yang akan kita bahas kali ini adalah tentang teknik teknik Pencarian pola sekuensial (Sequence Mining).


Baca Juga: Teknik Kaidah Asosisasi(association rules Discovery/Descriptive) pada Data Mining

Pengertian teknik Pencarian pola sekuensial (Sequence Mining) pada Data Mining

Pencarian pola sekuensial (Sequence Mining) adalah Mencari sejumlah event yang secara umum terjadi bersama-sama. Contoh, dalam satu set urutan DNA, ACGTC diikuti oleh‘GTCA setelah suatu celah selebar 9 dengan probabilitas sebesar 30.%.

Jika diberikan sekumpulan obyek, dengan masing-masing obyek dihubungkan dengan waktu kejadiannya maka dapatkan pola yang memprediksi ketergantungan sekuensial. (sequential dependencies) yang kuat diantara kejadian-kejadian yang berbeda.
(A B)   (C) -> (D    E)

Baca Juga: Teknik Klasterisasi/clustering dan Aplikasinya pada Data Mining

Pola-pola sekuensial pertama, pada dasarnya dibentuk dengan cara mencari semua kemungkinan pola yang ada. Nilai-nilai kejadian dalam pola diatur berdasarkan urutan waktu kejadian.
(A B) (C) (D  E)

Teknik Kaidah Asosisasi(association rules Discovery/Descriptive) pada Data Mining

Setelah sebelumnya membahas tentang teknik klasterisasi pada data mining, pada pembahasan kali ini Tutorial Komputer akan membahas tentang salah satu teknik lagi yang ada di dalam data mining. Kita tahu bahwa ada banyak teknik yang bisa digunakan dalam data mining yang meliputi: Classification/Predictive, Clustering/Descriptive, Association Rule Discovery/Descriptive, SequentialPattern Discovery/Descriptive, Regression/Predictive, dan DeviationDetection/Predictive. Akan tetapi teknik yang akan kita bahas kali ini adalah tentang teknik klasterisasi atau clustering.


Pengertian Teknik Kaidah Asosisasi (association rules) pada Data Mining

Teknik Kaidah Asosisasi(association rules Discovery/Descriptive) adalah dengan mendeteksi kumpulan atribut-atribut yang muncul bersamaan (co-occur) dalam frekuensi yang sering, dan membentuk sejumlah kaidah dari kumpulan-kumpulan tersebut. Contoh : 90% orang yang berbelanja di suatu supermarket yang membeli roti juga membeli selai, dan 60% dari semua orang yang berbelanja membeli keduanya.

Jika diberikan sekumpulan record yang masing-masing terdiri dari sejumlah item dari kumpulan yang diberikan;Akan menghasilkan aturan ketergantungan (dependency rules) yang akan memprediksi kejadian dari satu item berdasarkan kejadian item lainnya.

Baca Juga: Teknik Klasterisasi/clustering dan Aplikasinya pada Data Mining

Aplikasi pada Teknik Kaidah Asosisasi(association rules Discovery/Descriptive)

Contoh aplikasi kaidah asosiasi adalah sebagai berikut:
1. Marketing and Sales Promotion:
Misalkan diketahui aturan ketergantungan dimana
{Bagels, } --> {Potato Chips}
Potato Chips Sebagai Consequent => dapat digunakan untuk menentukan apa yang dapat dilakukan untuk meningkatkan penjualan.
Bagels in the antacedent => Dapat digunakan untuk melihat produk mana yang akan terkena dampak jika toko tersebut tidak lagi menjual bagels.

Bagels in antecedent and potato chips in concequenst => Dapat digunakan untuk melihat produk apa yang harus dijual dengan bagels untuk mempromosikan penjualan Potato chips!

Baca Juga: Teknik Regresi (Regression/Predictive) pada Data Mining

2. Supermarket shelf management
Tujuan: Untuk mengenali item-item yang dibeli bersama-sama oleh cukup banyak pelanggan.
Pendekatan : Memproses data point-of-sale yang dikumpulk-an dengan pemindai barcode untuk menemukan ketergan’cungan antar-item.
Aturan klasik -- Jika seorang pelanggan membeli diaper dan susu maka dia juga akan membeli beer.Sehingga jangan kaget jika Anda akan menemukan enam pak beeryang ditumpuk dekat diapers!

3. Inventory Management
Tujuan: Seorang pelanggan perusahaan perbaikan peralatan mengharapkan keaslian dari perbaikan produk konsumen dan menjaga pelayanan dengan menggunakan suku cadang yang baik untuk mengurangi jumlah kunjungan ke rumah pelanggan.
Pendekatan: Memproses data peralatan dan suku cadang yang dibutuhkan pada perbaikan sebelumnya di tempat pelanggan yang berbeda dan menemukan pola-pola kejadian yang berulang.

Teknik Klasterisasi/clustering dan Aplikasinya pada Data Mining

Pada pembahasan kali ini Tutorial Komputer akan membahas tentang salah satu teknik dalam data mining. Kita tahu bahwa ada banyak teknik yang bisa digunakan dalam data mining yang meliputi: Classification/Predictive, Clustering/Descriptive, AssociationRule Discovery/Descriptive, SequentialPattern Discovery/Descriptive, Regression/Predictive, dan DeviationDetection/Predictive. Teknik yang akan kita bahas kali ini adalah tentang teknik klasterisasi atau clustering.


Teknik Klasterisasi (clustering) pada Data Mining

Mempartisi data-set menjadi beberapa sub-set atau kelompok sedemikian rupa sehingga elemen-elemen dari suatu kelompok tertentu memiliki set properti yang dishare bersama, dg tingkat similaritas yang tinggi dalam satu kelompok dan tingkat similaritas antar kelompok yang rendah.Disebut juga dengan ‘unsupervised learning’.

Baca Juga: Teknik Regresi (Regression/Predictive) pada Data Mining

Jika diberikan sejumlah titik data yang masing-masing mempunyai sejumlah atribut, dan dengan menggunakan satu ukuran similaritas, dapat ditemukan klaster-klaster sedemikian hingga :

  • Titik-titik data dalam satu klaster mempunyai similaritas yang lebih besar.
  • Titik-titik data dalam klaster yang berbeda mempunyai similaritas yang kecil.

Ukuran similaritas yang digunakan

  • Euclidean Distance jika atributnya kontinyu.
  • Permasalahan lain — ukuran tertentu .

Baca Juga: Teknik Klasifikasi(Classification/Predictive) pada Data mining

Aplikasi dari klasterisasi diantaranya adalah :

1. Market Segmentation:
Tujuan: Membagi pasar kedalam sub-set pelanggan yang berbeda, dim-ana suatu sub-set mungkin dapat dipilih sebagai target pasar yang dicapai dengan satu kombinasi pemasaran yang berbeda.
Pendekatan:

  1. Kumpulkan atribut dari pelanggan yang berbeda ber‘dasarkan pada informasi tempat tinggal dap gaya hidup.
  2. Tentukan klaster dari pelanggan-pelanggan yang sama.
  3. Hitung kualitas klaster dengan mengobservasi pola daya beli pelanggan pada klaster yang samaversus dari klaster yang berbeda.

2. Document Clustering:
Tujuan: Untuk mendapatkan kelompok dokumen yang mempunyai kesamaan berdasarkan  pernyataan atau kata-kata penting yang muncul dalam dokumen tersebut.
Pendekatan:

  1. Untuk mengenali kata-kata yang sering muncul dalam tiap dokumen. Dari suatu pengukuran similaritas yang didasarkan pada frekuensi term yang berbeda.
  2. Gunakan pengukuran ini untuk membentuk klaster-klaster

Pencapaian: Information Retrieval dapat dimanfaatkan untuk menghubungkan suatu dokumen baru atau mencari term ke dokumen-dokumen yang diklaster.

Sabtu, 29 September 2018

Teknik Regresi (Regression/Predictive) pada Data Mining

Pengertian Data Mining

Data mining merupakan proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara otomatis. Pada artikel sebelumnya di www.teorikomputer.com kami membahas tentang teknik klasifikasi pada data mining. Pada pembahasan kali ini akan kami sampaikan salah satu teknik pada data mining yaitu teknik regresi. Sebelum kita membahas teknik regresi pada data mining kita terlebih dahulu harus tahu macam-macam teknik dan sifat data mining.

Sumber gambar: ittelkom-pwt.ac.id

Baca Juga: Teknik Klasifikasi (Classification /Predictive) pada Data Mining

Macam-macam Teknik dan Sifat Data mining

Ada beberapa teknik dan sifat data mining yaitu sebagai berikut :
  1. Classification (Predictive)
  2. Clustering (Descriptive)
  3. AssociationRule Discovery (Descriptive)
  4. SequentialPattern Discovery (Descriptive)
  5. Regression (Predictive)
  6. DeviationDetection (Predictive)
Baca Juga: Permsalahan Dalam Data Mining

Teknik Regresi(Predictive) dan aplikasinya pada Data Mining

Teknik Regresi dilakukan dengan memprediksi nilai dari suatu variabel kontinyu yang diberikan berdasarkan nilai dari variabel yang lain, dengan mengasumsikan sebuah model ketergantungan linier atau nonlinier. Teknik ini banyak dipelajari dalam statistika, bidang jaringan saraf tiruan (neural network).

Contoh aplikasinya: 
  • Memprediksi jumlah penjualan produk baru berdasarkan pada belanja promosi/iklan. 
  • Memprediksi kecepatan angin sebagai suatu fungsi suhu, kelembaban, tekanan udara, dsb.
  • Time series prediction dari indeks stock market.