This is default featured slide 1 title

Go to Blogger edit html and find these sentences.Now replace these sentences with your own descriptions.

This is default featured slide 2 title

Go to Blogger edit html and find these sentences.Now replace these sentences with your own descriptions.

This is default featured slide 3 title

Go to Blogger edit html and find these sentences.Now replace these sentences with your own descriptions.

This is default featured slide 4 title

Go to Blogger edit html and find these sentences.Now replace these sentences with your own descriptions.

This is default featured slide 5 title

Go to Blogger edit html and find these sentences.Now replace these sentences with your own descriptions.

Minggu, 30 September 2018

Teknik Klasterisasi/clustering dan Aplikasinya pada Data Mining

Pada pembahasan kali ini Tutorial Komputer akan membahas tentang salah satu teknik dalam data mining. Kita tahu bahwa ada banyak teknik yang bisa digunakan dalam data mining yang meliputi: Classification/Predictive, Clustering/Descriptive, AssociationRule Discovery/Descriptive, SequentialPattern Discovery/Descriptive, Regression/Predictive, dan DeviationDetection/Predictive. Teknik yang akan kita bahas kali ini adalah tentang teknik klasterisasi atau clustering.


Teknik Klasterisasi (clustering) pada Data Mining

Mempartisi data-set menjadi beberapa sub-set atau kelompok sedemikian rupa sehingga elemen-elemen dari suatu kelompok tertentu memiliki set properti yang dishare bersama, dg tingkat similaritas yang tinggi dalam satu kelompok dan tingkat similaritas antar kelompok yang rendah.Disebut juga dengan ‘unsupervised learning’.

Baca Juga: Teknik Regresi (Regression/Predictive) pada Data Mining

Jika diberikan sejumlah titik data yang masing-masing mempunyai sejumlah atribut, dan dengan menggunakan satu ukuran similaritas, dapat ditemukan klaster-klaster sedemikian hingga :

  • Titik-titik data dalam satu klaster mempunyai similaritas yang lebih besar.
  • Titik-titik data dalam klaster yang berbeda mempunyai similaritas yang kecil.

Ukuran similaritas yang digunakan

  • Euclidean Distance jika atributnya kontinyu.
  • Permasalahan lain — ukuran tertentu .

Baca Juga: Teknik Klasifikasi(Classification/Predictive) pada Data mining

Aplikasi dari klasterisasi diantaranya adalah :

1. Market Segmentation:
Tujuan: Membagi pasar kedalam sub-set pelanggan yang berbeda, dim-ana suatu sub-set mungkin dapat dipilih sebagai target pasar yang dicapai dengan satu kombinasi pemasaran yang berbeda.
Pendekatan:

  1. Kumpulkan atribut dari pelanggan yang berbeda ber‘dasarkan pada informasi tempat tinggal dap gaya hidup.
  2. Tentukan klaster dari pelanggan-pelanggan yang sama.
  3. Hitung kualitas klaster dengan mengobservasi pola daya beli pelanggan pada klaster yang samaversus dari klaster yang berbeda.

2. Document Clustering:
Tujuan: Untuk mendapatkan kelompok dokumen yang mempunyai kesamaan berdasarkan  pernyataan atau kata-kata penting yang muncul dalam dokumen tersebut.
Pendekatan:

  1. Untuk mengenali kata-kata yang sering muncul dalam tiap dokumen. Dari suatu pengukuran similaritas yang didasarkan pada frekuensi term yang berbeda.
  2. Gunakan pengukuran ini untuk membentuk klaster-klaster

Pencapaian: Information Retrieval dapat dimanfaatkan untuk menghubungkan suatu dokumen baru atau mencari term ke dokumen-dokumen yang diklaster.

Sabtu, 29 September 2018

Teknik Regresi (Regression/Predictive) pada Data Mining

Pengertian Data Mining

Data mining merupakan proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara otomatis. Pada artikel sebelumnya di www.teorikomputer.com kami membahas tentang teknik klasifikasi pada data mining. Pada pembahasan kali ini akan kami sampaikan salah satu teknik pada data mining yaitu teknik regresi. Sebelum kita membahas teknik regresi pada data mining kita terlebih dahulu harus tahu macam-macam teknik dan sifat data mining.

Sumber gambar: ittelkom-pwt.ac.id

Baca Juga: Teknik Klasifikasi (Classification /Predictive) pada Data Mining

Macam-macam Teknik dan Sifat Data mining

Ada beberapa teknik dan sifat data mining yaitu sebagai berikut :
  1. Classification (Predictive)
  2. Clustering (Descriptive)
  3. AssociationRule Discovery (Descriptive)
  4. SequentialPattern Discovery (Descriptive)
  5. Regression (Predictive)
  6. DeviationDetection (Predictive)
Baca Juga: Permsalahan Dalam Data Mining

Teknik Regresi(Predictive) dan aplikasinya pada Data Mining

Teknik Regresi dilakukan dengan memprediksi nilai dari suatu variabel kontinyu yang diberikan berdasarkan nilai dari variabel yang lain, dengan mengasumsikan sebuah model ketergantungan linier atau nonlinier. Teknik ini banyak dipelajari dalam statistika, bidang jaringan saraf tiruan (neural network).

Contoh aplikasinya: 
  • Memprediksi jumlah penjualan produk baru berdasarkan pada belanja promosi/iklan. 
  • Memprediksi kecepatan angin sebagai suatu fungsi suhu, kelembaban, tekanan udara, dsb.
  • Time series prediction dari indeks stock market.

Teknik Klasifikasi(Classification/Predictive) pada Data mining

Pengertian Data Mining

Data mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara otomatis.

Macam-macam Teknik dan Sifat Data mining

Ada beberapa teknik dan sifat data mining yaitu sebagai berikut :
  1. Classification (Predictive)
  2. Clustering (Descriptive)
  3. AssociationRule Discovery (Descriptive)
  4. SequentialPattern Discovery (Descriptive)
  5. Regression (Predictive)
  6. DeviationDetection (Predictive)
Sumber gambar: dosenpendidikan.com

Baca Juga: Permasalahan Dalam Data Mining

Teknik Klasifikasi atau Classification (Predictive) pada Data Mining

Teknik Klasifikasi adalah menentukan sebuah record data baru ke salah satu dari beberapa katagori (atau klas] yang telah didefinisikan sebelumnya.Disebut juga dengan ‘supervised learning'. Berikut beberapa aplikasi dari klasifikasi :

1. Penjualan Langsung (Direct Marketing)
Tujuan: mengurangi costsurat menyurat dengan menentukan (targeting) satu set konsumen yang mempunyai kesamaan dalam membeli produk telepon selular baru.
Pendekatan:
  • Gunakan data penjualan untuk suatu produk telepon selular.
  • Kita mengetahui pelanggan yang memutuskan untuk membeli dan yang memutuskan untuk tidak membeli. Keputusan (buy, don’t buy} ini membentuk class attribute.
  • Himpun bermacam demografi, gaya hidup dan company-interaction sehubungan dengan informasi mengenai pelanggan tertentu. Misalkan: Tipe bisnis, dimana .mereka tinggal, berapa banyak mereka membayar, dll. 
  • Gunakan informasi tersebut sebagai atribut input untuk mempelajari suatu model klasifikasi.
Baca Juga: Model dan Struktur Data Warehouse pada Data Mining

2. Fraud Detection
Tujuan: Memprediksi kasus-kasus transaksi curang dengan menggunakan kartu kredit.
Pendekatan:
  • Gunakan transaksi kartu kredit dan informasi pemegang kartu kredit sebagai atributnya Misalkan : Kapan seorang pelanggan membeli, apa yang dibeli apa selalu membayar tepat waktu, dsb.
  • Beri label transaksi-transaksi sebelumnya sebagai transaksi ‘fraud’ atau 'fair' dan bentuk ini menjadi class attribute.
  • Pelajari satu model untuk class transaksi tersebut.
  • Gunakan model ini untuk mendeteksi kecurangan dengan mengobservasi transaksi kartu kredit tiap account.
3. CustomerAttrition/Churn:
Tujuan: Untuk memprediksi pelanggan mana yang akan berpindah ke competitor kita.
Pendekatan:
  • Gunakan record transaksi dengan pelanggan yang lalu maupun yang sekarang untuk mendapatkan atribut, seperti : Seberapa sering pelanggan menghubungi, dimana dia menghubungi, pada hari apa dia paling sering menghubungi, status keuangannnya, status perkawinannya, dsb.
  • Beri label pelanggan sebagai ‘setia’ atau ‘tidak setia'.
  • Temukan suatu model untuk 'onalty’.

Jumat, 28 September 2018

Permasalahan Dalam Data mining

Pengertian data Mining

Data mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara otomatis.

Permasalahan Pada Data Mining

Sistem data mining berdasar pada basis data yang menyediakan data mentah dan ini memunculkan permasalahan dalam basis data yang cenderung dinamis, tidak lengkap, ber-noise dan besar. Permasalahan lain muncul sebagai akibat dari kecukupan dan relevansi dari informasi yang disimpan.

Sumber Gambar: ilmuskripi.com

Basis data seringkali didesain untuk tujuan yang berbeda dari data mining dan kadangkala properti atau atribut yang akan menyederhanakan pekerjaan pembelajaran tidak tersedia atau tidak dapat dimintai dari dunia nyata. Data yang tidak meyakinkan menyebabkan permasalahan karena jika ada atribut-atribut esensial bagi pengetahuan tentang domain aplikasi tidak ada dalam data tidak memungkinkan untuk menemukan pengetahuan yang tepat mengenai domain yang diberikan.Sebagai contoh, kita tidak dapat mendiagnosa malaria dari basis data pasien jika basis data tersebut tidak mengandung jumlah sel darah merah pasien.

Baca Juga: Model dan Struktur Data Warehouse pada Data Mining

Basis data biasanya dicemari oleh error sedemikian hingga tidak dapat diasumsikan bahwa data secara keseluruhan benar.Atribut-'atribut yang ada pada subyek atau pertimbangan ukuran dapat memunculkan kesalahan (error) sedemikian hingga beberapa contoh mungkin menjadi mis-klasifikasi.Error dalam salah satu nilai atribut atau informasi kelas dikenal sebagai noise. Secara nyata'ada kemungkinan kita perlu sekali untuk menghilangkan noise dari informasi klasifikasi saat hal ini mempengaruhi akurasi aturan yang dibangkitkan secara keseluruhan.

Data yang hilang dapat dibenahi dengan Sistem penemuan dalam berbagai cara, seperti :
  1. Secara sederhana dengan mengabaikan nilai-nilai yang hilang.
  2. Menghilangkan record yang berhubungan.
  3. Menebak nilai yang hilang dari nilai-nilai yang diketahui.
  4. Memperlakukan data .yang hilang sebagai sebuah nilai khusus yang dimasukkan sebagai tambahan dalam domain atribut. .
  5. Atau menghitung rata-rata nilai yang hilang menggunakan teknik Bayesian.
Data yang mengandung noise dalam pengertian menjadi tidak teliti merupakan karakteristik dari semua koleksi data dan secara khus'us cocok untuk sebuah distribusi statistik biasa seperti Gaussian saat nilai-nilai yang salah merupakan kesalahan masukan data.
Ketidakjelasan (uncertainty) menunjuk kepada kepelikan error dan tingkat noise dalam data. Presisi data merupakan saah satu pertimbangan penting dalam sistem penemuan.

Baca Juga: Perbedaan Data Warehouse dan Sistem OLTP pada Data Mining

Basis data cenderung menjadi besar dan dinamis dalam hal isinya yang selalu berubah saat informasi ditambahkan, dimodifikasi atau dihapus. Permasalahan dalam hal ini dari sudut pandang data mining adalah bagaimana menjamin bahwa aturan-aturan tersebut up-to-date dan konsisten dengan informasi paling terkini. luga sistem pembelajaran mempunyai time-sensitive saat beberapa nilai data berubah terhadap waktu dan system penemuan dipengaruhi oleh ketepatan waktu dari data tersebut.

Model dan Struktur Data Warehouse Pada Data Mining

Pengertian Data Warehouse Data Mining

Data warehouse merupakan proses mengekstraksi dan mentransformasi data operasional kedalam data informasional dan memuatkan ke dalam sebuah toko atau gudang data terpusat. Data yang dimuat dapat diakses melalui desktop query dan alat analisis oleh pembuat keputusan.

Model Data Warehouse pada Data Mining

Model data warehouse digambarkan dalam diagram berikut ini :


Baca Juga: Perbedaan Data Warehouse dan Sistem OLTP pada Data Mining

Data dalam warehouse sendiri mempunayi suatu struktur yang berbeda dengan menekankan pada level peringkasan yang berbeda seperti ditunjukkan pada gambar berikut :


Data détail terkini merupakan pusat kepentingan sebagai :
  1. Mencerminkan kejadian terkini yang biasanya paling menarik.
  2. Data yang sangat besar disimpan pada level kecil.
  3. Selalu disimpan pada penyimpanan disk yang cepat diakses tetapi mahal dan kompleks dalam pengelolaannya.
Detail data yang lebih lama disimpan pada beberapa bentuk penyimpanan massal, yang tidak terlalu sering diakses dan disimpan pada sebuah detil level dengan detil data terkini.

Baca Juga: Proses dalam Data Warehouse pada Data Mining

Data yang diringkas dengan jelas merupakan data yang disaring dari level detil rendah yang ditemukan pada level detil tertentu dan secara umum disimpan pada penyimpanan piringan (disk). Saat membangun gudang dat-a perlu mempertimbangkan unit waktu penyelesaian penarikan kesimpulan dan juga isi atau atribut dari ringkasan data.

Ringkasan data yang lebih tinggi padat dan mudah diakses dan dapat ditemukan diluar gudang.
Metadata adalah komponen akhir dari gudang data dan merupakan dimensi yang benar-benar berbeda yang tidak sama seperti data yang didapat dari lingkungan operasional tetapi digunakan sebagai:
  1. Direktori untuk membantu analis DSS menemukan isi dari gudang data.
  2. Pemandu untuk memetakan data saat data ditransformasikan dari lingkungan operasional ke lingkungan gudang data.
  3. Pemandu algoritma- -algoritma yang digunakan untuk meringkas antara data detil terkini dan data ringkasan level bawah dan antara data ringkasan level rendah dengan data ringkasan level tinggi, dsb.
Struktur dasar ditunjukkan dalam diagram berikut :


Diagram tersebut diasumsikan pada tahun 1993 sehingga data detil terkini adalah 1992-93. Secara umum, data penjualan tidak mencapai level detil terkini untuk 24 jam selama menunggu sampai tidak tersedia lagi sistem operasional, yaitu diperlukan 24 jam untuk mengambil ke dalam gudang data. Detil penjualan diringkas setiap minggu berdasarkan -sub-pr0duk dan daerah untuk menghasilkan detil ringkasan level rendah. Penjualan mingguan kemudian diringkas lagi untuk menghasilkan data ringkasan level lebih tinggi.

Senin, 24 September 2018

Perbedaan Data Warehouse dan Sistem OLTP pada Data Mining

Pengertian Data Warehouse pada Data Mining

Data Warehouse atau Gudang data merupakan suatu sistem manajemen basisdata relasional (RDMS) yang didesain khusus untuk memenuhi kebutuhan akan sistem pengolahan transaksi.

Pengertian OLTP pada Data Mining

Dikutip dari kompasiana.com yang ditulis pada artikel tanggal 14 Mei 2013 Online Transaction Processing atau sering dikenal dengan OLTP adalah sistem yang berorientasi proses yang memproses transaksi secara langsung melalui komputer yang terhubung dalam jaringan. Misalnya biasa digunakan pada sebuah supermarket, kasir menggunakan mesin dalam proses transaksinya.

Baca Juga: Proses Dalam Data Warehouse pada Data Mining

Sebuah basisdata yang dibangun untuk pengolahan transaksi secara online (OLTP), secara umum dipandang tidak cocok untuk data warehouse dikanenakan mereka didesain dengan suatu kumpulan kebutuhan yang berbeda, yaitu memaksimalkan kapasitas transaksi dan secara khusus mempunyai ratusan tabel dalam urutan yang tidak membatasi user, dsb. Data warehouse dipandang dalam proses query sebagai lawan dari proses transaksi.

Sistem OLTP tidak dapat menjadi tempat penyimpanan dari data fakta dan histori untuk analisa bisnis.Sistem ini tidak dapat menjawab secara cepat query dan pengambilan kembali secara cepat hampir tidak mungkin. Data yang tidak konsisten dan berubah, duplikasi masukan yang ada, masukan yang hi-lang dan tidak adanya data histori yang diperlukan untuk menganalisa trend.Pada dasarnya OLTP menawarkan sejumlah besar data mentah yang tidak mudah dipahami.Data warehouse menawarkan kemampuan untuk mengambil kembali dan menganalisa informasi secara cepat dan mudah. Data warehouse mempunyai kesamaan dengan OLTP‘seperti terlihat pada tabel berikut :


Baca Juga: Karakteristik Data Warehouse pada Data Mining

Data warehouse melayani tujuan yang berbeda dari sistem OLTP dengan memperbolehkan analisa query sebagai jawaban terhadap "simple aggregation" seperti “bagaimana catatan keuangan dari kastemer ini?" Query data warehouse khusus meliputi seperti "produk yang bagaimana yang paling laku di Amerika tengah dan bagaimana korelasi terhadap data demografis?"

Proses Dalam Data Warehouse pada Data Mining

Pengertian Data Warehoause pada Data Mining

Data Warehouse didefinisikan sebagai tempat penyimpanan data terpusat yang dapat di-query untuk manfaat bisnis. Data warehousing merupakan teknik baru yang powerful yang membuatnya mungkin untuk mengekstrak data operasional yang diarsipkan dan mengatasi ketidakkonsistensian dari format-format data warisan yang berbeda.

Baca Juga: Karakteristik Data Warehouse pada Data Mining 

Sumber gambar: datawarehouse4u.info

Proses Data Warehouse pada Data Mining

Tahap pertama dalam data warehousing adalah menyekat informasi operasional sekarang Misalnya menjaga keamanan dan integrasi aplikasi 0LTP mission-critical saat kita mengakses basis data yang lebih luas. Hasil basisdata atau data warehouse mungkin menghabiskan ratusan gigabyte atau bahkan terabytes dari ruang disk. Apa yang diperlukan kemudian adalah teknik efisien untuk menyimfian dan mengambil kembali sejumlah informasi secara besar-besaran. Organisasi-organisasi yang besar menemukan bahwa hanya sistem pengolahan pararel memberikan bandWidth yang cukup.

Data warehouse mengambil kembali data dari bermacam basisdata operasional yang beraneka ragam. Data kemudian ditransformasikan dan dikirimkan ke data warehouse berdasarkan model yang dipilih (atau definisi pemetaan]. Proses transformasi dan perpindahan data yang dijalankan pada saat update data ke warehouse diperlukan sehingga seharusnya ada beberapa bentuk automatisasLuntuk mengatur dan menjalankan fungsi-fungsi ini. Informasi yang menggambarkan model dan definisi dari elemen data sumber disebut dengan “metadata”.Metadata diartikan sebagai bagaimana end-user menemukan dan memahami data dalam warehouse dan merupakan bagian penting dari warehouse tersebut.

Paling tidak,metadata harus terdiri dari :
  1. Struktur data
  2. Algoritma yang digunakan untuk meringkas (summary).
  3. Dan pemetaan dari lingkungan operasional ke data warehouse.
Pembersihan data merupakan aspek penting dari pembuatan sebuah data warehouse yang efisien dalam hal menghilangkan aspek-aspek tertentu dari data operasional seperti informasi transaksi level rendah yang memperlambat waktu query. Tahap pembersihan harus dibuat sedinamis mungkin untuk mengakomodasi semua tipe query bahkan mungkin saat membutuhkan informasi level rendah. Data harus diekstrak dari sumber produksi pada interval yang tetap dan disatukan secara terpusat kecuali proses pembersihan untuk menghilangkan duplikasi dan beda rekonsil antara bermacam bentuk kumpulan data.

Baca Juga: Pengertian Gudang Data (Data WareHouse) pada Data Mining 

Setelah data dibersihkan kemudian ditransfer ke dalam data warehouse yang secara khusus merupakan sebuah basisdata yang besar pada sebuah kotak yang punya performasi tinggi seperti SMP (Symmetric Multi—Processing) atau MPP (Massively Parallel Processing). Iumlah kekuatan perekahan merupakan aspek penting lainnya dari data warehouse karena kompleksitas menjadi bagian dalam pengolahan query ad hoc dan kuantitas data yang luas yang ingin digunakan organisasi dalam warehouse. Suatu data warehouse dapat digunakan dalam berbagai cara misalkan digunakan sebagai pusat penyimpanan yang menghadapi pertanyaan-pertanyaan yang dijalankan atau digunakan seperti sebuah pasar data. Pasar data yang merupakan warehouse kecil dapat dibentuk untuk  menyediakan himpunan bagian dari toko utama dan meringkas informasi sesuai dengan kebutuhan dari kelompok atau departemen tertentu. Secara umum, pendekatan toko pusat menggunakan struktur data yang sangat sederhana dengan asumsi-asumsi yang sangat kecil mengenai hubungan antardata, padahal pasar sering menggunakan basisdata multidimensi yang dapat mempercepat proses query sebagaimana mereka dapat mempunyai struktur data yang mencerminkan sebagian besar pertanyaan-pertanyaan yang serupa. .

Banyak vendor mempunyai produk yang menyediakan satu atau lebih fungsi-fungsi data warehouse diatas. Meski begitu, dapat juga menggunakan sejumlah kerja-yang-penting dan pemrograman khusus untuk melengkapi kebutuhan operasional antar produk dari banyak vendor untuk memungkinkan mereka melakukan proses—proses data warehouse yang diperlukan. Implementasi khusus terdiri dari campuran produk—produk dari bermacam suplier.