REVIEW

 REVIEW

5 JURNAL DATA MINING

Ditulis untuk memenuhi tugas kelompok Konsep Data Mining



DOSEN

Lily Wulandari

KELOMPOK 1

Maxel Akbar Devaldo Robot (54418039)

Muhamad Hisyam (54418329)

Reza Ahmad Noer Zaman (56418045)

Zainal Abidin (57418571)

KELAS

4IA18

UNIVERSITAS GUNADARMA

FAKULTAS TEKNOLOGI INDUSTRI

TEKNIK INFORMATIKA


 

Jurnal 1
(Penerapan Data Mining Dalam Pengelompokan Penderita Thalassaemia)

 

·       Type data atau data set yang digunakan dalam penelitian ini bersumber dari rekam medik penderita thalassemia di RS dr. Soekarjdo dan RS Prasetya Bunda pada tahun 2015 sebanyak 2068 data.

·       Atribut yang digunakan meliputi kolom no, kolom tanggal transfuse, kolom nama, kolom hb level, kolom volume darah

·       Type atribut yang digunakan adalah kuantitatif rasio karena HB level dan volume darah merupakan hasil dari pengukuran.

·       Diemnsi yang ada pada jurnal ini sejumlah 5 dimensi

·       Preprocessing

o   Data Cleaning             à menghilangkan noise dan data yang tidak konsisten.

o   Data Integration          à menggabungka data dari banyak database. Terdapat data  terpisah, yaitu data tanggal lahir untuk mengetahui umur penderita. Maka dilakukan cleaning kedua dengan mengintegrasikan data awal penderita thalassemia.

o   Data Selection            à meminimalkan jumlah data untuk proses mining dengan tetap menjaga keutuhan data.

o   Data Transformation à mengubah bentuk dan format data untuk memudahkan pengguna memahami hasil yang didapat dari proses mining.

·       Task mining

Menggunakan algorita K-means dengna tahapan sebagai berikut :

o   Menentukan jumlah cluster k.

o   Melakukan alokasi data kedalam cluster secara random.

o   Melakukan alokasi semua data ke cluster terdekat. Untuk mengetahui jarak suatu data dengan suatu cluster tertentu dapat menggunakan jarak Euclidean.

·       Hasil

Melakukan clustering sebagai berikut :

·       Cluster pertama à thalassemia ringan

Banyaknya data penderita Thalassaemia berjumlah 214. Dari 214 data yang termasuk kedalam cluster 1 diketahui bahwa volume darah (dalam cc) yang dibutuhkan adalah 100, 150 dan 200. Didapatkan pola Hb level, dan juga umur penderita bahwa data yang memiliki frekuensi paling banyak adalah data dengan Hb level antara 7,0 – 13,1 gr/dl dan umur antara 6 – 11 tahun.

 

·       Cluster kedua  à thalassemia sedang

Banyaknya data penderita Thalassaemia berjumlah 137. Dari 137 data yang termasuk kedalam cluster 2 diketahui bahwa volume darah (dalam cc) yang dibutuhkan adalah sekitar 400cc. Didapatkan pola Hb level, dan juga umur penderita pada table. Berdasarkan tabel diatas diketahui bahwa data yang memiliki frekuensi paing banyak adalah data dengan Hb level antara 7,0 – 10,0 gr/dl dan umur antara 11 – 15 tahun.

 

 

·       Cluster ketiga à thalassemia berat

Banyaknya data penderita Thalassaemia berjumlah 23. Dari 23 data yang termasuk kedalam cluster 3 diketahui bahwa volume darah (dalam cc) yang dibutuhkan adalah 600 dan 800 cc. Didapatkan pola Hb level, dan juga umur penderita pada table. Dari tabel diatas diketahui bahwa data yang memiliki frekuensi paling banyak adalah data dengan Hb level antara 3,5 – 6,9 gr/dl dengan umur antara 16 - 20 tahun.


 

Jurnal 2
(Implementasi Data Mining untuk Menentukan Kombinasi Media Promosi Barang Berdasarkan Perilaku Pembelian Pelanggan Menggunakan Algoritma Apriori)

 

·       Type data atau data set yang digunakan dalam penelitian ini menggunakan data primer, dimana data primer adalah data yang diambil secara langsung oleh peneliti melalui survey yang disebar.

·       Atribut yang digunakan meliputi baliho, brosur, website, SMS, iklan atau fans page Facebook, Instagram, Spam yang dilakukan dikomen-komen foto artis/ viral, website resmi, dan forum. Sedangkan target atributnya adalah menentukan media promosi yang tepat.

·       Type atribut yaitu ordinal

·       Dimensi yang digunakan terdapat 9

·       Preprocessing

1.     Pembersihan Data: membuang data yang tidak sesuai dengan tujuan penelitian

2.     Integrasi Data: Penyebaran survey dilakukan di 5 titik kampus sehingga untuk menggunakan data secara keseluruhan dilakukan penggabungan informasi dan penyesuaian yang sama untuk teknik pembersihan data.

3.     Seleksi Data: memilih data mana saja yang akan diambil dan dijadikan masukan proses mining

4.     Transformasi Data: mengubah data yang terpilih sebelumnya menjadi format yang sesuai dengan Algoritma Apriori.

·       Task Mining

Menggunakan Algoritma Apriori dengan langkah-langkah sebagai berikut:

1.     Transformasi data ke dalam bentuk Apriori (Tabel I hingga Tabel III)

2.     Buat kombinasi dari 2 set data untuk semua item hingga tidak bisa lagi dikombinasikan (disebut calon kombinasi 2 set/ calon F2)

3.     Isi nilai frekuensi item set atau jumlah kemunculan kombinasi tersebut sesuai tabel transformasi data 0 dan 1

4.     Tentukan nilai minimal support

5.     Lakukan pemangkasan atau pembuangan item set yang memiliki nilai < minimal support (yang diterima adalah frekuensi item set >= minimal support). Hal ini dilakukan untuk menemukan F2 akhir

6.     Hasil poin 5 dijadikan acuan untuk menemukan kembali kombinasi 3 item set. Buat kombinasi 3 item set untuk semua item hingga tidak bisa lagi dikombinasikan

7.     Lakukan poin 4 dan 5

8.     Jika tidak ada lagi item yang dapat dikombinasikan (contoh dalam penelitian ini hanya sampai kombinasi 3 item), maka hitung nilai confidence untuk F2 dan F3

9.     Selanjutnya tentukan nilai minimal confidence, lalu panggkas item set yang kurang dari nilai minimal confidence (yang diterima adalah nilai confidence >= minimal confidence)

10.  Fokus pada item set yang memenuhi kriteria minimal confidence, lalu hitung asosiasi final yang diperoleh dari perkalian support dan confidence

11.  Urutkan Asosiasi Final untuk melihat kombinasi item set yang paling cocok (kepastian)

·       Hasil

Berdasarkan penilitian menggunakan Algoritma Apriori didapatkan hasil:

o   sebanyak 60% pelanggan membeli barang melalui web bersamaan dengan melalui brosur

o   Sebesar 92,3% pelanggan yang membeli barang melalui web pasti membeli barang melalui brosur

o   Sebanyak 55% pelanggan membeli barang melalui instagram bersamaan dengan melalui brosur

o   Sebesar 84,6% pelanggan yang membeli barang melalui instagram pasti membeli barang melalui brosur

o   Sebanyak 70% pelanggan membeli barang melalui web bersamaan dengan melalui Instagram

o   Sebesar 93,3% pelanggan yang membeli barang melalui web pasti membeli barang melalui Instagram

o   Sebanyak 80% pelanggan membeli barang melalui web lain bersamaan dengan melalui web resminya

o   Sebesar 100% pelanggan yang membeli barang melalui web lain pasti membeli barang melalui web resminya

o   Sebanyak 80% pelanggan membeli barang melalui web resmi bersamaan dengan melalui web lainnya

o   Sebesar 84,2% pelanggan yang membeli barang melalui web resmi pasti membeli barang melalui web lainnya

o   Sebanyak 50% pelanggan membeli barang melalui web lain dan instagram bersamaan dengan melalui brosur

o   Sebesar 76,92% pelanggan yang membeli barang melalui web lain dan instagram pasti membeli barang melalui brosur

·       Tools yang digunakan tidak dijelaskan oleh penulis


 

Jurnal 3
(Implementasi Data Mining Pemilihan Pelanggan Potensial Menggunakan Algoritma K-Means)

 

·       Type data atau data set yang digunakan dalam penelitian ini bersumber dari pengumpulan data yang dilakukan secara sekunder, mengambil data secara langsung dari pasarayastore.com. Data yang didapat adalah name, Valid orders, dan Money spent (IDR). Dengan periode waktu januari 2018 sampai juni 2021

·       Atribut yang digunakan meliputi name, Valid orders, dan Money spent (IDR) setelah pemprosesan akan menghasilkan atribut cluster pertama atau C1, cluster kedua atau C2, dan cluster ketiga atau C3

·       Atribut type yang digunakan adalah atribut nominal

·       Dimensi yang digunakan pada jurnal ini berjumlah 3.

·       Preprocessing yang dilakukan pada jurnal ini dilakukan dengan pembersihan dan persiapan data, untuk menghilangkan kosistensi data, data tidak lengkap dan redundant data yang terdapat pada data awal. Normalisasi digunakan untuk menghilangkan data yang berlebihan dan memastikan bahwa cluster kualitas terbaik dihasilkan yang dapat meningkatkan efisiensi algoritma clustering. Data preprocessing dengan melakukan penghapusan data transaksi pelanggan yang tidak pernah melakukan Valid orders atau bernilai 0. Kemudian dilakukan perubahan tipe data yang tidak bisa diolah secara metematis menjadi data yang bisa diolah dengan melakukan transformasi data alpha numeric (teks) menjadi numerik. Pada kolom Name yang datanya berupa teks, diubah menjadi numerik dengan dijadikan nomor urut.

·       Task mining

Data yang telah dilakukan preprocessing kemudian dilakukan clustering atau mencari pola dari data untuk kemudian mengelompokkan data tersebut berdasarkan pola yang didapatkan, data dengan pola yang sama akan masuk ke cluster yang sama menggunakan Algoritma K-Means. Algoritma K-Means adalah algoritma pada clustering yang melakukan pengelompokan dengan membandingkan jarak tiap data ke centroid tiap cluster dan nilai centroid didapatkan dari rerata tiap cluster. Dengan langkah-langkah sebagai berikut :

1.     Penentuan cluster yang dibuat adalah 3 cluster yaitu cluster pertama (C1), cluster kedua (C2) dan cluster ketiga (C3).

2.     Menentukan nilai pusat cluster (centroid) awal secara acak dari data transaksi pelanggan. Kriteria centroid diambil dari atribut-atribut data transaksi pelanggan, centroid kriteria 1 adalah Valid orders dan centroid kriteria 2 adalah Money spent (IDR).

3.     Menghitung jarak setiap data ke setiap centroid dengan mengunakan rumus jarak Euclidean


4.     Mengelompokan data pada cluster terdekat. Pada iterasi pertama diperoleh hasil 239 data masuk ke dalam cluster pertama, 1221 data masuk ke dalam cluster kedua dan 23 data masuk ke dalam cluster ketiga

5.     Menentukan nilai pusat cluster baru. Perhitungan centroid baru dengan menggunakan persamaan

6.     Tahap 3 sampai 5 akan terus berulang apabila masih ada data yang berpindah cluster atau ada perubahan nilai pada centroid.

7.     Proses iterasi ini akan berhenti jika hasil yang dicapai sudah konvergen (pusat cluster baru sama dengan pusat cluster lama). Pada penelitian ini proses berhenti pada iterasi ke 11 dengan nilai centroid: C1 = (11,0833;6258701,667) C2 = (1,0969;319047,216) C3 = (2,7059;1803723,7647)

 

·       Hasil

Pada setiap cluster terdapat titik pusat (centroid) yang merepresentasikan cluster tersebut. Hasil menjelaskan bahwa centroid Valid orders pada cluster 1 adalah 11, centroid Valid orders pada cluster 2 adalah 1 dan centroid Valid orders pada cluster 3 adalah 2,7. Centroid Money spent (IDR) pada cluster 1 adalah 6258702, centroid Money spent (IDR) pada cluster 2 adalah 319047 dan centroid Money spent (IDR) pada cluster 3 adalah 1803723.

Perhitungan clustering K-Means pelanggan terkelompok menjadi 3 cluster, yaitu 12 pelanggan dengan rata-rata 11 kali bertransaksi (cluster 1), 1403 pelanggan dengan rata-rata 1 kali bertransaksi (cluster 2), dan 68 pelanggan dengan rata-rata 3 kali bertransaksi (cluster 3). Pelanggan potensial berhasil didapatkan, yaitu yang memiliki rata-rata transaksi dan uang yang dibelanjakan terbanyak pada cluster pertama (C1). Pelayanan dan penjualan menjadi mudah, respon cepat serta adanya dukungan sumber daya yang baik berimbas pada peningkatan pelayanan terhadap pelanggan potensial.

·       Tools yang digunakan tidak dijelaskan oleh penulis


 

Jurnal 4
(Penerapan Data Mining Untuk Memprediksi Kriteria Nasabah Kredit)

 

·       Type data atau data set yang digunakan dalam penelitian ini bersumber dari data angsuran nasabah kredit bank XY pada bulan juni 2009 dalam format Microsoft Excel.

·       Jumlah field sebanyak 27 kolom, namun yang dijadikan sebagai atribut dalam proses data mining ada 9 yaitu jenis_kelamin, umur, desa, kecamatan, status_marital, nilai_pinjaman, jml_angsuran, kode_integrasi, dan cek.

·       Type atribut jenis_kelamin, umur, desa, kecamatan, status_marital, nilai_pinjaman, jml_angsuran, dan kode_integrasi adalah prediktor. Sedangkan cek adalah atribut target.

·       Jumlah dimensinya adalah 8 yaitu jenis kelamin, umur, desa, kecamatan, status_marital, nilai_pinjaman, jml_angsuran, dan kode_integrasi

·       Preprocessing

Preprocessing yang dilakukan terlebih dahulu terhadap data yang digunakan adalah data integration and transformation, data cleaning, dan data reduction sehingga data tersebut siap

untuk di-mining.

 

·       Task mining

Menggunakan classification dengan algoritma C4.5 dengan tahapan sebagai berikut :

Pada teknik classification, keluaran dari setiap data yang dijadikan parameter target atau class harus berupa bilangan bulat atau diskrit. field yang dijadikan parameter target (class), yaitu field “CEK” yang berisi nilai parameter AKTIF dan TIDAK-AKTIF. Nilai parameter AKTIF berarti nasabah masih mempunyai angsuran kredit kepada bank, sedangkan TIDAK-AKTIF berarti nasabah sudah tidak mempunyai angsuran kredit kepada bank lagi (sudah melunasi pembayaran kreditnya). Setelah pohon keputusan terbentuk secara utuh, maka dibuat aturan prediksi berdasarkan hasil pembentukan pohon keputusan tersebut

 

·       Hasil

Berdasarkan hasil penelitian tersebut, sistem membaca lokasi alamat data yang diinputkan pengguna, melakukan proses import data setelah aktor mengklik tombol “import”, kemudian menampilkan hasil data yang telah selesai di impor ke dalam aplikasi.

 

Kondisi awal, pengguna sudah terautentifikasi dan berada pada halaman utama aplikasi data mining. Dengan keberhasilan ditandai dengan data yang berhasil diimpor. Sistem berhasil mendapatkan atribut target yaitu kolom “CEK” sesuai kebutuhan 

·       Tools

Penelitian ini menggunaakan python sebagai tools pembuatan programnya.

Jurnal 5
(Implementasi Data Mining Untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes Classifier)

 

·       Type data atau data set yang digunakan dalam penelitian adalah data nominal, yaitu data mahasiswa STMIK Dipanegara Makassar dari tahun 2013-2014 yang belum lulus.

 

·       Atribut dalam proses data mining ada 10 yaitu stambuk, nama, jenis_kelamin, ips1, ips2, ips3, ips4, ipk, hasil_klasifikasi, dan rekomendasi.

 

·       Type atribut stambuk, nama, jenis_kelamin, ips1, ips2, ips3, ips4, ipk, hasil_klasifikasi, adalah prediktor. Sedangkan rekomendasi adalah atribut target.

 

·       Jumlah dimensinya adalah 9 yaitu stambuk, nama, jenis_kelamin, ips1, ips2, ips3, ips4, ipk, hasil_klasifikasi.

 

·       Preprocessing

Preprocessing yang dilakukan terlebih dahulu terhadap data yang digunakan adalah data cleaning, data dibersihkan melalui beberapa proses seperti mengisi nilai yang hilang, menghaluskan noisy data, dan menyelesaikan inkonsistensi yang ditemukan. Kemudian data transformation untuk memastikan tidak ada kelebihan data.

 

·       Task mining

Menggunakan classification dengan algoritma Naive Bayes Classifier dengan tahapan sebagai berikut :

Pada penulisan ini, bertujuan untuk menentukan rekomendasi suatu mahasiswa berdasarkan ipk dan ketepatan waktu lulus sehingga menghasilkan keluaran apakah mahasiswa tersebut mendapat rekomendasi atau tidak.

 

·       Hasil

Dalam menguji akurasi dan ketepatan hasil pengklasifikasian pada penelitian ini digunakan 26 data alumni yang diambil secara acak. Dari26 data tersebut tidak terdapat di dalam data training. Hal ini dimaksudkan agar hasil pengklasifikasian kelulusan dari sistem yang dirancang dapat dibandingkan dengan hasil kelulusan yang sesuai dengan data alumni mahasiswa STMIK Dipanegara Makassar.

Metode pengujian yang digunakan dalam penelitian ini adalah Confusion Matrix, yaitu suatu metode yang biasanya digunakan dalam melakukan perhitungan akurasi pada suatu data mining. Perhitungan yang dihasilkan dari rumus ini terdiri dari 4 jenis keluaran, antara lain recall, accuracy, precision, dan error rate.

1. Recall adalah proporsi kasus positif yang diidentifikasi dengan benar, rumus recall = D/(C+D)

2. Accuracy adalah perbandingan kasus yang teridentifikasi benar dengan jumlah semua kasus, rumus dari accuracy= (A+D)/(A+B+C+D)

3. Precision adalah proporsi kasus dengan hasil positif yang benar, rumus dari Precision = D/(B+D)

4. Error Rate adalah kasus yang teridentifikasi salah yang dibandingkan dengan jumlah semua kasus, rumus dari Error Rate = (B+C)/( A+B+C+D)

 

Keterangan:

A = jika hasil prediksi Terlambat dan data sebenarnya Terlambat.

B = jika hasil prediksi Tepat Waktu sedangkan nilai sebenarnya Terlambat.

C = jika hasil prediksi Terlambat sedangkan nilai sebenarnya Tepat Waktu.

D = jika hasil prediksi Tepat Waktu dan nilai sebenarnya Tepat Waktu.

 



Hasil pengujian menunjukkan accuracy sebesar 92.30%. Detail perbandingannya dapat dilihat pada gambar berikut



 

·       Tools

Penulis tidak menjelaskan tools yang digunakan, namun berdasarkan hasil penulisan, diidentifikasi bahwa menggunakan bantuan vb atau delphi dalam membuatnya.


 

Referensi

 

Angga Ginanjar Mabrur, R. L., 2012. Penerapan Data Mining Untuk Meprediksi Kriteria Nasabah Kredit. Jurnal Komputer dan Informatika, Volume 1.

Fitriati, D., 2016. Implementasi Data Mining untuk Menentukan Kombinasi Media Promosi Barang Berdasarkan Perilaku Pembelian Pelanggan Menggunakan Algoritma Apriori. Annual Research Seminar 2016, 2(979-587-626-0).

Heni Sulastri, A. I. G., 2017. Penerapan Data Mining Dalam Pengelompokan Penderita Thalassaemia. Jurnal Nasional Teknologi dan Sistem Informasi, 03(2476-8812).

M. Syukri Mustafa, M. R. R. A. P. T., 2017. Implementasi Data Mining untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes Classifier. Citec Journal, 4(2460-4259).

Yahya Novi Andi Cuhwanto, D. A. R., 2022. Implementasi Data Mining Pemilihan Pelanggan Potensial Menggunakan Algoritma K-Means. Jurnal Pengkajian dan Penerapan Teknik Informatika, 15(2655-5018).

 

 

Komentar