REVIEW
5 JURNAL DATA MINING
Ditulis untuk memenuhi tugas kelompok Konsep
Data Mining
DOSEN
Lily Wulandari
KELOMPOK
1
Maxel Akbar Devaldo Robot (54418039)
Muhamad Hisyam (54418329)
Reza Ahmad Noer Zaman (56418045)
Zainal Abidin (57418571)
KELAS
4IA18
UNIVERSITAS GUNADARMA
FAKULTAS TEKNOLOGI INDUSTRI
TEKNIK INFORMATIKA
Jurnal 1
(Penerapan Data Mining Dalam Pengelompokan Penderita Thalassaemia)
·
Type data atau data set yang digunakan
dalam penelitian ini bersumber dari rekam medik penderita thalassemia di RS dr.
Soekarjdo dan RS Prasetya Bunda pada tahun 2015 sebanyak 2068 data.
·
Atribut yang digunakan meliputi kolom no,
kolom tanggal transfuse, kolom nama, kolom hb level, kolom volume darah
·
Type atribut yang digunakan adalah
kuantitatif rasio karena HB level dan volume darah merupakan hasil dari
pengukuran.
· Diemnsi yang ada pada jurnal ini sejumlah 5 dimensi
· Preprocessing
o
Data Cleaning à
menghilangkan noise dan data yang tidak konsisten.
o
Data Integration à menggabungka data dari banyak database. Terdapat
data terpisah, yaitu data tanggal lahir
untuk mengetahui umur penderita. Maka dilakukan cleaning kedua dengan
mengintegrasikan data awal penderita thalassemia.
o
Data Selection à
meminimalkan jumlah data untuk proses mining dengan tetap menjaga keutuhan
data.
o
Data Transformation à
mengubah bentuk dan format data untuk memudahkan pengguna memahami hasil yang
didapat dari proses mining.
· Task
mining
Menggunakan algorita K-means
dengna tahapan sebagai berikut :
o
Menentukan jumlah cluster k.
o
Melakukan alokasi data kedalam cluster secara
random.
o
Melakukan alokasi semua data ke cluster
terdekat. Untuk mengetahui jarak suatu data dengan suatu cluster tertentu dapat
menggunakan jarak Euclidean.
· Hasil
Melakukan
clustering sebagai berikut :
·
Cluster pertama à thalassemia ringan
Banyaknya data penderita Thalassaemia berjumlah 214. Dari 214 data yang
termasuk kedalam cluster 1 diketahui bahwa volume darah (dalam cc) yang
dibutuhkan adalah 100, 150 dan 200. Didapatkan pola Hb level, dan juga umur
penderita bahwa data yang memiliki frekuensi paling banyak adalah data dengan
Hb level antara 7,0 – 13,1 gr/dl dan umur antara 6 – 11 tahun.
·
Cluster kedua
à
thalassemia sedang
Banyaknya data penderita Thalassaemia berjumlah 137. Dari 137 data yang
termasuk kedalam cluster 2 diketahui bahwa volume darah (dalam cc) yang
dibutuhkan adalah sekitar 400cc. Didapatkan pola Hb level, dan juga umur penderita
pada table. Berdasarkan tabel diatas diketahui bahwa data yang memiliki
frekuensi paing banyak adalah data dengan Hb level antara 7,0 – 10,0 gr/dl dan
umur antara 11 – 15 tahun.
·
Cluster ketiga
à
thalassemia berat
Banyaknya
data penderita Thalassaemia berjumlah 23. Dari 23 data yang termasuk kedalam
cluster 3 diketahui bahwa volume darah (dalam cc) yang dibutuhkan adalah 600
dan 800 cc. Didapatkan pola Hb level, dan juga umur penderita pada table. Dari
tabel diatas diketahui bahwa data yang memiliki frekuensi paling banyak adalah
data dengan Hb level antara 3,5 – 6,9 gr/dl dengan umur antara 16 - 20 tahun.
Jurnal 2
(Implementasi Data Mining untuk Menentukan Kombinasi Media Promosi Barang
Berdasarkan Perilaku Pembelian Pelanggan Menggunakan Algoritma Apriori)
·
Type data
atau data set yang digunakan dalam penelitian ini menggunakan data primer,
dimana data primer adalah data yang diambil secara langsung oleh peneliti
melalui survey yang disebar.
·
Atribut
yang digunakan meliputi baliho, brosur, website, SMS, iklan atau fans page
Facebook, Instagram, Spam yang dilakukan dikomen-komen foto artis/ viral,
website resmi, dan forum. Sedangkan target atributnya adalah menentukan media
promosi yang tepat.
·
Type atribut
yaitu ordinal
·
Dimensi yang
digunakan terdapat 9
·
Preprocessing
1. Pembersihan
Data: membuang data yang tidak sesuai
dengan tujuan penelitian
2. Integrasi
Data: Penyebaran survey dilakukan di 5 titik
kampus sehingga untuk menggunakan data secara keseluruhan dilakukan
penggabungan informasi dan penyesuaian yang sama untuk teknik pembersihan data.
3. Seleksi
Data: memilih data mana saja yang akan
diambil dan dijadikan masukan proses mining
4. Transformasi Data: mengubah data yang terpilih sebelumnya menjadi format yang sesuai dengan Algoritma Apriori.
·
Task Mining
Menggunakan Algoritma Apriori dengan
langkah-langkah sebagai berikut:
1. Transformasi
data ke dalam bentuk Apriori (Tabel I hingga Tabel III)
2. Buat
kombinasi dari 2 set data untuk semua item hingga tidak bisa lagi
dikombinasikan (disebut calon kombinasi 2 set/ calon F2)
3. Isi
nilai frekuensi item set atau jumlah kemunculan kombinasi tersebut sesuai tabel
transformasi data 0 dan 1
4. Tentukan
nilai minimal support
5. Lakukan
pemangkasan atau pembuangan item set yang memiliki nilai < minimal support (yang
diterima adalah frekuensi item set >= minimal support). Hal ini dilakukan
untuk menemukan F2 akhir
6. Hasil
poin 5 dijadikan acuan untuk menemukan kembali kombinasi 3 item set. Buat
kombinasi 3 item set untuk semua item hingga tidak bisa lagi dikombinasikan
7. Lakukan
poin 4 dan 5
8. Jika
tidak ada lagi item yang dapat dikombinasikan (contoh dalam penelitian ini
hanya sampai kombinasi 3 item), maka hitung nilai confidence untuk F2 dan F3
9. Selanjutnya
tentukan nilai minimal confidence, lalu panggkas item set yang kurang dari
nilai minimal confidence (yang diterima adalah nilai confidence >= minimal
confidence)
10. Fokus
pada item set yang memenuhi kriteria minimal confidence, lalu hitung asosiasi
final yang diperoleh dari perkalian support dan confidence
11. Urutkan
Asosiasi Final untuk melihat kombinasi item set yang paling cocok (kepastian)
·
Hasil
Berdasarkan penilitian menggunakan
Algoritma Apriori didapatkan hasil:
o sebanyak
60% pelanggan membeli barang melalui web bersamaan dengan melalui brosur
o Sebesar
92,3% pelanggan yang membeli barang melalui web pasti membeli barang melalui
brosur
o Sebanyak
55% pelanggan membeli barang melalui instagram bersamaan dengan melalui brosur
o Sebesar
84,6% pelanggan yang membeli barang melalui instagram pasti membeli barang
melalui brosur
o Sebanyak
70% pelanggan membeli barang melalui web bersamaan dengan melalui Instagram
o Sebesar
93,3% pelanggan yang membeli barang melalui web pasti membeli barang melalui
Instagram
o Sebanyak
80% pelanggan membeli barang melalui web lain bersamaan dengan melalui web
resminya
o Sebesar
100% pelanggan yang membeli barang melalui web lain pasti membeli barang
melalui web resminya
o Sebanyak
80% pelanggan membeli barang melalui web resmi bersamaan dengan melalui web
lainnya
o Sebesar
84,2% pelanggan yang membeli barang melalui web resmi pasti membeli barang
melalui web lainnya
o Sebanyak
50% pelanggan membeli barang melalui web lain dan instagram bersamaan dengan
melalui brosur
o Sebesar
76,92% pelanggan yang membeli barang melalui web lain dan instagram pasti membeli
barang melalui brosur
·
Tools yang digunakan tidak dijelaskan
oleh penulis
Jurnal 3
(Implementasi Data Mining Pemilihan Pelanggan Potensial Menggunakan Algoritma
K-Means)
·
Type data atau data set yang digunakan
dalam penelitian ini bersumber dari pengumpulan data yang dilakukan secara
sekunder, mengambil data secara langsung dari pasarayastore.com. Data yang
didapat adalah name, Valid orders, dan Money spent (IDR). Dengan periode waktu
januari 2018 sampai juni 2021
·
Atribut yang digunakan meliputi name,
Valid orders, dan Money spent (IDR) setelah pemprosesan akan menghasilkan
atribut cluster pertama atau C1, cluster kedua atau C2, dan cluster ketiga atau
C3
· Atribut type yang digunakan adalah atribut nominal
·
Dimensi yang digunakan pada jurnal ini
berjumlah 3.
·
Preprocessing yang dilakukan pada jurnal
ini dilakukan dengan pembersihan dan persiapan data, untuk menghilangkan
kosistensi data, data tidak lengkap dan redundant data yang terdapat pada data
awal. Normalisasi digunakan untuk menghilangkan data yang berlebihan dan memastikan
bahwa cluster kualitas terbaik dihasilkan yang dapat meningkatkan efisiensi
algoritma clustering. Data preprocessing dengan melakukan penghapusan data
transaksi pelanggan yang tidak pernah melakukan Valid orders atau bernilai 0.
Kemudian dilakukan perubahan tipe data yang tidak bisa diolah secara metematis
menjadi data yang bisa diolah dengan melakukan transformasi data alpha numeric
(teks) menjadi numerik. Pada kolom Name yang datanya berupa teks, diubah
menjadi numerik dengan dijadikan nomor urut.
· Task
mining
Data yang telah dilakukan
preprocessing kemudian dilakukan clustering atau mencari pola dari data untuk
kemudian mengelompokkan data tersebut berdasarkan pola yang didapatkan, data
dengan pola yang sama akan masuk ke cluster yang sama menggunakan Algoritma
K-Means. Algoritma K-Means adalah algoritma pada clustering yang melakukan
pengelompokan dengan membandingkan jarak tiap data ke centroid tiap cluster dan
nilai centroid didapatkan dari rerata tiap cluster. Dengan langkah-langkah
sebagai berikut :
1.
Penentuan cluster yang dibuat adalah 3 cluster
yaitu cluster pertama (C1), cluster kedua (C2) dan cluster ketiga (C3).
2.
Menentukan nilai pusat cluster (centroid) awal
secara acak dari data transaksi pelanggan. Kriteria centroid diambil dari
atribut-atribut data transaksi pelanggan, centroid kriteria 1 adalah Valid
orders dan centroid kriteria 2 adalah Money spent (IDR).
3.
Menghitung jarak setiap data ke setiap centroid
dengan mengunakan rumus jarak Euclidean
4.
Mengelompokan data pada cluster terdekat. Pada
iterasi pertama diperoleh hasil 239 data masuk ke dalam cluster pertama, 1221
data masuk ke dalam cluster kedua dan 23 data masuk ke dalam cluster ketiga
5.
Menentukan nilai pusat cluster baru. Perhitungan
centroid baru dengan menggunakan persamaan
6.
Tahap 3 sampai 5 akan terus berulang apabila
masih ada data yang berpindah cluster atau ada perubahan nilai pada centroid.
7.
Proses iterasi ini akan berhenti jika hasil yang
dicapai sudah konvergen (pusat cluster baru sama dengan pusat cluster lama).
Pada penelitian ini proses berhenti pada iterasi ke 11 dengan nilai centroid:
C1 = (11,0833;6258701,667) C2 = (1,0969;319047,216) C3 = (2,7059;1803723,7647)
· Hasil
Pada setiap cluster terdapat titik
pusat (centroid) yang merepresentasikan cluster tersebut. Hasil menjelaskan
bahwa centroid Valid orders pada cluster 1 adalah 11, centroid Valid orders
pada cluster 2 adalah 1 dan centroid Valid orders pada cluster 3 adalah 2,7.
Centroid Money spent (IDR) pada cluster 1 adalah 6258702, centroid Money spent
(IDR) pada cluster 2 adalah 319047 dan centroid Money spent (IDR) pada cluster
3 adalah 1803723.
Perhitungan clustering K-Means
pelanggan terkelompok menjadi 3 cluster, yaitu 12 pelanggan dengan rata-rata 11
kali bertransaksi (cluster 1), 1403 pelanggan dengan rata-rata 1 kali
bertransaksi (cluster 2), dan 68 pelanggan dengan rata-rata 3 kali bertransaksi
(cluster 3). Pelanggan potensial berhasil didapatkan, yaitu yang memiliki
rata-rata transaksi dan uang yang dibelanjakan terbanyak pada cluster pertama
(C1). Pelayanan dan penjualan menjadi mudah, respon cepat serta adanya dukungan
sumber daya yang baik berimbas pada peningkatan pelayanan terhadap pelanggan
potensial.
·
Tools yang digunakan tidak dijelaskan
oleh penulis
Jurnal 4
(Penerapan Data Mining Untuk Memprediksi Kriteria Nasabah
Kredit)
·
Type data
atau data set yang digunakan dalam penelitian ini bersumber dari data angsuran
nasabah kredit bank XY pada bulan juni 2009 dalam format Microsoft Excel.
·
Jumlah field sebanyak
27 kolom, namun yang dijadikan sebagai atribut dalam proses data mining
ada 9 yaitu jenis_kelamin, umur, desa, kecamatan, status_marital,
nilai_pinjaman, jml_angsuran, kode_integrasi, dan cek.
·
Type atribut
jenis_kelamin, umur, desa, kecamatan, status_marital, nilai_pinjaman,
jml_angsuran, dan kode_integrasi adalah prediktor. Sedangkan cek adalah atribut
target.
· Jumlah dimensinya adalah 8 yaitu jenis kelamin, umur, desa, kecamatan, status_marital, nilai_pinjaman, jml_angsuran, dan kode_integrasi
·
Preprocessing
Preprocessing yang dilakukan terlebih dahulu terhadap data
yang digunakan adalah data integration and transformation, data cleaning, dan
data reduction sehingga data tersebut siap
untuk di-mining.
·
Task mining
Menggunakan
classification dengan algoritma C4.5 dengan tahapan sebagai berikut :
Pada
teknik classification, keluaran dari setiap data yang dijadikan parameter
target atau class harus berupa bilangan bulat atau diskrit. field yang
dijadikan parameter target (class), yaitu field “CEK” yang berisi nilai
parameter AKTIF dan TIDAK-AKTIF. Nilai parameter AKTIF berarti nasabah masih
mempunyai angsuran kredit kepada bank, sedangkan TIDAK-AKTIF berarti nasabah
sudah tidak mempunyai angsuran kredit kepada bank lagi (sudah melunasi
pembayaran kreditnya). Setelah pohon keputusan terbentuk secara utuh, maka
dibuat aturan prediksi berdasarkan hasil pembentukan pohon keputusan tersebut
·
Hasil
Berdasarkan hasil penelitian tersebut, sistem membaca lokasi
alamat data yang diinputkan pengguna, melakukan proses import data setelah
aktor mengklik tombol “import”, kemudian menampilkan hasil data yang telah
selesai di impor ke dalam aplikasi.
Kondisi awal, pengguna sudah terautentifikasi dan berada pada halaman utama aplikasi data mining. Dengan keberhasilan ditandai dengan data yang berhasil diimpor. Sistem berhasil mendapatkan atribut target yaitu kolom “CEK” sesuai kebutuhan
·
Tools
Penelitian
ini menggunaakan python sebagai tools pembuatan programnya.
Jurnal 5
(Implementasi Data Mining Untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan
Algoritma Naive Bayes Classifier)
·
Type data
atau data set yang digunakan dalam penelitian adalah data nominal, yaitu data
mahasiswa STMIK Dipanegara Makassar dari tahun 2013-2014 yang belum lulus.
·
Atribut
dalam proses data mining ada 10 yaitu stambuk, nama, jenis_kelamin, ips1, ips2,
ips3, ips4, ipk, hasil_klasifikasi, dan rekomendasi.
·
Type atribut
stambuk, nama, jenis_kelamin, ips1, ips2, ips3, ips4, ipk, hasil_klasifikasi,
adalah prediktor. Sedangkan rekomendasi adalah atribut target.
·
Jumlah dimensinya
adalah 9 yaitu stambuk, nama, jenis_kelamin, ips1, ips2, ips3, ips4, ipk,
hasil_klasifikasi.
·
Preprocessing
Preprocessing yang dilakukan terlebih dahulu terhadap data
yang digunakan adalah data cleaning, data dibersihkan melalui beberapa proses
seperti mengisi nilai yang hilang, menghaluskan noisy data, dan menyelesaikan
inkonsistensi yang ditemukan. Kemudian data transformation untuk memastikan
tidak ada kelebihan data.
·
Task mining
Menggunakan
classification dengan algoritma Naive Bayes Classifier dengan tahapan sebagai
berikut :
Pada
penulisan ini, bertujuan untuk menentukan rekomendasi suatu mahasiswa
berdasarkan ipk dan ketepatan waktu lulus sehingga menghasilkan keluaran apakah
mahasiswa tersebut mendapat rekomendasi atau tidak.
·
Hasil
Dalam menguji akurasi dan ketepatan
hasil pengklasifikasian pada penelitian ini digunakan 26 data alumni yang
diambil secara acak. Dari26 data tersebut tidak terdapat di dalam data
training. Hal ini dimaksudkan agar hasil pengklasifikasian kelulusan dari sistem
yang dirancang dapat dibandingkan dengan hasil kelulusan yang sesuai dengan
data alumni mahasiswa STMIK Dipanegara Makassar.
Metode pengujian yang digunakan dalam
penelitian ini adalah Confusion Matrix, yaitu suatu metode yang biasanya
digunakan dalam melakukan perhitungan akurasi pada suatu data mining.
Perhitungan yang dihasilkan dari rumus ini terdiri dari 4 jenis keluaran,
antara lain recall, accuracy, precision, dan error rate.
1. Recall adalah proporsi kasus positif yang diidentifikasi
dengan benar, rumus recall = D/(C+D)
2. Accuracy adalah perbandingan kasus yang teridentifikasi
benar dengan jumlah semua kasus, rumus dari accuracy= (A+D)/(A+B+C+D)
3. Precision adalah proporsi kasus dengan hasil positif yang
benar, rumus dari Precision = D/(B+D)
4. Error Rate adalah kasus yang teridentifikasi salah yang
dibandingkan dengan jumlah semua kasus, rumus dari Error Rate = (B+C)/(
A+B+C+D)
Keterangan:
A = jika hasil prediksi Terlambat dan data sebenarnya
Terlambat.
B = jika hasil prediksi Tepat Waktu sedangkan nilai
sebenarnya Terlambat.
C = jika hasil prediksi Terlambat sedangkan nilai sebenarnya
Tepat Waktu.
D = jika hasil prediksi Tepat Waktu dan nilai sebenarnya
Tepat Waktu.
Hasil pengujian menunjukkan accuracy sebesar 92.30%. Detail
perbandingannya dapat dilihat pada gambar berikut
·
Tools
Penulis
tidak menjelaskan tools yang digunakan, namun berdasarkan hasil penulisan,
diidentifikasi bahwa menggunakan bantuan vb atau delphi dalam membuatnya.
Referensi
Angga Ginanjar Mabrur, R. L., 2012. Penerapan Data
Mining Untuk Meprediksi Kriteria Nasabah Kredit. Jurnal Komputer dan
Informatika, Volume 1.
Fitriati, D., 2016. Implementasi Data Mining untuk Menentukan Kombinasi
Media Promosi Barang Berdasarkan Perilaku Pembelian Pelanggan Menggunakan
Algoritma Apriori. Annual Research Seminar 2016, 2(979-587-626-0).
Heni Sulastri, A. I. G., 2017. Penerapan Data Mining Dalam Pengelompokan
Penderita Thalassaemia. Jurnal Nasional Teknologi dan Sistem Informasi, 03(2476-8812).
M. Syukri Mustafa, M. R. R. A. P. T., 2017. Implementasi Data Mining
untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes
Classifier. Citec Journal, 4(2460-4259).
Yahya Novi Andi Cuhwanto, D. A. R., 2022. Implementasi Data Mining
Pemilihan Pelanggan Potensial Menggunakan Algoritma K-Means. Jurnal
Pengkajian dan Penerapan Teknik Informatika, 15(2655-5018).
Komentar
Posting Komentar