Uploaded by User67917

RepaldiHandiS (F1E118017) Clustering Data Warehouse dan Mining

advertisement
Nama : Repaldi Handi Saputra
NIM : F1E118017
Sebelum melakukan clustering di R maka perlu dilakukan installasi packages beserta
librarynya. Disini saya sudah menginstall packagesnya dan tinggal melakukan installasi library.
Adapun yang saya lakukan adalah mengetik :
 library(tidyverse)
 library(cluster)
 library(factoextra)
Untuk lanjut ketahap berikutnya, kita perlu mempersiapkan data yang akan kita kelola, disini saya
menggunakan 100 data nilai siswa dalam matapelajaran matematika dan bahasa Indonesia yang
mana data ini telah saya buat di excel. Untuk membuka datanya di R, yang pertama kita harus
lakukan adalah mengcopy Data di Excel dengan cara blok semua data yang akan di copy lalu tekan
(CTRL+C) atau klik kanan -> copy, Lalu pada R Studio ketikkan :
 datanilai <- read.table(file = "clipboard", sep = "\t", header=TRUE, row.names=1)
Kode diatas merupakan kode yang di gunakan untuk mengcopy data dari file excel ke R. dan
disana data disimpan dalam variable nilaisiswa, dan yang perlu saya garis bawahi yaitu
pada bagian row.names=1. Bagian ini sangat berpengaruh pada saat akan melakukan scale,
arti kode tersebut bahwa baris yang akan digunakan sebagai nama atau urutan adalah baris
pertama.
Selanjutnya adalah menampilkan data yang telah dipilih dan ditampung di variable datanilai,
dengan cara mengetik :
 datanilai
lalu data akan tampil pada layar monitor, adapun penampakannya sebagai berikut :
Gambar disamping hanya penampakan
beberapa data saja.
Nama : Repaldi Handi Saputra
NIM : F1E118017
Selanjutnya lakukan handle data untuk menghindari data-data yang missing value, dengan cara
mengetik :
 omitdatanilai <- na.omit(datanilai)
adapun penjelasan dari kode diatas adalah : omitdatanilai sebagai variable yang akan
menampung data yang nilainya telah di omit tadi, na.omit  untuk mengetahui data yang
kosong atau missing value, dan (datanilai)  data yang akan di handle missing valuenya.
Selanjutnya data yang sudah di lakukan na.omit tadi dimasukkan kedalam variable yang namanya
sama dengan variable awal, yaitu datanilai, dengan cara mengetikkan :
 datanilai<-omitdatanilai
nah sekarang data yang telah di omit missing valuenya sudah ditampung ke dalam variable
datanilai.
Selanjutnya, lakukan normalisasi terhadap data, dengan cara mengetik :
 datanilai<-scale(datanilai)
adapun penjelasan dari kode diatas adalah : datanilai  sebagai variable yang akan
menampung data yang dinormalisasi, Scale -> untuk menormalisasikan datanya, dan
(datanilai) sebagai data yang akan dinormalisasikan.
Selanjutnya hasil normalisasi data dapat kita lihat dengan mengetik :
 datanilai
dimana datanilai merupakan variable yang digunakan untuk menampung hasil normalisasi
data.
Adapun penampakan datanya sebagai berikut :
Gambar disamping sebenarnya terdiri dari 100
data akan tetapi disini saya hanya memperlihatkan 33
data saja. Adapun penampakan dari bagian akhir
normalisasnya sebagai berikut :
I
Nama : Repaldi Handi Saputra
NIM : F1E118017
Selanjutnya, melakukan perhitungan dengan fungsi Euclidean, dengan cara mengetik :
 d <- dist(datanilai, method = "euclidean")
adapun penjelasan dari kode diatas adalah : d  variable yang menampung hasil
perhitungan, distwilayah atau bagian yang akan dilakukan perhitungan, datanilai  yang
akan dilakukan perhitungan, method = “euclidean”  method yang akan digunakan dalam
membantu perhitungan.
Selanjutnya menampikan hasil perhitungan, dengan mengetik :
 d
d merupakan variable yang telah kita buat tadi, adapun hasil perhtungannya adalah sebagai
berikut :
Ini hanya penampakan awal saja yang saya perlihatkan sebenarnya masih banyak
lagi penampakan data lainnya, adapun bagian akhir dari perhitungan ini telah menghasilkan
hasil seperti pada gambar dibawah :
Selanjutnya menerapkan d ke dalam hclust dengan metode “complete” yaitu Complete Linkage dan
mendifinisikannya ke hc1.
 hc1 <- hclust(d, method = "complete")
Selanjutnya disini saya mencoba untuk membagi data menjadi 4 cluster, dengan mengetik :
 sub_grp <- cutree (hc1, k=4)
Nama : Repaldi Handi Saputra
NIM : F1E118017
Selanjutnya menampikan datanya dengan mengetik
 sub_grp
berikut penampakan datanyanya :
Selanjutnya membuat plot dendogram, dengan cara mengetik :
 plot (hc1, cex = 0.6)
penampakkannya sebagai berikut :
Nama : Repaldi Handi Saputra
NIM : F1E118017
Selanjutnya mengetik :
 rect.hclust(hc1, k = 4, border = 2:4)
lalu akan tampil seperti pada gambar :
Selanjutnya membuat visualisasi hasil cluster, dengan mengetik :
 fviz_cluster(list(data = datanilai,cluster = sub_grp))
maka akan tampil seperti pada gambar :
Download