materi praktikum - Statistika Industri dan Optimasi

advertisement
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
PRAKTIKUM 3
ANALISA CLUSTER
Definisi Cluster
Analisis cluster merupakan suatu teknik data mining yang digunakan untuk mengklasifikasikan
obyek atau kasus (responden) ke dalam kelompok yang relatif homogen yang dinamakan cluster.
Pola-pola dalam suatu Cluster akan memiliki kesamaan ciri/sifat daripada pola-pola dalam
Cluster yang lainnya. Metodologi Clustering lebih cocok digunakan untuk eksplorasi hubungan
antar data untuk membuat suatu penilaian terhadap strukturnya.
Tujuan Praktikum Cluster
1. Mahasiswa mempunyai pengetahuan dan kemampuan dasar dalam melakukan dan
menerapkan analisis Cluster
2. Mahasiswa dapat mengetahui dan memahami arti dan garis besar dari analisis Cluster
dalam data mining, mulai dari pengambilan data, pengolahan data sampai dengan tahap
pengelompokan, serta mengaplikasikannya dalam kasus yang dihadapi.
Knowledge Discovery in Database (KDD) dan Data Mining
Data mining merupakan proses semi otomatik yang menggunakan teknik statistik, matematika,
kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi
pengetahuan potensial dan berguna yang bermanfaat yang tersimpan di dalam database besar.
(Turban et al, 2005 ). Knowledge discovery in database (KDD) adalah keseluruhan proses nontrivial untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang
ditemukan bersifat sah, baru, dapat bermanfaat dan dapat dimengerti.Istilah data mining dan
Knowledge Discovery in Database (KDD) sering kali digunakan secara bergantian untuk
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar.
Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain.
Dan salah satu tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara
garis besar dapat dijelaskan sebagai berikut (Fayyad, 1996).
1.
Data Selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap
penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk
proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
2.
Pre-processing/Cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada
data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang
duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data,
seperti kesalahan cetak (tipografi). Juga dilakukan proses enrichment, yaitu proses
“memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan
diperlukan untuk KDD, seperti data atau informasi eksternal.
3.
Transformation
Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut
sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif
dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.
4.
Data Mining
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih
dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam
data mining sangat bervariasi. Pemilihan metode dan algoritma yang tepat sangat
bergantung pada tujuan dan proses KDD secara keseluruhan. Dalam modul ini kita
menggunakan salah satu teknik data mining yaitu cluster.
5.
Interpretation/Evaluation
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk
yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian
dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah
pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada
sebelumnya.
Konsep Cluster
Analisis Cluster merupakan salah satu teknik multivariat yang digunakan dalam data
mining yang bertujuan untuk mengidentifikasi sekelompok obyek yang mempunyai kemiripan
karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek
yang berada dalam kelompok yang sama relatif lebih homogen (sama) daripada obyek yang
berada pada kelompok yang berbeda. Di dalam pengclusteran setiap obyek hanya boleh masuk
ke dalam satu cluster saja sehingga tidak terjadi tumpang tindih (overlapping atau interaction).
Ada beberapa tahapan dalam malekukan Analisis Cluster, diantaranya yaitu:
1.
Tujuan Analisis Cluster
2.
Desain Penelitian dalam Analisis Cluster
3.
Asumsi-asumsi dalam Analisis Cluster
4.
Proses Mendapatkan Cluster dan Menilai kelayakan secara keseluruhan (overall fit)
5.
Interpretasi terhadap Cluster.
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
6.
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
Proses Validasi dan Pembuatan Profil (profiling) Cluster
Penerapan analisis Cluster di dalam pemasaran adalah sebagai berikut :
1. Identifikasi obyek (Recognition) :
Dalam bidang image Processing , Computer Vision atau robot vision
2. Decission Support System dan data mining
 Membuat segmen pasar (segmenting the market).
 Memahami perilaku pembeli.
 Mengenali peluang produk baru
Tahap-tahap dalam Analisis Cluster
Ada beberapa tahapan dalam malekukan Analisis Cluster, diantaranya yaitu:
Tahap Pertama : Tujuan Analisis Cluster
Tujuan utama analisis Cluster adalah memisahkan suatu himpunan objek menjadi dua kelompok
atau lebih berdasarkan kesamaan karakteristik khusus yang dimilikinya.
Sedangkan tujuan analisis Cluster secara khusus, antara lain:

Penyederhanaan Data
Penyederhanaan data merupakan bagian dari suatu taksonomi. Dengan struktur yang terbatas
observasi/objek dapat dikelompokkan untuk analisis selanjutnya.

Identifikasi Hubungan (Relationship Identification)
Hubungan antar objek diidentifikasi secara empiris. Struktur analisis Cluster yang sederhana
dapat menggambarkan adanya hubungan atau kesamaan dan perbedaan yang tidak
dinyatakan sebelumnya.

Pemilihan pada Pengelompokan Variabel
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
Tujuan analisis Cluster tidak dapat dipisahkan dengan pemilihan variabel yang digunakan
untuk menggolongkan objek ke dalam clucter-Cluster. Cluster yang terbentuk merefleksikan
struktur yang melekat pada data seperti yang didefinisikan oleh variabel-variabel. Pemilihan
variabel harus sesuai dengan teori dan konsep yang umum digunakan dan harus rasional.
Rasionalitas ini didasarkan pada teori-teori eksplisit atau penelitian sebelumnya. Variabelvariabel yang dipilih hanyalah variabel yang dapat mencirikan objek yang akan
dikelompokkan dan secara spesifik harus sesuai dengan tujuan analisis Cluster.
Tahap Kedua : Desain Penelitian dalam Analisis Cluster
2 hal penting dalam tahap ini adalah pendeteksian outlier dan mengukur kesamaan.

Pendeteksian Outliers
Outlier adalah suatu objek yang sangat berbeda dengan objek lainnya. Outliers dapat terjadi
karena:
a. Observasi „menyimpang‟ yang tidak mewakili populasi
b. Suatu
undersampling
kelompok-kelompok
dalam
populasi
yang
menyebabkan
underrepresentation kelompok-kelompok dalam sampel
Dalam kedua kasus tersebut, outliers dapat mengubah struktur sebenarnya dalam populasi
sehingga kita akan memperoleh Cluster-Cluster yang tidak sesuai dengan struktur
sebenarnya dari populasi tersebut dan tidak representatif.

Mengukur Kesamaan antar Objek
Konsep kesamaan adalah hal yang sangat penting dalam analisis Cluster. Kesamaan antar
objek merupakan ukuran kedekatan antar objek. Kesamaan dapat diketahui dengan
melakukan pengukuran jarak antar setiap individu. Ukuran jarak merupakan ukuran
ketidakmiripan, dimana jarak yang besar menunjukkan sedikit kesamaan sebaliknya jarak
yang pendek/kecil menunjukkan bahwa suatu objek makin mirip dengan objek lain.
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
Gambar 1. Ilustrasi Pengukuran jarak
Metode untuk mengukur kesamaan obyek antara lain :
1). Euclidean Distance
Jarak euclidean antara dua titik i dan j merupakan sisi miring (sisi terpanjang) dari segitiga
ABC.
(
√
)
√∑(
)
)
√(
(
)
2). Squared Euclidean Distance
Merupakan pengukuran kuadrat jarak euclidean antara dua titik i dan j.
(
)
∑(
)
(
)
(
)
3). Chebychev
|
D(X,Y)
|
4). City Block Distance
D(X,Y)
D(I,j)
| |
| |
∑|
∑|
|
|
|
|
|
|
Tahap Ketiga : Asumsi-asumsi dalam Analisis Cluster
Seperti hal teknik analisis lain,analisis Cluster juga menetapkan adanya suatu asumsi. Ada
dua asumsi dalam analisis Cluster, yaitu :
a. Kecukupan Sampel untuk merepresentasikan/mewakili Populasi
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
Biasanya suatu penelitian dilakukan terhadap populasi diwakili oleh sekelompok sampel.
Sampel yang digunakan dalam analisis ckuster harus dapat mewakili populasi yang ingin
dijelaskan, karena analisis ini baik jika sampel representatif. Jumlah sampel yang diambil
tergantung penelitinya, seorang peneliti harus yakin bahwa sampel yang diambil representatif
terhadap populasi.
b. Pengaruh Multikolinieritas
Ada atau tidaknya multikolinieritas antar variabel sangat diperhatikan dalam analisis
Cluster karena hal itu berpengaruh, sehingga variabel-variabel yang bersifat multikolinieritas
secara eksplisit dieprtimbangkan dengan lebih seksama.
Tahap Keempat : Proses Mendapatkan Cluster dan Menilai kelayakan secara keseluruhan
(overall fit)
Ada dua proses penting yaitu algoritma Cluster dalam pembentukan Clusterdan
menentukan jumlah Cluster yang akan dibentuk. Keduanya mempunyai implikasi substansial
tidak hanya pada hasil yang diperoleh tetapi juga pada interpretasi yang akan dilakukan terhadap
hasil tersebut.
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
Gambar 2. Algoritma Analisa Kluster
Adapun metode pengelompokan dalam analisis Cluster meliputi :
1. Metode Non-Hirarkis.
dimulai dengan menentukan terlebih dahulu jumlah Cluster yang diinginkan (dua,tiga, atau
yang lain). Setelah jumlah Clusterditentukan, maka proses Cluster dilakukan dengan tanpa
mengikuti proses hirarki. Metode ini biasa disebut “K-Means Cluster”.
Berbeda dengan metode hirarkikal, prosedur non hirarkikal (K-means Clustering) dimulai
dengan memilih sejumlah nilai Cluster awal sesuai dengan jumlah yang diinginkan dan
kemudian obyek digabungkan ke dalam Cluster-Cluster tersebut.
a. Sequential Threshold Procedure
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
Metode ini melakukan pengelompokan dengan terlebih dahulu memilih satu obyek
dasar yang akan dijadikan nilai awal Cluster, kemudian semua obyek yang ada didalam
jarak terdekat dengan Cluster ini akan bergabung lalu dipilih Cluster kedua dan semua
obyek yang mempunyai kemiripan dimasukkan dalam Cluster ini. Demikian seterusnya
hingga terbentuk beberapa Cluster dengan keseluruhan obyek didalamnya.
b.
Parallel Threshold Prosedure
Secara prinsip sama dengan prosedur sequential threshold, hanya saja dilakukan
pemilihan terhadap beberapa obyek awal Cluster sekaligus dan kemudian melakukan
penggabungan obyek ke dalamnya secara bersamaan.
c. Optimizing
Merupakan pengembangan dari kedua metode diatas dengan melakukan optimasi pada
penempatan obyek yang ditukar untuk Cluster lainnya dengan pertimbangan krteria
optimasi.
2. Metode Hirarkis.
Memulai pengelompokan dengan dua atau lebih obyek yang mempunyai kesamaan
paling dekat. Kemudian dilanjutkan pada obyek yang lain dan seterusnya hingga Cluster
akan membentuk semacam „pohon‟ dimana terdapat tingkatan (hirarki) yangjelas antar
obyek, dari yang paling mirip hingga yang paling tidak mirip. Teknik hirarki (hierarchical
methods) adalah teknik Clustering membentuk kontruksi hirarki atau berdasarkan tingkatan
tertentu
seperti
struktur
pohon
(struktur
pertandingan).
untukmemperjelas proses hirarki ini disebut “dendogram”.
Alat
yang
membantu
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
Teknik hirarki (hierarchical methods) adalah teknik Clustering membentuk kontruksi
hirarki atau berdasarkan tingkatan tertentu seperti struktur pohon (struktur pertandingan).
Dengan demikian proses pengelompokkannya dilakukan secara bertingkat atau bertahap.
Hasil dari pengelompokan ini dapat disajikan dalam bentuk dendogram. Metode-metode
yang digunakan dalam teknik hirarki:
a.
Agglomerative Methods
Metode ini dimulai dengan kenyatan bahwa setiap obyek membentuk Clusternya
masing-masing. Kemudian dua obyek dengan jarak terdekat bergabung. Selanjutnya
obyek ketiga akan bergabung dengan Cluster yang ada atau bersama obyek lain dan
membentuk Cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antar obyek.
Proses akan berlanjut hingga akhirnya terbentuk satu Cluster yang terdiri dari
keseluruhan obyek. Ada beberapa teknik dalam Agglomerative methods yaitu:
 Single linkage (nearest neighbor methods)
Metode ini menggunakan prinsip jarak minimum yang diawali dengan mencari dua
obyek terdekat dan keduanya membentuk Cluster yang pertama. Pada langkah
selanjutnya terdapat dua kemungkinan, yaitu :
a. Obyek ketiga akan bergabung dengan Cluster yang telah terbentuk, atau
b. Dua obyek lainnya akan membentu Cluster baru.
Proses ini akan berlanjut sampai akhirnya terbentuk Cluster tunggal. Pada metode ini jarak antar
Cluster didefinisikan sebagai jarak terdekat antar anggotanya.
Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu :
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
Gambar 3. Matriks Antara 5 Buah Objek.
Langkah penyelesaiannya :
a). Mencari obyek dengan jarak minimum
Menghitung jarak antara Cluster AB dengan obyek lainnya.
D(AB)C = min {dAC, dBC}= dBC = 3.0
D(AB)D = min {dAD, dBD}= dAD = 6.0
D(AB)E = min {dAE, dBE}= dBE = 7.0
Dengan demikian terbentuk matriks jarak yang baru
Gambar 4. Matriks 5 Buah Objek Dengan Jarak Baru
b). Mencari obyek dengan jarak terdekat.
D dan E mempunyai jarak terdekat, yaitu 2,0 maka obyek D dan E bergabung
menjadi satu Cluster.
c). Menghitung jarak antara Cluster dengan obyek lainnya.
D(AB)C = 3.0
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
D(AB)(DE) = min {dAD, dAE, dBD, dBE} = dAD = 6.0
D(DE)C = min {dCD, dCE} = dCD = 4.0
d). Mencari jarak terdekat antara Cluster dengan obyek dan diperoleh obyek C
bergabung dengan Cluster AB
e). Pada langkah yang terakhir, Cluster ABC bergabung dengan DE sehingga
terbentuk Cluster tunggal.
 Complete linkage (furthest neighbor methods)
Metode ini merupakan kebalikan dari pendekatan yang digunakan pada single
linkage. Prinsip jarak yang digunakan adalah jarak terjauh antar obyek.
Contoh : Terdapat matriks jarak antara lima buah obyek yaitu :
Gambar 5. Matriks Antara 5 Buah Objek.
Langkah penyelesaiannya :
a) Mencari obyek dengan jarak minimum
A dan B mempunyai jarak terdekat yaitu 1.0 maka obyek A dan B bergabung
menjadi
satu Cluster.
b) Menghitung jarak antara Cluster AB dengan obyek lainnya
d(AB)C = max {dAC, dBC} = dAC = 5,0
d(AB)D = max {dAD, dBD} = dBD = 8,0
d(AB)E = max {dAE, dBE} = dAE = 8,0
Dengan demikian terbentuk matriks jarak yang baru :
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
Gambar 4. Matriks 5 Buah Objek Dengan Jarak Baru
c) Mencari obyek dengan jarak terdekat.
D dan E mempunyai jarak terdekat yaitu 2.0 maka obyek D dan E bergabung
menjadi
satu Cluster
d) Menghitung jarak antara Cluster dengan obyek lainnya.
d(AB)C = 4,0
d(AB)(DE) = 1/2{dAD, dAE, dBD, dBE} = 7,25
d(DE)C = 1/2{dCD, dCE,} = dCE = 5,00
Maka terbentuklah matrik jarak yang baru, yaitu :
Gambar 5. Matriks Akhir
e) Mencari jarak terdekat antara Cluster dengan obyek dan diperoleh obyek C
bergabung dengan Cluster AB.
f)
Pada langkah yang terakhir, Cluster ABC bergabung dengan DE sehingga
terbentuk Cluster tunggal
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
 Ward‟s error sum of squares methods
Ward mengajukan suatu metode pembentukan Cluster yang didasari oleh hilangnya
informasi akibat penggabungan obyek menjadi Cluster. Hal ini diukur dengan jumlah
total dari deviasi kuadrat pada mean Cluster untuk tiap observasi.
Error sum of squares (ESS) digunakan sebagai fungsi obyektif. Dua obyek akan
digabungkan apabila mempunyai fungsi obyektif terkecil diantara kemungkinan yang
ada.
ESS
∑
∑
(∑
)
Dengan Xij adalah nilai untuk obyek ke-i pada Cluster ke-j.
b.
Divisive Methods
Metode divisive berlawanan dengan metode agglomerative. Metode ini pertama-tama
diawali dengan satu Cluster besar yang mencakup semua observasi (obyek).
Selanjutnya obyek yang mempunyai ketidakmiripan yang cukup besar akan dipisahkan
sehingga membentuk Cluster yang lebih kecil. Pemisahan ini dilanjutkan sehingga
mencapai sejumlah Cluster yang diinginkan.
 Splinter average distance methods
Metode ini didasarkan pada perhitungan jarak rata-rata masing-masing obyek dengan
obyek pada grup splinter dan jarak rata-rata obyek tersebut dengan obyek lain pada
grupnya. Proses tersebut dimulai dengan memisahkan obyek dengan jarak terjauh
sehingga terbentuklan dua group. Kemudian dibandingkan dengan jarak rata-rata
masing-masing obyek dengan group splinter dengan groupnya sendiri. Apabila suatu
obyek mempunyai jarak yang lebih dekat ke group splinter daripada ke groupnya
sendiri, maka obyek tersebut haruslah dikeluarkan dari groupnya dan dipisahkan ke
group splinter. Apabila komposisinya sudah stabil, yaitu jarak suatu obyek ke
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
groupnya selalu lebih kecil daripada jarak obyek itu ke group splinter, maka proses
berhenti dan dilanjutkan dengan tahap pemisahan dalam group.
Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu :
Gambar 6. Matriks Perbandingan 5 buah Objek
Perhitungan :
a) Menghitung jarak rata-rata antar obyek
A = ¼ (12+9+32+31) = 21 D = ¼ (32+25+23+9) = 22.25
B = ¼ (12+9+25+27) = 18.25 E = ¼ (31+27+24+9) = 22.75
C = ¼ (9+9+23+24) = 16.25
Terlihat bahwa E mempunyai nilai jarak terjauh, yaitu 22.75, maka E dipisahkan
dari group utama dan membentuk group splinter.
b) Menghitung jarak rata-rata obyek dengan group utama dengan group splinter
Gambar 7. Perhitungan Rata-Rata Group Utama Dengan Group Splinter
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
Pada D, jarak rata-rata dengan group splinter lebih dekat daripada dengan group
utama. Dengan demikian D harus dikeluarkan dari group utama dan masuk ke
group splinter.
c) Perhitungan jarak rata-rata
Gambar 7. Perhitungan Rata-Rata Group Utama Dengan Group Splinter
Karena jarak semua obyek ke group utama sudah lebih besar daripada jaraknya
ke group splinter, maka komposisinya sudah stabil.
Tahap Kelima : Interpretasi terhadap Cluster
Tahap interpretasi meliputi pengujian tiap Cluster dalam term untuk menamai dan menandai
dengan suatu label yang secara akurat dapat menjelaskan kealamian Cluster.
Membuat profil dan interpretasi Cluster tidak hanya untuk memperoleh suatu gambaran saja
melainkan pertama, menyediakan suatu rata-rata untuk menilai korespondensi pada Cluster yang
terbentuk, kedua, profil Cluster memberikan araha bagi penilainan terhadap signifikansi praktis.
Namun demikian yang perlu diperhatikan pada tahapan interpretasi adalah karakteristik yang
membedakan masing-masing Cluster sehingga kita dapat memberikan label pada masing-masing
Cluster tersebut.
Tahap Keenam: Proses Validasi dan Pembuatan Profil (profiling) Cluster
1.
Proses validasi solusi Cluster
Proses validasi bertujuan menjamin bahwa solusi yang dihasilkan dari analisis Cluster
dapat mewakili populasi dan dapat digeneralisasi untuk objek lain. Pendekatan ini
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
membandingkan solusi Cluster dan menilai korespondensi hasil. Terkadang tidak dapat
dipraktekkan karena adanya kendala waktu dan biaya atau ketidaktersediaan objek untuk
analisis Cluster ganda.
2.
Pembuatan Profil ( profiling) solusi Cluster
Tahap ini menggambarkan karakteristik tiap Cluster untuk menjelaskan Cluster-Cluster
tersebut dapat dapat berbeda pada dimensi yang relevan. Titik beratnta pada karakteristik
yang secara signifikan berbeda antar clustre dan memprediksi anggota dalam suatu Cluster
khusus.
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
Studi Kasus
Metode Hierarki
Fizi Shop merupakan toko yang bergerak dibidang retail. Pihak perusahaan ingin
meningkatkan pelayanan terhadap konsumen yang berkunjung melalui web mereka. Dengan
menyebarkan kuesioner, dan menggunakan Clustering, pihak perusahaan ingin mengetahui
selera konsumen dan faktor – faktor yang paling berpengaruh terhadap kemajuan bisnisnya.
Berikut adalah hasil kuesioner yang telah dibagikan kepada 20 konsumen yang telah
berkunjung ke toko.
Data Kuesioner 2 :
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Nama
Rino
Abdul
Viant
Aan
Romi
Ririn
Rahmawati
Okta
Andre
Niko
Ayuk
Wanti
Mey
Farah
Maryana
Sifa
Wulan
Ulfa
Syahdan
Awan
Perilaku
Karyawan
1
2
3
2
2
2
1
2
3
3
1
2
4
3
2
2
1
1
1
2
Komunikasi
Pelayanan
Kelengkapan
Harga
1
2
4
3
2
2
2
2
2
2
1
2
3
3
2
2
1
2
2
2
1
2
3
2
2
2
2
1
1
3
1
2
2
3
2
2
1
1
3
2
2
2
2
2
2
1
2
1
2
2
2
1
1
2
1
1
1
2
3
2
4
1
1
1
2
1
2
2
4
1
1
1
2
1
1
1
2
2
2
2
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
Data Kuesioner 1 :
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Nama
Rino
Abdul
Viant
Aan
Romi
Ririn
Rahmawati
Okta
Andre
Niko
Ayuk
Wanti
Mey
Farah
Maryana
Sifa
Wulan
Ulfa
Syahdan
Awan
Jenis Kelamin Usia Profesi Intensitas Barang Biaya
1
1
1
1
1
2
2
2
2
1
2
2
2
2
1
2
2
2
2
1
2
4
4
2
4
3
3
4
3
2
3
4
4
4
3
2
2
3
4
3
1
4
5
1
3
1
1
3
3
2
1
5
5
4
1
5
1
1
2
1
2
5
4
2
4
5
3
3
3
2
1
5
5
4
5
1
2
1
4
2
3
4
4
3
4
2
2
4
2
2
1
5
5
4
1
5
2
5
2
3
5
5
4
2
3
5
3
4
5
3
1
5
5
4
5
1
2
1
2
4
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
Lakukan prosedur pengClusteran dengan menggunakan metode hirarki dan non-hirarki!
Tentukan berapa jumlah Cluster yang terbentuk, dan analisislah hasil profilisasi customernya!
Langkah Penyelesaian :
1.
Input Data
-
Variable View
Di setiap variabel, atur values sesuai skala yang ada di kuesioner seperti gambar di bawah
ini:
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
-
2.
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
Data View
Clustering – Metode Hirarki
a.
Pilih analyze klik Classify lalu pilih Hierarchical Cluster
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
b.
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Variabel : Letakkan semua Variabel X
Label case by : Letakkan nama responden
Cluster : Case
Display : statistic, plot
c.
Statistik : agglomeration schedule
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
d.
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
Plots : klik Dendogram
Icicle : none
e.
Method : Cluster Method  Pilih nearest neighbor measure
Interval pilih Squared Euqliden Distance
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
f.
3.
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Klik save Cluster membership : none
Profilisasi Costumer
a.
Input Data
-
Variable View:
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
-
Data View
b.
Pilih Analyze, klik Descriptive Statistic pilih crosstab
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
c.
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Rows : Letakkan semua variabel Y
Columns : Cluster member
d.
Statistics : Correlation
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
e.
Cells  Counts : observed , Percentage : total
f.
Format Row order : ascending.
4. Penentuan Variabel yang harus ditingkatkan
a. Input Data
o Variable View:
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
o Data View:
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
b. Pilih Analyze, klik Descriptive Statistic pilih crosstab
c. Rows : Letakkan semua variabel profil ( variable x )
Columns : Cluster member
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
d. Statistics : Correlation
e. Cells  Counts : observed , Percentage : total
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
f. Format Row order : ascending.
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:3
Modul ke
:3
Jumlah Halaman : 27
Mulai berlaku
: 2016
DAFTAR PUSTAKA

Bertalya. 2009. Konsep Data Mining. Universitas Gunadarma.

Fayyad, Usama. 1996. Advances in Knowledge Discovery and Data Mining. MIT Press.

Susanto, Hery Tri. 2009. Cluster Analysis. Seminar Nasional Matematika dan
Pendidikan Matematika. Yogyakarta: Universitas Negeri Yogyakarta.

Turban, Efraim et al. 2005. Decision Support Systems and Intelligent Systems.
Yogyakarta: Andi Offset

Walpole, Ronald E. dan Myers, Raymond H. 1986. Ilmu Peluang dan Statistik Untuk
Insinyur Dan Ilmuwan. Bandung: ITB Press.
Download