penggunaan jarak dynamic time warping (dtw)

advertisement
PENGGUNAAN JARAK DYNAMIC TIME WARPING (DTW) PADA
ANALISIS CLUSTER DATA DERET WAKTU
(STUDI KASUS PADA DANA PIHAK KETIGA PROVINSI SEINDONESIA)
Ardiansyah Muhammad
Jurusan Matematika, F.MIPA, Universitas Brawijaya, Malang, Indonesia
Email: [email protected]
Abstrak. Dalam kehidupan sehari-hari seringkali didapatkan data yang tidak hanya berupa variabel dalam kurun waktu
tertentu, namun data tersebut juga terikat dengan variabel waktu . Analisis cluster deret waktu yang merupakan salah satu
teknik data mining yang dikembangkan untuk mengelompokan objek berdasarkan data deret waktunya. Penelitian ini
bertujuan mengelompokkan data deret waktu menggunakan beberapa jarak yaitu. Autocorrelation-based Distance,
Complexity Invariant Distance (CID), Periodogram-based Distance, dan Dynamic Time Warping. Data yang digunakan
adalah Dana Pihak Ketiga, yaitu sumber dana yang diperoleh bank dari masyarakat (nasabah) yang merupakan sumber dana
terbesar bagi bank. Pemilihan jarak terbaik menggunakan korelasi cophenetic hasil analisis cluster hirarki menggunakan
average linkage. Optimalisasi hasil analisis cluster hirarki menggunakan algoritma K-means dilakukan untuk memperoleh
jumlah dan anggota kelompok yang lebih stabil. Validasi pengelompokan dengan algoritma K-means menggunakan
koefisien silhouette. Jarak DTW merupakan jarak terbaik diantara ketiga jarak lainnya dengan nilai korelasi cophenetic
terbesar yaitu 0,9775802. Pengelompokan menggunakan algoritma K-means menunjukkan jarak DTW menghasilkan dua
kelompok dengan kriteria cukup baik dengan nilai koefisien silhouette sebesar 0,257.
Kata Kunci: DTW, Time Series Clustering, Silhouette, Cophenetic
1. PENDAHULUAN
Data deret waktu merupakan data yang diperoleh dari titik titik waktu, dimana terdapat struktur
korelasi antara nilai-nilai pada data deret waktu tersebut (Liao, 2005). Salah satu contoh data deret
waktu yang dapat diteliti pada bidang ekonomi adalah Dana Pihak Ketiga (DPK) yaitu dana yang
berasal dari masyarakat (dalam bentuk giro, deposito dan tabungan). DPK merupakan sumber dana
terbesar bagi bank. Kumpulan data deret waktu dapat dikelompokkan berdasarkan karakteristik pada
masing-masing data deret waktu tersebut dengan menggunakan analisis cluster deret waktu yang
dilakukan dengan cara mengelompokkan objek berdasarkan pola deret waktunya (Liao, 2005). Salah
satu jarak yang dapat digunakan untuk mengukur kedekatan dua deret waktu adalah algoritma
Dynamic Time Warping (DTW). Algoritma DTW lebih realistis digunakan dalam mengukur
kemiripan suatu pola (pattern/template matching) daripada hanya menggunakan algoritma pengukuran
linier seperti Jarak Euclidean, Manhattan, Canberra, Mexican Hat dan lainnya (Sakoe dan Chiba,
1978).
Penelitian analisis cluster data deret waktu ini digunakan 4 macam jarak, yaitu Autocorrelationbased distance, Periodogram-based distance, Complexity Invariant Distance (CID), dan DTW.
Metode pengelompokkan yang digunakan adalah metode hirarki dengan optimalisasi menggunakan
algoritma K-means. Penelitian ini bertujuan untuk mengetahui akurasi pengelompokkan menggunakan
jarak DTW dibandingkan dengan ketiga jarak lainnya, dan hasil pengelompokkan data DPK provinsi
se-Indonesia.
2. TINJAUAN PUSTAKA
2.1 Analisis Cluster Data Deret Waktu
Analisis Cluster merupakan teknik dalam menemukan kelompok dalam kumpulan data dengan
tujuan, data yang berada pada satu kelompok mempunyai kemiripan yang dekat, dan memiliki
perbedaan yang jelas dengan kelompok yang lain (Kauffman dan Rousseuw, 1990). Analisis cluster
deret waktu membutuhkan algoritma, dan prosedur pengelompokkan yang berbeda dengan data statis.
Prosedur yang berbeda dilakukan karena data deret waktu merupakan sekelompok nilai pengamatan
yang diperoleh pada titik waktu yang berbeda dengan selang waktu yang sama dan barisan data
diasumsikan saling berhubungan satu sama lain. Selama berkembangnya pengelompokkan pada data
deret waktu, banyak teknik yang dikembangkan diantaranya adalah penggunaan jarak-jarak
pengelompokkan yang sesuai dengan karakteristik data deret waktu (Liao, 2005).
277
2.2. Ukuran Kemiripan Deret Waktu
Caido (2006) memperkenalkan beberapan jarak berdasarkan periodogram pada data deret
waktu. Misalkan ( )
|∑
| dan ( )
|∑
| adalah periodogram
dari dua deret waktu X dan Y, pada frekuensi
, k=1,2,......n, dengan n = [(
) ].
Berdasarkan kedua periodogram tersebut beberapa jarak didefinisikan sebagai berikut.
{∑ ( ( )
(
)
( ))} ⁄
(1)
Jarak Complexity invariant menggunakan informasi tentang perbedaan kompleksitas antara dua
deret waktu sebagai faktor koreksi dari jarak yang telah ada (Batista, dkk, 2011). Jarak Complexityinvariance dapat dirumuskan sebagai faktor koreksi dari jarak euclidean sebagai berikut :
(
)
(
)
(
)
(2)
di mana ED(Q,C) adalah jarak euclidean dari dua deret waktu Q dan C, sedangkan CF(Q,C) adalah
faktor koreksi kompleksitas yang didefinisikan pada persamaan (3):
( ( ) ( )
(
)
(3)
( )
(
( )
dan CE(T) adalah estimasi kompleksitas dari deret waktu T. Estimasi kompleksitas dapat dihitung
dengan persamaan (4) :
( )
√∑
(
)
(4)
di mana qi adalah nilai ke i dari deret waktu q. Pendekatan CID untuk estimasi kompleksitas dapat
secara mudah digunakan pada bahasa pemrogaman apapun.
Galeano dan Pena (2000) mengusulkan sebuah metrik berdasarakan pendugaan Autocorrelation
function (ACF) untuk data deret waktu yang mempunyain struktur korelasi yang menarik untuk
diteliti.Misalkan ̂
̂ ) dan ̂
̂ ) adalah vektor-vektor autokorelasi
(̂
(̂
hasil pendugaan dari deret waktu X dan Y, untuk beberapa L seperti ̂
dan ̂
untuk i > L.
Jarak antara dua deret waktu kemudian dapat dibentuk sebagai berikut :
{( ̂
̂ ) (̂
̂ )}
(5)
di mana Ω adalah matriks pembobot.
2.3. Dynamic Time Warping
Dynamic Time Warping (DTW) menggunakan teknik pemrogaman dinamis untuk menemukan
semua jalur yang mungkin, dan memilih salah satu yang menghasilkan jarak minimum antara dua
deret waktu menggunakan matriks jarak,dimana masing-masing elemen dalam matriks adalah jarak
kumulatif nilai minimal dari tiga tetangga sekitarnya. Misalkan terdapat dua deret waktu yaitu Q= q1,
q2, . . . , qi, . . . , qn and C = c1, c2, . . . , cj , . . . , cm, pertama dibuat matriks berukuran n x m, untuk
setiap elemen (i,j) dalam matriks yang merupakan jarak kumulatif dari jarak (i,j) dan nilai minimum
dari tiga elemen yang berdekatan dengan elemen (i,j), dimana 0< i ≤n dan 0< j ≤n, kita dapat
mendefinisikan elemen (i,j) sebagai :
{ ( )( ) ( )
(6)
(
)}
di mana dij = (qi - cj)2 dan eij adalah elemen (i,j). Kemudian, untuk menemukan optimal path, kita
harus menentukan path yang memberikan jarak kumulatif terkecil pada (n,m). Jarak kumulatif terkecil
pada (n,m) didefinisikan sebagai :
(
)
{√∑
}
(7)
di mana P adalah sekumpulan dari semua warping path yang mungkin, dan wk adalah elemen (i,j) ke k
pada warping path dan K adalah panjang dari warping path. (Niennattrakul, 2007).
2.4. Ukuran Ketepatan Cluster
Ketepatan sebuah pengelompokkan menunjukkan seberapa baik proses pengelompokkan dan
kualitas kelompok yang terbentuk. Terdapat beberapa macam ukuran ketepatan untuk mengetahui
kualitas suatu pengelompokkan. Salah satu ukuran ketepatan yang dapat digunakan dalam menentukan
ketepatan pengelompokkan deret waktu adalah koefisien silhouette yang digunakan untuk mengetahui
kualitas pengelompokkan yang dapat dirumuskan sebagai :
() ()
()
( ) ( )}
{
278
dimana a(i) adalah rata-rata jarak antar anggota dalam cluster, dan b(i) jarak terkecil antara anggota
cluster dengan anggota cluster terdekatnya (nearest neigbor), nilai s(i) mendekati 1 menunjukkan
kualitas pengelompokkan yang baik.
3. METODE PENELITIAN
3.1. Sumber Data
Data yang digunakan pada penelitian ini adalah data sekunder yaitu jumlah Dana Pihak Ketiga
seluruh provinsi di Indonesia Bulan Januari 2005 – Desember 2013 kecuali Provinsi Irian Jaya Barat,
Kepulauan Riau, dan Sulawesi Barat.
3.2. Metode Analisis
Prosedur analisis dalam penelitian ini (1) Melakukan uji stasioneritas terhadap ragam, apabila
data deret waktu tidak stasioner maka dilakukan transformasi (2) Uji stasioneritas terhadap rata-rata,
apabila data deret waktu tidak stasioner maka dilakukan differensiasi (3) Melakukan perhitungan
jarak dengan menggunakan Autocorrelation-based Distance (persamaan 1), Dynamic Time Warping
(persamaan 6 dan 7), Periodogram-based Distance (persamaan 5), dan Complexity invariant Distance
(persamaan 2). (5) Melakukan analisis kelompok hirarki (average linkage) sesuai matriks jarak yang
telah didapat. (6) Memilih metode terbaik menggunakan korelasi cophenetic. (7) Melakukan analisis
cluster menggunakan algoritma k-means dengan jumlah dan pusat cluster yang didapat melalui
analisis cluster hirarki. (8) Melakukan perhitungan koefisien silhouette untuk melihat ketepatan
pengelompokkan. (9) Interpretasi.
4. HASIL DAN PEMBAHASAN
Data Dana Pihak Ketiga (DPK) dari 30 Provinsi mengalami kenaikan setiap bulannya sehingga
data deret waktu membentuk tren positif. Tren mengindikasikan data tidak stasioner terhadap rata-rata,
setelah dilakukan uji stasioner terhadap ragam dan rata-rata maka diketahui bahwa data DPK tidak
stasioner terhadap ragam dan rata-rata. Data DPK distasionerkan menggunakan transformasi logdiff
(Log Diferensiasi) kemudian dikelompokkan. Setelah dilakukan pengelompokkan menggunakan jarak
Autocorrelation-based, Complexity invariant, Periodogram-based, dan DTW didapatkan nilai korelasi
cophenetic pada Tabel 1 :
Tabel 1. Korelasi cophenetic Jarak Autocorrelation-based, CID, Periodogram-based, dan DTW.
No
Jarak
Korelasi Cophenetic
1
Autocorrelation
0,6731431
2
Complexity Invariant
0,8067845
3
Periodogram-based
0,7822575
4
Dynamic Time Warping
0,9775802
Berdasarkan Tabel 1 didapatkan bahwa jarak DTW menghasilkan nilai korelasi cophenetic
terbesar yaitu sebesar 0,9775802 sehingga jarak terbaik dari data Dana Pihak Ketiga adalah DTW.
Hasil pengelompokkan menggunakan jarak DTW menghasilkan 2 kelompok yang didapat melalui
pemotongan dendogram pada selisih jarak terjauh. Dendrogram pengelompokkan secara hirarki
menggunakan jarak DTW disajikan pada Gambar 1. Berdasarkan Gambar 1 diketahui bahwa anggota
dari kelompok satu adalah Provinsi Nanggroe Aceh Darussalam sedangkan anggota kelompok dua
adalah seluruh provinsi di Indonesia kecuali Provinsi Nanggroe Aceh Darussalam. Hasil
pengelompokkan menunjukkan kelemahan metode hirarki yaitu cenderung mengelompokkan objek
yang merupakan pencilan sebagai satu kelompok tersendiri, dan objek sisanya dikelompokkan
menjadi satu kelompok. Oleh karena itu banyak ahli yang mengkombinasikan pengelompokkan hirarki
dan non-hirarki untuk memperoleh hasil yang lebih baik, metode hirarki digunakan untuk menemukan
jumlah kelompok optimal kemudian metode non-hirarki digunakan untuk menghasilkan
pengelompokkan lebih stabil dengan jumlah kelompok yang didapat dari metode hirarki.
279
Gambar 1. Dendrogram Analisis Cluster Hirarki Menggunakan Dynamic Time Warping
Optimalisasi hasil pengelompokkan menggunakan algoritma K-means dengan jumlah kelompok
yang didapat menggunakan analisis cluster hirarki yaitu sebanyak 2 kelompok menghasilkan koefisien
silhouette sebesar 0,257 sehingga dapat dikatakan hasil kelompok yang dihasilkan cukup baik dan
dapat digunakan berdasarkan kriteria subjektif kualitas pengelompokan berdasarkan nilai koefisien
silhouette yang dibuat oleh Kauffman dan Rousseuw (1990) yang disajikan pada Tabel 2:
Tabel 2. Kriteria Subjektif Kualitas Pengelompokk berdasarkan Koefisien Silhoutte (SC)
Nilai SC
0,71 - 1,00
0,51 - 0,70
0,26 – 0,50
0 - 0,25
Interpretasi Oleh Kauffman
Strong Classification
Good Classification
Weak Classification
Bad Classification
Kriteria yang ditetapkan oleh Kauffman dan Rousseuw bukan patokan resmi untuk menentukan
kualitas cluster, perbedaan kondisi dan persepsi peneliti dapat memunculkan kriteria yang berbeda.
Adapun anggota kelompok satu yaitu : Nanggroe Aceh Darussalam, Riau, Bangka Belitung, Lampung,
Kalimantan Timur, Gorontalo, Papua, Maluku Utara sedangkan anggota kelompok dua antara lain :
Sulawesi Tenggara, Banten, Bali, Kalimantan Barat, DI Yogyakarta, Jawa Timur, Sumatra Utara,
NTT, Jawa Barat, Jawa Tengah, Kalimantan Selatan, Bengkulu, Kalimantan Tengah, NTB, Maluku,
DKI Jakarta, Sulawesi Tengah, Sulawesi Selatan, Sulawesi Utara, Sumatra Barat, Jambi, dan Sumatra
Selatan.
5. KESIMPULAN
Berdasarkan nilai korelasi cophenetic pengelompokkan data DPK, didapatkan jarak terbaik
adalah jarak Dynamic Time Warping dengan nilai korelasi cophenetic sebesar 0,9775802. Validasi
pada optimalisasi menggunakan algoritma K-means menunjukkan kelompok yang dihasilkan cukup
baik dengan nilai koefisien silhouette sebesar 0,257 dengan jumlah kelompok sebanyak dua kelompok.
DAFTAR PUSTAKA
Batista, G. E., Wang, X., dan Keogh, E. J., (2011), A Complexity-Invariant Distance Measure for
Time Series, International Conference on Data Mining (SDM), 31, hal. 32.
Caiado, J., Catro, N., dan Pena, D, (2006), A Peridogram-based Metric for Time Series Clasification.
Computational Statistics & Data Analysis, 50, hal. 2668 – 2684.
Galeano, P. dan Pena, D., (2000), Multivariate Analysis in Vector Time Series, Resenhas, 4, hal. 383403. ISSN 0104-3854.
Han, J. dan Kamber, M., (2012), Data Mining and Techniques.Third Ed, Elsevier,Inc., New York
Kaufman, L. dan Rousseuw, P.J., (1990), Finding Group in Data : An Introduction to Cluster
Analysis, Wiley, New York.
Liao,T.W., (2005), Clustering of Time Series Data—Survey, Pattern Recognition, 38, hal. 1857–
1874.
Niennattrakul,V. dan Ratanamahatana, C.A., (2007), On Clustering Multimedia Time Series Data
Using K-Means and Dynamic Time Warping. International Conference Multimedia and
Ubiquitous Engineering, 07, hal. 733-738.
Sakoe, H. dan Chiba, S.,(1978), Dynamic Programming Algorithm Optimization For Spoken Word
Recognition, IEEE Transactions on Acoustics, Speech and Signal Processing, 26, hal. 43-49.
280
Download