162-476-2-SM - Openstorage Gunadarma

advertisement
Praproses dan Teknik Clustering
pada Data Sistem Iklim Global
M. Auriga Herdinantio
Program Studi Teknik Informatika, Institut Teknologi Bandung
Jl. Ganesha 10, Bandung
E-mail : [email protected]
ABSTRAK
Data pada sistem iklim global merupakan
jenis data time series yang mencatat
berbagai variabel kebumian (kelembaban
tanah, temperatur, dan curah hujan)
ditambah dengan data dari model
ekosistem yang ada model (NPP). Data ini
memiliki komponen musiman yang kuat
sehingga
perlu
dihilangkan
sebelum melakukan analisis pola yang
menggambarkan
penyimpangan
dari
variasi musiman yang normal seperti
anomali iklim atau trend. Terdapat
beberapa alternatif (discrete Fourier
Transform, monthly Z score dan moving
average) untuk menghapus komponen
musiman. Hal inilah yang akan dilakukan
pada praproses data. Setelah tahapan
praproses, proses clustering SNN (Shared
Nearest Neighbour) diterapkan untuk
membagi Bumi ke dalam zona-zona iklim.
Hal
ini
dilakukan
dengan
cara
mendapatkan indeks iklim yang baru untuk
membedakan zona tersebut. Indeks yang
didapat dari clustering bisa terbagi
menjadi empat macam, yaitu indeks yang
sangat mirip dengan indeks yang sudah
ada, indeks yang cukup mirip dengan
indeks yang sudah ada, indeks yang
berbeda, dan indeks yang sangat berbeda
dengan indeks yang sudah ada. Makalah
ini merupakan jenis paper review yang
akan membahas masalah-masalah dalam
data sistem iklim global, tahapan
praproses data dan proses clustering SNN
pada data sistem iklim global.
Kata kunci : discrete Fourie Transform,
monthly Z score, moving average,
clustering, indeks iklim.
1. PENDAHULUAN
Satelit Pengamat Bumi milik NASA
merupakan
satelit
yang
dapat
menghasilkan data dalam jumlah yang
besar. Perilaku ekosistem bumi dapat
diramalkan
dan
diketahui
dengan
menggunakan data hasil penginderaan jauh
tersebut
yang
sebelumnya
telah
dikombinasikan dengan data dari model
ekosistem [3, 4].
Namun, karena besarnya jumlah data yang
tersedia diperlukan teknik data mining next
generation untuk memfasilitasi ekstraksi
dan menganalisis pola-pola yang menarik
dari data tersebut [2]. Sangat sulit untuk
mendapatkan pola dari data sistem iklim
global karena data yang bersifat spatiotemporal [1]. Sifat spatio-temporal artinya
data tersebut cepat berubah dan berasal
dari berbagai macam lokasi.
Untuk mengeksplorasi data kebumian,
para peneliti telah menerapkan berbagai
teknik data mining, seperti association
rule untuk melihat tekstur dari citra satelit,
klasifikasi jenis land cover, dan clustering
untuk membagi zona iklim. Beberapa
teknik data mining yang digunakan pada
data kebumian beserta kegunaannya dapat
dilihat pada tabel 1.
Tabel 1 Beberapa teknik data mining dan
kegunaannya
Kegunaan
Mengetahui
perubahan Bumi
Mengetahui faktor
penyebab
perubahan Bumi
Prediksi perubahan
Bumi
Teknik Data
Mining
Principal
Component
Analysis (PCA),
Cluster Analysis,
Anomaly Detection,
ARIMA time series,
Trend Detection,
Change Point
Detection
Correlation,
Canonical
Correlation
Analysis,
Association
Analysis, Causal
Regression,
correlation
Selain itu terdapat juga masalah
munculnya siklus musiman dalam data
sistem iklim global [3]. Oleh karena itu,
variasi yang diakibatkan pengaruh
musiman tersebut harus dihilangkan,
karena
ilmuwan
kebumian
sering
menghubungkan
peristiwa-peristiwa
ekologis dengan kondisi iklim anomali
yang terjadi di belahan bumi yang
lain. Misalnya, selama terjadi El-Nino,
permukan laut Pasifik bersuhu hangat,
namun bagian timur Australia mengalami
kondisi kekeringan yang parah. Peristiwa
anomali dapat terjadi hanya jika komponen
musiman dari time-series dihapus. Alasan
lain menghapus variasi musiman adalah
untuk membuat time-series lebih stasioner.
Fenomena iklim yang terjadi di satu lokasi
di Bumi dapat mempengaruhi iklim di
lokasi yang lain. Sangat penting untuk
memahami hubungan telekoneksi iklim ini
untuk
menemukan
jawaban
atas
pertanyaan-pertanyaan seperti bagaimana
perubahan iklim bumi dan bagaimana
ekosistem
merespons
perubahan
lingkungan global.
Sebuah cara
yang umum untuk
mempelajari telekoneksi tersebut adalah
dengan menggunakan indeks iklim untuk
menyaring variabilitas iklim pada skala
regional atau global ke dalam satu time
series. Sebagai contoh, indeks NINO 1+2,
adalah indeks iklim yang terkait
dengan fenomena
pemanasan
yang
anomali di wilayah tropis Pasifik timur. El
Nino telah terkait dengan anomali iklim di
berbagai belahan dunia seperti kekeringan
di Australia dan hujan deras sepanjang
pantai timur Amerika Selatan.
Gambar 1 menunjukkan korelasi antara
indeks NINO 1+2 dan anomali suhu
daratan, yang merupakan penyimpangan
dari mean. Perhatikan bahwa indeks ini
sangat
berkorelasi
dengan
anomali suhu daratan di pantai barat
Amerika Selatan, tidak mengejutkan
mengingat kedekatan daerah ini ke
wilayah laut.
Gambar 1 Indeks iklim NINO 1+2 dan
korelasinya pada anomali temperatur daratan
Tekanan suhu permukaan laut (SLP) dan
temperatur suhu permukaan laut (SST)
paling sering digunakan untuk membuat
indeks
iklim.
Indeks
ini
dapat
mempermudah penemuan hubungan antar
SST, SLP, temperatur daratan dan
hujan. Variabel-variabel ini berdampak
pada pertumbuhan tanaman dan siklus
karbon global.
Pada bagian pendahuluan makalah akan
dijelaskan permasalahan yang ada pada
data sistem iklim global. Bagian deskripsi
data akan menjelaskan data yang akan
dipakai berikut bentuk dan jumlahnya.
Bagian praproses akan menjelaskan
teknik-teknik yang dapat dipakai untuk
menghilangkan
komponen
musiman.
Bagian teknik clustering akan menjelaskan
teknik SNN yang dipakai untuk
mengetahui indeks iklim yang baru. Hasil
penerapan dan analisis teknik SNN akan
dijelaskan pada bagian analisis dan hasil.
Kesimpulan yang didapat akan dijelaskan
pada bagian kesimpulan makalah.
dan global. Sebagai contoh, berbagai
indeks El Nino, seperti ANOM1+2 dan
ANOM3.4, telah ditetapkan untuk
mengukur anomali suhu permukaan laut di
berbagai daerah di lautan. Beberapa indeks
iklim yang terkenal ditunjukkan pada tabel
2.
Tabel 2 Beberapa Indeks Iklim yang sudah ada
2. DESKRIPSI DATA IKLIM
Data kebumian terdiri dari urutan snapshot
global Bumi yang diambil dari berbagai
titik dalam suatu waktu [4]. Setiap
snapshot terdiri dari nilai-nilai pengukuran
untuk sejumlah variabel (misalnya, suhu,
tekanan,
dan
curah
hujan)
dan
dikumpulkan secara global. Semua atribut
data
di
dalam
snapshot
global
direpresentasikan dengan menggunakan
spatial framework. Spatial framework
adalah pembagian permukaan bumi
menjadi daerah yang saling memisahkan
daratan Bumi.
Snapshot global yaitu nilai-nilai variabel
untuk setiap lokasi dalam kerangka spasial
yang tersedia untuk waktu tertentu. Nilainilai
variabel
merupakan
hasil
pengamatan dari berbagai sensor, seperti
curah hujan dan suhu permukaan laut
(SST), atau hasil dari model prediksi,
seperti NPP dari model CASA.
Berbagai kemungkinan dan permasalahan
digambarkan melalui time series SST (Sea
Surface Temperature) pada Gambar 3.
Time series dapat dibakukan dengan cara
mengurangi nilainya dan membaginya
dengan standar deviasi. Hal ini dilakukan
untuk menampilkan beberapa time series
pada satu plot tanpa efek distorsi
skala. Gambar 4 menunjukkan versi
standar SST time series yang terlihat
sangat mirip dengan serial aslinya pada
Gambar 3.
Gambar 3 SST Time Series
Gambar 2 Snapshot Global
Selain itu, para ilmuwan kebumian telah
mengembangkan standar indeks (time
series) yang menangkap perilaku dari
berbagai variabel iklim pada skala regional
Gambar 4 SST Time Series standar
yang asli dapat diubah dari domain waktu
ke domain frekuensi, sehingga lebih
mudah untuk melihat frekuensi mana yang
membentuk sinyal. Spektrum dari time
series dapat dengan mudah dihitung dari
seri yang berubah, seperti yang
ditunjukkan pada Gambar 5. Titik
puncak pada poin 12 dan 132
menunjukkan bahwa ada komponen
tahunan yang kuat. Menghapus komponen
tahunan ini dan melakukan invers
transformasi fourier menghasilkan time
series baru yang seharusnya tidak memiliki
komponen musiman.
Monthly Z Score
Gambar 5 Power Spectrum Sampel SST Time
Series
3. PRAPROSES DATA
Para ilmuwan kebumian tertarik untuk
meneliti pola-pola deviasi dari variasi
musiman normal. Misalnya siklus tertentu
(El Nino), siklus
jangka
panjang (osilasi decadal), atau trend
(pemanasan
global). Penyimpangan
tersebut dapat mempengaruhi data,
sehingga perlu dihilangkan sehingga pola
menarik yang lain dapat diketahui.
Transformasi ini memerlukan himpunan
nilai untuk bulan tertentu (misalnya semua
nilai pada bulan Januari), menghitung nilai
mean dan standar deviasi dari himpunan
nilai tersebut, kemudian melakukan
standardisasi
setiap
nilai
dengan
menghitung nilai Z, yaitu dengan
mengurangkan
nilai
mean
dan
membaginya dengan deviasi standar [6].
Walaupun cara ini mirip dengan
pendekatan pertama, tetapi sebenarnya
berbeda karena yang digunakan adalah
nilai mean bulanan dan deviasi standar
bulanan, bukan mean keseluruhan dan
deviasi standar. Dengan kata lain, setiap
nilai data pada time series dalam bentuk
deviasinya dari nilai rata-rata untuk bulan
yang
bersesuaian,
dinyatakan
dan
diskalakan oleh faktor volatilitas untuk
bulan itu.
Beberapa tranformasi berikut dapat dipakai
untuk menghilangkan variasi musiman:
discrete
Fourier
transform
(DFT),
“monthly” Z score, dan moving average.
Filter DFT (Diskrit Fourier Transform)
Pendekatan ini didasarkan pada teknik
pemrosesan sinyal standar [3]. Dengan
menggunakan pendekatan ini, time series
Gambar 6 Penerapan monthly Z score dan DFT
Filtering
Rescaling per bulan yang digunakan dalam
transformasi ini menyebabkan fluktuasi
musiman menghilang. Selanjutnya, scaling
oleh deviasi standar bulanan membuat
perubahan yang lebih bagi bulan yang
memiliki
volatilitas
rendah
Gambar 6 memperlihatkan hasil dari
penerapan monthly Z score dan filtering
DFT untuk sampel SST time series. Hasil
kedua transformasi ini hampir hasil
identik, dan korelasi dari dua seri ini
adalah 0,98. Meskipun terdapat point
dalam data set, korelasi antara time series
monthly Z score dan filtering DFT hanya
0,5 untuk sebagian besar data.
diperlihatkan dalam Gambar 8. Korelasi
antara dua time series adalah 0,99. Jadi
moving average dapat digunakan untuk
memperbaiki time series yang diperoleh
dengan terlebih dahulu menerapkan
monthly Z score pada time series yang
sama.
Moving Average
Moving
average
efektif
untuk
menghilangkan komponen musiman dan
juga dapat memperbaiki data [3]. Untuk
dapat mengetahui mengapa moving
average dapat menghilangkan frekuensi
tertentu, lihatlah bahwa rata-rata sebuah
sinus atau kosinus periodenya adalah 0.
Namun, hal itu cenderung untuk meratakan
setiap penyimpangan dari nilai rata-rata
dengan menyebar efek devisasi pada
tetangganya. Sebagai
perbandingan,
Gambar 7 menunjukkan monthly Z score
dan transformasi moving average pada
time series SST. Gambar 7 menunjukkan
bahwa jika fluktuasi frekuensi tinggi
dalam time series disebabkan faktor luar,
maka time series moving average harus
mirip dengan time series monthly Z score.
Gambar 7 Monthly Z score dan moving
average
Untuk
mengilustrasikannya,
moving
average diaplikasikan pada monthly Z
score. Hasilnya, bersama dengan time
series moving average dari Gambar 7,
Gambar 8 Monthly Z score diperhalus dengan
12-month moving average
Korelasi antara kedua pendekatan ini
tidak selalu cukup tinggi, tapi fenomena
ini tampaknya terjadi dalam banyak kasus.
Untuk lebih mengerti fenomena ini,
perhatikan sebuah time series x =
{x1,x2,..,x144}. P = {p1,p2,p3,...p132}
adalah time series moving average untuk x
dan q = {q1,q2,...,q132} adalah moving
average pada Z-score untuk x. Perhatikan
bahwa :
Dimana x13 dan x1 distandardisasi dengan
mean bulanan yang sama (ui) dan deviasi
standar bulanan (o1). Analisis di atas
tersebut menyimpulkan bahwa perbedaan
diantara titik yang berurutan pada Z-score
proporsional dengan poin pada moving
average, yang diskalakan dengan deviasi
standar bulanan. Dengan demikian korelasi
antara p dan q seharusnya tinggi jika
volatilitas deviasi standar bulanan rendah.
4. TEKNIK CLUSTERING
Penggunaan clustering didorong oleh
pemikiran
bahwa
fenomena
iklim
melibatkan wilayah yang signifikan dari
lautan atau atmosfer dan fenomena akan
'lebih kuat' jika melibatkan suatu wilayah
di mana perilakunya relatif sama dengan
seluruh wilayah [3].
Berbagai
teknik
clustering
dapat
digunakan pada data kebumian. Misalnya
pendekatan mixtured digunakan untuk
mengidentifikasi struktur klaster pada data
tekanan atmosfer, ACTS (Automatic
Classification of Time Series) digunakan
untuk klasifikasi daratan, dan versi
modifikasi dari algoritma clustering hirarki
digunakan untuk penggunaan lahan
segmentasi. Selain itu, algoritma K-means
dan DBSCAN juga dapat digunakan pada
investigasi data kebumian.
Dalam makalah ini akan dijelaskan
pendekatan algoritma clustering SNN
(Shared Nearest Neighbour) untuk
mendapatkan indeks iklim yang baru.
Pertama-tama teknik ini akan mencari
tetangga terdekat dari setiap point dan
kemudian mengubah kesamaan antara
pasang poin dalam hal banyaknya tetangga
terdekat antara dua poin. Menggunakan
kesamaan ini, algoritma
akan
mengidentifikasi poin inti dan kemudian
membangun cluster di sekitar point inti
[5].
Shared Nearest Neighbour (SNN)
digunakan untuk menemukan cluster yang
homogen. Masing-masing cluster dapat
ditandai oleh centroid, yaitu mean dari
semua time series yang menggambarkan
point lautan pada cluster. Centroid inilah
yang akan menggambarkan indeks iklim
yang potensial. Cluster yang dihasilkan
point yang berasal dari daerah yang
kerapatannya relatif seragam. Algoritma
SNN
dapat
menghasilkan
cluster
berkualitas
tinggi,
yang
selalu
berdampingan secara geografis.
Untuk mengevaluasi indeks iklim yang
potensial di lautan, dibutuhkan ukuran
numerik dari derajat asosiasi
antara
perilaku kandidat indeks iklim dan iklim
daratan. Ilmuwan kebumian biasanya
menggunakan korelasi untuk mengukur
derajat asosiasi antara dua time series.
Secara umum, time series digunakan
sebagai indeks jika dapat menunjukkan
korelasi perilaku wilayah daratan dengan
baik dan jika korelasi yang baik tersebut
dapat dibandingkan dengan indeks yang
telah ada.
Untuk mengevaluasi pengaruh indeks
iklim di daratan digunakan korelasi
pembobotan area, yang merupakan bobot
rata-rata dari korelasi indeks iklim pada
daratan.
Korelasi pembobotan area
dihitung
dengan
cara
sebagai
berikut. Pertama-tama
dihitung korelasi time series dari kandidat
indeks iklim dengan time series yang
terkait dengan setiap point pada
daratan. Kemudian dihitung rata-rata bobot
dari korelasi absolut masing-masing point
pada daratan. Didapat hasil korelasi
pembobotan area paling besar adalah 1,
tapi biasanya jauh lebih rendah. Nilai
minimum korelasi pemboboran area adalah
0.
5. ANALISIS DAN HASIL
Data yang digunakan untuk teknik SNN
clustering ini merupakan data dari tahun
1958-1998. Terdapat 107 cluster yang
didapatkan oleh teknik cluster SNN,
seperti yang ditunjukkan pada Gambar
9. Perhatikan bahwa grid point dari lautan
tidak termasuk dalam cluster manapun,
point ini berasal dari daerah yang relatif
tidak sama dan homogen. Semua cluster
dengan korelasi pembobotan area yang
rendah
akan
dihilangkan
untuk
mendapatkan kandidat indeks yang
baik. Sisa centroid cluster yang tidak
dihilangkan merupakan kandidat indeks
iklim.
Gambar 9. 107 Cluster
Untuk mengevaluasi kandidat indeks lebih
lanjut, centroid clusters dibagi menjadi 4
kelompok, G0, G1, G2, dan G3,
tergantung dari korelasi centroid cluster
dengan indeks yang sudah diketahui [6].
Centroid clusters (G0) sangat berkorelasi
dengan indeks yang sudah ada mewakili
indeks
yang sudah
dikenal
dan
memerlukan validasi lebih lanjut. Centroid
clusters (G1) mempunyai korelasi tinggi
pada indeks yang sudah ada dan mewakili
varian dari indeks yang ada. Centroid ini
dapat digunakan sebagai alternatif jika
hasil prediksinya lebih baik dari indeks
yang sudah ada. Centroid clusters (G2 dan
G3) dengan korelasi sedang dan rendah
dapat mewakili fenomena yang baru dari
Bumi. Keempat cluster ditunjukkan pada
Gambar 10-13.
Gambar 11 G1: Cluster yang berkorelasi 0.4 0.8 dengan indeks yang sudah ada
Gambar 12 G2: Cluster yang berkorelasi 0.25 0.4 dengan indeks yang sudah ada
Gambar 13 G3: Clusters yang berkorelasi · 0.25
dengan indeks yang sudah ada
Gambar 10 G0: Cluster yang berkorelasi > 0.8
dengan indeks yang sudah ada
Gambar 10 menunjukkan cluster yang
menghasilkan sebagian indeks iklim yang
sudah ada.
Secara khusus, dapat
direplikasi empat indeks SST El Nino:
cluster 94 sesuai dengan NINO 1+2,
cluster 67 sesuai dengan NINO 3, cluster
78 sesuai dengan NINO 3.4, dan cluster 75
dengan NINO4. Korelasi cluster dengan
indeks yang sudah ada mencapai lebih dari
0,9, seperti yang ditunjukkan pada kolom
kedua dan ketiga dari Tabel 3. Selain itu,
cluster 67 sangat berkorelasi dengan
indeks CTI. Cluster 58 dan 59 sangat mirip
dengan indeks El Nino, dan berkorelasi
paling kuat dengan NINO 3 dan NINO
4. Tetapi korelasi mereka dengan indeks El
Nino tidak setinggi 4 cluster yang lain.
Cluster (G2 dan G3) memiliki tingkat
korelasi yang kurang baik dengan indeks
yang ada sehingga dapat dikatakan bahwa
indeks cluster ini mewakili fenomena ilmu
kebumian baru atau variasi dari fenomena
yang sudah ada. Beberapa dari centroid
cluster ini memiliki korelasi dengan area
pada Bumi yang lebih baik dari indeks
yang sudah ada.
Tabel 3 Korelasi antara indeks yang sudah ada
dengan cluster SST dan komponen SVD
Gambar 15 Cluster 62 vs. Indeks El Nino
Cluster yang berkorelasi dengan indeks
yang sudah ada, berfungsi sebagai varian
dari indeks yang tersebut. Secara khusus,
beberapa centroid clusters memberikan
hasil yang lebih baik, yaitu korelasi yang
lebih tinggi, untuk beberapa wilayah di
daratan. Hal ini dapat dilihat pada Gambar
14, yang membandingkan indeks El Nino
dengan yang cluster 29 (G1). Area kuning
menunjukkan area di mana centroid
clusters mempunyai korelasi yang lebih
tinggi,
sementara
daerah
biru
menunjukkan di mana indeks El Nino
memiliki korelasi yang lebih tinggi.
Gambar 14 Cluster 29 vs. Indeks El Nino
Hal ini bisa dilihat pada Gambar 15, yang
membandingkan indeks El Nino dengan
cluster 62 (G2). Area kuning menunjukkan
area di mana centroids klaster memiliki
korelasi yang lebih tinggi, sementara
daerah biru menunjukkan area di mana
indeks El Nino memiliki korelasi yang
lebih tinggi. Perhatikan bahwa cluster 62
lebih baik untuk melakukan prediksi
beberapa wilayah di Bumi daripada indeks
yang sudah ada.
6. KESIMPULAN
Terdapat
beberapa
teknik
untuk
menghilangkan komponen musiman dalam
data time-series kebumian. Beberapa dari
teknik tersebut efektif. Namun, masih ada
masalah
yang
berkaitan
dengan
autokorelasi dan efeknya pada korelasi
antara dua time series.
Meskipun telah dilakukan penghapusan
komponen musiman dan pengurangan
tingkat otokorelasi
secara
signifikan,
masih perlu dilakukan penelitian untuk
mempelajari teknik
yang lain dan
mengukur dampak dari setiap autokorelasi
yang tersisa.
Hasil analisis menunjukkan bahwa
centroids dari cluster data SLP dan SST
yang digunakan pada algoritma SNN
mempunyai korelasi dengan indeks iklim
yang sudah ada. Centroid tersebut dapat
memberikan hasil prediksi yang lebih baik
untuk beberapa area pada Bumi. Beberapa
centroid dapat menggambarkan fenomena
iklim yang baru. Hal ini tentu saja masih
memerlukan analisis lebih lanjut dari para
ahli.
Makalah ini menunjukkan bahwa data
mining dapat memainkan peran penting
dalam membantu para ilmuwan kebumian
untuk memahami baik perubahan dalam
skala
iklim
global,
proses
dan
biosfer. Selanjutnya, perbaikan teknik data
mining yang dilakukan selama penelitian
dapat digunakan pada domain lain, seperti
transportasi, bisnis, logistik, kesehatan
masyarakat, dan keselamatan umum.
REFERENSI
[1] Ganguly, A. , Steinhaeuser, K.(2008).
Data Mining for Climate Change and
Impacts
[2] Kumar, V. Discovery of Patterns in the
Global Climate System using DataMining
[3] Kumar, V. , Steinbach M. (2001).
Mining Scientific Data: Discovery of
Patterns in the Global Climate System.
[4] Next Generation of Data-Mining
Applications. Wiley-IEEE Press
[5] Rukmi, Alvida Mustika. (2009).
Pengklasteran Data Kategoris dengan
Algoritma Shared Neighbor.
[6] Steinbach, M. Tan, P. (2003).Discovery
of Climate Indices using Clustering
Download