Praproses dan Teknik Clustering pada Data Sistem Iklim Global M. Auriga Herdinantio Program Studi Teknik Informatika, Institut Teknologi Bandung Jl. Ganesha 10, Bandung E-mail : [email protected] ABSTRAK Data pada sistem iklim global merupakan jenis data time series yang mencatat berbagai variabel kebumian (kelembaban tanah, temperatur, dan curah hujan) ditambah dengan data dari model ekosistem yang ada model (NPP). Data ini memiliki komponen musiman yang kuat sehingga perlu dihilangkan sebelum melakukan analisis pola yang menggambarkan penyimpangan dari variasi musiman yang normal seperti anomali iklim atau trend. Terdapat beberapa alternatif (discrete Fourier Transform, monthly Z score dan moving average) untuk menghapus komponen musiman. Hal inilah yang akan dilakukan pada praproses data. Setelah tahapan praproses, proses clustering SNN (Shared Nearest Neighbour) diterapkan untuk membagi Bumi ke dalam zona-zona iklim. Hal ini dilakukan dengan cara mendapatkan indeks iklim yang baru untuk membedakan zona tersebut. Indeks yang didapat dari clustering bisa terbagi menjadi empat macam, yaitu indeks yang sangat mirip dengan indeks yang sudah ada, indeks yang cukup mirip dengan indeks yang sudah ada, indeks yang berbeda, dan indeks yang sangat berbeda dengan indeks yang sudah ada. Makalah ini merupakan jenis paper review yang akan membahas masalah-masalah dalam data sistem iklim global, tahapan praproses data dan proses clustering SNN pada data sistem iklim global. Kata kunci : discrete Fourie Transform, monthly Z score, moving average, clustering, indeks iklim. 1. PENDAHULUAN Satelit Pengamat Bumi milik NASA merupakan satelit yang dapat menghasilkan data dalam jumlah yang besar. Perilaku ekosistem bumi dapat diramalkan dan diketahui dengan menggunakan data hasil penginderaan jauh tersebut yang sebelumnya telah dikombinasikan dengan data dari model ekosistem [3, 4]. Namun, karena besarnya jumlah data yang tersedia diperlukan teknik data mining next generation untuk memfasilitasi ekstraksi dan menganalisis pola-pola yang menarik dari data tersebut [2]. Sangat sulit untuk mendapatkan pola dari data sistem iklim global karena data yang bersifat spatiotemporal [1]. Sifat spatio-temporal artinya data tersebut cepat berubah dan berasal dari berbagai macam lokasi. Untuk mengeksplorasi data kebumian, para peneliti telah menerapkan berbagai teknik data mining, seperti association rule untuk melihat tekstur dari citra satelit, klasifikasi jenis land cover, dan clustering untuk membagi zona iklim. Beberapa teknik data mining yang digunakan pada data kebumian beserta kegunaannya dapat dilihat pada tabel 1. Tabel 1 Beberapa teknik data mining dan kegunaannya Kegunaan Mengetahui perubahan Bumi Mengetahui faktor penyebab perubahan Bumi Prediksi perubahan Bumi Teknik Data Mining Principal Component Analysis (PCA), Cluster Analysis, Anomaly Detection, ARIMA time series, Trend Detection, Change Point Detection Correlation, Canonical Correlation Analysis, Association Analysis, Causal Regression, correlation Selain itu terdapat juga masalah munculnya siklus musiman dalam data sistem iklim global [3]. Oleh karena itu, variasi yang diakibatkan pengaruh musiman tersebut harus dihilangkan, karena ilmuwan kebumian sering menghubungkan peristiwa-peristiwa ekologis dengan kondisi iklim anomali yang terjadi di belahan bumi yang lain. Misalnya, selama terjadi El-Nino, permukan laut Pasifik bersuhu hangat, namun bagian timur Australia mengalami kondisi kekeringan yang parah. Peristiwa anomali dapat terjadi hanya jika komponen musiman dari time-series dihapus. Alasan lain menghapus variasi musiman adalah untuk membuat time-series lebih stasioner. Fenomena iklim yang terjadi di satu lokasi di Bumi dapat mempengaruhi iklim di lokasi yang lain. Sangat penting untuk memahami hubungan telekoneksi iklim ini untuk menemukan jawaban atas pertanyaan-pertanyaan seperti bagaimana perubahan iklim bumi dan bagaimana ekosistem merespons perubahan lingkungan global. Sebuah cara yang umum untuk mempelajari telekoneksi tersebut adalah dengan menggunakan indeks iklim untuk menyaring variabilitas iklim pada skala regional atau global ke dalam satu time series. Sebagai contoh, indeks NINO 1+2, adalah indeks iklim yang terkait dengan fenomena pemanasan yang anomali di wilayah tropis Pasifik timur. El Nino telah terkait dengan anomali iklim di berbagai belahan dunia seperti kekeringan di Australia dan hujan deras sepanjang pantai timur Amerika Selatan. Gambar 1 menunjukkan korelasi antara indeks NINO 1+2 dan anomali suhu daratan, yang merupakan penyimpangan dari mean. Perhatikan bahwa indeks ini sangat berkorelasi dengan anomali suhu daratan di pantai barat Amerika Selatan, tidak mengejutkan mengingat kedekatan daerah ini ke wilayah laut. Gambar 1 Indeks iklim NINO 1+2 dan korelasinya pada anomali temperatur daratan Tekanan suhu permukaan laut (SLP) dan temperatur suhu permukaan laut (SST) paling sering digunakan untuk membuat indeks iklim. Indeks ini dapat mempermudah penemuan hubungan antar SST, SLP, temperatur daratan dan hujan. Variabel-variabel ini berdampak pada pertumbuhan tanaman dan siklus karbon global. Pada bagian pendahuluan makalah akan dijelaskan permasalahan yang ada pada data sistem iklim global. Bagian deskripsi data akan menjelaskan data yang akan dipakai berikut bentuk dan jumlahnya. Bagian praproses akan menjelaskan teknik-teknik yang dapat dipakai untuk menghilangkan komponen musiman. Bagian teknik clustering akan menjelaskan teknik SNN yang dipakai untuk mengetahui indeks iklim yang baru. Hasil penerapan dan analisis teknik SNN akan dijelaskan pada bagian analisis dan hasil. Kesimpulan yang didapat akan dijelaskan pada bagian kesimpulan makalah. dan global. Sebagai contoh, berbagai indeks El Nino, seperti ANOM1+2 dan ANOM3.4, telah ditetapkan untuk mengukur anomali suhu permukaan laut di berbagai daerah di lautan. Beberapa indeks iklim yang terkenal ditunjukkan pada tabel 2. Tabel 2 Beberapa Indeks Iklim yang sudah ada 2. DESKRIPSI DATA IKLIM Data kebumian terdiri dari urutan snapshot global Bumi yang diambil dari berbagai titik dalam suatu waktu [4]. Setiap snapshot terdiri dari nilai-nilai pengukuran untuk sejumlah variabel (misalnya, suhu, tekanan, dan curah hujan) dan dikumpulkan secara global. Semua atribut data di dalam snapshot global direpresentasikan dengan menggunakan spatial framework. Spatial framework adalah pembagian permukaan bumi menjadi daerah yang saling memisahkan daratan Bumi. Snapshot global yaitu nilai-nilai variabel untuk setiap lokasi dalam kerangka spasial yang tersedia untuk waktu tertentu. Nilainilai variabel merupakan hasil pengamatan dari berbagai sensor, seperti curah hujan dan suhu permukaan laut (SST), atau hasil dari model prediksi, seperti NPP dari model CASA. Berbagai kemungkinan dan permasalahan digambarkan melalui time series SST (Sea Surface Temperature) pada Gambar 3. Time series dapat dibakukan dengan cara mengurangi nilainya dan membaginya dengan standar deviasi. Hal ini dilakukan untuk menampilkan beberapa time series pada satu plot tanpa efek distorsi skala. Gambar 4 menunjukkan versi standar SST time series yang terlihat sangat mirip dengan serial aslinya pada Gambar 3. Gambar 3 SST Time Series Gambar 2 Snapshot Global Selain itu, para ilmuwan kebumian telah mengembangkan standar indeks (time series) yang menangkap perilaku dari berbagai variabel iklim pada skala regional Gambar 4 SST Time Series standar yang asli dapat diubah dari domain waktu ke domain frekuensi, sehingga lebih mudah untuk melihat frekuensi mana yang membentuk sinyal. Spektrum dari time series dapat dengan mudah dihitung dari seri yang berubah, seperti yang ditunjukkan pada Gambar 5. Titik puncak pada poin 12 dan 132 menunjukkan bahwa ada komponen tahunan yang kuat. Menghapus komponen tahunan ini dan melakukan invers transformasi fourier menghasilkan time series baru yang seharusnya tidak memiliki komponen musiman. Monthly Z Score Gambar 5 Power Spectrum Sampel SST Time Series 3. PRAPROSES DATA Para ilmuwan kebumian tertarik untuk meneliti pola-pola deviasi dari variasi musiman normal. Misalnya siklus tertentu (El Nino), siklus jangka panjang (osilasi decadal), atau trend (pemanasan global). Penyimpangan tersebut dapat mempengaruhi data, sehingga perlu dihilangkan sehingga pola menarik yang lain dapat diketahui. Transformasi ini memerlukan himpunan nilai untuk bulan tertentu (misalnya semua nilai pada bulan Januari), menghitung nilai mean dan standar deviasi dari himpunan nilai tersebut, kemudian melakukan standardisasi setiap nilai dengan menghitung nilai Z, yaitu dengan mengurangkan nilai mean dan membaginya dengan deviasi standar [6]. Walaupun cara ini mirip dengan pendekatan pertama, tetapi sebenarnya berbeda karena yang digunakan adalah nilai mean bulanan dan deviasi standar bulanan, bukan mean keseluruhan dan deviasi standar. Dengan kata lain, setiap nilai data pada time series dalam bentuk deviasinya dari nilai rata-rata untuk bulan yang bersesuaian, dinyatakan dan diskalakan oleh faktor volatilitas untuk bulan itu. Beberapa tranformasi berikut dapat dipakai untuk menghilangkan variasi musiman: discrete Fourier transform (DFT), “monthly” Z score, dan moving average. Filter DFT (Diskrit Fourier Transform) Pendekatan ini didasarkan pada teknik pemrosesan sinyal standar [3]. Dengan menggunakan pendekatan ini, time series Gambar 6 Penerapan monthly Z score dan DFT Filtering Rescaling per bulan yang digunakan dalam transformasi ini menyebabkan fluktuasi musiman menghilang. Selanjutnya, scaling oleh deviasi standar bulanan membuat perubahan yang lebih bagi bulan yang memiliki volatilitas rendah Gambar 6 memperlihatkan hasil dari penerapan monthly Z score dan filtering DFT untuk sampel SST time series. Hasil kedua transformasi ini hampir hasil identik, dan korelasi dari dua seri ini adalah 0,98. Meskipun terdapat point dalam data set, korelasi antara time series monthly Z score dan filtering DFT hanya 0,5 untuk sebagian besar data. diperlihatkan dalam Gambar 8. Korelasi antara dua time series adalah 0,99. Jadi moving average dapat digunakan untuk memperbaiki time series yang diperoleh dengan terlebih dahulu menerapkan monthly Z score pada time series yang sama. Moving Average Moving average efektif untuk menghilangkan komponen musiman dan juga dapat memperbaiki data [3]. Untuk dapat mengetahui mengapa moving average dapat menghilangkan frekuensi tertentu, lihatlah bahwa rata-rata sebuah sinus atau kosinus periodenya adalah 0. Namun, hal itu cenderung untuk meratakan setiap penyimpangan dari nilai rata-rata dengan menyebar efek devisasi pada tetangganya. Sebagai perbandingan, Gambar 7 menunjukkan monthly Z score dan transformasi moving average pada time series SST. Gambar 7 menunjukkan bahwa jika fluktuasi frekuensi tinggi dalam time series disebabkan faktor luar, maka time series moving average harus mirip dengan time series monthly Z score. Gambar 7 Monthly Z score dan moving average Untuk mengilustrasikannya, moving average diaplikasikan pada monthly Z score. Hasilnya, bersama dengan time series moving average dari Gambar 7, Gambar 8 Monthly Z score diperhalus dengan 12-month moving average Korelasi antara kedua pendekatan ini tidak selalu cukup tinggi, tapi fenomena ini tampaknya terjadi dalam banyak kasus. Untuk lebih mengerti fenomena ini, perhatikan sebuah time series x = {x1,x2,..,x144}. P = {p1,p2,p3,...p132} adalah time series moving average untuk x dan q = {q1,q2,...,q132} adalah moving average pada Z-score untuk x. Perhatikan bahwa : Dimana x13 dan x1 distandardisasi dengan mean bulanan yang sama (ui) dan deviasi standar bulanan (o1). Analisis di atas tersebut menyimpulkan bahwa perbedaan diantara titik yang berurutan pada Z-score proporsional dengan poin pada moving average, yang diskalakan dengan deviasi standar bulanan. Dengan demikian korelasi antara p dan q seharusnya tinggi jika volatilitas deviasi standar bulanan rendah. 4. TEKNIK CLUSTERING Penggunaan clustering didorong oleh pemikiran bahwa fenomena iklim melibatkan wilayah yang signifikan dari lautan atau atmosfer dan fenomena akan 'lebih kuat' jika melibatkan suatu wilayah di mana perilakunya relatif sama dengan seluruh wilayah [3]. Berbagai teknik clustering dapat digunakan pada data kebumian. Misalnya pendekatan mixtured digunakan untuk mengidentifikasi struktur klaster pada data tekanan atmosfer, ACTS (Automatic Classification of Time Series) digunakan untuk klasifikasi daratan, dan versi modifikasi dari algoritma clustering hirarki digunakan untuk penggunaan lahan segmentasi. Selain itu, algoritma K-means dan DBSCAN juga dapat digunakan pada investigasi data kebumian. Dalam makalah ini akan dijelaskan pendekatan algoritma clustering SNN (Shared Nearest Neighbour) untuk mendapatkan indeks iklim yang baru. Pertama-tama teknik ini akan mencari tetangga terdekat dari setiap point dan kemudian mengubah kesamaan antara pasang poin dalam hal banyaknya tetangga terdekat antara dua poin. Menggunakan kesamaan ini, algoritma akan mengidentifikasi poin inti dan kemudian membangun cluster di sekitar point inti [5]. Shared Nearest Neighbour (SNN) digunakan untuk menemukan cluster yang homogen. Masing-masing cluster dapat ditandai oleh centroid, yaitu mean dari semua time series yang menggambarkan point lautan pada cluster. Centroid inilah yang akan menggambarkan indeks iklim yang potensial. Cluster yang dihasilkan point yang berasal dari daerah yang kerapatannya relatif seragam. Algoritma SNN dapat menghasilkan cluster berkualitas tinggi, yang selalu berdampingan secara geografis. Untuk mengevaluasi indeks iklim yang potensial di lautan, dibutuhkan ukuran numerik dari derajat asosiasi antara perilaku kandidat indeks iklim dan iklim daratan. Ilmuwan kebumian biasanya menggunakan korelasi untuk mengukur derajat asosiasi antara dua time series. Secara umum, time series digunakan sebagai indeks jika dapat menunjukkan korelasi perilaku wilayah daratan dengan baik dan jika korelasi yang baik tersebut dapat dibandingkan dengan indeks yang telah ada. Untuk mengevaluasi pengaruh indeks iklim di daratan digunakan korelasi pembobotan area, yang merupakan bobot rata-rata dari korelasi indeks iklim pada daratan. Korelasi pembobotan area dihitung dengan cara sebagai berikut. Pertama-tama dihitung korelasi time series dari kandidat indeks iklim dengan time series yang terkait dengan setiap point pada daratan. Kemudian dihitung rata-rata bobot dari korelasi absolut masing-masing point pada daratan. Didapat hasil korelasi pembobotan area paling besar adalah 1, tapi biasanya jauh lebih rendah. Nilai minimum korelasi pemboboran area adalah 0. 5. ANALISIS DAN HASIL Data yang digunakan untuk teknik SNN clustering ini merupakan data dari tahun 1958-1998. Terdapat 107 cluster yang didapatkan oleh teknik cluster SNN, seperti yang ditunjukkan pada Gambar 9. Perhatikan bahwa grid point dari lautan tidak termasuk dalam cluster manapun, point ini berasal dari daerah yang relatif tidak sama dan homogen. Semua cluster dengan korelasi pembobotan area yang rendah akan dihilangkan untuk mendapatkan kandidat indeks yang baik. Sisa centroid cluster yang tidak dihilangkan merupakan kandidat indeks iklim. Gambar 9. 107 Cluster Untuk mengevaluasi kandidat indeks lebih lanjut, centroid clusters dibagi menjadi 4 kelompok, G0, G1, G2, dan G3, tergantung dari korelasi centroid cluster dengan indeks yang sudah diketahui [6]. Centroid clusters (G0) sangat berkorelasi dengan indeks yang sudah ada mewakili indeks yang sudah dikenal dan memerlukan validasi lebih lanjut. Centroid clusters (G1) mempunyai korelasi tinggi pada indeks yang sudah ada dan mewakili varian dari indeks yang ada. Centroid ini dapat digunakan sebagai alternatif jika hasil prediksinya lebih baik dari indeks yang sudah ada. Centroid clusters (G2 dan G3) dengan korelasi sedang dan rendah dapat mewakili fenomena yang baru dari Bumi. Keempat cluster ditunjukkan pada Gambar 10-13. Gambar 11 G1: Cluster yang berkorelasi 0.4 0.8 dengan indeks yang sudah ada Gambar 12 G2: Cluster yang berkorelasi 0.25 0.4 dengan indeks yang sudah ada Gambar 13 G3: Clusters yang berkorelasi · 0.25 dengan indeks yang sudah ada Gambar 10 G0: Cluster yang berkorelasi > 0.8 dengan indeks yang sudah ada Gambar 10 menunjukkan cluster yang menghasilkan sebagian indeks iklim yang sudah ada. Secara khusus, dapat direplikasi empat indeks SST El Nino: cluster 94 sesuai dengan NINO 1+2, cluster 67 sesuai dengan NINO 3, cluster 78 sesuai dengan NINO 3.4, dan cluster 75 dengan NINO4. Korelasi cluster dengan indeks yang sudah ada mencapai lebih dari 0,9, seperti yang ditunjukkan pada kolom kedua dan ketiga dari Tabel 3. Selain itu, cluster 67 sangat berkorelasi dengan indeks CTI. Cluster 58 dan 59 sangat mirip dengan indeks El Nino, dan berkorelasi paling kuat dengan NINO 3 dan NINO 4. Tetapi korelasi mereka dengan indeks El Nino tidak setinggi 4 cluster yang lain. Cluster (G2 dan G3) memiliki tingkat korelasi yang kurang baik dengan indeks yang ada sehingga dapat dikatakan bahwa indeks cluster ini mewakili fenomena ilmu kebumian baru atau variasi dari fenomena yang sudah ada. Beberapa dari centroid cluster ini memiliki korelasi dengan area pada Bumi yang lebih baik dari indeks yang sudah ada. Tabel 3 Korelasi antara indeks yang sudah ada dengan cluster SST dan komponen SVD Gambar 15 Cluster 62 vs. Indeks El Nino Cluster yang berkorelasi dengan indeks yang sudah ada, berfungsi sebagai varian dari indeks yang tersebut. Secara khusus, beberapa centroid clusters memberikan hasil yang lebih baik, yaitu korelasi yang lebih tinggi, untuk beberapa wilayah di daratan. Hal ini dapat dilihat pada Gambar 14, yang membandingkan indeks El Nino dengan yang cluster 29 (G1). Area kuning menunjukkan area di mana centroid clusters mempunyai korelasi yang lebih tinggi, sementara daerah biru menunjukkan di mana indeks El Nino memiliki korelasi yang lebih tinggi. Gambar 14 Cluster 29 vs. Indeks El Nino Hal ini bisa dilihat pada Gambar 15, yang membandingkan indeks El Nino dengan cluster 62 (G2). Area kuning menunjukkan area di mana centroids klaster memiliki korelasi yang lebih tinggi, sementara daerah biru menunjukkan area di mana indeks El Nino memiliki korelasi yang lebih tinggi. Perhatikan bahwa cluster 62 lebih baik untuk melakukan prediksi beberapa wilayah di Bumi daripada indeks yang sudah ada. 6. KESIMPULAN Terdapat beberapa teknik untuk menghilangkan komponen musiman dalam data time-series kebumian. Beberapa dari teknik tersebut efektif. Namun, masih ada masalah yang berkaitan dengan autokorelasi dan efeknya pada korelasi antara dua time series. Meskipun telah dilakukan penghapusan komponen musiman dan pengurangan tingkat otokorelasi secara signifikan, masih perlu dilakukan penelitian untuk mempelajari teknik yang lain dan mengukur dampak dari setiap autokorelasi yang tersisa. Hasil analisis menunjukkan bahwa centroids dari cluster data SLP dan SST yang digunakan pada algoritma SNN mempunyai korelasi dengan indeks iklim yang sudah ada. Centroid tersebut dapat memberikan hasil prediksi yang lebih baik untuk beberapa area pada Bumi. Beberapa centroid dapat menggambarkan fenomena iklim yang baru. Hal ini tentu saja masih memerlukan analisis lebih lanjut dari para ahli. Makalah ini menunjukkan bahwa data mining dapat memainkan peran penting dalam membantu para ilmuwan kebumian untuk memahami baik perubahan dalam skala iklim global, proses dan biosfer. Selanjutnya, perbaikan teknik data mining yang dilakukan selama penelitian dapat digunakan pada domain lain, seperti transportasi, bisnis, logistik, kesehatan masyarakat, dan keselamatan umum. REFERENSI [1] Ganguly, A. , Steinhaeuser, K.(2008). Data Mining for Climate Change and Impacts [2] Kumar, V. Discovery of Patterns in the Global Climate System using DataMining [3] Kumar, V. , Steinbach M. (2001). Mining Scientific Data: Discovery of Patterns in the Global Climate System. [4] Next Generation of Data-Mining Applications. Wiley-IEEE Press [5] Rukmi, Alvida Mustika. (2009). Pengklasteran Data Kategoris dengan Algoritma Shared Neighbor. [6] Steinbach, M. Tan, P. (2003).Discovery of Climate Indices using Clustering