PREDIKSI KECENDERUNGAN KONSUMEN DALAM MEMILIH JENIS KENDARAAN (RODA EMPAT) RERDASARKAN SPESIFIKASI KENDARAAN MENGGUNAKAN Decision Tree DENGAN METODE Gini Mahbllblll Wathoni PROGRAM STUD! MATEMA TIKA JURUSAN MIPA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS ISLAM NEGI~RI SYARIF IDDAYATULLAH JAKARTA 2006 M /1427 H PREDIKSI KECENDERUNGAN KONSUMEN DALAM MEMILIH JENIS KENDARAAN (RODA EMPAT) BERDASARKAN SPESIFIKASI KEN]JIARAAN MENGGUNAKAN Decision Tree DENGAN METODE Gini Oleh: rvwmuBuL WATHONI 102094026456 "["l lJ I~ Skripsi Stbagai Salah Salu Syaral untuK Memptrolch Gdar Smjana Sains Fakultas S~ins dan Teknologi Uniwrsitas Islam Neotri SvarifHidavatullah Jakarta b '" . '" PROGRAM STUDI MATEMATIKAJURUSAN MIPA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS ISLAM NEGERI SYARIF HlDAYA1ULLAH JAKA.RTA 2006 M / 1427 H Perumpamaan petunjuk dan ilmu akan ditulis Allah untuk membawanya laksana air hujan yang sangat lebat menyirami bumi, diantara tanah (bumi) itu terdapat tanah yang layak menerima air, kemudian menumbuhkan pepohonan dan rerumputan yang banyak. Ada pula ada tanah yang keras, sehingga dapat rr.enampung air, sehingga t'mah semacam ini memberi manfaat kepada manusia. (H.R. Bukhari dan Muslim dari Abi Musa) Al Fathul Kabir, Jilid lH,h,133 PREDIKSI KECENDERUNGAN KONSUMEN DALAM MEMILIH JENIS KENDARAAN (RODA EMPAT) BERDASARKAN SPESIFIKASI KENDARAAN MENGGUNAKAN Decision Tree DENGAN METODE Gini Skripsi Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Sains Pada Fakultas Sains dan Teknologi Universitas Islam Negeri SyarifHidayatuIlah Jakmia Oleh: Mabbllblll Watboni 102094026467 Menyetujui, Pembimbing II Pembimbin I /2ft Taufik Edy Sufan 0, M.SeTech NIP. 150377 447 Dr. Agns Salim, M.Si NIP. 150294451 Mengetahui, Kelua Jurusan MIPA Dr. Agus Salim, M.Si NIP. 150294451 PROGRAM STUm MATEMATIKA JURUSAN MIPA FAKULTAS SAINS DAN TEKNOLOGI UIN SYARIF HIDAYATULLAH JAKARTA Dengan ini menyatakan bahwa skripsi yang ditulis oleh : Nama Mahbubul Wathoni NIM 102094026467 Program Studi Matematika Judul Skripsi Prediksi Kecenderungan Konsumen Dalam Memilih Jcnis Kcndaraan (Roda Empai) Bcrdasarkan Spesifikasi Kendaraan Menggunakan Decision Tree Dengan Metode Gini. Dapat diterima sebagai syarat kelulusan untuk memperoleh gelar Sarjana Sains pada Program Studi Matematika Jurusan MIPA, Fakultas Sains dan Teknologi UIN Syarif Hidayatu!lah JakaJta. Jakarta, 19 Novcmber 2006 Menyetujui, Dosen Pembimbing Pembimbing 2 ~(;:Z Dr. Agus Salim, M.Si NIP.. 150294451 Mcngctahui, Dekan FakultasS,' s dan Teknologi Ketua Jurusan MIPA ~M" NIP. 150294451 PENGESAHAN UJIAN Skripsi yang berjudul "Prediksi Kecenderungan Konsumen Dalam Memilih Jenis Kendaraan (Roda Empat) Berdasarkan Spes[jikasi Kendaraan Menggunakan Decision Tree Dengan Metode Gini.". Telah dinji dan dinyatakan lulus dalam sidang munaqosyah Fakultas Sains dan Teknologi, Universitas Islam Negeri Syarif Hidayatullah JakaIia, pada had Jum'at 17 November 2006, Skripsi ini telah diterima scbagai salah satu syarat untuk mempcrolch gclar sarjana strata satu (S I) pada Program Studi Matematika Jurusan MIPA, Jakarta, 19 November 2006 Tim Pcnguji, Penguji 1 Pcnguji 2 Suherman, M.Si l'fur Inayah, S.Pd, M.Si NIP. ISO 326 911 Mcngctahui, DekaIl F:lkullta"~1i'ns dan Teknologi h Ja a Putra M.Sis . NIP. 150 317 965 PERNYATAAN DENGAN INI SAYA MENYATAKAN BAHWA SKRIPSI INI BENAR-BENAR HASIL KARYA SENDIRI YANG BELUM PERNAH DIAJUKAN SEBAGAI SKRIPSI ATAU KARYA ILMIAH PADA PERGURUAN TINGGI ATAU LEMBAGA MANAPUN. Jakarta, 19 November 2006 ~~~ Mahbubul Wathoni 102094026467 ABSTRACT The world of business has always been full of competitions. The executors think relentlessly of the way to get survived. Fortunately. in the modem business world, there is valuable data warehouse that could be utilized to generate new knowledge to help the executives in arranging their business strategies. The knowledge generator. which is data mining technology. would be introduced to the readers. This paper presents the business problems to be solved and th,e foundations of data mining: the usage, how data mining works. the tasks, and the popular methods (decision tree. classification.). The result shows tendency of a consumer to buy heir favorite vehicle in the reality is not influenced by purchasing level of the costomer, but from its this finding Support the hypothesis that Indonesian people do prefer brand than of her factors. Keywords: Data Mining, Decision Tree, Algoritma CART, Product Marketing ABSTR-\K MAHBUBUL WATHONI, Prediksi Kecenderungan Konsumen Oalam Memilih Jenis Kendaraan (Roda Empat) Berdasarkan Spesifikasi Kendaraan Menggunakan Decision Tree Ocngan Mctodc Gini. (Oi bawah bimbingan TAUFIK EDY SUTANTO, M.ScTech. dan Dr. AGUS SALIM, M.SL). Oalam dunia bisnis yang penuh persaingan membuat para pelakunya harus selalu mcmikirkan stratcgi-stratcgi tcrobosan yang dapat mcnjamin kclangsungan bisnis mereka. Salah satu aset utama yang dimiliki oleh perusahaan masa kini adalah data bisnis dalam jumlah yang banyak. Hal ini melahirkan kebutuhan akan adanya teknologi yang dapat memanfaatkannya untuk membangkitkan "pengetahuanpengetahuan" baru, yang dapat membantu dalam pengaturan strategi bisnis. Teknologi data mining hadir sebagai solusi. Skripsi ini akan mengulas pcrmasalahan bisn;s yang ada dan dasar-dasar desicion tree melalui bahasan kegunaan, cara kerja dan metodologi-metodologi populer pada teknologi ini (pohon keputusan, klasifikasi, regresi), Desicion tree yang digunakan adalah Classification and Regression Trees. Dari pengolahan Dat.a PT. OTO MULTIARTA yang merupaksn dat"! dari tahun 2004 sampai 2005 dinyatakan bahwa, kencenderungan seorang konsum.;n ulltuk mcmbcli kcndaraan yang diinginkan tcmyata bukanJah dipcngaruhi olch tingkat pembelian seorang konsumen (harga). Hal ini mcmpertegas dugaan pandangan di masyarakr ptang sifat konsumen di Indonesia. Kata Kunci : Data Mining, Decision Tree, Algoritma CART, Pemasaran Produk KATA PENGANTAR Puja dan puji serta syukur saya panjatkan kehadirat Allah SWT. Atas segala karuniyanya hingga penulis dapat menyelesaikan skripsi ini. Shalawat serta salam keeintaan hanya tereurahkan kepada junjungan Nabi besar Muhammad SA W. Semoga kita semua mendltpatkan syafaatnya baik didunia maupun diakherat kelak. Amin. Atas izin Allah SWT disertai denga'l usaha yang maksimal penulis dapat menyclesaikan skrips! ini. Meskipun demik!an, !)cnulis s"dar bahwa rlalam mengerjakan skripsi ini p<:nulis banyak dibantu oJeh berbagai pih&k. O!eh karena itl! pada kesempatan ini ;Jenulis ingin mengneapkan terima kasih yang sebGsarbesamya kepada : I. Bapak Dr. Syopiansyah Jaya Putrlt, M.sis. Dekan Fakultas Sains dan Teknologi. 2. Bapak AgllS Salim. M.Si. Ketua Jurusan MIPA sekaligas dosen pembimbing II dan penasehat akademik penulis. Terima kasih alas nasehat d:m bimbingan selama saya kuliah di Fukultas Sains dan Teknologi Jurusan MIPA Program Studi Matematika. 3. Bapak Taufik Edy Sutanto, M.SeTeeh. Dosen pembimbing I. Penulis mengueapkan terima kasih alas bimbingan yang telah bapak berikan. 4. Ibu Nur Inayah, S.Pd, M.Si. Ketua Prodi Matematika yang telah memberikan bimbingan den saran-saran daIam penyusunan skripsi penulis. 5. Seluruh dosen Jurusan MIPA Program Studi Matematika yang sudah mengajarkan ilmu-ilmu yang bermanfaat bagi penulis selama penulis kuliah. 6. Seluruh staf akademik dan Lab Pusat Lab Terpadu Fakukltas Sains dan Teknologi diantaranya Pak Agus Budiono, Pak Aminn, Pak Ade Candra, Pak Edi. Pak Yusuf, Pak Hari Satria, Pak Gunadi, Bu Opah, Mba Fitroh dan semuanya yang tidak dapat penulis s~butkan satu-persatu, yang dengan sabar melayani masalah administrasi mahasiswa Ju~usan MIPA Program Studi Matematika khususnya penulis sendiri. 7. Ibu dan Bapak serta Kakak-kakaku yang tercinta juga seluwh kc!uarga besarku yang selalu membcrikan do'a dan scmangat yang tiada hCl1tinya. 8. Teman-te;nan mahasiswa Matematika angkatan 2002 khususnya Andi Nur Rahman, Hata Maulana, Bambang Ruswandi, M. Farid Fr, Sopirizal, Munaqin. Maya Destia, Haryani Chotijah, Indri, Maya, Cie-eie, Bulan Oktrima dan teman-temanku lainnya yang tidas dapat penulis sebutkan satu persatu. 9. Teman-teman mahasiswa Matemati:,a angkatan 2003, 2004 dan 2005 yang senantiasa memberikan dorongan moril kepada penulis. Penulis menyadari bahwa masih banyak kelemahan dan kekurangan yang terdapat dalam skripsi ini, yang masih harus diperbaiki. Akhir kata penulis berharap semoga skripsi iili dapat bemlanfaat bagi kita semua. Jakarta, 18 November 2006 Penulis DAFTARISI Halaman HALAMAN JUDUL.. . KATA PENGANTAR . ii DAFTAR lSI . iv DAFTAR TABEL . vii DAFTAR DIAGRAM . viii DAFTAR LAMPlRAN BAB l. PENDAJ-lULUAN 1.1. Latar Belakang 1.2. Perumusan Masalah 1.3. IX . . .. 3 Tujuan Penelitian . 3 1.4. Manfac.t Penclitian .. 3 1.5. Pembatasan Masalah . 4 BAB II. KONSEP DAN DEFINISI .. 5 2.1. Deffinisi Data Mining .. 5 2.2. Teknik Data Mining .. 7 2.3. Tahapan Data Mining .. 9 2.3.1. Association Rule Mining . 9 2.3.2. Klasifikasi 10 2.3.2. Regresi 13 2.3.4 Clustering 14 2.4. Decision tree 2.5. Classification and Regression Trees (CART) .. '" \5 17 BAB 111. METODOLOGI PENELlTIAN 3.1. 19 Pengolahan Data ., 29 3.1.1. Proses Screening Data.... 19 3.2. Data yang diperlukan 3.3. Pengolahan Data.... 26 3.3.1. Pendeiinisian Masalah 26 3.3.2. Mengerti dan memperkirakan kualitas data. 27 3.3.3. Pengeksplorasian data 3.4. '" 25 ,................. 27 3.3.4. Pemilihan teknik pennodelan 27 3.3.5. Persiapan data untuk permodelan 28 3.3.6. Evaluasi model...................... 28 Proses pengolahan data untuk mengetahui pola yang tersembunyi. 28 BAB IV. ANALISA DAR! SCREENING DATA BASE 30 4.1. Proses Pembentukan Model Untuk Mengetahui Pola Yang Tersembunyi ,..................... 4.2. Proses pengolahan data 32 4.2.1. Proses model system bahan bakar/fule system............... 4.2.2. Model laku (banyaknya yang terjual) 30 .. 33 39 4.2.3. Model kathasil(harga yang dipilih oleh kOllsumcn) 43 4.2.4. Modeljkendaraan Genis kendaraan) /............... 48 . 53 BAB V KESIMPULAN 5.1. Kesimpulan 53 5.2. Saran........................................................................ 54 DAFTAR PUSTAKA 57 LAMPlRAN 59 DAFTAR TABEL Halaman 'label 3.1. ........................................................................... 21 Tgbel32. . 22 Tabe: 3.3. . 23 'label 3.4. . 24 Tabei4.1. .......................................................................... 37 T"beI4.2. . 42 'label 4.3. .. 46 T?beI4.4. ...................................................................... 50 DAFTAR DIAGRAM Halaman 16 Gambar 2.1. Gambar 3.1 , 27 Gambar 4.1. 35 Gambar 4.2. 36 Cambar 4.3. 41 Gambar 4.4 _..................... 44 Gambar 4.5. 45 GamlJar4.6. 49 GamlJar 4.7. 49 DAFTAR LAMPIRAN Halaman Lampiran I Perubahan ni!ai kategorik harga kendaraan.......................... 58 Lempirc:n 2 Daio. PT. OTO l\1CLTIARTHA 63 Laml'iran 3 Pcngidisialan Variabel 67 BABI PENDAHULUAN 1.1. Latar Belakang Masalah Teknologi komputasi dan media penyimpanan tel~h memungkinkan manusia untuk mengcmpulkan dan menyimpan data dari berbagai sumber dengan banyaknya data berskala besar. Pada bidang pemasaran produksi kendaraan roda empat saat ini, persaingan di beberapa industri tidak terlepas dari pemanfaatan kemajuan teknologi infonn~si d~Iam pemasaran disebuah perusahaan, salah satunya pemanf.'Ultan teknologi sistem membantu kegiatan penjualan d~n database[l]. Database perusahaan yang meliputi proses pen,iuulan dan pemasarar., pada saat ini belum dirasakan mar,faatnya seeara optimal oIeh pihak PT. OTO MUlTIARTHA untuk daput digunakan dalam mengambil keputusan. Dengan menggunakan teknik dalam Data Mining, peneIitian ini berusaha untuk membantu pihak PT. OTO MULTIARTHA dalam menentukan strategi dan solusi keputusan yang cocok dalam meningkatkan pelayanan dan mempertahankan pelanggan. Pe'111asalahan lainnya yang dihadapi oleh pihak PT. OTO MULTIARTHA yaitu bagaimana mempertahankan mengeluarkan biaya tinggi pelanggan yang telah ada dengan tidak Customer Relation Manager (CRM). Untuk mengurangi biaya tinggi akibat menurunnya daya pembeJian konsumen, maka dilakukan pemodelan dengan menggunakan Metode Gini untuk menganalisis dan memprediksi pelanggan mana yang paling besar kemungkinal1nya untuk mcmbcli scbuah kendaraan roda cmpat dengan karakteristik kcndaraan tertentu. Pengertian Data Mining digunakan untuk mendefinisikan suatu proses pencari'ln otomatis terhadap infonnasi yang menarik dan berguna dalam suatu basis data yang dititik beratkan pada pencmuan pola yang sulit atau bahkan tidak mungkin dilakukan dengan mekanisme query database standar [2]. Classification Data Mining adalah salah satu tipe Data Mining yang bertujuan untuk menemukan pola k!asifikasi variabel-variabel yang memprediksi suatu variabel target. Pendekatan ini dapat digunakan untuk memprediksi respon konsumen terhadap pengadaan kendaraan roda empat di Perusahaan OTO MT JLTIART!-IA. A!goritma CART telah I&ma digunakan untuk tujuan raemoentuk suatu Decision Tree dalam rangka penemuan pola klasifikasi variabel [3]. Learning sample digunakan untuk membentuk model tree dengan menggunakan algorilmd oemisah tertentll yang akan memis&hkan learning sample menjadi dua subgmp (node) ,ceara rekursif atau bertingkat hingga ;neneapai terminal node (leaf). Mdihat tun,utan dan kebutuhan sumber daya manusia Sallt ini, Perkembangan Data Mining yang san~at pesat tidak terlepas dari perkembangan teknologi infonnasi yang memungkinkan data dalam jllmlah besar dapat terakumlilasi. Sebagai eontoh, PT. OTO MULTIARTHA yang menyimpan data pada setiap penjualan kendaraannya. Database penjualan tersebut adalah sebuah penjualan yang berskala besar, Tetapi pertumbuhan yang pesat dari akllmlilasi data itu telah meneiptakan kondisi yang sering diistilallkan sebagai "rich of data but poor of i'iformation [4]" karena data yang terkllmpul itu tidak dapat digllnakan untuk aplikasi yang berguna, tidak jarang kumpulan data itu dibiarkan begitu saja 3c~kan-akan sebuah 1.2. kuburan data. Perumusan Masalab Pennasalahan yang akan dikaji dalam penelitian ini adalah : I. Penearian infonnasi sebanyak mungkin dari data.base PT. OTO. MLTLTlARTHA. 2. Penentuan variabel-variabel prediktor yang sangat berpengaruh dan dapat mempengaruhi variabel target tertentu. 1.3. Tujuan Penelitian Tujuan pengola;lan database dengan menggunakan pendekatan data mining adalah: 1. Mer.getahui infonnasi-informasi penting yang terkandung dalam kumpulan data di PT. OTO 'I1ULTIARTHA guna mendukung kebij~kan yang akan diambil perusahaan atau konsumcn. 2. Mengetah:.:i predik'tor-prediktor terpenting ya,lg berpengaruh terhadap suatu variabel target guna mendefinisikan program kerja perusahaan. 1.4. Manfaat Penelitian Manfaat pengolahan database dengan menggunakan pendekatan data mining dapat digunakan untuk mengambil suatu kebijakan yang tepat berdasarkan informasi-infonnasi penting yang didapatkan dari kumpulan data yang bennanfaat baik bagi produsen maupun konsumcn pada umumnya. Dan Icbih khusus lagi digunakan pada ?T. eTC' MULTIARTHA. 1.5. Pembatasan Masalah Tugas akhir ini hanya mcmbahas kasus pada data PT. OTO MULTIARTHA dengan menggunakan metode gini dan pohon kasifikasi pada aplikasi CART (Classification and Regression Tree). BABII DEFINISI DAN KONSEP 2.1. Definisi Dllla Mining Data Mining (OM) adalah proses yang menggunakan berbagai perangkat (tools) anal isis data untuk menemukan pola dan hubungan dalam data yang ';1Ungkin dapat cigunakan untuk membuat prediksi yang valid. Seringkali dap~! ditemukan peagertian OM adalah salah satu bidang yang berkembang pesat karena besamya kebutuhan akan nilai tam bah dari database skala besar yang malin banyak terakumulasi sejalan dengan pertumbuhan teknologi infcrmasi [7J. Oefinisi Uffium dari OM itu sendiri menurut Mohammad Sugeng Haryoro [7] adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan )'~ng sela.na ini tidak diketahui seeara manual dari suatu kumpu!an data. O~lam review ini, penulis meneoba merangkum perkembangan terakhir dari teknikteknik OM beserta implikasinya di dunia bisnis. Pengertian mining sendiri berarti usaha untuk mendapatl:an sedikit barang berharga dari sejumlah besar material dasar. Oleh karena itu OM sebenamya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent) [5J, machine learning, statistik dan database. Langkah pcrtama dan paling scdcrhana dalam c1ata mining yaitu menggambarkan data dan menyimpulkan atribut statistik (scperti rata-ra;3 dan standar deviasi), mereview seeara visual menggunakan diagram dan grafik, serta mencari relasi berarti yang potensial antar variabel (misalnya nilai yang sering muncul bersamaan) [10]. Mengumpulkan, meng-eksplor, dan memilih data yang tepat adalah sangat penting. Menurut [10], pada dasarnya ada empat langkah utama c1alam melakukan data mining: I. Mendeskripsikan data, yakni menyimpulkan atribut statistik (seperti rata-rata clan standard deviasi), mereview secara visual menggllnakan grafik dan diagram, serta mencari h!.!bungan-hllbllngan potensial antar variabel (seperti misalnya, nilai-nilai yang seringkali keluar bersamaan). 2. Membangun model perkiraan (predictive model) berdasarkan pada pola-pola yang ditemukan pada langkah sebelumnya. 3. Menguji model di luar sampel asH. Sebllah model yang baik tidak harus sama persis dengan kenyataan sebenarnya (seperti peta bllkanlah rf'presentasi sempurna dari jalan yang sebenamya), akan tetapi bisa meqjadi panduan yang berguna untuk mengerti bisnis kita. 4. Memveriflkasi/menguji model. Misalnya, dari suatu database pelanggan yang telah merespon tawaran yang pernah diiklankan kepada mereka, kita membangun sebuah model perkiraan yang memiliki prospek akan mendapat respon yang sama dari pelanggan dengan tipikal tersebut. Tapi bisakah kita benar-benar bergantung pada perkiraan kita tersebut? Kita perlu membuk1ikan model perkiraan kita tersebut ke sample pelanggan yang lain dan melihat hasil yang kita dapalkan. Untuk melakukan hal tersebut diatas maka setidaknya dibutuhkan suatu program yang dapat menampilkan (kalau tidak mendeteksi) pola dan keteraturan dalam data sehingga pola-pola yang kual atau sangat jelas terlihat dapat digunakan untuk melakukan prediksi[ I0]. 2.2. Teknik Data Mining Dengan definisi Data mining (OM) yang luas, acla banyak jenis teknik an~.Iisd yang dapat digolongkan dalam OM. Beberapa digunakan clalam literatur Data mining (OM) teknik ant'lra yang lain: sering Clustering. Cia>sification. Association Rule Mining. Neural NetlVork. Genetic Algorithm dan lain-lain. Dalam hal ini pcnulis menyajikan pengertian konfigurasi penyimpanan data yang memudahkan pemakai untuk melakukan OM yang umum disebut dengan data warehouse [4]. Data warehouse adalah kumpulan terpadu data perusahaan, yang dapat diakses oleh business managers. administrators. service providers & researchers yang berhak untuk menganalisis data tersebut. Karena OM adalah suatu ,angkaian proses, maka OM dapat dibagi menjadi beberapa tahap yaitu l. Pelllbersihan data (Screening data). untuk membuang data yang tidak jelas, dengan demikian data tersebut dapat dikonfirmasi kepada pemberi data (diem) 2. lntegrasi data (penggabungan data dari beberapa sumber) 3. Tran~forl1lasi data (data diubah menjadi bentuk yang sesuai, untuk digunakan dalam metode DM yang dipilih) 4. Aplikasi teknik DM berdasarkan metodenya 5. Evaluasi pola yang ditemukan (untuk menemukan intormasi yang menarik/bemilai) 6. Prtse:ltasi pengetahua:1 (den;;an teknik visualisasi). Tahap-lahap tersebut, bersifat interaktif dimana pemakai dapat terlibat jangsUl~g. Biasanya perusahaan-perllsahwn memakai datahase dalam operasi sehari-hari s"p"rti pencatatan transaksi jual-beli, administrasi pengiriman barang, inventori. penggajian dan sebagainya. yang lazim disebut dengan OLTP (online IrcnsaCliun processing) [4]. Dei,gan makrn besamya kebutuhan akan analisa data ur.tuK mempertahankan keunggulan dalam k0mpetisi, banyak perusahaan yang juga membangun database tersendiri yaug khusus digunakan untuk menunjang proses penga'l1bilan keputusan (decision making) atau lazim juga disebut dengan OLAP (online analytical processing). 2.3. Tahapao Data Mining Tahapan Data Mining digunakan untuk mendefinisikan suatu proses pencarian informasi yang menadk dan berguna dalum suatu dala yang dililik beratkan pada penemuan pola yang sulit atau bahkan tidak mungkin dilakukan dengan mekanisme query standar. Pada sistem data base dapat digunakan : 2.3.1. Association Rule Mining Association rule mining adalah teknik mining untuk menemukan aturan assosialif anlar;; sualu kombinasi i!em f6j. (omoh dari aluran assosiatif dad analisa p~il~belian di SUall< per:lsahaan penjualan mobil adalah dapat diketahui berapa b"sar kemung;"inan (possibility) dan sesecrallg membeli mobil bersamaan dengan asuransinya. Dengan pellgetailUan oari hai yang di~ta> l"rsebul. pemilik perusahaan penjualan mobil dapat mengatur pengambilan asuransi atau P.1erancang kampanye r:emasaran dengan ffie;n~kai potongan harga untuk sualu mobil tertentu. Penting tidaknya Sl'atu aturan assosiatif dapat diketahui dengan dua parameter support yaitu persentase dari sualu data. Algoritma yang digunakan untuk memecahkan masalah dalam menganalisa suatu pennasalahan adalah Apriori dengan paradigma generate and test, yaitu pembuatan kandidat kombinasi item yang mungkin berdasar aturan tertentu lalu diuji apakah item tersebut memenuhi syarat support minimum (7]. Kombinasi item yang memenuhi syarat tersebllt disebllt frequent itemset. yang nantinya akan dipakai untuk membuat aluran-aturan yang memenuhi syaral confidence minimum. Makalah ini membahas perbandingan kinerja dari dua perangkat lunak data mining untuk menemukan pola asosiasi dari suatu basis data. Perangkat lunak yang pertama didasarkan pada metode yang berbasis pada gmf asosiasi, sedang perangkat lunak yang kedua didasarkan pada penempan metode dimensi fraktal, untuk keterangan lebih lanjut tentang hal ini dapat dibaca di [15]. Untuk memperoieh satu set pola asosiasi, pengguna dari kedua perangkat lunak harus mcnspesifikasikan item-item pada masing-masing perangkat lunak. Pada perangkat lunak yang didasarkan pada graf asosiasi, kualitas pola asosiasi yang dieari hanya didasarkan pada p2rameter minimum support dan minimum confidence. Confidence (kepercp.yaMI) dari slietu aturan asosiasi adalah suatu nilai persentase yang menunjukkan bagail1lana atur"n terjadi ant~r semua kelompok, dan nilai kepercayaan menandai adanya aturan nilai yang lebih tinggi [11]. Meski dari sumber yang sama [11] hasil kaj ian perbandingan terhaclap kinerja dari kcdua perangi<at iunak secara umum dapat disimpulkan bahwa metode dimensi fraktal daflat menghasilkan jum!ah aS0siasi yang jauh lebib banyak dibandingkan metode yang didasarkan pt;da graf asosiasi. Selain itu, waktu komputasi yang diperlukan oleh me/ode Jimensi fi'aklal jauh Iebih kecil dibandingkan dengan me/ode graf asosiasi untuk spesifikasi pola asosiasi yang sama. 2.3.2. Klasifikasi Klasifikasi &dalah proses untuk menemukan model atau fungsi yang merlielaskan atau membedakan konsep atau kelas data. Pada data klasifikasi, data dipasangkan pada sebuah kelas label tertentu. klasifikasi mcmbentuk sebuah model yang nantinya digunakan untuk melakukan prediksi kelas label pada data baru yang belum pernah ada sebelumnya. Misalnya pada aplikasi email spam filtering, data email dipasangkan pada class label "spam" dan "bukan spam". Kemudian dibentuk sebuah model yang dapat menentukan sebuah email baru. Jadi. data classification memiliki dua tahap yaitu: pembentukan model, dan penggunaan model lersebul untuk prediksi kelas label data baru. Model yang dihasilkan biasa disebut claSSifier. Terdapat banyak sekali leknik dan pendekalan yang digunakan dalam data classification, sebUI saja decision tree, bayesian classifier, rule-cased classifier, neural lIetwork, support vector machine (SVMj, associative classification, nearest neighbor, f!.<!netic algoritl,m, fuzzy logic, dan lain-lain, Dari beberapa istilah ini, kita tahu ballWa banyak algoritma data classification berasal dari bidang machine learning, pal/em recognition, dan statistic dengan luj<Jan untuk dapal memperkirakan kelas dar: suatu objck yang labelnya tidak diketahui. Model itu s~ndiri bisa bcmpa aluran 'jika-maka", yang berupa decision tree, formula maU,matis atau neural network. Umumnya salu variabel bersifal sebagai suatu fungsi dari variabel lainnya. Hal inl mengakibatkan nilai dari variabel targel dapat ditentukan dari nilai yang diberikan oleh variabel lainnya yang disebut dengan variabel predihor. Y merupakan variabel target dan X adalah variabel prediktor denganjumlah variabel sebanyak p variabel yang dinotasikan dengan XI, ., " Xp • Dalam model prediksi, persamaan dari model tersebut biasanya berbentuk Y = f(X1"",X p ;e) dengan Y adalah hasil prediksi model dan j:ka ;. &~alah e menunjukkan parameter model. Menurut [14] variabel kategorik maka pemetaan dari X ke Y disebut dengan klasifikasi. Variabel kategorik merupakan variabel yang nilai-nilainya hanya bersifat mengkelas-kelaskan objek yang saling terpisah. Berdasarkan skala pengukurannya, variabel kategorik dapat diklasifikasikan menjadi variabel berskala nominal dan variabel berskala ordinal (16]. J. Skala Nominal Angka-angka yang disajikan pada skala nominal hanya sebagai nama penggolongan. Angka tersebut tidak mengukur besaran telapi hanya sebagai lambang. Disini, angka I tidak lebih besar dad pada 0 be~itll pula 0 tidak lebih keeil daripada L Misalkan pemberian kode J pada merek mobil BMW dan 0 pada merek mobil AUDI tidak berarti bahwa BMW mempunyai nilai satu dan AUDI mempunyai nilai HOI. Angka-angka tersebut ha'lyalah kode untuk membedakan antara BMW dan AUDI, dengan demikian kitajuga bisa menllkar AUDr menjadi odan BMW menjadi I tanpa merubah maknanya. 2. Skala Ordinal Seperti halnya pada skala nominal, angka-angka yang disajikan hanya sebagai nama penggolongRn. Perbedaan dengan skala nominal adalah penggolongan pada skala ordinal telah membentuk suatu tataan. Pada skala ini ada yang dianggap tingkat terendah dan tertinggi. Walaupun dernikian jamk antara dua angka atau penggolongan yang berurutan tidak perlu sama. Misalkan pada tingkatan penjualan , kendaraan murah dibcri angka I, scdang diberi angka 2, mahal diberi angka 3. d~n San;;3t mahal diberi angka 4. Penjualan yang berkualitas didapatkan dari penjualan murah, tetapi kualitas p,:njualan dari mahal tidak berarti dua kaJi lebih berkuaJitas dari pada penjualan murah. 2.3.3. Regresi Perbedaan mendasar antara klasifikasi dengan regresi terletak pada jenis variabel targetnya. Menurut [16] jika variabel targetnya merupakan variabel kategorik maka disebut denga~ klasifikasi namun jika variabel targetnya bempa variabel numerik maka disebut regresi yaitu pemetaan dari X, ....., X o ke Y dengan persamaan Y=f(X" .... xp:e). Pe~sama"n va~iatel regresi dapat tcruiri dari satu variabel prediktor dan satu tar;;et atau beberapa variabel prediktor dengan satu variabel target, persamaan yang penama disebut persamaan regresi sc:derhana. Contohnya adalah hubungan antara keillarga dengan anggota keJuarga, dalam contoh terseb~lt yang menjadi variabel target adalah angguta keluarga dan variabel predik'tomya adalah keluarga. f'ersamaan kedua disebut regresi berganda contohnya adalah hubungan antara variabel prediktor tingkat pendidikan. pendapatan dan jumlah anak terhadap variabel terikat pengeluaran konsumsi keluarga. Regresi linear adalah persamaan regresi yang menggambarkan hubungan antara satu variabel predik'tor (X) dan satu variabel target (Y), dimana hubungan keduanya dapat digambarkan sebagai suatu garis lurus. Sehingga menurut [I] hubungan kcdua variabel tcrsebut dapat dituliskan dalam bentuk pcrsamaan berikut: I' ...( I) Y=ao+"'aX L J J j"'l Dimana e ={ao, ...• a p } adalah parameter dari model persamaan regres!. Jika .i = I maka persamaan I disebut dengan persamaan regresi linear sederhana. Jika .i > 1 maka persamaan 1 disebut dengan persamaan regresi linear berganda. 2.3.4. Cluslering Berbeda dengan associalion I1lle mining dan classificalion dimana kelas data telah ditentukan sebelumnya, cluslering (pengelompokan) banyak digunakan unruk memisahkan dan melakukan pengelompokan data tanpa herdasarkan kelas data pacta suatu variabel target tertentu. cluslering dapat juga dipakai untuk memberikan label pada kelas data yang belum diketahui. Oleh karena itu cluslerfng sering digolongkan sebagai metode unsupen-ised learning. Prinsip dari cluslering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/clu3ler yang terbentuk[J4]. Banyak algoritma cll'slering memerlukan fungsi jarak untuk m0ngukur kemiripan antar data, dan normalisasi bermacam atribut yang dimiliki data [13]. Beberapa algoritma clustering yang banyak dikenal adalah metode partisi dimana pemakai harus menentukanjumlah k partisi yang di inginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi, metode lain yang telah lama dikenal adalah metodc hierarki yang tcrbagi mcnjadi dua bOl/om-up yang mcnggabungkan clusler kecil mcnjadi clusler Icbih bcsar clan top-down yang mcmccah chisler besar menjadi clusler yang lebih keci!. Kelemahan ;ne~ode ini adalah bila salah salu penggabungan/pemecahan dilakukan pada lempal yang salah, lidak dapat diperoleh cluster yang optimal [13]. 2.4. Decision tree Decision tree melakukan partisi terhadap learning sample yaitu kumpulan data terdahulu sebelum dikelaskan unluk semlla observasi menjadi bagian yang lebih kecil [12]. Setiap partisi hanya didasarkan pada variabe! lunggal yang dipilih dari learning sample. Algoritma Class!{Jcalion And Regression Tree (CART) akan mencari variabel dan semua nilai yang mungkin bertujuan untuk menjadi pemisah terbaik. Proses pemisahan tersebut dilakukan pada setiap hasil pembagian data atau node pada treenya. Decision Iree adalah cara merepresentasikan kumpulan aturan yang mengacu ke suatu nilai atau kelas[12]. Misalnya kita bisa mengklasifikasikan SU8(U proposal pinjaman uang memiliki resiko baik atau buruk dengan menelusuri model treenya. Gambar 2.1 memperlihatkan decision tree secierhaTla: decision node, branches and lem'es. Income> $ 40,000 N/ '~s Job> 5 Years High Debat Ye~NO Yes/~~o Good Risk Bad Risk Bad Risk Good Risk GambaI' 2.1 Decision tree sederhana untuk menentukan resiko pengaman oieh cusfomer Komponen pertama adalah simpul top decision, atau simpul rOOI, yang menentu~an test yang akan dijalankan. Simpul rOOT dalam cantoh ini adalah "income> $40.000". Hasi! dari tes ini menyebabkan tree terpecah menjadi dua cabang, clengan tiap cabang mepresentasikan satu dari jawaban yang mungkin. Dalam kasus in!, jawabannya adalah "ya" dan "tidak", sehingga kita mendapatkan dua cahang. Bergantung pada algoritma yang digunakan. Tiap simpul bisa memiliki dua atau lebih cabang. Misalnya, CAR f akan meng-generate hanya dua cabang pada tiap simpul. Tree seperti inl disebut binmy tree. Ketika lebih dad dua cabang diperbolehkan maka disebut sebagai mllltiway tree. Tiap cabang akan memiliki simpul node yang lain atau dasar tree. yang disebut leaf Dengan mengikuti decision tree kita bisa memberikan nilai pada suatu kasus dengan memutuskan cabang mana yang akan diambil, dimulai dari simpul root dan bergerak ke bawah sampai leaf Dengan menggunakan metode ini, scorang manager, yang bcrtanggungja\\ab untuk memutuskan apakah scorang konsumen dapat membeli sebuah kendaraan dengan prediksi memiliki resiko kredit yang baik atau buruk. Model decision tree umum digunakan dalam data mining untuk menelaah data dan menginduksi tree dan aturan yang akan digunakan untuk membuat prediksi. Sejumlah algoritma yang berbeda bisa digunakan untuk membanguntree di antaranya adalah CHAID (Chi squared Automatic Interactin Detection), CART (Classification and Regression Trees), Quest dan CS.O. Decision tree be~kembang melalui pemecahan iteratif dari data ke dalam grup-gi'UP diskrit, yang tujuannya adalah untuk memaksimalkan 'Jarak" antara grup pada ti~p pemecahan. Contoh yang kim gunakan pada penelitian ini sederhana. Tree ini mudah untuk dimclIgcrti dan d;jnielpretasikan. Akan tetapi, tree bisa menjadi sangat kompleks. Sebagai contoh kompleksi!us suatu tree yang diturunkan dari database d'cngan ratu~an atrib:.Jt dan va~iabe! respon dcngan lusinan kelas input. Tree sej)crti ini akan sangat sulit untuk dimengerti, meskipun tiap path dari tree lJiasanya dapat dimengerti. Dalam hat ini decision tree bisa rnenjelaskan prediksinya, yang merupakan keuntungan penting. Akan tetapi, kejelasan ini bisa jadi menyesatkan. 2.5 Classification and Regression Trees (CARl) Clas.I'lication And Regression Tree (CART) adalah metodologi klasitikasi yang menggunakan data terdahulu untuk membangun decision tree. Kemudian decision tree tersebut digunakan untuk meng-kelaskan data banJ. Dalam membangun decision free, Classification And Regressio/l Tree (CART) menggunakan learning sample yaitu kumpulan dat, terdahulu sebelum dikelaskan untuk semua observasL CART merupakan alat decisio/l tree yang baik untuk data mining, pemodelan prediksi dan pengolahan datI. CART seeara otomatis mencari polapola dan hubungan yang pe:1ting yairu membuka struktur yang tersembunyi meskipun datI yang digunakan memiliki kompleksitas tinggi. Metodologi CART dike;)a] sebagai parrisi binary rekursif Binary karena proses pemode!an melibatkan pe;nba8ia'1 kumpulan datI mer:jadi dua subgroup (atau /lode). Reku~sif "arena "roses Giuiar:g untuk setiap penghasilan /lode. Basil model biasanya dilampilkali sebagai diagram pohon. Diagram pohon ini membagi semua data menjadi kumpulall dari beberapa subgroup atIu node sehingga perk iraan dari jawaban mendct-ati nilai aktual dari jawaban da!am setlap node. Kemudian CART mengatur semua variabel penting sehingga jumlah prediil.1ot' yang mendapatkan :1:lai tidak nol re!atif ked!. BABIH METODOLOGI PENELITIAN 3.1. Pengolaban Data 3.1.1. Proses Screening Data Screening data adalah sebuah proses yang dilakukan untuk mengetahui terdapat nilai yang hilang (missing value), kesalahan ketik, Wilier, penentuan variabel yang akan digunakan, dan sebagainya. Terkadang dalal11 melakukan proses screening data, transfarmasi data dilakukan c:ntuk merubah data bemilai numerik, menjadi kategorik. Pada pembentukan model, learnjag sample yang digunakan ahn dipisah menjadi menjadi ciua subgmp (node) secara rekm-sif atau bertingkat hingga mencapai lerminal node (lcu/) dCllgan rl'enggiJuakan algcritma pemisah tcrtentu[7]. Dalam peneliti8.n ini algoritma p.emisah yang akan diballas adalah aturan pemisah Gini (Gini splitTing rule) yang digunakan dalam classtfication tree. Pertumbuhan Iree dari learning sample akan menghasilkan level suatu tree yang paling besar atau disebut dengan tinggi tree. Dibandingkan dengan model tree yang lainnya tree tersebut memiliki jumlah terminal node yang paling banyak. Tree paling besar seperti ini disebut dengan maksimum tree. Database saat ini baleh jadi berkembang menjadi sangat besar secara cepat ke dalam ukuran gigaby1e. Di dalam tumpukan data tersebut mungkin terdapat informasi-informasi tersel11bunyi yang sangat penting atau menjadi penting pada saat dibutuhkan. Hal ini sulitnya l11enel11ukan sebuah jarum dalam tUl11pukan jerami? Dalal11 hal ini dapat kita katakan bahwa semua data belum berarti infonnasi. Pengolahan sebuah data terlebih dahulu haruslah melalui proses screening data agar dapat diketahui variabel-variabel mana saja yang memiliki missing value. [17 J Penggunaan SPSS untuk melakukan screening dab agar data tersebut dapat di olah kedalam program CART (Classification dan Regression Trees). Penggunaan SPSSuntuk melakukan screening data agar data tersebut dapat cii lakukan dalam mcngolah kc dalam program CART (Classification dun Regression Trees). Dari data tersebut akan diketahui variabel-variabel apa saja yang berpengaruh terhadap data yang ada, antara lain (tabel 3.2, 3.3, dan 3.4) I Tabel 3.1. Contoh data yang akan di screening dengan mengglmakan sofwere SPSS rnrkmobi! I bbakar I sid Ibpinll jkendara 1~lokrne3lOIS; Ipan~ lebarlting! turbo tv,,/(1 h.lchba f','.o'd flont 959 11') ",":1 , , ) .<- rrul';utll rnitsubl go, Eld S!?;d8n f'Nd f,Yd front front 963 9E.3 17:24 std four fout' s&ljan 985 r(ll!subl (las turbo four sedan f'Nd fyd front ftont 96.3 9E3 1724 172.4 f~'E. .d flem! 9~1.5 165.3 f·yd front 945 166.3 front S.~ front rriltsubl 9 8S t"flitsubl gas std four sedan nl5san gas t1.I>l(1 t"llss.;n dl8B81 std std tv·)!) sedan sl?:dan n15Sf:!1l gas gas 5td tlNO sedan std four s~dan f'Nd f·/o.'d gas 9 as e,td fOUl front std tv.JD \I"'lagon s8dan f'Afd nissan fvvd front fH:·San gas e,td tlJVO halo:hba gd'; s,:d f,)lIl" s8dan f'Nd fNd front front nlSSCin nl~,S8n nl·::·Sdtl .5 94.5 945 945 94.5 945 172,4 G53 654 G54 65.4 G54 636 50 52 52 52 52 55 55 l33.o 55 133.8 b'=' 63.a 54 6-)-' ..... ':- 55 GO:' 0 .... L. 1G53 155,3 171J2 1&5.3 5~i 165.6 r-'r, J').O 5f, 1£,5.3 133 :3 berat ljmesinl 29J5 01"1(: 2365 otic 2405 ohc 2403 DilL: 2403 ohc 188'3 ;'017 1916 1938 ohc uhe: ohc: ohc: 2024 ohc 195·1 c.hc 2028 ahc: 197·1 ,:,h(; Data yang akan digunakan untuk discreening dengan menggunabn sonvere SPSS [16], memiliki 24 variabel diantaranya adalah Madein (pembuatan kendaraan). MrYJDobil (merek mobil), Bbakar (Bahan baker), Eksmcsin (pcnggunaan mcs;n). Bpintu (banyaknya nintu), Jkendara (jenis kendaraan), K.rit (kriteria mesin), Loknle~in (likasi mesin), Jmes;;] (jenis mesial, Cylinder (banyaknya cylinder). Sbbfsyst (sistem bahan bakar full system), l'~athasil (kategorik nilai harga), l'e;ljuala (kategorik dari laku), Laku (normalisasi penjualan), Umesin (ukuran mesin), Symbol (symbol), Torsi (jarak/torsi rada), Panjang (panjang body kendaraan), Lebar (lebar body KenJaraan), Tinggi (tinggi body kendarqan), Berat (berat kendaraan), Rasio (rasio kompresi mesin), Hp (tenaga kudalbhp), Harga (harga jual kendaraan). Dalam proses screening akan dilakukan uji frekwensi, untuk mengetahui nilai yang hilang (missing Valuc).Hasil dari proscs scrccning data tcrscbut dapat dilihat pada tabcl3.2, 3.3~ dan 3.4. Tabel 3.2. Hasil Screening Peng Negara merek N Pembuatan mobil Valid 204 204 Missing 0 0 Tinggi Berat Rasio Tenaga kuda Kendaraan Kompresi BHP 204 204 204 204 204 u 0 0 2 0 Mean 53,749 2555,60 10,15 104,22 256,36 Median 54,100 2414,00 9,00 98,00 171,00 Mode 50,8 2385 9 68 1234 Std. Deviation 2,4249 521,%1 3,961 39,810 246,587 15,848 1584,851 60805,118 5,8801 272443,098 Range I 12.0 2578 16 2&0 Maximum 60,3 1488 7 48 Sum 13447.0 521343 2074 21053 Minimum I Keterangan: Dari Tabel 3.2. diketahui missir maka data tersebut haruslah dik Sehingga akan didapatkan data Harga I 2285 91 - 5229!.-. Tabel 3.3. Produksi Pembuatan kendaraan berdasarkan negara pell1produksi Negara Valid Total amerika mggns jepang Jennan korea perancIs swedia Frekwensi 25 5 93 36 21 13 11 204 Persen 12.5 2.5 45,6 17.6 10.3 6.4 5,4 100,0 Valid I1ersen 12.5 2,5 45,6 17,6 10.3 6,4 5,4 100,0 komulatif Persen 12,3 14,7 60,3 779 , 88.2 94,6 100,00 Pada tabel 3.3 diketahui bahwa : dianlara banyaknya produksi kel1daraan roda empat saat ini, produksi penjualan kendaraan terbanyak adalah dari Negara Jepang karena ll1ell1punyai trekuensi paling besar seban;'ak 93. Tabel 3.4. Banyaknya konsumen memilih kendaraan berdasarkan merek .,'- Valid Merek audi bmw chevrolete daihatsu honda hyundai Frekuensi lSUZU jaguar kia land rover mazda mersedez b~ mitsubishi nissan opel peugot reilault suzuki toyota volkswagen volvo I total Persen 3,4 3,9 1,5 2,5 6,4 6,9 7 8 3 5 13 14 17 8,3 3 1,5 7 3,4 " LO 4 2,0 9 13 18 4 4,4 6,4 8,8 2.0 11 5,4 ') 1,0 9 4,4 32 15,7 12 5,9 11 5,4 204 100,0 Komulatif Valid Persen Persen 3,4 3,4 3,9 7,4 1,5 8,8 2,5 11,3 6,4 17,6 6,9 124 ,5 8,3 32,8 1,5 34,3 3,4 37,7 1,0 38,7 2,0 40,7 4,4 45,1 6,4 51,5 8,8 60,3 2.0 62.3 5,4 67,6 68,6 1,0 4,4 73,0 15,7 188 ,7 5,9 5,4 100,0 100,0 ~ Dari TabeJ 3.4. dapat diketahui banyaknya penjualan didominasi oleh kendaraan Toyota dengan persentase 15,7%. 3.2. Data yang dipcrlukan Penelitian ini menggunakan data sekllnder yang diperoleh dari PT. OTO MULTIARTHA, data yang diambil pada tahun 2004 tersebut memiliki 22 variabel, 204 record. Dalam pengolahan data, metode gini digllnakan untuk lI1engolah dan mencari informasi dengan indeks gini yang didefinisikan sebagai gini ( t ) = L: Pi (I - Pi ) , dimana p, adalah frekuensi relatif (ditentukan dengan membagi juml<:h kelas pengamatan dengall total j umlah pellgamatan) dari kelas i pada node t, dan node t menUl~ukkan parent node amu child node yang memisahkan data. Indeks gini adalah penguKur impurity untuk node maksimum yang diberikan ketika semua pengamatan didistribusikan ke semua kelas. Secara umum, aturan pemisahan gini berusaha untuk mencari kategOli homogenitas yang paling besar dalam data dan mengiso!asikannya dari sisa data. Sub barisan node kemudian dipisahkan dengan cam yang sarna sampai tidak mnngkin nntuk dibagi [8]. Menurut [9] Indeks gini untuk nilai variabel target binary yaitu i (t ) = 2.P (lit). p (211) Dimana: t adalah node pohon. P V It) adalah probaiIitas dari kelas ke-j pada node t. i = Indeks gini setelah memisahkan node t yaitu, i(s,1) = i(t) - PI .i(tl) - P,.i(l,) dimana PI' P, merupakan pecahan kasus dalam leaf kiri (kanan), 3.3. Pengolahan Data Dalam melakukan proses data mining ada beberapa tahap yaitu : 3.3.1. Pcndctinisian masalah Pendefinisian masalah sangatlah penting karena kita dapat melakukan penggalian data untuk mencari informasi yang penting dan dapat mengetahui suatu pC!TIlasalahannya contoh : 1. 'v1en.:ntukan bauyaknya prediktor yang dapat mempengaruhi target. 2. Memilih kelas mana saja yang dapat mempengaruhi dari informasi tersebut. 3. Menentukan metvde yang digunak:m dalanl pengo!a.'1:m data, metode yang digunakan dalam penelitian ini adalah metode gilli. 4. !'lasil yang diperoleh dari pengolahan data berupa Classification Tree, dan dapat ciijelaskan menurut kelas-kelasnya,contoh dari Classification Tree dapat dilihat pada Ganlbar 3.1. Gambar 3.1. Contoh Tree Classification 3.3.2. Mengerti dan memperkirakan kualitas data Data yang didapat harus dimengerti dan dipahami terlebih dahulu agar dapat melakukan langkah selanjutnya serta memperkirakan kualitas data yang dlperoleh agar hasil infoITllasi yang akan didapatkan menjadi baik 3.3.3. Fenge~~splorasian Pencarian daw kemungkinan terdapatnya hubungan-hubungan yang saling berpengaruh antar variabe!. Variabel yang secara teod saling berhubungan dapat digunakan untuk memperoJeh infoffi1asi sebanyak-banyal!.nya dari data yang digunakan. 3.3.4. Pemilihan teknik pemodelan Teknik data mining yang akan digunakan adalah tc!mik berdasarkan decission tree. 3.3.5. Persiapan data dan pembentukan model Persiapan data yang dilakukan meliputi pembersihan data (membuang data yang tidak konsisten), deskripsi masing-masing varia be!, integrasi data (penggabungan data dari berbagai swnber), transformasi data (clata diubah menjacli bentuk yang sesuai untuk di analisa). Moclel dapat dibangun setelah dilakukan persiapan data yang akan digunakan, maka langkah selanjutnya adalah membangun sebuah model untuk mengetahui tingkat ketepatannya 3.3.6. Evaluasi model Model yang kurang infonnutif harus die.,/aluasi kembali agar didapatkan model ycng lebih infoffilatif dan mortel-model yang telah dihasilkan dapat dikombina~ikatl 3.4. sehingga mendapatkan informasi yang kbi h baik lagi. Proses pengolahan data untuk meilgetahui pala yang tersembunyi Stlatu perusahaan dapat menerapkan aplikasi yang menjanjikan kCWlggulan kompetitif melalui pengelolaan pelangilan yang lebih baik. Penerapan teknologi infonnasi (TI) di sebuah perusahaan penjualan kendaraan telah menjadi kebutuhan mutlak penerapannya, tidak hanya untuk komunikasi dan transaksi, melaillkanjuga untuk pemasaran. Dalam menentukan informasi pelanggan untuk tingkat layanan yang pantas diberikan, serta menawarkan produk yang sesuai. Kita telah mengetahui bahwa data mentah (raw data) biasanya tidak terlalu berguna karena ukurannya yang begitu besar sehingga sulit untuk dianalisa. Kita perlu mengekstrak pola dad data mentah tersebut dengan teknik data mining. Banyak instansi / perusahaan di dunia telah menggunakan data mining untuk mencari dan menarik kesimpulan dari data yang mereka miliki. Berikut beberapa contoh aplikasi data mining: • Perusahaan pemasaran menggunakan data sejarah respon pembelian terhadap suatu tawaran produk yang dapat membangun model untuk memperkirakan pelanggan potensial yang akan eli raih dengan metode p~nawaran • tertentu [18]. Agen pemerintah menyaring elatil transaksi keuangan untuk mendctcksi money launctering elan vnye!undupan obat terlarang (18]. • Dalam tahapan diagnosi~, para fisikawan membangun expert system berdasar1.:an b"nyalz pcrcJbaan yang tcbh dilakukan [! 8]. Sebuah data digunakan sebagai pencarian dari pengolahE!ll dengan menggunaka.!1 program CART Dalam sebmIt data, akan dikelahui banyaknya variansi konsumen lliltuk memiiih sebuah kenelaraan foda empat. Set;ap konsumen memiliki selcra yang berbeela-beda diantaranya, didapatkan sebuah pengklasifikasian, dimana variabel target akan dipengaruhi oleh beberapa variable prediktor. Dalam algoritma diutas tersebut kita akan mengetahui prediktor-prediktor mana yang sangat mempengaruhi variable target. Dalam pengolahan data akan di dapatkan hasil dar! sebuah variable target, dimana variable targetnya aelalah merek kendaraan dimana konsumen biasanya membeli kendaraan berdasarkan merek kendaraan. BABIV ANALISA DARI SCREENING DATA BASE 4.1. Proses Pembentukan Model Untuk Mengetahui Po12, Yang Tersembunyi Data yang akan diguanakan adalah data dari PT. OTO Multiaratha yang diambil atau di kalkulasikan dari penjualan pada tahun 2004 sanlpai dengan 2005. Data tersebut mempunyai 24 variabel dimana banyaknya reeord/kasus ada sebanyak 204 kasus. Data yang akan diolah memiliki 24 vari:::bel Jiantaranya 14 variabel kategorik (string) dan 10 variabel numerik. Keterang.'n lengkap tentang ','ariabel y11fig ada dapat dilihat pada Tabel lampiran 3. Di dalam variabel harga Yi\ag bcmilai fiUiGErik akan dirubah menjadi kategorik agar lebih mudah untuk melakukan uji sebuah model. Dalam menggUl~akan metode CART nilai y:wg numerik Jiruba f] menjaJi kategorik agar dapat dik1asifil:asikan dengan baik, dan Japat memberkian suatu informasi yang dapat memberikan kepuasan kepada konsumen. Dalanl menentukan perubahan numerik menjadi kategorik, kami menggunakan metode Quartit, dirnana dalam merubah vari'.lbel harga tersebut dibutuhkan metode Quartil agar nilai numerik dapat dirubah menjadi nilai kategorik. Jumlah record dari harga akan dibagi menjadi empat yaitu QI, Q2, dan Q3. Dengan WI kami kategorikan sebagai interval harga murah, W2 sedang, W3 mahal dan W4 sangat mahal. Dalanl pengolaharl data tersebut, j umlah record dari variabel harga terdiri dari 204 nilai numerik, akan diubah menjadi 4 nilai kategorik interval. Da!am melakukan screening data diketahui banyaknya record dari harga tersebut adalah 204 data. Unluk menentukan QI, Q2, dan Q3 akan kila gunakan rumus : [I] Q, = ~ + c 4' .r, [I] -·n-F ~n-F , Q, = L, + c 4 j, [I ~n-F. 2 , Q3 = L3 + C 4 ., .f, ~I Keterangan : : 1.2,3 Li : tepi bawah kelas !martil bawah Qi n : ukuran data (jumlah frekwensi) f, : trekwemi pada interval kclas kuarti! bawah Qi fi : frekwensi kumulatif sebt'lum kdas kuartil bawah Qi Nilai dari Q tersebut akan di gunakan untuk menentukan batasan WI, W2, W3, dan W4. yang mcnghasilkan: WI = 91 sampai dengan 138 juta = Mmah W2 = 140 san1pai dengan 170 juta = W3 = 172 sampm dengan 275 juta = Mahal Sedang W4 = 277 san1pai dengan 2376 juta = Sangat Mahal Dalam proses perubahan nilai harga dari nUl11erik l11enjadi kategorik ini akan mel11permudah dalal11 proses pengolahan data l11enggunakan Program CART, terutama dalam pembentuk.:n mode! Classijica/wn /ree-nya. 4.2. Proses Pengolahan Data Dalam menentukan suatu variabel target, peneliti biasanya menean-ean variabel mana saja yang baik dan dapat dial11bil infonnasi yang sebanyak banyaknya untuk dapat diketahui variabel target tersebut dipengaruhi oleh variabel variabel lain (prediktor) mau tidak . Variabe! target dapat dipengaruhi oleh variabel prediktor dan dapat menentukan infonnasi apa saja yang dihasilkan dari modd tersebut. Pada 24 variabel dari tabel lan:piran 3 tersebut, banyak variabel yang kurang tepat unmk dijadikan variabe! target, karena variabe! o:argd banyak yang tidak berhubungan seeara teuri dengan variabel predlktomya. maka hanya almn diambil bebe,aprr v::aiabel saJa untuk Jijadikan sebagai target yang dapat diambil informasinya. Diantara 24 variabel target tersebut yang haik untuk diambil infonnasinya adalah variabel Sis/em Bahan Bakor/Fuel Sis/em, laku(banyaknya yang /erjual), Ka/hasi(harga yang dipilih aleh konsumen), Jkendaraan(jenis kendaraan) karena untuk mengurangi hubungan antara variabel target dan prediktor. Dalam proses pengolahan data terdapat empat target diantaranya model dari sis/em bahan bakar, Laku (banyaknya yang teIjual). Ka/hasil (Harga yang dipilih oleh konsumen), Jkendaraan (jenis kendaraan yang banyak di beli oleh konsumen) akan dilakukan proses pembuatan model, agar didapat infonnasi yang sesuai, 4.2.1. Proses Pemodelan Sistem Bahan Bakar/Fuel System Dalam model yang pertama, dapat kita jadikan Sistem Bahan Bakar/Fuel System menjadi variabel target dan prediktomya yang mempengaruhi variabel target adalah Panjang, Lebar, Ukuran mesin, Torsi, Tinggi, Rasio, Hp (house power), Berat jcnis kcndaraan tcrscbut. Dalam pengolahan Model yang pertama, akan kita gunakan metode Gini. Dalam meclentubn model, dapat diketahui setiap System Bahan BakarlFuel System kendaraan mcmpunyai prediksi bennacam-macam, diantaranya : • disel, • ecGS (ECCS, Multi-Point Fuel Injection), " en (Electronic fuel inje..:tioin), • msi (Multipoint Sequeutial Injection), • feem (Fully Electronic Engine Management), • hpcrdit (High Pressure Common Rail Direct Injectioll Turbo Diesel) , • icimulti, ifis (Electronic Fuel Injection System), • micpro (Electronically (Microprocessor) Controlled Direct Diesel Injection), • mpfi (Multi Port fuel Injection), • mpi (Multi Point I11jection), .. pgmfi (Programmed Fuel Injection), .. Mi (Mechanical Injection), .. vanos (Variable Camshaft Control). Dari tree di bawah ini akan di(00 ._._---_._.... _._. Nod< UMESI W=10 -N(;j';:e""'5--LEBAR W=23000 N=23 Node 6 Terminal :INGGI Node 3 W= 14.000 W=9.000 N= 14 Terminai", T8rrdnal _* Node 1 Node 2 W=8000 W=6.000 :JIJl:Il~ -_._ __ __ ..... - --_._~ . Node 20 BERAT W=65.000 N=' ._ ----- N=65 ._--- Node 24 TOI RASIO W' W=31.000 ~ N= 3.1~ Terll1lnai'-Noel-e 25 !---_.Node4 JMESIN W=2.000 N=13.000 N=13 -I_.- J "t1Ode26- Node':!] 3CRAT W= 18.000 N=18 "NOde28-l'erminal TORSI Node 27 W= 17.000 W= 1.000 -!!..=.E- Dalanl node 1 dapat dilihat m( kecii Dalam oktimaml tree, terbentt'eda-beda dalam analisis dari Sistem Bal ~~ TORSI W= 12.000 N=12 ~ Terminal Terminal Terminal Terminal I~ode 23 Node 24 Node 25 Node 26 W=4.000 W=8.000W=15.000W=2.000 F TIfIIIII Terminal Nvde28 W= 10000 '1IIF N iO Terminal" Node 29 W=5.000 ... Hal tersebut dipengaruhi oleh Gambar 4.1. yang akan mempengaruhi gains chart dari nilai rata rata 10 % data, maka akan diketahui 100 % dari kelasnya Gaim: Chart I tOO " 20 sohc: learn Gains Lift Cum Lift Tot<i! cases: 6 Percen( of :>arnple: 2.94 Gambar 4.2. Gaint Cart Sistem bahan bakar dengan kelas SOHC F~da gambar 4.2. dapat ditabel data digolongkan dalam kelompok jenis kendarlian wenggunakan sistem p~mbakaran SOHC berada pada Node ke-l, G::mbar dan diagram gains chart mell1perlihatkan bahw2. model tree yang dihasilkan l11el11iliki persentase kUl11ulatif kelas target lebih besar dari pada persentase kumulatif dari populasinya sehingga model tree ini dapat dikatakan suatu model yang dapat merepresentasikan kelas SOlIC yang digunakan oleh konsumen. Hal tersebut dipengaruhi oleh variabel yang mempengaruhi target dibawah ini (Tabel 4.1.) : Tabe! 4.1. Val"iabcl Importance dad Sistcm Bahan Balmr TORSI Ui'vlESIN EERAT LEBAR TINGGI RASia PAN~ANG HP 100,00 89,28 82,76 80.8 ] 175 ,28 73,00 1~9, 19 64,79 1111111111]111111]1111 IIIIIIIIII IIII]]IIII]I]II;]III;I llIIlIIli 111]1]1111]1]]]1111111 IIIIIIII ]1]1111111111111111111 1Il1I11 1111111]111]11111111111 IIIII] IIII111l]IIIIIIIIIIIII IIIIl 1:IIIIIIIIIIIIIIIIIII]1 III] 1111111!!11111111111]1 II Vanabel prediktor yang memp"ngaruhi variabe! target '.'ariabel yang sangat mempengaruh dari variabel target adalah torsi, dimana dalam target sistem bahan bal,:3r, torsi sangatlah berpengaruh dalam menentukan tipe bahan bal~ar yar.g layak digun2.kal1. dU!:lm sebuM! kel1.daraan. Pada variabel sistem bahan bakar, variabel yang sangat mempengaruh dari variabel target tersebut adalah torsi, dimuna dalam taiget sistem bahan bakar, torsi sangatlah berpengaruh dalam menentukan tipe bahan bakar yang akan digunakan dalam sebuah kendaraan. Dari jenis mesin SOHC cenclerung digunakan untuk kendaraan-kendaraan yang bersilinder keell untuk mengirit pasokan bahan bakar yang digunakan oleh kendaraan tersebut. Penentuan node tersebut akan menghasilkan number of cases dari sistem bahan bakar Sohc adalah 8, sedangkan presentage of datanya :lama engan 3.9% dan castnya adalah 1.0000 /*Rules for terminal node 1*/ if ( RASIO <= 22.85 && PANJANG <= 175.65 && UMESIN <= 91.5 &8.LEBAR <= 04.1 && TINGGI <= 51.4 ) { terminalNode = -I: class = sohc: probClass J = 0: probCJass2 = 0, DrobCla~s3 = 0; probC!ass4 = 0; probClass5 = 0; proLClasSI) = 0; p,obClass7 = 0, probClass8 = 0; probCJass9 = 0.375: probClass 10 = 0; probCJass J J = 0; probClass12 = 0; probClass13 = 0.625; probClass14 = 0; } Dari rules diatas dapat dilihat bahwa sistem bahan bskar sohc: sangat dipengarul1i oleh rasia, panjang. umesin, lebar, dan tinggi Alur dari algoritma yang digunakan untuk mendapatkan informasi dari jenis mesin SOHC yaitu: J ika sebuah kendaraan memiJiki rasio kurang dari 22.85 em dan panjang kurang dari 175.65 em dan ukuran mesin kurang dari 91.5 em dan lebar kurang dari 64.1 em dengan tinggi kurang dari 51.4 em maka jenis kendaraan tersebut eenderung beJjenis SOIle. Sebuah mobil dikatakan efisien apabila mempunyai tenaga mesin yang baik dan mel71iJiki sistem pembakaran yang tidak boros. maka jenis sistem bahan bakar SOHC akan lebih banyak didomiamsi oieh kendaraan keeil dengan yang memiliki ee (kapasitas me~in) dihawah ; 500 saja. Maka akan dapat diketahui banyaknya kendaraan yang menggunakan Eystem bahan bakar SOHC adalah kendaraan yang memiliki ee (kdpasitas IT'.;;sia) keciJ atau digunakan untuk k;;ndaraan yang memiJiki body ramping (sedang) dengan meJihat dari segi kapasita5nya. Banyaknya jenis kenda,aaD yaDg mendominasi sistem bahan bakar SOHC adalah jenis minibus dan sedan. 4.2.2. Model Laku (banyaknya yang terjual) Dalam pengolahan data dari model Laku (banyaknya yang terjual), dapat kita jadikan bahwa Laku (banyaknya kendaraan yang teJjual pada tahun 2004) menjadi variabel target. Variabel prediktornya yang mempengaruhi target adalah Hp (horse power), Kathasil (harga yang banyak diambil oleh konsumen), Sbbfsyst ( sistem bahan bakar), Jkendaraan (Jerus kendaraan), dan merek mobil kendaraan. Dalam proses pemilihan variable akan dicari informasi yang menyatakan bahwa banyaknya kendaraan yang ada saat ini bukanya dipengaruhi oleh harga, tetapi banyaknya kendaraan yang digunakan oleh konsumen dilihat dari segi merek. Dalam menggunakan program CART jenis tree yang akan digunakan dalam menentukan model data tersebut adalah Regresi dimana nilai dari vaI~abel target tersebut adalah bemilai numerik. Daiam pengolahan model laku, kami akan menggunakan metode Gini . Dalam menentukan model regresi, dapat dikelu)1Ui setiap variabel target dari Laku memiliki nilai diantaranya mean dan median, tetapi yang akan kami tentukan adalah nilai dari mean. Dari tree di bawah ini akan didapatkan informasi bahwa : IVRf1~BICJ iA<~= , :, ~~" 1l::.fJ!)D 'lAJ)j) \4< ~'>d~2 ',fA , thde 10 1<8»,109:1.$ f'¥G=lOi.f';W '61' lro.lM) N·l00 r-.P.fMDBll$ A;~" 144.370 '011=6400{) N=&4 .~ \;:;;- F~"';'~l UW,,3 j Tim He : Um" k'Q' 11~7)4 '1::~4$£00 N' 48 11= 16 Ii= 54 tlon 1<=16 ktg: 1017Sg 'or" 2flJ)) H" 2) II i r.::H"~'5~--1_ H? Alg" BS-W: W!~;51~' Te'1Ti<'.at ! IHe IWd" 7 IPorO=1l717S W: 1&.000 I No 18 ~-.;;;;-' HI 1AtO " 1W_14~ ~!4.Dc{; 1<=14 , '.. ' .J_ -~ ._L T5mU,.1 IW:J~ 10 iN' 1301\1 "i'2.lA); ,_.... _~__; :_' 1l=44 r __ .....J__ Twra Uxi" ~ --- W=44.ooo I _ Atg= I%'.i'w .... '161« . HP AJ~: 13'J&g~ _ ~51 II TellTlInal i I IMni.1Jl lemo.'\3l l1od\'13" Node14 ,1thj;;15 i W,,-4illl(l It/= l1!lfj{l ; i\f:(= HOD' I"' ! ~ '-~ llEj"8% __L..., __,--' ._.1_, 1-;;;;;;;=-,J=---, Hi , 11'1=3<).000 I~ r,q~ml Ih-~4 1I.~f1.10B!4 14 W"~).oo[, kg· W=!-4itX> N~de MRWDBllf PJJg" 16S.SO W=16.ooii H m_C' I,m, H I'" , IN· , Tem.icl<!' i - 1•. ,,11".1 !! Ilrm. 5 : _ Uode 6 I tbd,; 7 hade S W":~~._' r.W_·'_16~J :W"l~_ !~~_~_i w= lID) I"'de 4 GanJbar 4.3. Tree model .!...aku Dari tree tersebut akan didapatkan terminal node sebanyak 14, akan dilihat infonnasi apa saja yang akan diketahui di dalam node tersebut. Dari tree tFrsebut, optimum tree terminal node sebanyak 14 buah, dan dapat dinyatakan bahwa setiap kelas memiliki ciri yang berbeda-becla. Hal tersebut dipengaruhi oleh variabel yang mempengaruhi target dibawah ini (Tabel 4.2.) : Tabel 4.2. Variabcllmporianec Lalm MRKMOBIL$ HP SBBFSYST$ KATHASIU JK.ENDA...R.A$ - 100,00 1111]11111]111111111]11111111 74,74 9,91 IIIIIIIIIIIIIIIIIIIIIIIII] IIJIJIIIIlIIIII II! 3,70 ! 47,49 T Oad Tabcl diatas variabel Importance yang sangat mempengamhi adalah merck mobil dan hp (house powel') Dari tabel diatas, yang paling mempengaruhi variabe! target adalah merek mobil, in; memperkuat dugaan di mastarakat bahwa orang indonesia cenderung membeli kcndaraan bcrdasarkan s~buah :r.crck bu.'<:an dari scgi harga atau yang Jai:1lain. /*Ru!es for terminal nude 14*/ if ( ( MRKMOI3IL$ = audi II MRKMOBIL$ == peugot ) ) { terminalNode = -14; mean = 161 ) Dalam penjualan kendaraan ternyata audi atau peugot, mempengaruhi rata-rata per1iualan di tahun 2004. Berdasarkan dua merek kendaraan tersebut yairu audi atau peugot, banyaknya kendaraan yang diminati oleh konsumen rata-rata pada tahun 2004 adalah merek kendaraan audi atau peugot, tetapi bukanlah rata-rata konsumen membeli merek kendaraan tersebut. Akan dapat informasi yang berharga dari model laku, bahwa kecendrungan konsumen untuk memilih kendaraan audi atau peugot yang rata-rata mempcngaruhi pcnjualan di tahun 2004 sangatlah mcnguntungkan bagi produscn kendaraan tersebut. tetapi bukanlah kendaraan terbanyak yang di gunakan oleh konsumcn pada tahun 2004, hanya saja merek kendaraan tersebut yang mcmpcngarulli pcnjualan rata rata pada tahun 2004. 4.2.3. Model Kathasil (Harga yang dipilih uleh konsuillcn) Dalarn pengolahan model ketiga dari data tersebut, dapat kita jadikan Kathasil Gumlah atau harga yang terjual) menjadi variabel target, karena dapat diketahui banyaknya kendaraan yang teIjual dengan hcrga yang murah, sedang, mahal, dan sangat mahal. (bahan bakar), Prediktornya yang mempengaruhi variabel target adalah Bbakar rnrkmobil(merek mobil) sbbfsyst (sistem bahan bakar), bpintu(banyaknya Pintu), JkcndaraanGensi kendaraan), Hp (house power) kendaraan tersebut. Tipe tree yang akan digunakan dalam untuk mengolah data tersebut adalah tipe tree Klasifikasi. Dalam pengolahan Model Kathasil (Harga yang dipilih oleh konsumen) kita mengunakan metode Gini. DaJam menentukan kelas untuk data yang ban;, Kathasil dan penjualan kendaraan mempunyai prediksi bennacam macam dari murah, sedang, mahal, dan sangat mahal. Dari tree di bawah ini akan didapatkan informasi bahwa : H'¥M06U -I""" ,;Y·20HW L~'~ .,----.--'=:= 1,~"qKM0ffi.$ i riooe 2 Tcm.nrn N:;>je13 'W~17(H>OO I W·34.ooo II N· IlD 'T~-: Ncde12 i ;w~ UffJ ! ;.p'%d(): I w.17.lJiXj i 11_17 -i~-'-T~ !o::oe3 -" .. ~~.r))J t~4 iW~\3I)YJ Uii!IIIIIIllIJ !",.'1iW .' Gambar 4.4. Tree model Kathasil Pada gambar tree diatas dapat dilihat bahwa node ke-13 memiliki model yang menyatakan model penjualan kendaraan untuk menengah ke atas. Da!am menentukan optimum tree, dapat terbentuk jumlah terminal node sebanyak 13 buah. Pada gambar diatas, dapat dinyatakan bahwa setiap kelas memiliki ciri yang berbeda-beda. Tem1inal node 13 dapat menyatakan bahwa node tersebut dapat diklasifikasikan sebagai variabel sangat mahal. Pada gambar dibawah, a1:an didapatkan informasi bahwa : Gains Chart Gains C!'latt _0 Cas No %of % Cum%" Cum Node Tgt Tgt % % Pop Cases Cum Lift In I~ Pop 2 34 13 33 28 45 13 4.000 3700 3623 2.326 1.789 1.283 1.186 3.647 3.385 0.242 0143 0000 0.000 '" i.nI.JI• •,:tP-.UijU'iiWfii 1.1.1••1.1.111 aEM.. 5 13 8 1 2 10 4 Tgt. (:3$$: Gai:>$ sangmahal Lift Cum Lift 2 31 11 2 1 0 0 100.000 91176 84.615 6861 3.922 11.765 2.941 09S0 6078472.549 19.60B 16667 21.56,94.118 25.980 6373 3922 38.039 42.15716176 3.571 1961 100.000 55.B82 '3.725 0000 0000 100.000 77.941 22059 0.000 0.000100.00084.314 6373 4.oaO sengmahal: Learn Tol~1 cases: 51 Percent of sample: 25,00 Gambar 4.5. Gains Chart dari sangat mahal Tree optimal yang mempengaruhi gains chart dari nilai 25 % pengetahmn pada populasi maka kita dapat mengetahui harnpir seluruh informasi kelas dari variabel target tersebut. Dari Gambar 4.5. dinyatakan bahwa dengan setiap note yang akan mendekati nilai 100 akan diartikan sebagai jumlah dari peminat penjualan kendaraan yang sangat mahal tersebut sangat tinggi, lain pula apabila note itu semakin mendekati garis horizontal maka makna yang akan didapatkan adalahjumlah dari peminat penjualan kendaraan yang sangat mahal yang diminati oleh konsumen biasa saja atau tidak sarna sekali mengalami perubahan dalam penjualan dari merek kendaraan tersebut. Hal tersebut dipengaruhi oleh variabel yang mempengaruhi target dibawah ini (TabeI4.3.) : Tabcl 4.3. Varia bel Importance Kathasi! MRKMOBIL$ SBBFSYST$ HP JKENDARA$ BBAKAR$ BPINTU$ 100,00 50,22 42,68 35,54 1,39 0,00 1111111111111111111 111111111111111111 IIIIIIIIIIIIIII IIIIIIllIll Daftar variabel yang mempengaruhi variabel target V8riabel yang sfulgat bcrpengaruh adalah merck mobil, dimana pada target kathasil dapat diketahui bahwa merck menenentuan harga dari mobil, karena pada suatu pembelian kendaraan, biasanya seorang konsumen cendrung membeli kendaraan bcrdasarkan lIlcrck. Pada Kathasil (harga penjualan) kendaraan roda empat biasanya produsen menentukan harga yang akan di beli oleh konsumen. Sebuah kendaraan dilihat dari sistem bahan bakamya dan Hp (house power) karena dari dna variabel tersebntlah sebuah kendaraan dapat dijual dengan beberapa tipe harga. /*Rules for terminal node 13 */ if ( ( MRKMOBlL$ = bmw II MRKMOBIL$ = jaguar II MRKMOBIL$ == land rover Ii MRKMOBIL$ = mercedes-benz II MRKMOBIL$ = volkswagon ) ) { terminalNode = -13: class = sangmahal; probClassl = 0.0882353; probClass2 = 0; probClass3 = 0.91 1765; probClass4 = 0; } Dari model ini sm;gat veriabel karena tidak berIawanan dengan kenyataan bahwa, rnei·ek kendaraan BMW, JAGUAR, LAND ROVER, MERCEDEZ BANZ, "tau YOLKSW.,\GON adalah merek bn:iaraan dengan harga yang sangat mahal dan jcn" kenduraan terscbut banyak diminati oleh kalangan atas. Alur clari mls yang digunakan untuk mendapatkan informasi dan data penjualan kendaraan yaitu : Bahwa biasanya scbuab mobil yang dijual kcp"saran dcngan katcgori penjualan yang sangat mahal akan ditentukan oleh merek kendaraan seperti BMW, JAGUAR, LAND ROVER., MERCEDEZ BANZ, atau YOLKSWAGON. Maka akan diketabui banyaknya kendaraan yang dijua! kepasaran dengan harga yang sangat mahal dengan menggunakan system bahan bakar yang lebih bagus dan memiliki HP yang besar. maka kendaraan tersebut jarang dijual dengan harga murah, dan sedang. 4.2.4. Model Jkendaraan (j"nis kendaraan) Dalam pengolahan model jkendaraan (jenis kendaraan) dapat diketahui bahwa jenis kendaraan banyak mempengaruhi pendualan dari data tersebut, dapat kita jadikan jkendaraan (jenis kendaraan) sebagai variabel target dan predik'tomya yang mempengaruhi variabel target adalah Madein (buatan dari negara), Mrkmobil (merek mobil), Bbakar (bahan bakar), Eksmesin (menggunakan ke:cepatan standar atau turbo), Bpintu (banydcnya pintu), Ktit (kritcria mcsin), Kokl'1esin (lokasi mcsin), Jmesin Genis mesin). Cylinder ( ba;1yaknya cylinder) sbbftyst (sistem bahan bakar), Katha5il (Penjaalan), Umesin (ukuran mesin), Torsi (jarak antara mesin dengan rada) Panjang (p::'Dang mobil), Lebar (khar mobil), Tinggi (tinggi kendaraan), Berat (berat kepdaraa;1), Rasia (pcrbandingan bhdaraan), Hp (house power), Penjualan kendaraan tersebut. Dalam jenis tree yang aka.'1 digunakan dalarn mcnggunakan data tersebut adalah trce rjpe KlasifIkasi, Daiam pengolahan Jkendaraan (ienis kendaraan) akan kita gunal~an mctodc Gini, Pada gambar dibawah, akan didapatkan informasi bahwa Nooe 1 S[JDfSY$~$ W·2l)4.(J."(, IhX>l GambaI' 4.6. Tree model jen's kendaraan Dalam Tree, dapat terbentuk jumlah term;l.a; node sebanyak ; 4 buah, Pada Gambar 4.6. ciapat dinyatakan bahwa setiap kelas memiliki ciri yang berbeda-beda. Suatu me1'ek l:endara£i.f1 dapat diketahui Lefbed::t jika kend.ar~"1 tersebut dibua~ )'ang berbe<1a. Pada tenninal node deng~n 5 menyatakan bahwa node mengklasifikasikan variable Sport Utility Vehicle (Suv). jenis tersebut Pada gambar dibawah, akan didapatkan informasi bahwa : Gains Chart Gains Chart 100 I 80 ~ 100 /" 80 I I 60 I u ,. 40 40 6 2 0 2D 40 " SO 100 1. Population _.~--~-~._~-- Tgl Oa$"s:: suv Gains Lift CUfn Lift %01 % Node Tgt Cum%: Cum" Tgt. Pop % Cases Cum Pop '" lift lI"njllm!lii'~·i~t.IC:!ljl.IM:@i 5 + 0' 0 , ". 60 20 20, No Care 2 2 15 3 3 4 8 14 3 4 D - 66667 6.452 12.903 66.667 6.452 19.355 62.500 30000 23077 8000 0000 _.~- .-~---'- 2.451 3.922 413.387 67.742 15.686 9677 77.419 20.5R8 9.677 87.097 26.961 12.903 100.000 51.471 0000 100.00086.765 1.471 1.471 11,765 4.902 6.373 24.510 35.294 3 3 24 10 13 50 72 Lift Pop iWMmmt 5.265 4.387 4.935 4.387 4.319 4.113 3.760 1.974 323D 15'19 1.943 0.526 1.153 OJ)OO . suv; Learn Total cases; 31 Pelcent of sample: 1520 Gambar 4.7. Gains chart dad Sport Utility Vehicle (SUV) Dalam glan chart Gambar 4,7. dapat dilihat bahwa jenis kendaraan Sport Utility Vehicle (SUV) adalah tipe kendaraan yang cukup banyak di ambil oleh konsumen, karena 20 % dari jumlah populasi d3pat m~wakili 90 % jumlah dan kelasnya. Dapat dilihat bahwa setiap peminat kendaraan Sport Utility Vehicle (SUV) tersebut cukup banyak peminatnya. Jenis kendaraan SUV tersebut banyak digunakan oleh kalangan muda yang ingin kendaraannya berbody sport dan tampil beda dengan jenis kendaraan lain. Hal tersebut dipengaruhi oleh variabel yang l11el11pengaruhi target dibawah ini (Tabel 4.4.) : T:.be! 4.4. Variabe! lr.lportanee Jkendaraan IMRKMOBIL$ SBBFSYST$ LEBAR TINGGI TORSI BERAT KATHASIL$ UMESIN PANJANG JMESIN$ HP I IIOO,OO 77,.50 165,57 59,99 59.98 47,59 44,99 43,75 40,35 36,42 35,88 IIIII!I!IIIIIIIIIIIIIIIIIII!II!!!IIII!! IllIIIIllIIIIIIIIllIIllIIIIllIIIII IIIIIIIIIIIIIIIIlHIIIIIIIIIU 1 IIIIIIIIIIIIIIIIIIIIIIIIII! I • IIIIIIIIIIIIIIIIIIIII!IIII 111111111111111111111111 111111111111111111111 I IIIIIIII!IIIIIIIIII I!IIII!I!IIIIIIII IIIIIIIIII!IIII IIIIIIIIIIIIII Variabel-variabel prediktor yang mempengaruhi variabel Jkendllr-aan D'lpat dilihat bahwa merck mobil mendol11;nasi iebih banyak dari kendan:ai1 yar,g beIjenis SUV, dan sistem bahan bak.ar berpengal1lh terhadap jenis kendaraan tersebut. Padajenis mobil dapat dilihat bahwa kendaraan roda empat cenderung dilihat dari merek dan system bahan bakar dari pada spesifikasi yang lain. karena untuk jenis kendaraan SUV, banyak memodifikasi dari segi body dan bahan bakar maka akan didapatkan sebuah kendaraan yaIlg berbodi sport dengan bahan bakar yang tidak boros. Untuk setiap produsen yang ingin membuat jenis kendaraan SUV, berarti ada kecenderungan merek-merek tertentu yang mempengaruhi uHtuk setiap pembuatan mobil dengan tipe ter(e;ltu. Oleh karena itu informasi yang berguna untuk produsen kecil dalam memprodllksi kendaraan adalah kecenderung produsen Ulltuk memilih tipenya yang tidak sama dengan merek-merek temama. 1* Rules for terminai node 5*1 if ( f \ KATHASlL$ = mahalli KATHASlLS = murah II KATHASlLS == sedang )&& ( MRKMOPI:,S = daihatsu II MRKMOBlL$ = hyundai II MRKMOBlL$ = isuzu II MR.Kl\10BlL$= mercedes-benz Ii MRKMOBIU = !1ismr, II MR.Kl\10BIL$ = suzuki II MRKMOBlL:; = toyOt8 II MRKMOBlL$ = volkswagen )&& ( SBBFSYST$ = SBBFSYST$ = SBBFSYST$ = SBBFSYST$ = SBBFSYSTS = SBBFSYST$ = SBBFSYSTS = SBBFSYST$ = SBBFSYST$ = SBBFSYST$ = SBBFSYST$ = )&& disel II efi II feem II icimulti ifis II mpfi II mpi II msi II pgmfi II sohc II yanos II PANJANG> 185.05 ) { terminalNode = -5; class = suv; probClass I = 0; probClass2 = 0; probClass3 = 0.333333; probClass4 = 0.666667; probClass5 = 0; } Dari ruls diatas dapat diartikan bahwa banyaknya konsumer. memilih kendaraan bertipe SLTV (Sport Utility Vehicle) dilihat dari merek, dan jenis sistem bahan bakar. Alur dari rules diatas adalah bahwa setiap kendaraan SUV, haruslah memiliki panjang lebih besar dari 185.5. Sedangkan dengan mdihat dari segi pembuatan yang diproduksi oleh produsen dengan jenis kendaraan SUV banyalmya mcrek mobil yang mendominasi untuk jenis kendaraan SUV diantara!1ya adalah DA1HATSU, HYUNDAI, ISUZU, VOLKSWAGON. MERSEDES BENZ, SUZUKI, TOYOTA, atau BABV KESIMPULAN DAN SARAN 5.1 Kesimpulan Ditahun 2004, Audi dan Peugot adaJah merek rata-rata yang dibeli oleh konsumen, hal ini merupakan informasi yang berguna t6rutama bagi para infestor. lnfestor mempunyai poten~i yang cukup besar untuk pemsahaan yang tingkat sa:lamnya berada ditengah-tengah agar dc.pat berkembang untuk mengenalkan merek kendaraanya. Tingkat kcyalidarl atau keabsahan dati model, bisa di Ehat dati model kathasil. Bahwa mobil-mobil dengan tipe merek mobil seperj BMW, JAGUAR, LAND ROYER, MERCEDEZ BANZ, atau VOLKSWAGON memanglah termasuk tipe-tip6 harga yang sangat mahal. Tingkat keyaEdan atau keabsahan dari model, bisa dilihat dan model kathasil. Bahwa mobil-mobil dengan tipe merek mobil seperti BMW, JAGUAR, LAND ROYER, MERCEDEZ BANZ, atau YOLKSWAGON memanglah termasuk tipe-tipe harga yang sangat mahal. Produsen mobil dengan merek tertentu eenderung untuk membuat jenis kendaraan tertentu juga. Hampir kebanyakan dati seluruh produsen mobil baik yan.g harganya murah, sedang, mahal, dan sangat mahal atau deng,m sistem bahan bakar apapun temyata, produsen eenderung membuat jenis kendaraan tertentu juga. 5.2 Saran Pengolahan data PT.OTO MULTIARATHA dengan teknik data mining dapat dilakukan dengan cara lain seperti: Mars, Svm, Hybrid model, dai1lain lain. Sehingga dapat diperoleh lebih banyak informasi dan merupakan salah satu bentuk veritlkasi dari model yang telah dikeJjakan DAFTAR PUSTAKA [I] [2] [3] [4] [51 [61 [7] [8] [9] [10] [II] [12] [! 3] [14] [15] Arif Rifai Dwiyanto, http://www.bogor.netlidkf/idkf/aplikasi/data-mining1997.rlf28 Me; 2006, pk. 09.30 W1B Mohammad Sugeng Haryono, Penggunaan Decesion Tree Pada Data Mining Untuk Pemilihan Costumer Dalam Rangka Promosi Produk, Theses JIPTlTS, 2006-05-22 11:44:47 Merlius Lusyanti, Regression analysis, Theses JIPTITS, 2006-05··22 11:44:47 Andl1yashin. Anton. Financial Applications of Classification and Regression Trees. Master Thesis. CASE - Center of Applied Statistics and Economics. Hbmboldt University, Berlin. 24 Maret 2005. Introductio,l to Data Mining and Knowledge Discovery Third Edition, by Two Crows Corroration MarkllS Hegland, Data mining tcclmiqucs.Centre for Mathematics and its Applications,School of Mathematical Sciences,Australian National University.Canberra ACT 0200, Australia 1 April 2002 J. Han and M. Kamber. Data Mining. March 18.2004 Motarilmad Sugeng Haryono, Mining, Decision Tree, Algoritma CART, Pemasaran Produk, 07-07- 200517:48:59 http://remo!es~nsing.montana.edu!pdfs/zambon _ et_al_2006.pdf, 28 Mei 2006, p:~. 00.30 \VIB http://w... ·v;.ise.bgu.ac.il;courses/kdd/slides/kdd04.pdt~ IMei 2006, ]'lk.Il.OOW1B ·http://de.wikipedia.org/wiki/QuartiL tanggal22 apIil2006jam 14.15 Confidence in an association rule http://publib.boulder.ibm.com/infocenter/db2!uw/v8/index.jsp?topic=/com.ib m.im.model.doc/c_defining_minimum_confidcnce.htrnltanggal 23-09-2006 Decision tree http://en.wikipedia.orgiwikilDecision_tree 23-05-2006 http://www.ee.ucr.edu!-barthlEE242/clustering_survey.pdf tanggal 14-032006 jam 18.00 DM Comer Data Mining & Knawledge Discovery - Reveal hidden knowledge clasifikasi_ \VWW-.rholips_worldpress_com_tgl_29_06_06_times_9_41.htrn JURNAL ILMU KOMPUTER DAN TEKNOLOGI INFORMASI VOLUME 1 NOMOR 2, Pcrbandingan KincJja Pcrangkat Lunak Dala Mining Untuk PencaIian Pola Asosiasi Dengan Metode Gfaf Asosiasi Dan Metode Dimensi Frakta, ArifDjunaidy, Fakultas Teknologi Inforrnasi, Institut Teknologi Sepuluh Nopelllber. Rully Soelaiman, Fakultas Teknologi Inforrnasi, Institllt Teknologi Seplllllh Nopember, NOVEMBER 200 I [16] [17] []8] http://w>vwAwoman.gov/faq/diabetes.pdf28Mei2006.pk. 09.30 WIB SPSS for Windows Release 1] .5, ponionsof this product cread LEAD TOOLS] 99]-200] CRM (Kini) Tak Sekedar Mengelola Pelanggan : eBivAsia April 2004.htm 2003 - 2004. http://www.eBiuAsia.com/April 2004.htrn. 13 april 2004 jam 12.00 Lampiran 1 Perubahan Nilai Numerik Menjadi Kategorik Harga No , i 1 2 3 4 5 6 7 8 9 10 1083 900 252 . 218 271 266 330 405 656 252 II 548 12 335 §J622 I , , .- , I 14,515 15 493 j ') 2376 17 '915 18 141 19 158 20 148 21 157 22 148 23 24 123 25 120 26 117 27 123 28 114 29 256 30 144 31 140 32 146 33 154 34 161 35 120 36 130 37 225 1132 =I Kategorik s3ngmahal __ sangmahal mahal mahal mahal mahal sangmahal sangmahal sangmahal mahal sanQillahal sangmahal s8i1gmahal sangmahal sangmahal sangmahal sangmahal sedang sedang scdang sedang scdang murah murah murah murah murah murah mahal sedang sedang sedang -- ---- --- ----- --- :=l --- sedang sedang murah murah mahal Ii 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 II I'I , , I ! I I 55 I i ,I ! - 56 57 5" 59 60 61 6" 63 146 232 246 226 214 161 243 138 235 338 333 450 142 160 112 133 144 159 160 183 167 144 ,140 131 130 138 ~167 l-_£~.lI88 , , , I I I , I ,I I 139 67 377 68 432 69 432 70 379 71 !750 72 710 73 916 74 1716 75 379 76 . 161 77 184 78 190 79 191 80 105 ,,6 sedang mahal mahal mahal mahal sedang mahal murah mahal sangmahal sangmahal samrrnahal sedang sedang murah murah sedang sedang sedang mahal sedang sedang sedang murah fl1w'Rh murah sedang mahal manal sangmahal sangmahal sangmahal sangmahal sangmahal sangmahal sangmahal sangmahai sangmahal sedang mahal mahal mahal murah =J, _=i -- ~ --- -- ----- ------ --- -- --- ~ 81 ! .~ 118 82 " 169 83 125 84 135 85 161 86 146 87 ! 161 88 191 89 151 90 ; 194 91 129 92 123 93 177 94 170 95 158 96 150 97 153 98 ! 178 99 288 100 205 101 207 IO~ 472 103 350 104 337 105 307 106 ,641 107 91 108 96 109 102 110 III III 125 112 134 113 174 114 156 lIS 194 116 204 1:7 374 118 179 119 177 120 173 121 157 122 166 123 272 murah scdang mllrah mllrah sedang sedang sedang mahal sedang mahal mllrah mllrah mahal sedang sedang sedang sedang mahal sangmahal mahal mahal sangmahal sangmahal sangmahal sangmahal sangmahal mllrah murah murah mutah murah murah mahal scdang mahal mahal sangmahal mahal mahal mahal sedang sedang mahal ~ -----, =1 -i ---J --l -- ~ 124 166 106 126 109 127 112 128 113 129 123 130 I 159 131 176 132 140 133 142 134 144 135 160 136 " 102 137 104 138 126 139 1126 140 212 141 I 163 142 187 143 129 144 137 145 140 146 154 147 157 148 172 249 114 151 123 152J 117 153 116 154 162 155 159 156 115 157 187 158 137 159 121 160 143 161 149 162 135 163 138 164 133 165 154 166 164 p< -' ~~ ! ! tI I ! sedang murah murah murah murah murah sedang mahal sedang sedang sedang sedang murah murah murah ! murah mahal sedang mahal murah murah sedang sedang sedang mahal mahal murah mural, murah murah sedang sedang murah mahal murah murah sedang sedang murah murah murah ~"cdang sedang ~ -1 -- ---- ---i ---I -=1 =i ---§ ----- --- --- , 1_ I' 167 168 169 170 171 172 174 173 175 617 504 208 227 270 280 ,230 30b 248 1268 248 230 230 208 831 292 224 .! 275 il g~1 178 ~ . I I' I ]80 18] ]82 183 184 185 186 ]87 188 189 190 19] 192 ]93 194 ] 95 196 /97 198 ]99 200 20] 202 203 204 338 351 390 376 ,406 390 4]8 464 400 97 ]21 ] 14 15 ] 135 277 236 347 349 368 409 sangmahal sangmahal mahal mahal mahal sangmahal mahal sangmahal P.1ahal mana} mahal mahal mahal mahal sangmahaI sangmaha1 mahal mahal sangmaha1 sangmahal sangmaha1 sangmahal sangmahal sangmahal san~ahal sangmahal sangmaha1 I murah I murah murah sedang murah sangmaha1 mahal sangmaha1 sangmaha1 sangmaha1 sangmahal ~ ----- ---- --- -- -- ~ -- ---- -- Lampiran 3 Penginisialan Variabel Tipe Nama No. Tipe Data" \'ariabcl Pengukuran I 1 Symbol ;-~umerik Rasin 2 Madein String Nominal Laku String Nominal , MrkmobiJ String Nomina! I5 I! Bbakar String rOminal Eksmesin String hI 6 I7 I I B;>intu h ------!' -f'""' "'" 9 . 10 - Krit I Lokmesin HTorsi I Nomina! , String NO!11inal String Nominal String Nominal I ~ ~ I I ~ ~ lk.m:n,1 Numerik Rasin I I Panjang Rasin Lebar Numeri!: Rasio 14 Tinggi Numerik Ra<:;,jo 15 Berat Numerik Rasio 16 . Jrnesir. String Nominal H I -String Numerik 12 ~ I I 17 Cylinder String Nominal 18 Umesin Numerik Rasin 1 I I, Mpfi IY ' 01 Rasia ,I Bp r~~-l 23 1 1 24 I Nominal , String ! i I-;Q I~ I Barga I Kat~asil I Per0ualan I Numerik IRaSiO Numcrik 1~,aSiO I I, Numerik I String String -Rasio - Nominal ~ominal I ~