Bab II Tinjauan Pustaka Bab ini menjelaskan tinjauan pustakan yang dipergunakan dalam pelaksanaan analisis dan perancangan perangkat lunak pendukung keputusan estimasi biaya pada IKM manufaktur. II.1 Pengolahan Data dan Knowledge Discovery in Database (KDD) Pengolahan data dapat dikategorikan menjadi dua, yaitu: On Line Transaction Processing (OLTP) dan On Line Analytical Processing (OLAP). OLTP merupakan pengolahan data operasional, karena itu data yang dipergunakan adalah data pada masa kini. Pada masa datang, data yang dihasilkan pada masa kini akan memasuki masa kadaluwarsa dan disimpan terpisah dari data operasional dan disebut sebagai data warehouse (gudang data). Menurut Han (2001), data warehouse adalah sebuah database yang dipergunakan untuk keperluan pendukung keputusan dan dikelola secara terpisah dari database operasional. Data warehouse mempunyai sifat: 1. subject oriented, karena diorganisasi berdasarkan subjek, seperti data pelanggan, data produk, dsb 2. terintegrasi, karena dibangun dari beberapa sumber data yang beragam seperti database relasional, file, dan bentuk data lain sehingga memerlukan teknik data cleaning dan data integration untuk memastikan konsistensi penamaan, pengukuran atribut, dsb. 3. time-variant, horizon data jauh lebih lama daripada data operasional, misalnya data-data dalam kurun waktu 5-10 tahun. 4. non volatile, karena tidak terjadi perubahan data. Karena data warehouse dapat terdiri dari beberapa bentuk sumber data, maka data warehouse dimodelkan dalam bentuk data multidimensi yang dilihat sebagai data cube. Data cube terdiri dari: 1. data dimensi, yaitu perspektif pengguna terhadap data 2. data fakta, yaitu nilai data Gambar II-1Siklus Knowledge Discovery Data warehouse seringkali mengandung informasi yang dapat dipergunakan sebagai pendukung keputusan dalam siklus Knowledge Discovery in Database (KDD). KDD adalah istilah umum yang dipakai untuk seluruh metode yang bertujuan untuk mengetahui hubungan diantara data yang diobservasi. KDD terdiri dari banyak tahapan yang dimulai dari identifikasi tujuan bisnis sampai dengan penerapan aturan pada permasalahan bisnis. Secara umum, tahapan KDD disajikan dalam Gambar II-1. Salah satu langkah dalam KDD adalah Data Mining, yaitu ekstrasi pengetahuan dari data dalam jumlah besar (Han, 2001). Weiss (1998) membagi data mining menjadi dua kategori, yaitu: (a) prediction (classification, regression dan time series) dan (b) knowledge discovery (clustering, association rule, summarization, text mining dan visualization). Menurut Betts (2003) penerapan data mining saat ini sedang dan akan berkembang secara luas. Penerapan data mining sangat beragam seperti contoh dalam Tabel II-1. Tabel II-1 Contoh Penerapan Data Mining Aplikasi Data Masukan Business Intelligence Data Keluaran Riwayat pembelian konsumen, Produk-produk yang sering dibeli informasi kartu kredit oleh konsumen secara bersamaan Rating film box office, rating Rekomendasi film untuk ditonton novel terlaris atau buku untuk dibaca Network Intrusion Data TCPDump atau log Kejadian anomali dalam setiap Detection jaringan komputer node jaringan komputer Web Search Query oleh pengguna web Ranking halaman web Diagnosis Medis Riwayat penyakit pasien, data Diagonis status kesehatan pasien Collaborative Filtering demografi Perkiraan Cuaca Data barometer, curah hujan, Prediksi status cuaca pada sebuah pergerakan angin dan awan, data daerah geografis Beberapa framework penerapan data mining telah dikembangkan berdasarkan proses bisnis industri dan bisnis. Framework tersebut dikembangkan karena kegiatan data mining semakin kompleks dengan melibatkan banyak data, kepakaran yang bervariasi ataupun lingkungan bisnis yang beragam. Karena itu, frameworks data mining diharapkan dapat dijadikan sebagai panduan untuk proses koleksi data, analisis, diseminasi hasil data mining dan pengembangan dari penerapan data mining tersebut. Beberapa framework yang berkembang saat ini adalah: 1. CRISP (Cross Industrial Standard Process for Data Mining). Framework ini diusulkan oleh konsorsium Uni Eropa. Secara umum CRISP terdiri dari tahapan pemahaman pada proses bisnis dan data, persiapan data, pemodelan, evaluasi dan penerapan. 2. DMAIC (Define-Measure-Analyze-Improve-Control). berdasarkan pada metodologi Six-Sigma yang Framework ditujukan ini untuk mengeliminasi cacat, pemborosan, berorientasi pada pengendalian kualitas dalam kegiatan manufaktur, industri jasa, manajemen dan aktivitas lainnya. 3. SEMMA (Sample-Explore-Modify-Model-Assess). dikembangkan oleh SAS (Statistical Analysis Framework Sistem) ini Institute. Framework ini mempunyai tahapan yang mirip dengan Six-Sigma. II.2 Pengolahan Awal Data (Data Preprocessing) Sub bab ini membahas tentang kebutuhan data preprocessing dalam siklus KDD beserta teknik-teknik yang biasanya dipergunakan. Data mentah tidak selalu mempunyai format yang sesuai untuk keperluan analisis. Data harus diolah terlebih dahulu dan diubah ke dalam bentuk yang memungkinkan untuk proses data mining. Penyiapan data sangat penting karena setiap teknik data mining berperilaku berbeda terhadap proses penyiapan data dan teknik transformasi yang berbeda. Menurut Han (2001), penyiapan data dapat dikategorikan sebagai berikut: 1. Data cleaning, terdiri dari kegiatan untuk menghilangkan noise dan mengelola missing value. Data cleaning terdiri dari kegiatan sebagai berikut: a. Penanganan terhadap nilai kosong. Dalam penyiapan data, masalah sering muncul pada saat ditemukan sebuah nilai kosong. Nilai kosong dalam sebuah variabel adalah data yang sebenarnya ada, namun tidak tercantum dalam data set dikarenakan kesalahan pengisian data. Beberapa teknik data mining akan mengabaikan atau memberikan nilai secara otomatis terhadap nilai kosong, namun hal ini mengakibatkan pelaku data mining tidak dapat mengendalikan keseluruhan proses data mining. Terdapat beberapa cara untuk menangani nilai kosong, diantaranya dengan cara mengisi nilai rata-rata data pada nilai kosong dengan Persamaan II-1. n µ= ∑x i =1 i Persamaan II-1 n Dimana µ adalah nilai rata-rata dan xi adalah data dalam sebuah atribut. b. Penanganan noise, yaitu random error dari variabel yang dihitung. Dapat dilakukan dengan median filtering. Metode ini dipergunakan pada time-series data set untuk menghilangkan outliers dan data yang tidak baik. Metode ini termasuk non linear filtering yang ditujukan untuk tetap mempertahankan fitur data. Dalam sebuah data serial, teknik ini mengambil nilai dari data tengah dalam selang data tertentu. 2. Data integration and transformation, yaitu integrasi dari beberapa sumber data berupa database, file atau data cube. Dalam kegiatan ini juga dilakukan transformasi data mentah menjadi data yang siap untuk dimining. Kegiatan yang termasuk dalam penyiapan data ini terdiri dari: a. Data Integration, terdiri dari kegiatan penanganan terhadap permasalahan yang muncul pada saat identifikasi entitas. Karena data terdiri dari berbagai sumber data, maka redundansi di antara data harus dihindari. Untuk itu dipergunakan teknik seperti analisis korelasi di antara data. b. Data Transformation, yaitu pengubahan bentuk data agar siap untuk diolah, meliputi smoothing, normalisasi, generalisasi, konstruksi atribut dan agregasi data. Normalisasi/standardisasi dipergunakan untuk mengubah nilai data dalam sebuah data set sehingga data set mempunyai nilai tengah nol dan variansi 1. Normalisasi dilakukan dengan mengurangi setiap data dalam sebuah atribut dengan nilai rata-rata atribut dan membaginya dengan standar deviasi atribut tersebut dengan mempergunakan Persamaan II-2. SC i = xi − µ σ Persamaan II-2 Dimana SCi merupakan column scaling untuk sebuah atribut. 3. Data reduction, yaitu pengurangan representasi data, dapat berupa agregasi data, pengurangan dimensi dan kompresi data. Pada saat data set memiliki lebih dari jumlah variabel yang dapat dipergunakan untuk membangun model, diperlukan seleksi terhadap kandidat variabel untuk dipergunakan untuk keperluan data mining. 4. Data discretization, yaitu pengurangan jumlah nilai pada atribut kontigu, misalnya dengan penggunaan interval. II.3 Clustering dengan Metode K-Means Sub bab ini menjelaskan tentang teknik pengelompokan data dengan K-means yang dipergunakan dalam proses perancangan sistem pendukung keputusan estimasi biaya produksi di IKM manufaktur. Clustering adalah pembagian data menjadi kelompok objek yang mirip, yang disebut cluster. Sebuah cluster terdiri dari objek-objek yang mirip dan berbeda terhadap objek dari cluster lain. Dari perspektif machine learning, cluster merepresentasikan pola yang tersembunyi di dalam data, sehingga pencarian cluster merupakan proses unsupervised learning. Menurut Berkhin (2002), teknik clustering dapat diklasifikasikan menjadi hierarchical method (agglomerative dan disisive), partitioning method (probabilistic method, k-medoids method, k-means method, desity-based method), grid method, dan teknik lainnya. Hierarchical clustering membagi cluster secara hirarki, sehingga setiap node cluster dapat mempunyai anak ataupun sibling cluster. Berdasarkan proses pembentukan cluster, hierarchical clustering dapat dibagi menjadi agglomerative (bottom-up) dan disisive (top-down). Agglomerative method dimulai dengan membuat satu buah cluster untuk setiap objek data dan secara rekursif melebur dua atau lebih cluster tersebut menjadi cluster yang sesuai. Sebaliknya, disisive method dimulai dari membuat satu buah cluster yang berisi seluruh objek data dan kemudian secara rekursif membagi cluster tersebut menjadi sejumlah cluster yang sesuai. Proses rekursif pada agglomerative dan disisive method berlanjut sampai terpenuhinya stopping criteria, yang biasanya merupakan jumlah k cluster yang diinginkan. Contoh teknik dalam hierarchical clustering adalah: CURE, Chameleon dan COBWEB Partitioning method membagi data menjadi k cluster, dan kemudian melakukan proses iterative penempatan objek data kepada masing-masing cluster. Relokasi objek data di antara masing-masing cluster menghasilkan cluster yang dinamis. Objek data yang sudah dialokasikan pada sebuah cluster dapat direlokasi kepada cluster lain sehingga optimal. Contoh teknik partitioning method adalah kmedoids method, k-means method. Menurut Murtini (2002), clustering adalah proses pembagian atau pengelompokan dari sekumpulan data yang tidak berlabel menjadi sejumlah kelompok data (cluster) dimana pola yang mirip akan dikelompokkan ke dalam cluster yang sama. Setiap data dapat direpresentasikan oleh sebuah vektor yang mempunyai banyak parameter atau atribut. Dasar dari teknik clustering adalah penghitungan kemiripan atau jarak diantara data-data tersebut. Untuk pola dengan data kualitatif, penghitungan jarak dilakukan dengan matching-type. Sedangkan pada pola dengan data kuantitatif, dipergunakan penghitungan distance-type. Jarak Euclidian atau Mahalanhois biasanya dipergunakan untuk menghitung jarak di antara data-data dalam teknik clustering. Dalam tesis ini, teknik k-means dipergunakan sebagai pengolahan awal terhadap data historis rancangan produk dengan pertimbangan kemudahan perhitungan dan kemudahan visualisasi untuk keperluan interpretasi. K-means membagi koleksi dari n vector xj, j=1,..,n menjadi c kelompok G, i=1,..,c dan menentukan pusat cluster dalam setiap kelompok dengan berdasarkan cost function yang minimum. Jika jarak Euclidian dipergunakan untuk mengukur ketidaksamaan dari sebuah vektor xk dalam kelompok j terhadap pusat cluster adalah ci, maka cost function didefinisikan seperti dalam Persamaan II-3. c c J = ∑ J i = ∑ ∑ x k − ci i =1 i =1 k , xk ∈Gi dimana ∑x k , xk ∈Gi k − ci 2 2 Persamaan II-3 adalah cost function dalam kelompok i. Karena itu nilai Ji bergantung pada properti geometri dari Gi dan lokasi dari ci. Kelompok cluster didefinisikan oleh matrik keanggotaan U yang bernilai biner dan berukuran c x n, dimana Uij bernilai 1 jika data j pada point xj merupakan anggota dari kelompok i dan bernilai 0 untuk kondisi sebaliknya. Pada saat titik pusat cluster ci sudah tetap, nilai minimum Uij pada Persamaan II-3 dapat diturunkan seperti pada Persamaan II-4. 1, jika x − c j i U ij = 0, lainnya 2 2 ≤ x j −c k , k ≠ i Persamaan II-4 Pada Persamaan II-4, xj dimiliki oleh kelompok i jika ci adalah titik pusat cluster terdekat di antara titik pusat cluster lainnya. Persamaan II-4 menyatakan bahwa xj dimiliki oleh cluster i jika ci merupakan titik pusat cluster terdekat diantara titik pusat cluster lainnya. Karena sebuah data hanya dapat berada pada satu buah cluster, maka keanggotaan matrik U c mempunyai properti ∑U i =1 ij = 1, ∀ j = 1,.., n dan c n ∑∑U i =1 j =1 ij = n . Jika Uij tetap, maka nilai optimal titik pusat ci yang meminimasi Persamaan II-3 adalah nilai rata-rata dari seluruh vektor dalam kelompok i disajikan dalam Persamaan II-5. ci = 1 Gi ∑x k , xk ∈Gi k Persamaan II-5 n dimana |Gi| adalah ukuran dari Gi atau Gi = ∑ U ij j =1 Pada data xi, i=1,..,n algoritma k-means menentukan titik pusat cluster ci dan matrik keanggotaan U secara iteratif dengan langkah-langkah sebagai berikut: 1. inisialisasi titik pusat cluster ci, i=1,..,c. Biasanya dilakukan secara random dengan memilih titik c di antara data 2. tentukan matrik keanggotaan U dengan Persamaan II-4 3. hitung cost function dengan Persamaan II-3. Perhitungan dihentikan pada saat cost function bernilai lebih rendah dibandingkan nilai toleransi 4. ubah nilai titik tengah cluster dengan Persamaan II-5 dan ulangi langkah 2 Berdasarkan algoritma k-means, inisialisasi titik pusat cluster secara random sangat mempengaruhi hasil proses clustering. Menurut Deelers (2007), perbaikan proses inisialisasi awal titik pusat cluster dapat dilakukan dengan cara melakukan partisi data berdasar pada atribut yang mempunyai variansi tertinggi. Algoritma penentuan titik awal cluster yang dipergunakan oleh Deelers (2007) adalah sebagai berikut: 1. proses dimulai dengan menentukan sel c, yaitu sel yang memuat seluruh data 2. nilai setiap atribut data dari sel c diurutkan mulai dari yang terkecil dan disajikan dalam bentuk link list untuk setiap atribut 3. hitung variansi dari setiap atribut dari sel c, kemudian tentukan sebuah atribut yang memiliki variansi terbesar sebagai sumbu partisi 4. hitung kuadrat dari jarak Euclidian di antara data yang terurut pada sumbu dengan variansi terbesar D j = d (c j , c j +1 ) 2 , i dsumi = ∑ D j . j =1 5. hitung jarak titik pusat sel c: setelah itu hitung n centroidDist = ∑ dsum i =1 n i , dimana dsumi adalah jumlah dari jarak diantara data yang berurutan 6. Bagi sel c menjadi 2 partisi. Batas partisi adalah bidang datar yang berpotongan dengan sumbu dan melalui sebuah titik m dimana nilai dsumi adalah sama atau mendekati nilai centroidDist. 7. Hitung error dari masing-masing partisi, tentukan partisi dengan maksimum error. 8. lakukan langkah 3 sampai dengan 7 secara berulang sampai didapatkan k partisi sesuai dengan jumlah k dalam partisi k-means yang diinginkan Dengan penggunaan k-means dengan modifikasi pada penentuan titik awal cluster, diharapkan dapat diperoleh kelompok-kelompok produk dengan fitur geometri dan fitur pemesinan yang mirip dengan tingkat kesalahan clustering yang cukup baik. II.4 Prediction dengan MLR Sub bab ini menjelaskan tentang satu teknik prediksi, yaitu teknik multiple linear regression yang dipergunakan dalam proses perancangan sistem pendukung keputusan biaya produksi pada IKM manufaktur. Menurut Fayyad (1996), tujuan akhir dari data mining adalah untuk membuat prediksi terhadap data baru berdasarkan data historis, karena itu predictive data mining banyak diterapkan dalam berbagai aktivitas bisnis. Tahapan predictive data mining dijelaskan pada Gambar II-2, yaitu dimulai dari tahap persiapan data, pelaksanaan predictive data mining dan penerapan pada permasalahan nyata. Terdapat beberapa teknik prediksi, di antaranya adalah regresi, neural network, decision tree, dsb. Regresi adalah relasi di antara nilai x yang dipilih dan nilai observasi y di mana nilai y dapat diprediksi berdasarkan nilai x. Regresi linier merupakan metode prediktif yang didasarkan pada hubungan di antara variabel masukan dan keluaran. Sebuah regresi linier mempergunakan persamaan dinamik dalam sebuah garis dimana y = mx + c (dimana m merupakan kemiringan, c merupakan konstanta pada sumbu y, dan x merupakan variabel yang dipergunakan untuk menghitung y). Dalam kasus model regresi linier, terdapat kemungkinan terjadinya error sehingga rumus dapat ditulis sebagai y=g(x) + e, di mana g(x) adalah mx +c dan e adalah error. Error menggambarkan selisih antara nilai prediksi dan nilai aktual. Gambar II-2 Tahapan Prediction Kasus yang diselesaikan dengan regresi linier seringkali didasarkan pada nilai x dan y yang sudah diketahui, dan ditujukan untuk mengetahui hubungan antara x dan y. Terminologi linier diartikan bahwa koefisien dari variabel independen adalah linier. Terdapat pendapat yang menyatakan bahwa model polinomial bukan merupakan kasus linieritas, namun dalam statistik hanya variabel dependen (parameter) yang dipergunakan dalam mengklasifikasikan linieritas dalam sebuah model. Jika sebuah parameter adalah tidak linier, maka model menjadi tidak linier. Dalam tesis ini dipergunakan teknik MLR untuk menentukan rumus estimasi biaya produksi untuk setiap kelompok produk yang mempunyai kemiripan fitur geometri dan fitur pemesinan. Dalam MLR terdapat variable dependen Y dan sejumlah variable independen x1, x2, . . . , xp. Tujuan dari MLR adalah untuk memperkirakan nilai dari variable dependen dengan mempergunakan fungsi linier dari variable independen. Model dari MLR disajikan dalam Persamaan II-6. Y = β0 + β1x1 + β2x2 + · · · + βpxp + ε, Persamaan II-6 Pada Persamaan II-6, ε adalah “noise”, yang terdistribusi secara normal dengan nilai rata-rata sama dengan nol dan standard deviasi σ yang nilainya tidak diketahui. Nilai koefisien β0, β1, β2, . . . , βp juga tidak diketahui sehingga MLR dipergunakan untuk menghitung nilai-nilai yang tidak diketahui tersebut dari data yang tersedia. Data hasil observasi terdiri dari n baris yang bernilai yi, xi1, xi2, . . . , xip; i = 1, 2, . . . , n. Nilai estimasi koefisien β dihitung sehingga meminimasi Residual Sum of Sqaure, yaitu jumlah kuadrat dari selisih antara nilai prediksi dengan data yang dirumuskan seperti Persamaan II-7. n ( RSS = ∑ ε i = ∑ y i − β 0 − β1 xi 2 − ... − β p xi p 2 ) 2 Persamaan II-7 i =1 Nilai minimum dari RSS diperoleh dengan cara membuat derivasi RSS terhadap setiap koefisien β seperti pada Persamaan II-8. ∂RSS ∂RSS ∂RSS ∂RSS , , ,......., β0 β1 β2 Persamaan II-8 βp Derivasi RSS seperti pada Persamaan II-8 akan menghasilkan sejumlah p+1 persamaan dengan jumlah variabel yang tidak diketahui. Dengan mempergunakan seluruh p+1 persamaan, maka dapat diketahui p+1 variabel yang tidak diketahui, yaitu β0, β1, β2, . . . , βp. Jika β0, β1, β2, . . . , βp diketahui, maka Persamaan II-6 dapat diselesaikan dan menghasilkan koefisien regresi. Pada saat variabel dependen berjumlah banyak, penyelesaian MLR membutuhkan waktu yang cukup lama. Karena itu penulisan dengan notasi matrik dilakukan agar penyelesaian MLR dapat dilakukan lebih cepat. Persamaan II-6 dapat dituliskan dalam notasi matrik seperti Persamaan II-9. Y = βx + ε Persamaan II-9 1 x1,1 x1, 2 L x1,k Y1 β1 ε1 1 x 2,1 x 2, 2 L x 2,k Y2 β2 ε 2 dimana Y = , β = , ε = dan x = M M M M M M M M Y β β 1 x 1 x L x n, n, 2 n ,k 3 3 3 Koefisien regresi β dapat dihitung dengan Persamaan II-10. β = (x T x ) x T y −1 dimana xT adalah matriks transpose dari x dan Persamaan II-10 -1 menyatakan inversi sebuah matrik. Dalam prediksi, kemampuan sebuah model prediksi seperti pada Persamaan II-6 diukur berdasarkan deviasi hasil prediksi terhadap nilai aktual. Terdapat banyak teknik yang dapat dipergunakan untuk menggambarkan kemampuan sebuah model prediksi di antaranya adalah: Mean Absolute Error (MAE), Mean Square Error (MSE), Root Mean Square Error (RMSE), Mean Absolute Percentage Error (MAPE), koefisien efisiensi dan teknik-teknik lainnya. MAPE dapat didefinisikan sebagai rata-rata persentase kesalahan absolut dari sebuah nilai prediksi terhadap nilai aktual. Nilai absolut dipergunakan dalam MAPE karena metode ini menganggap besaran kesalahan lebih berpengaruh dibandingkan arah kesalahan itu sendiri. MAPE dapat ditentukan dengan mempergunakan Persamaan II-11. MAPE = 100 n At − Ft ∑ n t =1 At Persamaan II-11 Berdasarkan nilai MAPE, dapat ditentukan akurasi sebuah model prediksi. Akurasi sebuah model prediksi akan semakin meningkat jika deviasi terhadap nilai aktual semakin kecil, karena itu akurasi prediksi didefinisikan seperti Persamaan II-12. Akurasi = 1 − MAPE Persamaan II-12 II.5 Cost Estimation dalam Industri Manufaktur Sub bab ini menjelaskan tentang biaya produksi manufaktur dan metode estimasi biaya produksi yang dipergunakan pada IKM manufaktur. Kendala penerapan, kelebihan dan kekurangan masing-masing metode estimasi biaya produksi juga dibahas dalam sub bab ini. Manufaktur adalah serangkaian aktifitas dan operasi yang melibatkan kegiatan perancangan, pemilihan material, perencanaan produksi, proses produksi dan penjaminan kualitas produk (Chisholm, 1990 dalam Brinke, 2002). Biaya, secara umum dapat didefinisikan sebagai sumber daya ekonomi yang diperlukan untuk menyelesaikan aktifitas pekerjaan dan biasanya dinyatakan dalam satuan mata uang. Dalam manufaktur, perkiraan biaya adalah prosedur untuk memperkirakan biaya manufaktur dari sebuah produk sebelum seluruh tahapan dalam siklus pengembangan produk dilakukan. Long (2000) mengelompokkan siklus pengembangan produk menjadi 5 (lima) tahap, yaitu: konsepsi, pengembangan, produksi, operasi dan purna jual seperti pada Tabel II-2. Pada awal daur hidup produk, informasi yang tersedia sangat terbatas dan akan semakin lengkap seiring pertambahan tahapan daur hidup produk tersebut. Berdasarkan ketersediaan informasi, metode perkiraan biaya yang sesuai untuk tahap konsepsi adalah metode analogi dan parametrik. Tabel II-2 Penerapan Metode Perkiraan Biaya dalam Daur Hidup Produk (Long, 2000) Tahap Konsepsi Pengembangan Produksi Operasi Purna Jual Analitis ▲ ▲ ▲ ▲ Analogi ▲ ▲ ▲ Parametrik ▲ ▲ ▲ ▲ ▲ Kegiatan order response merupakan salah satu kegiatan dalam tahap konsepsi, dimana informasi detil produk belum tersedia. Metode perkiraan biaya produksi yang sesuai dalam tahap ini adalah metode analogi dan parametrik seperti pada Tabel II-2 Penerapan Metode Perkiraan Biaya dalam Daur Hidup Produk (Long, 2000)Tabel II-2. Gambar II-3 Cost estimation paradox (Bode, 1998) Besaran biaya dalam manufaktur yang diperlukan untuk menyelesaikan sebuah produk dapat diperkirakan lebih akurat pada saat informasi detil produk sudah tersedia. Dalam tahap perancangan produk, 70% informasi detil produk sudah tersedia sehingga diharapkan perkiraan biaya yang dilakukan pada tahap ini lebih akurat. Namun demikian, pada tahap perancangan produk, informasi tentang detil informasi produk belum tersedia, sehingga sulit untuk membuat perkiraan biaya pada tahap ini. Fenomena ini disebut sebagai cost estimation paradox seperti pada Gambar II-3. Menurut Weustink (2000) dalam Brinke 2002, perkiraan biaya yang dilakukan berdasarkan pada rancangan produk ditentukan oleh cost driver yang saling terkait, terdiri dari geometri, material, proses produksi dan perencanaan produksi. Pada tahap perancangan, cost driver yang sangat berpengaruh pada perkiraan biaya adalah geometri dan material. Secara umum terdapat 3 metode dalam penentuan cost estimation pada industri manufaktur (Camargo, 2003): 1. Metode analitis, yaitu perkiraan biaya berdasarkan data perancangan. Rancangan produk dirinci menjadi bill of material dan proses-proses yang dibutuhkan untuk menyelesaikan produk tersebut. Metode ini sesuai untuk diterapkan pada tahap produksi pengembangan sebuah produk baru. Kelemahan dari metode ini adalah a) hanya dapat diterapkan jika data rancangan dan proses produksi sudah diketahui b) membutuhkan data dan sumber daya yang besar. 2. Metode analogi, yaitu perkiraan biaya berdasarkan kemiripan produk terhadap produk sejenis yang pernah diproduksi. Aspek kemiripan yang dibandingkan dalam metode ini di antaranya adalah kemiripan fungsi, kemiripan fitur dan kemiripan morfologi fisik. Metode ini menuntut kepakaran dan pengalaman dalam melakukan penentuan tingkat kemiripan antar produk. 3. Metode parametrik, yaitu metode dengan perkiraan biaya dengan pemodelan matematis dari sejumlah Cost Estimation Relationships (CER), aturan dasar (ground rules), asumsi-asumsi, variabel dan konstanta untuk mendeskripsikan dan mendefinisikan kondisi tertentu. Metode ini dapat dilakukan dengan cepat, namun menuntut pemutakhiran model matematis sesuai perkembangan variasi produk. Metode ini sangat berguna terutama pada tahap awal perancangan produk dimana informasi detil belum tersedia. CER merupakan ekspresi matematis yang memberikan biaya produksi sebagai fungsi dari satu atau lebih variabel cost driver. Kelebihan penggunaan CER adalah: memungkinkan estimasi yang cepat tanpa perlu informasi detil dan CER dilakukan berdasarkan ongkos produksi historis yang nyata. Dengan perkembangan teknologi pengelompokan data, metode analogi dapat dilakukan dengan mempergunakan teknik K-Means sehingga ketergantungan terhadap pakar dapat dikurangi. Teknik K-Means mengelompokkan data kuantitatif produk ke dalam kelompok produk yang mempunyai kemiripan tinggi dan berbeda terhadap kelompok produk yang lain.