PROPOSAL PROYEK DATA MINING UNTUK KLASIFIKASI PENYAKIT DEMAM BERDARAH DI DESA PAITON MENGGUNAKAN METODE FEATURE EXTRACTION DAN KNEAREST NEIGHBOURS Pembimbing: Kolonel Lek Dr. Ir. Arwin Datumaya Wahyudi Sumari, S.T., M.T., IPM, ASEAN Eng., ACPE Oleh: Ivanka Mauludy Juniar (1941720182) Muhammad Reza Pahlevi (1941720230) Noorr Afiad (1941720230) TI-2D PROGRAM STUDI D4 TEKNIK INFORMATIKA JURUSAN TEKNOLOGI INFORMASI POLITEKNIK NEGERI MALANG BAB I PENDAHULUAN 3 1.1 Latar Belakang 3 1.2 Rumusan Masalah 3 1.3 Lingkup dan Batasan Proyek 3 1.4 Maksud dan Tujuan 3 BAB II LANDASAN TEORI 4 2.1 Studi Literatur 4 2.2 Dasar Teori 4 2.2.1 Feature Extraction 4 2.2.2 K-Nearest Neighbors 4 BAB III Metodologi Penelitian 5 3.1 Waktu dan Tempat Penelitian 5 3.2 Teknik Pengumpulan data 5 3.2.1 Observasi 5 3.2.2 Wawancara 5 3.3 Teknik Pengolahan Data 5 3.4 Design Sistem 6 3.4.1 Analisa Kebutuhan Sistem dan Piranti 7 BAB I PENDAHULUAN 1.1 Latar Belakang Disaat era globalisasi ini dimana segala sesuatu serba cepat dengan adanya teknologi informasi. Dengan perkembangan saat ini sudah sangat menuntut segala sesuatu untuk serba cepat, dan salah satunya pengklasifikasian penyakit. Mengingat saat ini adalah musim hujan dimana nyamuk akan berkembang biak dengan sangat cepat sehingga banyak orang terkena penyakit yang berasal dari nyamuk seperti demam berdarah, dan juga di masa pandemik dimana lebih baik untuk mengurangi interaksi dengan pasien maka diperlukan adanya pengkalsifikasian penyakit ini. Klasifikasi gejala pasien dengan mengambil data gejala pasien dengan data yang telah ditetapkan di dalam database akan sangat membantu dokter guna mempermudah dalam diagnosa pasien, khususnya disaat musim hujan seperti ini dimana kasus penyakit demam berdarah meningkat. Untuk mengatasinya pada proyek ini akan digunakan metode Feature Extraction yang akan digunakan untuk pencocokan data pasien berdasarkan gejalanya. Untuk pengklasifikasian akan digunakan metode K-Nearest Neighbors sehingga akan mempermudah mengkategorikan berdasarkan gejala dari pasien. 1.2 Rumusan Masalah Dari latar belakang diatas akan disimpulkan rumusan masalah sebagai berikut : 1. Bagaimana mengklasifikasikan penyakit berdasarkan keluhan pasien? 2. Bagaimana membuat klasifikasi yang akurat? 3. Bagaimana cara menerapkan metode Feature Extraction dan K-Nearest Neighbors dari sop pasien demam berdarah? 4. Bagaimana cara mengurangi interaksi antara pasien dan dokter? 1.3 Lingkup dan Batasan Proyek Lingkup dari proyek yang akan dilaksanakan melingkupi : 1. Penyakit tertentu dimana kasusnya adalah demam berdarah. 2. Ditujukan kepada pasien di daerah desa paiton. 3. metode yang digunakan feature extraction dan K-Nearest Neighbors. Adapun batasan pelaksanaan proyek secara keseluruhan maksimal hingga dilakukan penilaian proyek . 1.4 Maksud dan Tujuan Dengan adanya proyek ini akan memudahkan pengklasifikasian penyakit mengingat di masa pandemic dimana sangat dianjurkan untuk mengurangi interaksi antara pasien dan dokter juga memudahkan untuk mendiagnosa pasien demam berdarah. Untuk mencapai maksud tersebut maka dibentuklah tujuan : ● Membuat sistem pengklasifikasian yang mampu mengklasifikasikan berdasarkan keluhan pasien. ● Memudahkan dokter dan pasien. BAB II LANDASAN TEORI 2.1 Studi Literatur Dalam proyek ini ada beberapa literatur yang dijadikan rujukan yang dirangkum sebagai berikut: Dalam jurnal hasil penelitian Brigita Yulia Lestari Fahik dkk. Pada tahun 2018 yang berjudul “Data Mining Untuk Klasifikasi Status Gizi Desa Di Kabupaten Malaka Menggunakan Metode K-Nearest Neighbor” menghasilkan kesimpulan bahwa metode k-Nearest Neighbor mengklasifikasi status desa-desa yang ada di Kabupaten Malaka berdasarkan nilai tingkat balita dengan berat badan di bawah garis merah kedalam tiga kelas target yaitu rendah,sedang dan tinggi (Brigita,Bertha & Nelel,2018). Jurnal hasil penelitian Linda Purnama Muri dkk. Pada tahun 2018 yang berjudul “Prediksi Tingkat Penyakit Demam Berdarah Di Kota Kendari Menggunakan Metode Modified K-Nearest Neighbor” menyimpulkan bahwa menggunakan metode Modified K-Nearest Neighbor (MKNN) mampu melakukan prediksi dengan nilai error terkecil sebesar 0,04% untuk nilai k = 4 nilai error terkecil terbesar 1,58 untuk nilai k = 4 dan rata - rata error terkecil sebesar 0,28% untuk nilai k = 3 (Linda, Bambang. Jayanti,2018). Dalam buku yang berjudul Mastering Machine Learning with scikit-learn dapat menentukan metode yang akan di gunakan penelitian (Hackeling,Gavin,2017). 2.2 Dasar Teori 2.2.1 Feature Extraction Feature Extraction adalah proses untuk mendapatkan informasi terhadap object ataupun kelompok object untuk memfasilitasi proses klasifikasi. representasi kata yang paling sering digunakan adalah “The bag-ofwords model” atau Tas kata-kata. dimana representasi yang menggunakan multiset yang mengkodekan segala syntax, mengabaikan urutan kata, dan mengabaikan semua tata bahasa. 2.2.2 K-Nearest Neighbors K-Nearest Neighbor (k-NN atau KNN) adalah sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran (neighbor) yang jaraknya paling dekat dengan objek tersebut. Dekat atau jauhnya neighbor biasanya dihitung berdasarkan jarak Euclidean. diperlukan suatu sistem klasifikasi sebagai sebuah sistem yang mampu mencari informasi. BAB III Metodologi Penelitian Metode penelitian yang digunakan adalah menggunakan adalah observasi dan wawancara untuk mengumpulkan data-data (numeric), yang bertujuan untuk mendapatkan gambaran yang jelas suatu keadaan berdasarkan data yang diperoleh dengan cara menyajikan, mengumpulkan mengumpulkan dan menganalisis data tersebut sehingga menjadi informasi baru yang dapat digunakan untuk menganalisa mengenai masalah yang sedang diteliti. 3.1 Waktu dan Tempat Penelitian penelitian dilakukan secara daring dan luring dengan menggunakan media google meet, google collaboratory, google dokumen yang akan dilaksanakan selama masa pembelajaran evektif di semester 4 yang dimulai dari februari hingga bulan mei. 3.2 Teknik Pengumpulan data Dalam penyusunan penelitian ini, untuk mendapatkan data dan informasi yang dibutuhkan, maka metode yang digunakan dalam proses pengumpulan data adalah dengan 2 metode yaitu observasi dan wawancara. 3.2.1 Observasi Nasution (1998) menyatakan bahwa, observasi adalah dasar semua ilmu pengetahuan.Para ilmuwan hanya dapat bekerja berdasarkan data, yaitu fakta mengenai dunia kenyataan yang diperoleh melalui observasi.Mursall (1995) menyatakan bahwa “through observation, the researcher learn about behavior and the meaning attached to those behavior” melalui observasi, peneliti belajar tentang perilaku, dan makna dari perilaku tersebut. Melalui metode pengumpulan data ini akan dilakukan pengambilan data dengan cara mengamati SOP Pasien Demam Berdarah yang akan periksa di puskesmas di daerah desa paiton. 3.2.2 Wawancara Wawancara adalah suatu tanya jawab secara tatap muka yang dilaksanakan oleh pewawancara dengan orang yang diwawancarai untuk memperoleh informasi yang dibutuhkan. Sehingga pengambilan data akan dilakukan dengan cara mengadakan tanya jawab secara langsung kepada pegawai analis kesehatan/dokter puskesmas paiton. 3.3 Teknik Pengolahan Data Ada dua pendekatan utama untuk pengurangan dimensi: feature extraction dan feature selection (Bonev, Escolano, & Cazorla, 2008). Feature extraction merupakan masalah penting dalam klasifikasi data dengan dimensi besar. Tujuan dari feature extraction adalah untuk menghasilkan satu set fitur yang memiliki dimensi lebih kecil dari dimensi dari data asli, sementara untuk tetap mempertahankan karakteristik data asli yang cukup untuk mengklasifikasikan data (Park & Choi, 2009).Pengujian dilakukan menggunakan metode feature extraction dengan mendiagnosa keluhan-keluhan Pasien Puskesmas Desa Paiton , lalu yang di extract menjadi beberapa kata, dengan adanya beberapa kata lalu klasifikasi data pasien dengan metode K-Nearest Neighbor , data tersebut dibagi ke dalam data training dan data testing. Data yang di gunakan untuk proses data mining di bagi menjadi Data training dan data testing. Selanjutnya dilakukan normalisasi yaitu dengan proses penskalaan data pasien sehingga bisa jatuh pada pada range tertentu. Untuk menghitung menggunakan rumus Euclidean maka langkah berikutnya adalah mengubah data pasien ke data numeric. 3.4 Design Sistem pada proyek ini proses pengklasifikasian metode K-Nearest Neighbors dibutuhkan 1 buah input yaitu keluhan pasien dimana nanti akan dicocokan dengan data sop yang telah ditetapkan oleh petugas puskesmas. Gambar 1 flowchart Metode feature extraction dan KNN sebagai pengklasifikasi penyakit demam berdarah. 3.4.1 Analisa Kebutuhan Sistem dan Piranti Pada sub-bab ini akan tercantum kebutuhan lunak dan piranti yang dibutuhkan selama proyek berjalan Perangkat lunak No Nama perangkat lunak 1 Sistem Operasi Windows 7/8/10 2 Google Collaboratory 3 Draw.io 4 Google Docs untuk menyusun laporan 6 Google Meet Perangkat keras No nama perangkat keras 1 Laptop/desktop 2 Processor Intel i5 3 Memory 4.00 GB