ANALISIS SENTIMEN ULASAN PRODUK E-COMMERCE MENGGUNAKAN TEXT MINING UNTUK MENDUKUNG KEPUTUSAN BISNIS SKRIPSI Disusun oleh Farid Fadillah 1955201160 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER UNIVERSITAS LANCANG KUNING PEKANBARU 2025 i KATA PENGANTAR Puji syukur ke hadirat Allah SWT atas segala rahmat dan karunia-Nya, sehingga penulis dapat menyelesaikan skripsi yang berjudul “Analisis Sentimen Ulasan Produk E-Commerce Menggunakan Text Mining untuk Mendukung Keputusan Bisnis” tepat pada waktunya. Skripsi ini disusun sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Fakultas Ilmu Komputer, Universitas Lancang Kuning. Dalam proses penyusunan skripsi ini, penulis banyak menerima bantuan, bimbingan, dan dukungan dari berbagai pihak. Oleh karena itu, dengan segala kerendahan hati penulis menyampaikan ucapan terima kasih yang sebesar-besarnya kepada: 1. Allah SWT, yang telah memberikan kesehatan, kekuatan, dan kesabaran dalam menyelesaikan penelitian ini. 2. Orang tua dan keluarga tercinta, yang selalu memberikan doa, dukungan, semangat, serta kasih sayang yang tidak ternilai harganya. 3. Bapak/Ibu Dosen Pembimbing, yang telah dengan sabar memberikan arahan, masukan, serta bimbingan dalam proses penyusunan skripsi ini. 4. Seluruh dosen dan staf Fakultas Ilmu Komputer Universitas Lancang Kuning, yang telah memberikan ilmu dan pengalaman berharga selama masa perkuliahan. 5. Teman-teman seperjuangan, yang selalu memberikan semangat, dukungan, dan motivasi baik secara langsung maupun tidak langsung. Penulis menyadari bahwa skripsi ini masih jauh dari sempurna, baik dari segi isi maupun penyajian. Oleh karena itu, penulis mengharapkan kritik dan saran yang membangun demi penyempurnaan penelitian ini. Akhir kata, penulis berharap semoga skripsi ini dapat memberikan manfaat, baik secara akademis maupun praktis, khususnya dalam bidang analisis data dan pengembangan strategi bisnis retail. Pekanbaru, 01 Oktober 2025 Penulis Farid Fadillah ii ABSTRAK Perkembangan e-commerce di Indonesia semakin pesat seiring dengan meningkatnya jumlah transaksi belanja online. Ulasan produk yang ditulis oleh konsumen tidak hanya menjadi bahan pertimbangan bagi calon pembeli, tetapi juga dapat dimanfaatkan oleh perusahaan untuk mengevaluasi kualitas produk maupun layanan. Namun, banyaknya jumlah ulasan membuat perusahaan kesulitan untuk menganalisis secara manual. Oleh karena itu, penelitian ini bertujuan untuk menganalisis sentimen ulasan produk e-commerce dengan menggunakan metode text mining sehingga dapat mendukung pengambilan keputusan bisnis. Data penelitian diperoleh dari ulasan konsumen pada platform e-commerce dengan jumlah ribuan entri. Tahapan analisis meliputi data preprocessing (pembersihan data, tokenisasi, stopword removal, dan stemming), pembobotan kata dengan Term Frequency-Inverse Document Frequency (TF-IDF), serta klasifikasi sentimen menggunakan algoritma Naïve Bayes. Hasil analisis menunjukkan proporsi ulasan positif, negatif, dan netral, serta kata-kata yang paling sering muncul pada tiap kategori sentimen. Kesimpulan dari penelitian ini adalah bahwa analisis sentimen dengan text mining mampu memberikan gambaran yang jelas mengenai persepsi konsumen terhadap produk. Informasi tersebut dapat dimanfaatkan perusahaan untuk meningkatkan kualitas produk, memperbaiki layanan, serta merancang strategi pemasaran yang lebih tepat sasaran. Kata kunci: E-commerce, Ulasan Produk, Analisis Sentimen, Text Mining, Naïve Bayes iii ABSTRACT The rapid growth of e-commerce in Indonesia has led to an increasing number of online shopping transactions. Product reviews written by consumers not only serve as references for potential buyers but also provide valuable insights for companies to evaluate product quality and customer service. However, the large volume of reviews makes it difficult for businesses to analyze them manually. Therefore, this study aims to conduct sentiment analysis on e-commerce product reviews using text mining techniques to support business decision-making. The data used in this study were collected from consumer reviews on an e-commerce platform, consisting of thousands of entries. The analysis process includes data preprocessing (data cleaning, tokenization, stopword removal, and stemming), word weighting using Term Frequency-Inverse Document Frequency (TF-IDF), and sentiment classification with the Naïve Bayes algorithm. The results reveal the proportion of positive, negative, and neutral reviews, as well as the most frequently occurring words in each sentiment category. The findings indicate that sentiment analysis through text mining provides a clear overview of consumer perceptions of products. This information can be utilized by companies to improve product quality, enhance customer service, and design more effective marketing strategies. Keywords: E-commerce, Product Review, Sentiment Analysis, Text Mining, Naïve Bayes iv DAFTAR ISI KATA PENGANTAR .............................................................................ii ABSTRAK .............................................................................................. iii ABSTRACT ............................................................................................iv DAFTAR ISI ............................................................................................ v BAB I PENDAHULUAN ........................................................................ 1 A. Latar Belakang .................................................................................. 1 B. Rumusan Masalah ............................................................................. 2 C. Batasan Masalah................................................................................ 2 D. Tujuan Penelitian .............................................................................. 3 E. Manfaat Penelitian ............................................................................ 3 F. Sistematikan penulisan ...................................................................... 4 v BAB I PENDAHULUAN A. Latar Belakang Perkembangan teknologi informasi dan komunikasi dalam era digital telah memberikan dampak yang signifikan terhadap berbagai sektor industri, termasuk sektor perdagangan. Salah satu transformasi yang paling menonjol adalah pergeseran pola konsumsi masyarakat dari sistem belanja konvensional menuju belanja daring (online shopping) melalui platform e-commerce. Menurut laporan dari Google, Temasek, dan Bain & Company (2023), nilai ekonomi digital Indonesia diproyeksikan mencapai lebih dari USD 130 miliar pada tahun 2025, dengan sektor e-commerce menjadi kontributor terbesar. Fakta ini menegaskan bahwa e-commerce telah menjadi salah satu tulang punggung pertumbuhan ekonomi digital di Indonesia. Dalam aktivitas e-commerce, konsumen tidak hanya berperan sebagai pembeli, tetapi juga sebagai sumber informasi yang sangat berharga bagi perusahaan. Salah satu bentuk kontribusi konsumen adalah melalui ulasan produk (product review) yang mereka tinggalkan setelah melakukan transaksi. Ulasan ini mengandung opini, persepsi, dan pengalaman subjektif konsumen terhadap produk maupun layanan yang diterima. Informasi yang terkandung dalam ulasan dapat bersifat positif, negatif, maupun netral, sehingga jika dianalisis secara sistematis dapat menjadi indikator penting dalam menilai kualitas produk, tingkat kepuasan pelanggan, hingga efektivitas strategi pemasaran. Namun, tantangan utama yang dihadapi perusahaan adalah volume data ulasan yang sangat besar, heterogen, dan tidak terstruktur (unstructured data). Analisis manual terhadap ribuan bahkan jutaan ulasan jelas tidak efisien dan rentan terhadap subjektivitas. Oleh karena itu, diperlukan pendekatan berbasis data dengan memanfaatkan metode analisis teks modern. Salah satu pendekatan yang banyak digunakan adalah text mining, yakni proses ekstraksi pola, informasi, dan pengetahuan dari data berbasis teks dengan bantuan algoritma dan teknik natural language processing (NLP). Dalam konteks e-commerce, text mining umumnya diterapkan dalam bentuk sentiment analysis atau analisis sentimen, yang bertujuan untuk mengklasifikasikan ulasan konsumen ke dalam kategori positif, negatif, atau netral. Proses ini melibatkan beberapa tahapan penting, antara lain data preprocessing (tokenisasi, stopword removal, stemming, dan normalisasi teks), representasi fitur dengan metode Term FrequencyInverse Document Frequency (TF-IDF) atau word embedding, serta penerapan algoritma klasifikasi seperti Naïve Bayes, Support Vector Machine (SVM), atau Logistic Regression. Implementasi analisis sentimen pada ulasan produk e-commerce memiliki nilai strategis dalam mendukung data-driven decision making. Misalnya, hasil klasifikasi 1 sentimen dapat digunakan untuk mengidentifikasi produk dengan tingkat kepuasan rendah, mengevaluasi kualitas layanan pelanggan, serta merancang strategi komunikasi pemasaran yang lebih tepat sasaran. Selain itu, dengan memanfaatkan feature importance atau analisis kata kunci dominan, perusahaan dapat memperoleh pemahaman lebih mendalam terkait aspek produk yang paling sering menjadi sorotan konsumen, baik dalam konteks keunggulan maupun kelemahan. Lebih jauh, penerapan text mining tidak hanya memberikan efisiensi dalam pengolahan data ulasan, tetapi juga meningkatkan daya saing perusahaan di era industri 4.0 yang menekankan pada pemanfaatan big data analytics. Dengan memanfaatkan ulasan konsumen secara sistematis, perusahaan dapat menerapkan pendekatan berbasis pelanggan (customer-centric approach), meningkatkan retensi pelanggan (customer retention), serta mengoptimalkan strategi inovasi produk. Berdasarkan latar belakang tersebut, penelitian ini berfokus pada “Analisis Sentimen Ulasan Produk E-Commerce Menggunakan Text Mining untuk Mendukung Keputusan Bisnis”. Penelitian ini diharapkan dapat memberikan kontribusi baik secara akademis maupun praktis, yakni memperkaya kajian literatur dalam bidang text mining serta memberikan solusi nyata bagi perusahaan untuk memanfaatkan data ulasan konsumen sebagai dasar pengambilan keputusan strategis. B. Rumusan Masalah Atas dasar uraian latar belakang di atas, maka permasalahan yang akan diteliti adalah sebagai berikut : 1. Bagaimana melakukan pengolahan data ulasan produk r-commerce agar dapat dianalisis menggunakan metode text mining? 2. Bagaimana hasil analisis sentimen dapat mengkalifikasikan ulasan konsumen ke dalam kategori positif, negatifm dan netral? 3. Bagaimana hasil analisis sentimen tersebut dapat dimanfaatkan untuk mendukung pengambilan keputusan bisnis pada perusahaan e-commerce? C. Batasan Masalah Untuk menjaga fokus penelitian, batasan masalah dalam penelitina ini adalah sebagai berikut : 1. Data yang digunakan dalam penelitian ini berupa ulasan produk (product review) dari platform e-commerce yang diperoleh melalui dataset publik atau hasil pengumpulan data terbatas, bukan data internal perusahaan. 2 2. Analissi sentimen hanya difokuskan pada klasifikasi tiga kategori utama, yaitu positif, negatif, dan netrtral. 3. Proses pengolahan data teks (text preprocessing) dibatasi pada tahapan umum, yaitu case folding, tokenization, stopword removal, dan stemming. 4. Representasi data teks menggunakan metode Term Frequency- inverse Document Frequency (TF-IDF). 5. Algoritma klasifikasi yang digunakan dalam penelitian ini adalah Naïve Bayes, tanpa melakukan perbadingan dengan algorimat lain. 6. Penelitian ini hanya membahas hasol analisis sentimen untuk memberikan gambaran persepsi konsumen secara umum, tanpa membahas implementasi langsung pada sistem rekomendasi atau aplikasi bisnis tertentu. D. Tujuan Penelitian Adapun tujuan pada penelitian ini sebagai berikut : 1. Mengolah data ulasan produk e-commerce yang bersifat tidak terstruktur menjadi data yang siap dianalisis dengan metode text mining. 2. Melakukan analissi sentimen terhadap ulasan konsumen untuk mengklasifikasikan opini ke dalam kategori positif, negatif, dan netral. 3. Mengetahui kinerja algoritma Naïve Bayes dalam proses klasifikasi sentimen pada data ulasan produk. 4. Memberikan gambaran mengenai persepsi konsumen terhadap produk e-commerce berdasarkan hasil analisis sentimen. 5. Menyajikan hasil analisis sentimen sebagai informasi yang dapat dimanfaatkan dalam mendukung pengambilan keputusan bisnis oleh perusahaan, E. Manfaat Penelitian Dengan dilakukanya penelitian ini, diharapkan dapat memberikan manfaat yaitu : 1. Bagi penulis menambah wawasan dan pengalaman dalam bidan text mining dan analisis sentimen 2. Bagi penulis menjadi dasar pengambilan keputusan dalam membangun bisnis, seperti strategi pemasaran, perbaikan layanan produk. 3. Menunjukan penerapan analisis data untuk mendukun keputusan bisnis berbasis data (data-driven decision making) 3 F. Sistematikan penulisan Sistematikan penulisan Skripsi ini dibagi menjadi 5 (lima) bab dan isi dari masingmasing bab dapat diuraikan sebagai berikut. BAB I PENDAHULUAN Dalam bab ini uraikan tentang penjelasan umum dari permasalahan yang di bahas sehubungan dengan penyusunan penulis ini yang meliputi latar belakang masalah, rumusan masalah, tujuan penelitian, manfaat penelitian, sistematikan penulisan. BAB II TINJAUAN PUSTAKA Bagian dari penelitian yang berisi rangkuman dan analisis literatur serta penelitian-penelitian terdahulu yang relevan dengan topik yang sedang diteliti, ini membantu peneliti membangun landasan teoritis untuk penelitian mereka dapat merujukan kontribusi unik dari penelitian tersbut. Berikut adalah beberapa elemen umum yang biasanya ada dalam tinjaua pustaka yang meiputi Tinjauan penelitian terdahulu, Teori dasar yang digunakan. BAB III METODE PENELITIAN Pendekatan sistematis dan rinci yang digunakan oleh peneliti untuk merancang, melaksanakan, dan mengevaluasi suatu penelitian. Metode penelitian menyajikan temua penelitian. Tujuan dari metode penelitian adalah memastikan keandalan dari validitas hasil penelitian. Berikut adalah beberapa elemen umum yang sering terdapat dalam bagian metode penelitian yan gmeliputi tahapan tahapan penlitian , Lokasi dan waktu penelitian, Data yang digunakan, Teknik pengumpulan data, metode/Pemodelan yang digunakan BAB IV HASIL DAN PEMBAHASAN Bab ini berisi hasil penelitian yang diproleh dari hasil ulasan produk e-commerce setelah melalui proses pembersihan dan pengolahan data. Ulasan tersebut akan diklasifikasn menjadi tiga kategori sentimen, yaitu positif, negetif, dan netral, mengunakan algorimat Naïve Bayes 4 BAB V PENUTUP Bab ini berisi kesimpulan dari hasil penelitian yang telah dilakukan mengenai Analisis Sentimen ulasan Produk E-Commerce mengunakan Text Mining untuk Mendukung keputusan Bisnis. Ini mencangkup temuan utama, yaitu bahwa analisis sentimen mengunakan text mining da algortma Naïve Bayes mampu mengklasifikasikan ulusan produk e-commerce menjadi postif, negatifm dan netral. Hasil ini memberikan gambaran mengenai persepsi konsum terhadap produk dan dapat menjadi sasr pengambilan keputusan bisnis, seperti perbaikan produk, layananm dan strategi pemasaran. DAFTAR PUSTAKA Pada bab ini penulisan mencantumkan semua referensi yang diguankan dalam proses penulisan skripsi, baik dari buku, jurnal artikel, maupun sumber lainya yang relevan. 5 BAB II TINJAUAN PUSTAKA A. Tinjauan Penelitian Terdahulu Penelitian ini dilakukan tidak terlepas dari hasil penelitian-penelitian terdahulu yang pernah dilakukan sebgaai baha perbandingan dan kajian.Adapun hasil-hasil penelitian yang dijadikan perbandingan tidak terlepas dari topik penelitian. 1. Penelitian yang berjudul : “Analisis Sentimen pengguna Aplikasi Shopee pada Situs Google Play menggunakan Naïve bayes Classifier” Oleh Andriani Nurian, Muhammad Samsul Ma’arif, Indira Nur Amalia, dan Chearur Rozikin (2023) Penelitian ini bertujuan untuk mengetahui tingkat kepuasan pengguna terhadap aplikasi Shoppe melalui ulasan di Goole Play Store. Metode naïve Bayes Classifier diguankan dalam klasifikasi sentimen positif dan negatif, dengan hasil akurasi sebesar 87,58% Hasil penelitian ini menunjukan bahwa mayoritas pengguna memberikan sentimen positif terhadap aplikasi Shoppe, serta metode Naïve Bayes terbukti efektif dalam pengklasifikasian teks berbahasa Indonesia. 2. Penelitian yang berjudul : “ Analaisis Sentimen Ulasan Produk Moisturizer Skintifc di Tokopedia Menggunakan Support Vector Machine.” Oleh Nurwahyudi Widhiyanta, Isnaini Muhandhi, Roszi Syadillal jannah, dan Laily Alfina Wulansari (2023) Penelitian ini menganalisis ulasan pelanggan terhadap produk perawatan kulit Skintifc pada platform Tokopedian dengan menggunakan algoritma Support Vector machine (SVM). Hasil menunjukkan bahwa SVM mampu mengkalisifikasikan sentimen positif dan negatif dengan tingkat akurasi yang baik, serta memberikan gambaran mengenai presepsi konsumen yang berguna bagi strategi pemasaran produk. 3. Penelitian yang berjudul : “Optimasi Analisis Sentimen Ulasan Sunscreen di ECommerce Menggunakan Algoritma SVM dan SMOTE” Oleh Ayi Andini, Nining Rahaningsih, Raditya Danar Danam dan Cep lukman Rohmat (2023) Tujuan penelitian ini adalah untuk mengarasi ketidakseimbangan data pada analisis sentimen produk kecantikan (sunscreen) menggunakan kombinasi metode Support Vector Machine (SVM) dan Synthetic Minority Over-sampling Technique (SMOTE). Hasilnya menunjukkan hingga mencapai 93%, sehingga model lebih andal dalam mengidentifikasi sentimen minoritas 4. Penelitian yang berjudul : “Analisis Sentimen APlikasi Shopee Tokopedia, Lazada dan Blibli Menggunakan Leksikon dan Random Forest.” Oleh A. Syah,F. Nurdiyansyah, dan A. Y. Rahman (2024) Penelitian ini membandingkan empat platfrom e-commerce besar di Indonesia dengan pendekatan berbasis lexicon dan algorimat Random Forest. Hasil penelitian menunjukkan bahwa Shoppe dan Tokopedia mendapatkan proporsi sentimen positif yang lebih tinggi dibandingkan Lazada dan Blibli. Kombinasi metode lexicon dan 6 Random Forest tebukti memberikan hasil yang stabil dalam mengidentifikasi sentimen pengguna. 5. Penelitian yang berjudul : “Analisis Sentimen produk Hijab pada E-Commerce Tokopedia Menggunakan Algortima Support vector machine dan IndoBERT Embedding”. Oleh Ghina Tri Fadilah, Lailil Muflikhan, dan Rizal Setya Pedana (2024) Penelitian ini menggunakan pendekatan word embedding bebasis IndoBERT untuk meningkatkan representasi semantik teks ulasan, yan gkemudian diklasifikasikan menggunakan algoritma Support Vector machine (SVM). Hasil menunjukkan bahwa integrasi IndoBert mampu meningkatkan akurasi klasifikasi dibandikan pedekatan konvensional berbasis TF-IDF. Berasarkan bebagai penelitian di atas, dapat disimpulkan bahwa penggunaan metode text mining dan algoritma klasifikasi seperti Naïve Bayes serta Support vector Machine (SVM) telah banyak digunakan dalam analisis sentimen ulasan produk ecommerce. Beberapa penelitian juga memperlihatkan penginkatan akurasi melalui penggabungan teknik seperti Smote untuk penyeimbang data dan penggunaan word embbeding seperti indoBERT untuk representasi teksyang lebih kontekstual. Namun demikian sebagian besar penelitian sebelumnya masih berfokus pada suatu platform ecommerce tertentu dan cenderung menitikberatkan pada akurasi model tanpa meninjau potensi penerapan hasil analisis dalam kontek pengambilan keputusan bisnis secara menyeluruh. Oleh karna itu, dalam penelitian yang berjudul “ Analisis Sentimen Ulasan produk E-Commerce Menggunakan Text Mining untuk Mendukung Keputusan Bisnis,” penulis akan mengembangkan pendekatan yang lebih komprehensif dengan mengobinasikan beberapa metode machine learning seperti Naïve bayes dan SVM, serta mengeksporasi penggunaan IndoBERT embedding untuk mengingkatkan akurasi model klasifikasi. Selain itu, penelitian ini juga akan menerpakan teknik penyeimbangan data menggunakan SMOTE dan melakukan aspect-based sentiment analysis untuk mengidenrifikasi sentimen konsumen pada aspek=aspek penting seperti kualitas produk, harga, pengiriman, dan layanan pelanggan. Melalui pendekatan ini, penelitian diharapkan dapat memberikan kontribusi nyata dalam menghasilkan model analisis sentimen yang tidak hanya akurat, tetapi juga mampu menyajikan insight yang dapat dimangaatkan secara langsung oleh pelaku bisnis dalam merumuskan strategi pemasaran,peningkatan kualitas layanan, serta pengambilan keputusan berbasis data yang lebih efektif. 7 B. Landasan Teori 1. E- Commerce a. Pengertian E-Commerce Electronic Commerce (E-Commerce) Merupakan proses transaksi bisnis yan gdilakukan secara elektronik melalui jaringan internet. Menurut Turban et al. (2018), e-commerce adalah proses membeli, menjual, mentransfer, atau menukar produk, layanan , dan informasi melalui jaringan komputer, termasuk internet. Sementara itu , Laudon dan Traver (2020) mendefiniskan e-commerce sebagai penggunaan internet dan web untuk melakukan transaksi bisnis secar digital antara organisasi dan individu. Dari berbagai definisi tersebut, dapat disimpulkan bahwa e-commerce merupakan bentuk perdagangan modern yang memunkinkan interaksi langsung antara penjual dan pembeli tanpa batasan geografis melalui media digital. b. Jenis-Jenis E-Commerce Menurut Chaffer (2019, E-commerce dapat di bedakan menjadi beberapa kategori utama berdasarkan pelaku transaksinyam yaitu : a) Business to Consumer (B2C) – transaksi antara perusahaan dan konsumen akhir, contohnya Shopee, Tokopedia, atau Lazada. b) Business to Business (B2B) – transaksi antara perusahaan, seperti pemasok dengan distributor. c) Consumer to Consumer (C2C) – transaksi antar individu dengan individu lain melalui platform digital seperti OLX atau Facebook marketplace. d) Consumer to Business (C2B) – model di mana individu menawarkan produk atau jasa kepada perusahaan, misalnya freelancer yang menawarkan layanan desai atau konten. e) Business to Government (B2G) – transaksi antara perusahaan dengan lembaga pemerintahan melalui sistem elektronik dengan lembaga pemerintahan melalui sitem elgektronik. c. Peran E-commerce dalabisnis Modern E-Commerce memiliki peran strategis dalam transformasi bisnis modern. Menurut Kotler dan Keller (2016), digitalisasi proses bisnis melalui e0commerce memungkinkan efisiensi biaya, perluasan jangakauan pasar, serta peningkatan interaksi dengan pelanggan. Selain itum e-commerce juga menjasdi sumber data 8 penting bagi perusahaan. Melalui ulasan pelanggan, pola pembelian, dan perilaku konsumen di platform digital, perusahaan dapat memperoleh wawasan (insight) berharga untuk pengambilan keputusan bisnis. Data ulasan tersebut kemudian dapat dianalisis menggunakan pendekatan text mining dan sentiment analysis untuk mengetahui persepsi pelanggan terhadap produk atau layanan yang ditawarkan. Dengan demikian, e0commerce dtidak hanya berfungsi sebgai sarana transaksi, tetapi juga sebagai sumber informasi strategis dalam pengembangan bisnis berbasis data (data-driven decision making). 2. Ulasan Produk (product Review) a. Pengertian Ulasan Produk Ulasan Produk (Produc Riview) merupakan opini, komentar , atau tanggapan yang diberikan konsumen setelah menggunakan suatu produk atau layanan . Menurut Hu, Pavlou dan Zhang (2099). Ulasan Produk adalah bentuk komunikasi elektronik antara konsumen (electronic word of mouth) yang berisi pengalaman subjektif terhadap suatu produk. DSementara itu, Chevalier dan mayzlin (2006) menyatakan bahwa ulasan produk merupakan salah satu bentuk informasi yang memengaruhi keputusan pembelian konsumen karena dianggap lebih kredibel dibandingkan iklan dari produsen. Dengan demikian, ulasan produk dapt dianggap sebgai bentuk evalusi konsumen yang berperan penting dalam membangun kepercayaan dan persepsi terhadap kualitas suatu produk. b. Jenis dan Karakteristik Ulasan Konsumen Menurut Mudambi dan Schuff (2010) ulasan priduk dapat dibedakan berdasarkan: a) Sentimen ulasan, yaitu ulasan postif, negatif atau etral terhadap suatu produk. b) Kedalaman informasi, yang mencakup detail deskripsi pengalaman pengguna. c) Sumber ulasan, yaitu apakah berasal dari pengguna terverifikasi atau anonim. d) Gaya bahas, yang dapat bersifat formal, informatif, emosional. Karakteristik ulasan yang baik biasanya memuat aspek produk yang jelas, alasan kepuasan atau ketidapuasan, serta rekomendasi bagi aclom pembeli. Dalam konteks penelitian ini, teks ulasan tersebut menjadi sumber data utama untuk analisis sentimen menggunakan metode text mining. 9 c. Pengaruh Ulasan terhadap Keputusam Pembelian Menurut peneltian yang dilakukan oleh park dan lee (2009, ulasan online memiliki pengaruh signifikan terhadap persepsi nilai dan niat beli konsumen. Semakin banyak ulasan positif yang diterima suatu produk, semakin tinggi pula kemungkinan konsumen untuk membelinya. Sebaliknya, ulasan negatif dapat menurunkan minat beli, meskipun terkadang dianggap sebagai indikator kejujuran dan transparansi informasi produk. Dalam lingkungan e-commerce, ulasan pelanggan menjadi satu indikator reputasi dan kepercayaan terhadap produk. Oleh karena itu, analisis terhadap sentimen ulasan dapat membantu pelaku bisnis dalam memahami persepsi pasar, memperbaiki kualitas produk, serta merumuskan strategi pemasaran yang lebih tepat sasaran. 3. Texit mining a. Pengertian Text Mining Text mining atau penambangan teks adalah proses ekstraksi informasi bergarga dari kumpulan data bebentuk teks tidak terstruktur. Menurut Feldman dan Sanger (2007), text mining merupakan serangkaian teknik untuk menemukan pola, tren, atau pengetahuan tersembunyi dari data teks melalui pendekatan statistik dan linguistik. Sementara itu, Guptan Lehal (2009) Mendifenisikan text mining sebagai proses menganalisis teks secara otomatis untuk mengidentifikasi informasi relevan dan bermakna dengan bantuan teknologi natural language processing (NLP) dan machine learning. Dengan demikian, text mining dapat diartikan sebagai metode pengolahan data teks untuk mendapatkan informasi yang dapat digunakan dalam konteks analisis sentimen ulasan e-commerce. b. Tahapan Proses Text Mining Menurut Hotho et al. (2005), proses text mining umumnya meliputi beberapa tahap utama sebagai berikut: a) Data collection (Pengumpulan Data) Tahap ini melibatkan pengambilan data teks dari berbagai sumber misalnya ulasan produk di situs e-commerce atau media sosial. b) Text Preprocessing (Pra-pemrosesan Teks) Tahap ini bertujaun untuk membersihkan teks dari elemen yang tidak relevan agar dapat dianalisis secara akurat. Langkah langkah utamanya meliputi. 10 a) Case Folding : Mengubah semua huruf menjadi huruf kecil. b) Tokenizing: memecah kalimat menjadi kata-kata tunggal (token). c) Stopword Removal: Menghapus kata umum yang tidak bermakna ( “yang”, “ dan”,”atau”). d) Stemming : mengembalikan kata ke bentuk dasarnya, misalnya “membeli” menjadi “beli”. e) Filtering : Menghapus karakter atau simbol yang tidak diperlukan. c. Feature Extraction (Ekstraksi fitur) Tahapan ini mengubah teks menjadi representasi numerik agar dapat diproses oleh algoritma. Salah satu metode yang umum digunakan ada TF-IDF (Term Frequency-Inverse Document Frequency), yang menilai pentingnya suatu kata berdasarkan frekuensinya di dalam dokumen. d. Text Analysis ( Analisis Teks) Pada tahap ini , data yang telah direpsentasikan dalam bentuk numerik dianalisis menggunakan algortima tertentu, seperti Naïve Bayes, SVM, atau pendekatan berbasis leksikon, tergantung pada tujuan penelitian. c. Vizualizationand Interpretation ( Visualisasi dan Interpretasi) Hasil analissi kemudian divusalisasikan, misalnya dalam bentuk grafif distribusi sentimen positif, negatifm dan netral. Hasil ini kemudian diintepretasikan untuk mendukung pengambilan keputusan bisnis. 11 e. Penerapan Text Mining dalam Analissi Sentimen Text mining memiliki peran penting dalam analisis sentimen, khusunya dalam mengidentifikasi opini publik terhadap suatu produk atau layanan. Menurut Pang dan lee (2008), text mining digunakan untuk mengekstraksi dan mengkalisfikasi teks berdasarkan polaritas sintemen yang terkandung di dalamnya. Dalam konteks e-commerce hal ini berarti menilai apakah ulasan pelanggan bersifat positif, negatifm atau netral terhadap produk tertentu. Melalui Penerapan text mining, perusahaan dapat memproleh gambaran umum tentang persepsi konsumen dan menggunakan sebagai dasar dalam pengambilan keputusan strategis seperti peningkata kualitas produk, layanan pelangan , serta strategi pemasan. 4. Sentimen Analysis Menurut Liu (2012), sentimen analysis atau nalisis sentimen merupakan cabang dari text mining yang berfokus pada pengidentifikasianm ekstraksi dan pengukuran opinim emosi atau sikap terhadap suatu entitasm topik, atau produkm Tujuan utama dari analisis sentimen adalah untuk menentukan kecenderuangan emosional dari suatu teks apakah berdifat positif, negatif , atau netral. Menurut Pang dan Lee (2008) menjelaskan bahwa analissi sentime berupaya mengklasifikasikan teks berdasarkan polaritsasnyam menggunakan pendekatan machine learning dan natural lenguage processing (NLP) mereka menekankan pentingnya pemilihan fitur teks, seperti unigram bigram, serta penggunaan algortma klasifikasi sepert Naïve Bayes, Support Vecotr Machine (SVM da Maximum Entropy. Sementara itu menurut, Medhat, Hasasn, dan Korashy (2014) menyatakan bahwa analisis sentimen dapat dibagi menjadi tiga level, yaitu a) Level dokumen (document level) enilai kesuluruha opini dalam satu dokumen. b) Level kalimat ( sentence level) menganalisis sentimen pada setiap kalimat. c) Level aspek ( aspec-based level )) menilia opini terhadap fitur atau atribut tertentu dari produk. Pendekatan inimemungkinkan pemahaman yang lbeih mendalam tentang persepsi konsumen terhadap aspek sepsifik suatu layanan atau produk. Menutur Cambrian,Schuller,xia dan Havasi (2013), analissi sentimen berkembang dari metode berbasis lexicon menuju pendekatan berbasis machine learning dan deep learning, yang mampu menangkap kontek sematik lebih kompleks. Mereka menekankan pentingnya semantic analysis untuk memahami makna kata dalam konteks kalimat agar 12 hasil klasifikasi sentimen lebih akutar. Lebih lanjut Taboasa, Brooke Tofiloski, Voll, dan Stede (2011) mengembangkan pendekatan berbasis lexicon menggunakan Semantic Orientatio Calculator (SO-CAL), yang mengandalkan daftar kata berpolaritas positif dan negatif. Pendekatan ini efektif dalam mengdientifikasi sentimen pada teks pendek atau ulasan yang memiliki struktru bahasa sedaerhana. Selain itu, Agarwal, Xie, Vosha, Tambow, dan Passonneau (2011) menyoroti pentingnya kombinasi antara rule-based approach dan machine learni approach dalam menginkatkan akurasi anlaisis sentimen, khususnya dalam teks yang berdifat tidak tersetruktur seperti ulasan priduk atau media sosial. Dalam kontek bisnis dan e-commerce, Vindohini dan Chadrasekaran (2012) menyatakan bahwa analisis sentimen memilki nilai strategis karena memungkinkan perusahaan memahami persepsi pelanggan terhadap produk mereka secara real-time. Hasil analisis ini dapat diguanaknk sebagai dasar dalam pengambilan keputusan bisnis, evaluasi kualitas produk, serta pegembangan strategi pemasaran. Dengan demikian , analiss sentimen berperan penting dalam mengubah data teks yang tidak terstruktur menjadi informasi yan gbernilai. Melalui penerapan metode seperti Naïve Bayes,SVM, dan pendekatan lexicon-based, penelitian ini berupaya mengali kecenderungan opini konsumen terhadap produk di platform e-commerce, sehingga dapat mendukung pengambilan keputusan bisnis yang lebih tepat. 5. Algoritma Naïve Bayes Menurut Manning, raghaba dan Schütze (2000) Naïve Bayes Classifier merupakan algoritma klasifikasi berbasis probabilitas yang didasarkan pada Teorema Bayes denan asumsi independensi antar fitur. Algoritma ini digunakan secara luas dalam pemrosesan bahasa alami ( Natural Language Processing), termasuk untuk analisis sentimen dan klasifikasi teks karena kesederhanaan dan efesiensinya Menurut Han, Kamber, dan Pei (2012) menjelaskan bahwa Naïve Bayes bekerja dengan menghitung kemungkingkan (probabilitas) suatu Dokumen Termasuk ke dalam kelas tertentu berdasarkan frekuensi kemunculan kata-kata yang ada di dalamnya. Dengan kata lain, setiap fitur (kata) dia ggap berkontribusi secara independen terhadap hasil klasifikasi akhir. Secara matematis, Naïve Bayes didasarkan pada rumus berikut : 13 di mana : a) P(C|X) = probabilitas kelas C berdasarkan X, b) P(X|C) = probabilitas data X muncul pada kelas C, c) P(C) = probabilitas awal dari kelas C, d) P(X) = probabilitas data X secara keseluruhan. Dalam kontek analisis sentimen, X mewakili kumpulan kata dalam sebua h ulasan, sedangkan C adalah kategori sentimen (positif,negatif, atau netral). Dokumen akan diklasifikasikan ke dalam kelas dengan nilai probabilitas tertinggi Menurut Rennie et al. (2003), meskipun asumsi independensi antar fitur jarang sepenuhnya benar pada data teks, Naïve Bayes tetap memberikan hasil kompetitif dalam berbegai aplikasi, terutama ketika jumlah data pelatihan cukup besar. Hal ini disebabkan oleh kemampuanya untuk menangani data berdimensi tinggi secara efisien. Zhang dan zhou (2004) menbaahkan bahwa keunggulan utama Naïve Bayes adlah kebutuhan komputasi yang rendah dan stabilitas hasil pada dataset besar, Namun kelamahan utamanya ada ketidakmampuanya menangkap hubungan antar kata yang saling bergantung dalam satu kontek kalimat. Sementara itu, Mccallum dan Nigam (1998) membedakan dua varian utama dari algoritma ini dalam konteks klasifikasi teks, yaitu: a) Multinomial Naïve Bayes, yag mempertibangkan frekuensi kemunculan kata dalam dokumen. b) Bernoulli Naïve Bayes, yang hanya memperhatikan ada atau tidaknya kata dalam dokumen (biner). Dalam penelitian ini, Naïve Bayes digunakan untuk mengklasifikasikan sentimen pada ulasan produk e-commerce berdasarkan kemunculan kata-kata yang telah melalui proses text preprocessing. Pendekatan ini dipilih karena memberikan hasil yang akurat, mudah diimplementasikan dan efektif untuk dataset teks berbahasa alami. 6. Lexicon-Based Sentiment Analysis Menurut Liu (2012), lexicon-based sentimen analysis merupakan pendekatan analisis sentimen yan gmenggunakan sentiment lexicon – yaitu daftar kata yang telah diberi label polaritas seperti positif, negatif, atau netral Pendekatan ini tidak memerlukan data pelatihan seperti pada metode pembelajran mesin (machine learning), melainkan mengandalkan penlilaian sentimen berdasarkan makna kata dalam kamus. 14 Menurut Tabaoada er al. (2011) menjelaskan bahwa metode lexicon – based bekerja dengan menghitung skor sentimen dari kata-kata yang terdapat dalam teks. Setiap kata dalam kalimat memiliki bobot polaritas tertentu, dan skor keseluruhan teks ditentukan berdasarkan penjumlahan atau rata-rata dari bobot tersebut. Misalnya, jika sebuah ulasan mengandung lebih banyak kata positif daripada negatif, maka sentimen ulasan tersebut dikategorikan sebgai positif. Pendekatan ini biasanya dibagi menjadi dua kategori utama: 1. Dicitonary-based approach, yaitu pembangunan kamus sentimen melalui ekspasi manual dari kata-kata positif dan negatif menggunakan sinonim dan antonim dalam kamus sperti WordNet (Hu&Liu,2004). 2. Corpus-based approach, yaitu pembentukan nkamus berdasarkan distribusi kata dalam kumpulan teks (corpus) dengan teknik statistik seperti Pointwise Mutual Information (PMI) atau Latent Semantic Analysis (LSA) (Turney & Littman, 2003). Menurut Baccianella, Esuli, dan Sebastiani (2010), salah satu kamus sentimen yang banyak digunakan adalah SentiWordNet, yang mengasosiasikan setiap synet dalam WordNet dengan tida skor numerik: Postivity, negativity, dan objectivity. Kamus ini banyak digunakan untuk analisis sentimen dalam bahasa inggris. Namun, untuk bahasa Indonesia, Wicaksono dan Purwarianti (2010) mengembangkan pendekatan lexicon-based dengan melakukan penerjemahan dan penyesuaian terhadap konteks budaya serta struktur kalimat khas bahsa Indonesia. Hal ini penting karena polaritas kata dalam satu bahsa tidak selalu setara maknanya dalam bahasa lain. Kelebihan dari metode lexicon-based adalah kemampuanya menangani data baru tanpa perlu pelatihan ulang serta interpretasi yang mudah. Namun, kekurangannya adalah sensitibitas terhadap konteks – seperti ironi, negasi, atau ambiguitas kata. Sebagai contoh, kalimat “produk ini tidak buruk” memiliki kata negatif (“buruk”, namun makna keseluruhanya bersentimen positif. Menurut Medhat, Hassan, dan Korashy (2014), pendektan lexicon-based dapat memberikan hasil yang baik bila dikombinasikan dengan metode machine learning seperti Naïve Bayes atau SVM. Kombinasi ini dikenal sebgai hybrid sentiment analysis, yang menggabungkan kekuatan pembelajran data dengan kamus sentimen untuk meningkatkan akurasi dan stabilitas model. Dalam kontek penelitian ini , lexicon-vased sentiment analysis digunakan sebgai pendektan pendukung untuk memperkuat klasifikatsi sentimen yang dilakukan oleh algoritma Naïve Bayes. Hasil dari kedua metode ini akan dibadingkan atau dikombinasikan untuk memproleh hasil analisis yan glebih komperhensif terhdap kecenderungan sentimenn konsumen pada ulasan produk e-commerce. 15 7. Kombinasi Naïve Bayses dan Lexicon-Bases Approach Pendekatan kombinasi antara metode Naïve Bayes dan Lexicon-Based sentiment Analysis merupakan strategi yang digunakan untuk mengingkatkan akurasi dan keandalan hasi l analisis sentimen. Setiap pendekatan memilki kelebihan dan keterbatasan tersendiri, oleh karne itu, penggabungan keduanya dapat saling melengkapi dalam mengatasi kelamahan masih-masing. Menurut Medha, Hassan, KOrashy (2014), metode lexicon-based unggul dalam interpretabilitas dan tidak memerlukan proses pelatihan data (training data), sedangkan metode machine learning seperti Naïve Bayes mamu menyesuaikan pola dari data besar secara otomatis. Kombinasi keduanya menghasilkan modek hibrida yang lebih adaptif dan kontekstual. Ravi (2015 menjelaskan bahwa pendekatan hibrida ini biasanya bekerja dengan cara memanfaatkan lexicon untuk memberikan skor awal polairtas kata dalm teks, kemudian hasil tersebut digunakan sebagai fitur atau pembobot dalam proses klasifikasi menggunakna Naïve Bayes. Dengan demikian, model dapat memperhitunkan makna semantik kata seklaigus hubungan statistik antar kata dalam dokumen. Saif et al. ( melakukan kombinasi antara lexicon-based features dan machine learnin gclassifier untuk nalaisis sentimen pada data Twitter. Hasil penelitan mereka menunnjukan bahwa metode gabugan ini mampu meningkatkan akurasi hingga 5-10% dibadingkan dengan penggunaan metode tunggal. Dalam kontek penelitan e0cmmerce, penggabungan kedua metode ini memiliki relevansi yang tinggi. Ulasan produk dari konsumen sering kali mengandung bahsa informal, singakatan, atau campuran positif-negatif dalam satu kalimat. Metode Naïve Bayses dapat menangkap pola statistik dan teksm sedangkan pendekatan lexicon-bases membantuk mengkalirifikasi makna emosinal dari kata-kata yang tidak umum. Menurut kumar dan jasiwal (2020), pendektan gabungan ini dapa digunakan dalam tiga cara utama : a) Feature-level combination, yaitu menjadi skor dari lexicon sebagai variael input tambahan bagi algortima Naïve Bayes. b) Decision-level Combination, yaitu menggabungkan hasil prediksi kedua metode untuk memproleh keputusan akhir berdasarkan bobot tertentu. 16 c) Sequential combination, yaitu hasil dari metode lexicon-basesd digunakan sebgai penyaring atau penantu awal sebeulm dilakukan klasifikasi dengan Naïve Bayes. Pendekatan kombinasi ini cocok diterpkan pada penelitian berjudul “Analisis Sentimen Ulasan Produk E-Commerce Menggunakan Text Mining Mendukung Keputusan BIsnis” karena a) Data ulasan e-commerce berdifat sangat beragam dan tidak selalu memiliki struktur yang konsisten. b) Pendekatan Naïve Bayes dapat mengenali pola umum berdasarkan data pelatihan, sedangkan lexicon-based mampu menilai polaritas kata baru yang belum pernah muncul sebelumnya. c) Kombinasi keduanya dapat menghasilkan analisis yang lebih stabil dan representative terhadap persepsi konsumen. Dengan demikian, metode hbrida ini tidak hanya berfungsi untuk mengidentifikasi kecenderungan sentiment (positif, negative, netral), tetapi juga membantu menghasilkan wawasan strategis yang dapat digunakan dalam proses pengambilan Keputusan bisnis untuk peningkatan kualitas produk dan layanan. 8. Pengambilan Keputusan Bisnis (Business Decision Making) Pengambilan Keputusan bisnis merupakan proses memiliki alternatif Tindakan terbaik dari berbagai opsi yang tersedia untuk mencapai tujuan organisasi. Menurut Simon (1960), Proses penbailan keputsan terdiri dari tiga tahap utama, yaitu : a) Intelligence, pengumpulan data dan identifikasi masalah. b) Design, pegembangan alternatif Solusi yang mungkin. c) Choice, pemilihan Solusi pertimbangan tertentu. terbaik berdasarkan analisis dan Dalam kontek modern, Keputusan bisnins tidak lagi hanya didasarkan pada intuisi atau pengalaman manajer, melainkan juga pada hasil analisis data yant terukur. Laudon (2020) menekankan bahwa sistem informasi manajemen dan data-driven decision making (DSS) Menurut Turban et al. (2011), DSS asalah sistem berbasis computer yang mendukung pengambilan Keputusan dengan menganalisis data dan menghasilkan informasi yang relevan. Dalam hal ini, hasil analisis sentiment berfungsi sebgai input untuk menilai persepsi konsumen terhadap produk atau layanan yang ditawarkan Perusahaan. 17 Menurut Kotler dan Keller (2016), Pemahaman terhadap opini pelanggan merupakan elemen penting dalam strategi pemasaran modern, karena dapat membantu perusaah: a) Menentukan persepsi kondumen terhadap kualitas produk, b) Menilai efektivitas kampanye promosi, c) Mengidentifikasi factor yang menyebabkan kepuasan atau ketidakpuasan pelanggan, d) Menyesuaikan strategi bisnis agar lebih beroreintasi pada kebutuhan pasar. Selain itu, Chaffey (2019) menambahkan bahwa data digital seperti ulasan online dan media social memberikan peluang bagi pelaku bisnis untuk melakukan customer insight mining – yaitu penemuan pola persepsi dan emosi pelanggan terhadap produk. Pola ini dapat digunakan untuk mengoptimalkan strategi pemasaran,, pengembangan produk dan peningkatan lyanan pelanggan. Dalam konteks penelitian ini, hasil analisis sentiment terhadap ulasan produk ecommerce diharapkan dapat menjadi dasar dalam mendukung proses pengambilan Keputusan bisnis. Data sentiment yang telah diklasifikasikan menjadi positif, negative, dan netral dapat membantu Perusahaan untuk: a) Mengidentifikasi kekuatan dan kelemahan produk berdasarkan opinin pelanggan. b) Menutukan strategi perbaikan kulitas produk dan layanan. c) Mengukur efektivitas kampanye atau promosi tertentu. d) Merancang strategi komunikasi yang lebih tepat sasaran. Dengan demikian penggabungan antara text mining, nalisis sentiment dan pengambilan Keputusan bisnis menciptakan suatu framwork yang kuat untuk mendukun proses pengambilan Keputusan berbasis data (datadriven decision makin ). Pendekatan ini tidak hanya memberikan nilai tambah dalam pengelolaan informasi konsumen, tetapi jug amembantu Perusahaan untuk menjadi lebih resposif terhadap dinamika pasar. 9. Kerangka Pemikiran Teoritis Kerangka pemikiran teoritis merupakan dasar konseptual yang menggambarkan hubungan logis atara teori-teori yang digunakan dengan variable atau focus penelitian. Tujuan dari karangka ini Adalah untuk memberikan alur berpikir sistematis tentang bagaimana peneltian dilakukan, serta menjelaskan keterkaitan antara variable yang diteliti dan pendekatan yang digunakan. 18 Menurut Sugioyono (2019), kerangka pemikiran teoritis berfungsi sebagai peta konseptual yang menunjukan arah penelitian berdasarkan hasil kajian pusata dan teoriteori yang relevan. Melalui kerangka ini, peneliti dapat menjelaskan bagaiman teori digunakan untuk menjawab rumus maslah dan mencapai tujuan penelitian. Hubungan Antar Konsep dalam Penelitian 1. Penelitian ini berjudul “Analisis Sentimen Ulasan Produk ECommerce Menggunakan Text Mining untuk Mendukung Keputsuan Bisnis.” Berdasarkan teori-teori yang telah diuraikan pada bagian sebelumnya hubungan antar konsep dalam penelitian ini dapat dijelaskan sebagai berikut: 2. E-Commerce menyediakan platform digital tempat konsumen memberikan ulasan penilaian terhadap produk yang telah dibeli ulasan ini menjado sumber data penting dalam memahami persepsi dan kepuasan pelanggan. 3. Ulasan Produk (Product Review) berisi opini dan pengalaman pengguna terhadap produk tertentu. Data ini bersifat tekstual dan tidak tersetruktur, sehingga memerlukan proses analisis lebih lanjut melalui metode text mining. 4. Text Mining digunakan untuk mgekstraksi informasi bermakna dar Kumpulan data teks ulasan Proses ini mencakup pembersihan data (data cleaning), tokenisasi, dan ekstraksi fitur untuk digunakan adlam analissi sentiment. 5. Analisis sentiment dilakukan untuk mengidentifikasi polaritas opini konsumen apakah bersifat positif, negative,atau netral. Hasil dari analisis ini dapat merepresentasikan persepsi pasar terhadap suatu produk atau merek. 6. Algoritma Naïve Bayes digunakan sebgai metode machine learning untuk mengkalisfikasi sentiment berdasarkan probabilitas kemunculan kata dalam ulasan. 7. Lexicon Based Sentimen Analysis berfungsi sebagai pendekatan berbasis kamus untk mengidentifikasi polaritas kata berdasarkan makna leksikalnya. Pendekatan ini melengkapi hasil klasifikasi dari Naïve Bayes. 8. Kombinasi Naïve Bayes dan Lexicon-Bassed Approach mencipatkan model hibrida yang menggabungkan kekuatan statistic dan semantic, menghasilkan klasifikasi sentiment yang lebih akurat dan kontekstual terhadap data ulasan produk ecommerce. 19 9. Pengambilan Keputusan Bisnis (Business Decision Making) merupakan tahap penerapan hasil analisis sentiment untuk mendukung sentiment untuk mendukun strategi bisnis, seperti pengembangan produk, perbaikan layanan, atau peningkatan kepuasan pelanggan. Alur Pemikiran Penelitian Secara garis besar, alur pemikiran peneltian ini dapat digambarkan sebagai berikut: Alur tersebut menunjukkan bahwa sata ulasan pelanggan yan gawalnya bersifat tidak terstruktur diolah menggunakan pendekatan text mining untuk menghasilkan informasi sentiment yang bernilai bagi pengambilan Keputusan strategis. Dengan demikian, penelitian ini berupaya membangun houngan yang jelas antara teori analisis teks, Teknik klasifikasi sentiment dan penerapan hasilnya dalam konteks bisis. 20 BAB III TAHAPAN PENELITIAN A. Tahapan-Tahapan Penelitian 21 Penelitian ini dilaksanakan mellaui beberapa tahapna yang terseusun secara sistematis untuk mencapai tujuan peneltian, yaitu melakukan analisis sentiment terhadap ulasan produk e-commerce menggunakan kombinasi metode Lexicon-Based sentiment Analysis dan Naïve Bayes Classifier. Adapun Tahapan Penelitian ini terdidri dari beberapa Langkah utama 1. Sutudi Literatur Pada tahap ini dilakukan pengumpulan refrensi ilmiah terkait konsep dasar analisis sentimen, text mining, metode Naïve Bayes, serta pendekatan berbasis leksikon. Tujuan dari tahap ini Adalah memperoleh landasan teori yang kuat sebagai acuan dalam perancangan metodologi dan analisis data. 2. Pengumpulan Data Data Penelitian diperoleh dari ualsan produk di platform ecommerce. Dataset berisi teks ulasan yan gakan digunakan sebagai sumber utama dalam analisis sentiment. Data dikumplkan dalam format CSV untuk memudahkan proses analisis lebih lanjut. 3. Pra-pemrosesan Data (Preprocessing) Pada tahap ini, data ulasan dibersihkan dan dipersiapkan agar dapat diolah oleh algoritma. Proses yang dilakukan meliputi case folding, tokenization, normalization, stopword removal, dan stemming, mengunakan Pustaka Sastrawi. 4. Penerapan Metode Lexicon-Based Setiap kata dalam ulasan diberikan skor sentiment berdasarkan kamu leksikon Bahasa Indonesia. Skor positif dan Negatif dijumlahkan untuk menentukan kecenderungan sentiment awal. 5. Pelebelan dan Ekstraksi Fitur Hasil dari analisis leksikon digunakan untuk membantu proses pelabelan data. Selanjutnya dilakukan ekstraksi fitur menggunakan Term Frequency-Inverse Document Frequency (TF-IDF) untuk mengubah teks menjadi vector numerik yang dapat diolah algortima. 6. Klasifikasi menggunakan Naïve Bayes Data hasil ekstraksi fitur diklasifikasikan menggunakan algoritma Multinominal Naïve Bayes. Tahap ini menghsilkan prediksi sentiment untuk setiap ulasan (positif, negarif, atau netral). 22 7. Kombinasi Hasil Lexicon dan Naïve Bayes Nilai probabilitas hasil klasifikasi digabungkan dengan skor sentiment leksikon untuk memperkuat keakuratan hasil analisis. Kombinasi ini menjadi ciri khas metode penelitian ini. 8. Evaluasi dan Interpretasi Hasil Model yang telah dikembangkan dievaluasi menggunakan metrik akurasi, presisi, recall, dan F1-score. Selanjutnya dilakukan interpretasi hasil untuk memberikan rekomendasi yang relevan bagi pengambilan Keputusan bisnis. 9. Uji Hipotesis (korelasi Pearson) Setelah diperoleh hasil akhir kelasifikasi, dilakukan uji hipotesis untuk mengetahui sejauh mana hasil analisis sentiment memiliki hubungan dengan data penjualan produk. Uji korelasi Pearson digunakan untuk mengukur kekuatan dan arah hubungan antara skor sentiment agregat dengan volume atau nilai penjualan. 1. Hâ‚€: Tidak terdapat hubungan signifikan antara hasil analisis sentimen dengan tingkat penjualan. 2. Terdapat hubungan signifikan antara hasil analisis sentimen dengan tingkat penjualan. Hasil dari tahap ini memberikan dasar empiris apakah tren sentiment konsumen dapat dijadikan indicator performa bisnis. B. Waktu dan Tempat Penelitian Penelitian ini dilaksanakan selama periode penelitian yang telah ditentukan, dimulai dari tahap pengumpulan data hingga analisis hasil. 1. Waktu penelitian: Dilaksanakan selama 3 bulan, terhitung sejak tahapan pengumpulan data hingga penyusunan laporan akhir. 2. Tempat Penlitian: Proses penlitian dilakukan secara daring dengan pemanfaatan Google colab sebagai platform pemrograman berbasis Python, serta perangkat keras berupa laptop pribadi dengan spesifikasi menegah. 3. Lingkup Data: Data bersumber dari platform e-commerce yang menyediakan fitur ulasan produk tanpa berfokus pada satu platform tertentu. 23 C. Tahapan Penelitian Tahapan Penlitian ini menggabarkan proses kerja sistematis mulai dari input data hingga hasil akhir. Setiap tahapan dijelas sebagai berikut: 1. Pengumpulan Dataset Data ulasan produk dikumpulkan dalam format CSV menggunakan metode web scraping atau melalui dataset publik yang tersedia. Dataset berisi kolom teks ulasan, rating, serta informasi produk. 2. Pra-pemrosesan Data (Data Preproccessing) Tahpan ini bertujuan mengubah data mentah menjadi bersih dan siap untuk dianalisis. Proses yang dilakukan meliputi: a. Case Folding: Mengubah seluruh huruf menjadi huruf kecil. b. Tokenization: Memisahkan kalimat menjadi kata-kata Tunggal. c. Normalization: Menstandarkan kata tidak baku menjadi bentuk baku. d. Stopword Removal: Menghapus kata umum yang tidak memiliki makna sentiment. e. Stemming: Mengubah kata berimbuhan ke bentuk dasar menggunakan Sastrawi Stemmer. 3. Analisis Sentimen berbasis Leksikon (Lexicon-Based Sentiment Scorirng) Setiap kata dalam ulasan diberi bobot sentiment berdasarkan kamus leksikon. Nilai Positif, negative, dan netral dijumlahkan untuk memproleh skor sentiment total per ulasan. 4. Pelabelan Data dan Ekstraksi Fitur Skor leksikon digunakan untuk membentu proses pelabelan (positif, negative, netral). Kemudian dilakukan ekstraksi fitu menggunakan TF-IDF untuk mengubah teks menjadi representasi numerik. 5. Kalsifikasi Menggunakan Naïve Bayes Model Multinomial Naïve Bayes digunakan untuk memprediksi kategori sentiment berdasarkan data fitur hasil TF-IDF. Model ini dipilih karena efisien dan memiliki performa baik pada data teks. 6. Kombinasi Lexicon dan Naïve Bayes 24 Nilai probabilitas hasil prediksi Naibe Bayes digabungkan dengan skor sentiment leksikon untuk menghasilkan model akhir yan glebih stabil dan akurat. 7. Evaluasi Model Hasil kombinasi diuji menggunakan metrik evaluasi seperti akurasi presisi,recall, dan F1-score. Analissi hasil evaluasi digunakan untuk menentukan performa metode gabungan. 8. Uji Hipotesis Menguji hubungan antara hasil analisis sentiment dengan data penjualan menggunakan uji korelasi pearson untuk mengetahui Tingkat relevansi antara opini pelanggan dan performa bisnis. D. Evaluasi dan validasi Model Evaluasi model dilakukan untuk menilai kinerja sistem dalam mengklasifikasikan sentiment ulasan produk: 1. Akurasi (Accuracy) Mengukur persentase prediksi yang benar dari seluruh data uji 2. Presisi(Precision) Mengukur Tingkat ketepatan prediksi positif terhadap hasil aktual. 3. Recall (Sensitivity) Mengukur kemampuan model mendeteksi data positif secara benar 4. F1-Score Rata-rata harmonis dari presisi dan recall, digunakan Ketika distribusi data tidak seimbang. Hasil evaluasi kemudian dianalisis untuk menentukan sejauh mana kombinasi metode Lexicon_Based dan Naïve Bayes dapat meningkatkan performa analisis sentiment. Validasi dilakukan menggunakan pembagian data train-test split agar hasil evaluasi berifat objektif dan dapat direplikasi. 25 BAB IV HASIL DAN PEMBAHASAN A. Hasil 1. Pengambilan Data Data yang digunakan dalam penelitian ini diperoleh dari dataset ulasan produk Tokopedia tahun 2019, yang berisi opini konsumen terhadap berbagai produk yang di jual di platfrom e-commerce tersetbut. Dataset ini memililiki sejumlha variable penting seperti rivie, rating dan product name. Fokus utama penelitian Adalah pada teks ulasan (review), yang digunakan untuk analisis sentiment guna memahami kecendrungan opini pengguna terhadap produk. Gambar 4.1 Dokumen CSV Tokopedia Product Review Proses pengambilan data dilakukan dengan cara menggungah file berformat csv berjudul Tokopedia product review 2019.csv ke lingkungan Google Colab menggunakan Pustaka pandas. Data kemudian dimuat ke dalam datafram yan gmemudahkan eksplorasi dan analisis. 26 2. Inisialisasi Library dan Setup Lingkungan Pada tahap ini dilakukan prosess inisialisasi library yang digunakan dalam proses analisis sentiment. Tujuan dari Langkah ini Adalah untuk mempersiapkan seluruh Pustaka pendukung agar pipeline dapat berjalan secara menyeluruh tanpa kendala teknis. Library yang digunakan meliputi beberapa modul penting seperti pandas dan numpy untuk manipulasi data, re dan string untuk proses pemberisahn teks, sklearn untuk vektorisasi dan algoritma klasifikasi serta Sastrawi untuk stemming Bahasa Indonesia. Inisialisasi juga mencakup set random seet untuk menjada konsitensi hasil eksperimen. Gambar 4.2 Import dan pengaturan umum Library Script coding pada tahap ini duganakan untuk memanggil seluruh library, yang secara umum dituliskan dalam bentu perintah import . Tahap ini bersifat mendasar namun penting untuk memastikan seluruh fungsi yang dibutuhkan tersedia dalam memori kerja Python. 3. Import Data 27 Pada Langkah ini dilakukan proses import dataset ulusan produk ecommerce menggunakan library pandas. Dataset berisi data mentah berupakan teks ulasan pelanggan (review), nama produk (product_name), rating (rating), serta jumlah penjualan (sold). Gambar 4.3 Import dan pengaturan umum Library Setelah di import, data diperiska terlbih dahulu untuk memsatikan tidak terdapat nilai kosong (missing value), baris duplikat, maupun kesalahan format kolom. Tahap ini menjadi fondasi penting karena kualitas dataset akan sangat memengaruhi akurasi model analisis sentiment. 4. Auto- Detect kolom Pneting dan penyeragaman nama Pada datse e-commerce sering kali penamaan kolom berbeda-beda tergantung sumber data misalnya kolom ulasan bisa Bernama “ulasan”, “review_text atau “komentar”. Oleh karna itu, dilakukan tahap auto-detect kolom penting agar pipline dapat bekerja secara otomatis tanpa perlu penyesuai manual. 28 Gambar 4.4 Script Auto detect kolom penting Script coding pada tahap ini digunakan untuk memtakan nama-nama kolom yang berbeda ke dalam format standar yang disebut canonical names. Kode ini medeteksi nama kolom yang relevan berdasarkan daftar sinonim yang sudah ditentukan. Pada script di atas, fungsi detecg_columns membaca nama setiap kolom di dataset dan secara otomatis menyesuaikannya dengan nama baku yang akan digunakan oleh pipeline, ayitu review, product_name, rating, dan sold. Tahap ini memastikan sonsitensi penamaan kolom pada setiap datset yang digunakan, sehingga Ketika vdilakukan proses preprocessing maupun analisis sentiment, semua gungsi dapat berjalan tanpa error akibat perbedaan nama kolom. 29 Gambar 4.5 Hasil dari Auto Detect kolom Selain itu, Langkah ini juga menandai kolom target yang akan mnejadi focus utama proses analisis, yaitu kolom “review: yang berisi teks komentar pelanggan. Kolom inilah yang selanjutnya akan melalui proses cleaning, nomrlaisasi, tokenisasi, hingga dikoversi ke bentu numerik. (TF-IDF ve ctor) 5. Data Cleaning Pada tahap ini dilakukan proses pembersihan data komentar dari berbagai komponen yang tidak diperlukan dalam proses analisi sentiment. Tujuan utamanya Adalah menghapus elemen-elemen non-teks yang tidak memiliki makna semantik, seperti symbol, angka , tanda baca, emotiko, hashtag (#), username akun (@username). Retweet (RT), serta tautan (URl link) Gambar 4.6 Script Coding Data Cleaning 30 Script di atas menggunakan library re (regular expression) untuk mendefinisikan pola karakter yang ingin dihapus. Fungsi re.sub bekerja dengan mengganti pola yang cocok menjadi string kosong. Pada tahap ini juga dilakukan penghapusan tab (\t), baris baru (\n), backslash dan karakter Tunggal agar teks menjadi bersih serta mudah diolah oleh algoritma. Gambar 4.7 Hasil Data Cleaning Dari table tersebut terlihat bahwa karakter seperti tanda baca, emotikon, dan hashtag berhasil dihapus, menghasilkan teks yang lebih bersih dan seragam 6. Label mapping Pada tahap ini dilakukan proses pembuatan label sentiment yang akan digunakan sebagai target dalam pelatihan model. Langkah ini sangat penting karena tidak semua dataset memiliki kolom label yang siap diguankan oleh karena itu, pipeline ini dirancang adaptif dengan dua pendekatan utama, yaitu label mapping berbasis rating dan fallback lexcion Gambar 4.8 Script label mapping 31 Pemataan label berdasakan raing tahap pertama dengan memeriksa apakah dataset memiliki kolom Bernama rating. Jika kolom tersebut ada, maka nilai rating dikonversi menjadi label kategorikal sentiment dengan aturan sebagai berikut : a. Rating ≤ 2 dikategorikan sebagai negative, b. Rating = 3 dikategorikan sebagai netral, c. Rating ≥ 4 dikategorikan sebagai positif. Proses pemataan ini dilakukan menggunakan fungsi lambda expression pada library pandas seperti terlihat pada potongan script di atas. Script di atas terlebih dahulu memastikan bahwa nilai rating bebentuk numerik menggunakan fungsi pd.to_numeric(). Setelah itu, kolom label baru dibuat berdasarkan aturan konversi tersebut. Distribusi label yang dihasilkan ditampilkan ke konsol agar peneliti dapat melihat keseimbangan antar kelas sebelum dilakukan pembagian data. Tahap ini memastikan bahwa setiap data ulasan memiliki label sentiment yang sesuai dengan interpretasi penilaian pengguna, dan selanjutnyadapat digunakan sebagai target pada proses pelatihan model supervised learning seperti Naïve Bayes. Apabila dataset tidak memiliki kolom rating, pipeline secara otomatis mencari kolom lain yang mungkin berisi label sentiment seperti label, sentiment, sentiment, atau polarity. Hal ini ditangani melalui loop pencarian di script di atas. Dengan cara ini , pipeline menjadi lebih fleksibel dan kompatibel dengan berbagai format dataset e-commerce yang mungkin menggunakan penamaan kolom berbeda. Jikas setelah dua proses sebelumnya tidak ditemukan kolom label yang valid, maka pipeline secara otomatis menjalankan fallback lexicon labeling, yaitu sistem darurat untuk menghasilkan label sementara berdasarkan seed lexicon. Langkah ini penting agar tetap memunkan dilakukan train-test split secara stratified, meskipun dataset tidak memiliki anotasi label eksplisit. Pada kode di atas, pipeline mendefiniskan duat daftar kata seed: a. Kata positif seperti “bagus”, “mantap”, “puas”, “baik:, “cepat”, “rekomendasi” diberi bobot +1 b. Kata negative seperti “jelek”, “buruk”, “kecewa”, “lambat”, “rusak”, diberi bobot -1 Pendekatan ini memungkinkan pipeline tetap robust dan tidak gagal meskipun data tidak memiliki kolom rating atau label. Lbel sementara ini diguakan hanya untuk menjaga keseimbangan distribusi kelas pada saat pembagian data (stratified split), bukan sebagai label utama untuk evaluasi akhir 32 7. Tokenisasi Awal Pada tahap ini dilakukan proses tokenisasi awal, yaitu pemecahan kalimat pada kolom teks hasil cleaning menjadi unit-unit kata atau token. Langkah ini dilakukan sebelum proses normalisasi, dengan tujua agar peneliti dapat melihat bentuk asli kata yang akan digunakan sebagai dasar pembuatan kamus normalisasi otomatis pada tahap berikutnya. Proses tokenisasi merupakan bagian penting dalam Natural Laguage Processing (NLP) karena membantu sistem mengenali struktur dan komponen dasar Bahasa dalam setiap ulasan produk. Pada konteks Bahsa Indonesia, tokenisasi dilakukan dengan mempertibangkan bahwa satu kalimat dapat terdiri atas berbagai bentuk kata tidak baku, singkatan, atau kata gabung (seperti “brg”, “nggakk:, “dpt”, “gak”, “okey”). Script coding yang digunakan pada tahap ini Adalah sebagai berikut: Gambar 4.9 Tokenisasi awal Kode di atas menggunakan fungsi tokenize() yang bertugas memacah string menjadi daftar kata (list of tokens). Proses ini diterapkan pada setiap baris teks di kolom cleaned dan hasilnya disimpan ke kolom baru Bernama tokens_pre_norm. perintah sample(4, random_state=RND) menampilkan empat contoh acak dari dataset untuk diperiksa secara manual. Hal ini berguna untuk memverifikasi bahwa tokenisasi sudah berjalan dengan benar sebelum melanjutkan ke tahap berikutnya. Hasil dari tokenisasi ini umumnya berupa struktur data seperti berikut: Gambar 4.10 Hasil Tokenizing awal Dari hasil di atas terlihat bahwa tokenisasi berhasil memecah teks ulasan menjadi kata-kata individual, seperti “terima kasih” menjadi “terima” dan 33 “kasih” yang nantinya akan dinormalisasi ke bentu standar pada tahap selenjutnya secara keseluruhan, tahap ini berfungsi sebagai jembatan antara proses pemberishan teks dan normalisasi leksikal, memastikan setiap ulasan siap untuk dikonversi menjadi bentu standar yang dapat diproses secara konsisten oleh algoritma analisis sentiment. 8. Stratified Split Pada tahap ini dilakuka proses pembagian data (data splitting) menjadi dua subset utama, yaitu data latih (train set) dan data uji (test set). Tujuan utama Langkah ini Adalah untuk memastikan bahwa model dilatih dan diuji menggunakan data yang berbeda, sehingga hasil evaluasi yang diperoleh bersifat obyektif dan tidak bias terhadap data yang digunakan saat platihan. Metode pembagian yang digunakan Adalah stratified split, yaitu Teknik pembagian data dengan mempertahankan proporsi label sentiment pada kedua subset secara seimbang. Pendekatan ini dipilih untuk mencegah terjadinya class imbalance antara data altih dan data uji, yang dapat mengakibatkan model cenderung “berpihak” pada keals mayoritas (bias ke keals positif) Gambar 4.11 Script Stratified split Pada potongan kode di atas, fungsi train_test_split() dari pusatka scikit-learn digunakan untuk memsisahkan data dengan rasion 80% untuk data latih dan 20% untuk data uji. Parameter stratify=df[LABEL_COL] memastikan bahwa distribusi labelpada kedua subset (positif, netral, dan negative) tetap proporsional terhadap distribusi awal dataset. Gambar 4.12 Hasil Stratified split 34 Hasil dari proses ini menampilkan ukuran data serta distribusi label pada amsing-masing subset. Dari hasil tersebut dapat dilihat bahwa proporsi kelas pada data latih dan data uji relatif sama, menandakan pembagian stratified berjalan dengan benar. Selain itu, parameter random_state=RND digunakan untuk menjamin bawha proses pembagian ini bersifat deterministik – artinya jika pipeline dijalankan ulang, hasil pembagian data akan tetap sama. Tahap ini menjadi titik transisi penting dalam pipeline, karena setealh proses ini, dua subset (df_train dan df_test) digunakan secara terpisah pada seluruh tahap berikutnya mulai dari pembuatan kamus normalisasi hingga evaluasi model hybrid. Dengan demikian, Langkah ini meastikan integritas eksperimental dan validitas hasil analisis yang akan dijelaskan pada bagian selanjutnya. 9. Build normalization dictionary Pada tahap ini dilakukan proses pembuatan kamus normalisasi (normalization dictionary) yang berfungsi untuk mengubah kata-kata tidak baku, singkatan, dan bentuk slang menjadi bentuk standar Bahasa Indonesia. Tujuan utama dari tahap ini Adalah untuk menyamakan variasi penulisan kata yang sering muncul dalam ulasan e-commerce agar model dapat mengenali makna yang sama dengan representasi yang konsiten. Gambar 4.13 Script Kamus Manual Tahap pertama dimulai dengan pembuatan kamus manual uatama yang bersisi pasangan kata tidak baku dan padanan bakunya. Kamus ini dikembangkan secara luas berdasarkan observasi token hasil tahap 35 sebelumnya. Kamus ini mencakup lebih dari 70 entri manual termasuk singkatan umum dalam percakapan daring seperti “gk” untuk tidak, “udh” untuk “ sudah”, hingga “mantul” untuk “mantap betul”. Gambar 4.14 Script Kamus Domain E-Commerce Untuk menyesuaikan dengan konteks e-commerce, kamus ini diperluas dengan istilah khusus yang sering digunakan oleh konsumen dalam platfrom belanja daring, seperti kata “barang”, “packing”, “kemasan”, “refund”, dan “orginal”. Langkah ini membuat kamus lebih domain-sensitive, sehingga mampu mengenali istilah khas transaksi online seperti “refundnya” atau “packingan” tanpa kehilangan konteks bisnis. Gambar 4.15 Script Pembentukan Kamus Otomatis dengnan Fuzzy Matching Selain daftar manual, pipeline juga membangun kamus otomatis menggunakan pendekatan fuzzy string matching dari library difflib. Pendekatan ini memanfaatkan kesamaan huruf (edit distance) untuk menemukan pasangan kata yang mirip secara ejaan dengan kata baku di dalam seed vocabulary. Langkah pertama Adalah menghitung frekuensi token yang muncul pada data train saja (bukan seluruh data), untuk menghidari kebocoran data. Kemduian pipeline 36 menggunakan fungsi fuzzy matching fungsi ini mencari kata dalam seed_vocab (daftar kata baku e-commerce seperti “barang”, “murah”, “kualitas”, “pengiriman”) yang memiliki Tingkat kemiripan ≥ 82% jika ditemukan kecocokan, kata tidak baku otomatis dipetakan ke bakunya misalnya “brng” menjadi “barang”, “mntaap” menjadi “mantap”dan seterusnya Gambar 4.15 Script Pengabungan kamus manusal dan Otomatis Setelah semua entri dari kamus manual dan hasil fuzzy matching digabung, pipeline membentuk satu kamus besar norm_dict yang berisi ratusan pasangan tahap terkahir dalam proses ini adala membaut funfsi untuk menerapkan kamu stersebut pada token hasil tokenisasi sebelumnya. Fungsin ini memeriksa setiap token jikan token tersebut terdapat di dalam kamus, maka diganti dengan bentuk bakunya jika tidak, token tetap dibiarkan apa adanya. Dengan adanya sistem normalisasi ini, pipeline menjadi lebih Tangguh dalam menghadapi variasi Bahasa pengguna e-commerce Indonesia yang sangat beragam dan informal. Tahap ini juga memberikan fondasi kuat bagi proses vectorization di tahap berikutnya, karena seluruh teks kini sudah berada dalam bentuk leksikal yang seragam dan bermakna konsisten. 10. adsf 37