Uploaded by common.user151726

Analisis Sentimen Ulasan E-commerce dengan Text Mining

advertisement
ANALISIS SENTIMEN ULASAN PRODUK E-COMMERCE
MENGGUNAKAN TEXT MINING UNTUK MENDUKUNG
KEPUTUSAN BISNIS
SKRIPSI
Disusun oleh
Farid Fadillah
1955201160
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER
UNIVERSITAS LANCANG KUNING
PEKANBARU
2025
i
KATA PENGANTAR
Puji syukur ke hadirat Allah SWT atas segala rahmat dan karunia-Nya, sehingga penulis
dapat menyelesaikan skripsi yang berjudul “Analisis Sentimen Ulasan Produk E-Commerce
Menggunakan Text Mining untuk Mendukung Keputusan Bisnis” tepat pada waktunya.
Skripsi ini disusun sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada
Fakultas Ilmu Komputer, Universitas Lancang Kuning.
Dalam proses penyusunan skripsi ini, penulis banyak menerima bantuan, bimbingan, dan
dukungan dari berbagai pihak. Oleh karena itu, dengan segala kerendahan hati penulis
menyampaikan ucapan terima kasih yang sebesar-besarnya kepada:
1. Allah SWT, yang telah memberikan kesehatan, kekuatan, dan kesabaran dalam
menyelesaikan penelitian ini.
2. Orang tua dan keluarga tercinta, yang selalu memberikan doa, dukungan, semangat,
serta kasih sayang yang tidak ternilai harganya.
3. Bapak/Ibu Dosen Pembimbing, yang telah dengan sabar memberikan arahan, masukan,
serta bimbingan dalam proses penyusunan skripsi ini.
4. Seluruh dosen dan staf Fakultas Ilmu Komputer Universitas Lancang Kuning, yang
telah memberikan ilmu dan pengalaman berharga selama masa perkuliahan.
5. Teman-teman seperjuangan, yang selalu memberikan semangat, dukungan, dan
motivasi baik secara langsung maupun tidak langsung.
Penulis menyadari bahwa skripsi ini masih jauh dari sempurna, baik dari segi isi maupun
penyajian. Oleh karena itu, penulis mengharapkan kritik dan saran yang membangun demi
penyempurnaan penelitian ini.
Akhir kata, penulis berharap semoga skripsi ini dapat memberikan manfaat, baik secara
akademis maupun praktis, khususnya dalam bidang analisis data dan pengembangan strategi
bisnis retail.
Pekanbaru, 01 Oktober 2025
Penulis
Farid Fadillah
ii
ABSTRAK
Perkembangan e-commerce di Indonesia semakin pesat seiring dengan meningkatnya
jumlah transaksi belanja online. Ulasan produk yang ditulis oleh konsumen tidak hanya menjadi
bahan pertimbangan bagi calon pembeli, tetapi juga dapat dimanfaatkan oleh perusahaan untuk
mengevaluasi kualitas produk maupun layanan. Namun, banyaknya jumlah ulasan membuat
perusahaan kesulitan untuk menganalisis secara manual. Oleh karena itu, penelitian ini bertujuan
untuk menganalisis sentimen ulasan produk e-commerce dengan menggunakan metode text
mining sehingga dapat mendukung pengambilan keputusan bisnis.
Data penelitian diperoleh dari ulasan konsumen pada platform e-commerce dengan
jumlah ribuan entri. Tahapan analisis meliputi data preprocessing (pembersihan data, tokenisasi,
stopword removal, dan stemming), pembobotan kata dengan Term Frequency-Inverse Document
Frequency (TF-IDF), serta klasifikasi sentimen menggunakan algoritma Naïve Bayes. Hasil
analisis menunjukkan proporsi ulasan positif, negatif, dan netral, serta kata-kata yang paling
sering muncul pada tiap kategori sentimen.
Kesimpulan dari penelitian ini adalah bahwa analisis sentimen dengan text mining
mampu memberikan gambaran yang jelas mengenai persepsi konsumen terhadap produk.
Informasi tersebut dapat dimanfaatkan perusahaan untuk meningkatkan kualitas produk,
memperbaiki layanan, serta merancang strategi pemasaran yang lebih tepat sasaran.
Kata kunci: E-commerce, Ulasan Produk, Analisis Sentimen, Text Mining, Naïve Bayes
iii
ABSTRACT
The rapid growth of e-commerce in Indonesia has led to an increasing number of online
shopping transactions. Product reviews written by consumers not only serve as references for
potential buyers but also provide valuable insights for companies to evaluate product quality and
customer service. However, the large volume of reviews makes it difficult for businesses to
analyze them manually. Therefore, this study aims to conduct sentiment analysis on e-commerce
product reviews using text mining techniques to support business decision-making.
The data used in this study were collected from consumer reviews on an e-commerce
platform, consisting of thousands of entries. The analysis process includes data preprocessing
(data cleaning, tokenization, stopword removal, and stemming), word weighting using Term
Frequency-Inverse Document Frequency (TF-IDF), and sentiment classification with the Naïve
Bayes algorithm. The results reveal the proportion of positive, negative, and neutral reviews, as
well as the most frequently occurring words in each sentiment category.
The findings indicate that sentiment analysis through text mining provides a clear
overview of consumer perceptions of products. This information can be utilized by companies to
improve product quality, enhance customer service, and design more effective marketing
strategies.
Keywords: E-commerce, Product Review, Sentiment Analysis, Text Mining, Naïve Bayes
iv
DAFTAR ISI
KATA PENGANTAR .............................................................................ii
ABSTRAK .............................................................................................. iii
ABSTRACT ............................................................................................iv
DAFTAR ISI ............................................................................................ v
BAB I PENDAHULUAN ........................................................................ 1
A. Latar Belakang .................................................................................. 1
B. Rumusan Masalah ............................................................................. 2
C. Batasan Masalah................................................................................ 2
D. Tujuan Penelitian .............................................................................. 3
E. Manfaat Penelitian ............................................................................ 3
F. Sistematikan penulisan ...................................................................... 4
v
BAB I
PENDAHULUAN
A. Latar Belakang
Perkembangan teknologi informasi dan komunikasi dalam era digital telah
memberikan dampak yang signifikan terhadap berbagai sektor industri, termasuk sektor
perdagangan. Salah satu transformasi yang paling menonjol adalah pergeseran pola
konsumsi masyarakat dari sistem belanja konvensional menuju belanja daring (online
shopping) melalui platform e-commerce. Menurut laporan dari Google, Temasek, dan
Bain & Company (2023), nilai ekonomi digital Indonesia diproyeksikan mencapai lebih
dari USD 130 miliar pada tahun 2025, dengan sektor e-commerce menjadi kontributor
terbesar. Fakta ini menegaskan bahwa e-commerce telah menjadi salah satu tulang
punggung pertumbuhan ekonomi digital di Indonesia.
Dalam aktivitas e-commerce, konsumen tidak hanya berperan sebagai pembeli, tetapi
juga sebagai sumber informasi yang sangat berharga bagi perusahaan. Salah satu bentuk
kontribusi konsumen adalah melalui ulasan produk (product review) yang mereka
tinggalkan setelah melakukan transaksi. Ulasan ini mengandung opini, persepsi, dan
pengalaman subjektif konsumen terhadap produk maupun layanan yang diterima.
Informasi yang terkandung dalam ulasan dapat bersifat positif, negatif, maupun netral,
sehingga jika dianalisis secara sistematis dapat menjadi indikator penting dalam menilai
kualitas produk, tingkat kepuasan pelanggan, hingga efektivitas strategi pemasaran.
Namun, tantangan utama yang dihadapi perusahaan adalah volume data ulasan yang
sangat besar, heterogen, dan tidak terstruktur (unstructured data). Analisis manual
terhadap ribuan bahkan jutaan ulasan jelas tidak efisien dan rentan terhadap subjektivitas.
Oleh karena itu, diperlukan pendekatan berbasis data dengan memanfaatkan metode
analisis teks modern. Salah satu pendekatan yang banyak digunakan adalah text mining,
yakni proses ekstraksi pola, informasi, dan pengetahuan dari data berbasis teks dengan
bantuan algoritma dan teknik natural language processing (NLP).
Dalam konteks e-commerce, text mining umumnya diterapkan dalam bentuk
sentiment analysis atau analisis sentimen, yang bertujuan untuk mengklasifikasikan
ulasan konsumen ke dalam kategori positif, negatif, atau netral. Proses ini melibatkan
beberapa tahapan penting, antara lain data preprocessing (tokenisasi, stopword removal,
stemming, dan normalisasi teks), representasi fitur dengan metode Term FrequencyInverse Document Frequency (TF-IDF) atau word embedding, serta penerapan algoritma
klasifikasi seperti Naïve Bayes, Support Vector Machine (SVM), atau Logistic
Regression.
Implementasi analisis sentimen pada ulasan produk e-commerce memiliki nilai
strategis dalam mendukung data-driven decision making. Misalnya, hasil klasifikasi
1
sentimen dapat digunakan untuk mengidentifikasi produk dengan tingkat kepuasan
rendah, mengevaluasi kualitas layanan pelanggan, serta merancang strategi komunikasi
pemasaran yang lebih tepat sasaran. Selain itu, dengan memanfaatkan feature importance
atau analisis kata kunci dominan, perusahaan dapat memperoleh pemahaman lebih
mendalam terkait aspek produk yang paling sering menjadi sorotan konsumen, baik
dalam konteks keunggulan maupun kelemahan.
Lebih jauh, penerapan text mining tidak hanya memberikan efisiensi dalam
pengolahan data ulasan, tetapi juga meningkatkan daya saing perusahaan di era industri
4.0 yang menekankan pada pemanfaatan big data analytics. Dengan memanfaatkan
ulasan konsumen secara sistematis, perusahaan dapat menerapkan pendekatan berbasis
pelanggan (customer-centric approach), meningkatkan retensi pelanggan (customer
retention), serta mengoptimalkan strategi inovasi produk.
Berdasarkan latar belakang tersebut, penelitian ini berfokus pada “Analisis Sentimen
Ulasan Produk E-Commerce Menggunakan Text Mining untuk Mendukung
Keputusan Bisnis”. Penelitian ini diharapkan dapat memberikan kontribusi baik secara
akademis maupun praktis, yakni memperkaya kajian literatur dalam bidang text mining
serta memberikan solusi nyata bagi perusahaan untuk memanfaatkan data ulasan
konsumen sebagai dasar pengambilan keputusan strategis.
B. Rumusan Masalah
Atas dasar uraian latar belakang di atas, maka permasalahan yang akan diteliti adalah
sebagai berikut :
1. Bagaimana melakukan pengolahan data ulasan produk r-commerce agar dapat
dianalisis menggunakan metode text mining?
2. Bagaimana hasil analisis sentimen dapat mengkalifikasikan ulasan konsumen ke
dalam kategori positif, negatifm dan netral?
3. Bagaimana hasil analisis sentimen tersebut dapat dimanfaatkan untuk mendukung
pengambilan keputusan bisnis pada perusahaan e-commerce?
C. Batasan Masalah
Untuk menjaga fokus penelitian, batasan masalah dalam penelitina ini adalah sebagai
berikut :
1. Data yang digunakan dalam penelitian ini berupa ulasan produk (product review) dari
platform e-commerce yang diperoleh melalui dataset publik atau hasil pengumpulan
data terbatas, bukan data internal perusahaan.
2
2. Analissi sentimen hanya difokuskan pada klasifikasi tiga kategori utama, yaitu positif,
negatif, dan netrtral.
3. Proses pengolahan data teks (text preprocessing) dibatasi pada tahapan umum, yaitu
case folding, tokenization, stopword removal, dan stemming.
4. Representasi data teks menggunakan metode Term Frequency- inverse Document
Frequency (TF-IDF).
5. Algoritma klasifikasi yang digunakan dalam penelitian ini adalah Naïve Bayes, tanpa
melakukan perbadingan dengan algorimat lain.
6. Penelitian ini hanya membahas hasol analisis sentimen untuk memberikan gambaran
persepsi konsumen secara umum, tanpa membahas implementasi langsung pada
sistem rekomendasi atau aplikasi bisnis tertentu.
D. Tujuan Penelitian
Adapun tujuan pada penelitian ini sebagai berikut :
1. Mengolah data ulasan produk e-commerce yang bersifat tidak terstruktur menjadi
data yang siap dianalisis dengan metode text mining.
2. Melakukan analissi sentimen terhadap ulasan konsumen untuk mengklasifikasikan
opini ke dalam kategori positif, negatif, dan netral.
3. Mengetahui kinerja algoritma Naïve Bayes dalam proses klasifikasi sentimen pada
data ulasan produk.
4. Memberikan gambaran mengenai persepsi konsumen terhadap produk e-commerce
berdasarkan hasil analisis sentimen.
5. Menyajikan hasil analisis sentimen sebagai informasi yang dapat dimanfaatkan dalam
mendukung pengambilan keputusan bisnis oleh perusahaan,
E. Manfaat Penelitian
Dengan dilakukanya penelitian ini, diharapkan dapat memberikan manfaat yaitu :
1. Bagi penulis menambah wawasan dan pengalaman dalam bidan text mining dan
analisis sentimen
2. Bagi penulis menjadi dasar pengambilan keputusan dalam membangun bisnis, seperti
strategi pemasaran, perbaikan layanan produk.
3. Menunjukan penerapan analisis data untuk mendukun keputusan bisnis berbasis data
(data-driven decision making)
3
F. Sistematikan penulisan
Sistematikan penulisan Skripsi ini dibagi menjadi 5 (lima) bab dan isi dari masingmasing bab dapat diuraikan sebagai berikut.
BAB I PENDAHULUAN
Dalam bab ini uraikan tentang penjelasan umum dari permasalahan yang di bahas
sehubungan dengan penyusunan penulis ini yang meliputi latar belakang masalah,
rumusan masalah, tujuan penelitian, manfaat penelitian, sistematikan penulisan.
BAB II TINJAUAN PUSTAKA
Bagian dari penelitian yang berisi rangkuman dan analisis literatur serta
penelitian-penelitian terdahulu yang relevan dengan topik yang sedang diteliti, ini
membantu peneliti membangun landasan teoritis untuk penelitian mereka dapat
merujukan kontribusi unik dari penelitian tersbut. Berikut adalah beberapa elemen umum
yang biasanya ada dalam tinjaua pustaka yang meiputi Tinjauan penelitian terdahulu,
Teori dasar yang digunakan.
BAB III METODE PENELITIAN
Pendekatan sistematis dan rinci yang digunakan oleh peneliti untuk merancang,
melaksanakan, dan mengevaluasi suatu penelitian. Metode penelitian menyajikan temua
penelitian. Tujuan dari metode penelitian adalah memastikan keandalan dari validitas
hasil penelitian. Berikut adalah beberapa elemen umum yang sering terdapat dalam
bagian metode penelitian yan gmeliputi tahapan tahapan penlitian , Lokasi dan waktu
penelitian, Data yang digunakan, Teknik pengumpulan data, metode/Pemodelan yang
digunakan
BAB IV HASIL DAN PEMBAHASAN
Bab ini berisi hasil penelitian yang diproleh dari hasil ulasan produk e-commerce
setelah melalui proses pembersihan dan pengolahan data. Ulasan tersebut akan
diklasifikasn menjadi tiga kategori sentimen, yaitu positif, negetif, dan netral,
mengunakan algorimat Naïve Bayes
4
BAB V PENUTUP
Bab ini berisi kesimpulan dari hasil penelitian yang telah dilakukan mengenai
Analisis Sentimen ulasan Produk E-Commerce mengunakan Text Mining untuk
Mendukung keputusan Bisnis. Ini mencangkup temuan utama, yaitu bahwa analisis
sentimen mengunakan text mining da algortma Naïve Bayes mampu mengklasifikasikan
ulusan produk e-commerce menjadi postif, negatifm dan netral. Hasil ini memberikan
gambaran mengenai persepsi konsum terhadap produk dan dapat menjadi sasr
pengambilan keputusan bisnis, seperti perbaikan produk, layananm dan strategi
pemasaran.
DAFTAR PUSTAKA
Pada bab ini penulisan mencantumkan semua referensi yang diguankan dalam
proses penulisan skripsi, baik dari buku, jurnal artikel, maupun sumber lainya yang
relevan.
5
BAB II
TINJAUAN PUSTAKA
A. Tinjauan Penelitian Terdahulu
Penelitian ini dilakukan tidak terlepas dari hasil penelitian-penelitian terdahulu
yang pernah dilakukan sebgaai baha perbandingan dan kajian.Adapun hasil-hasil
penelitian yang dijadikan perbandingan tidak terlepas dari topik penelitian.
1. Penelitian yang berjudul : “Analisis Sentimen pengguna Aplikasi Shopee pada Situs
Google Play menggunakan Naïve bayes Classifier” Oleh Andriani Nurian, Muhammad
Samsul Ma’arif, Indira Nur Amalia, dan Chearur Rozikin (2023) Penelitian ini bertujuan
untuk mengetahui tingkat kepuasan pengguna terhadap aplikasi Shoppe melalui ulasan di
Goole Play Store. Metode naïve Bayes Classifier diguankan dalam klasifikasi sentimen
positif dan negatif, dengan hasil akurasi sebesar 87,58% Hasil penelitian ini menunjukan
bahwa mayoritas pengguna memberikan sentimen positif terhadap aplikasi Shoppe, serta
metode Naïve Bayes terbukti efektif dalam pengklasifikasian teks berbahasa Indonesia.
2. Penelitian yang berjudul : “ Analaisis Sentimen Ulasan Produk Moisturizer Skintifc di
Tokopedia Menggunakan Support Vector Machine.” Oleh Nurwahyudi Widhiyanta,
Isnaini Muhandhi, Roszi Syadillal jannah, dan Laily Alfina Wulansari (2023) Penelitian
ini menganalisis ulasan pelanggan terhadap produk perawatan kulit Skintifc pada
platform Tokopedian dengan menggunakan algoritma Support Vector machine (SVM).
Hasil menunjukkan bahwa SVM mampu mengkalisifikasikan sentimen positif dan
negatif dengan tingkat akurasi yang baik, serta memberikan gambaran mengenai presepsi
konsumen yang berguna bagi strategi pemasaran produk.
3. Penelitian yang berjudul : “Optimasi Analisis Sentimen Ulasan Sunscreen di ECommerce Menggunakan Algoritma SVM dan SMOTE” Oleh Ayi Andini, Nining
Rahaningsih, Raditya Danar Danam dan Cep lukman Rohmat (2023) Tujuan penelitian
ini adalah untuk mengarasi ketidakseimbangan data pada analisis sentimen produk
kecantikan (sunscreen) menggunakan kombinasi metode Support Vector Machine (SVM)
dan Synthetic Minority Over-sampling Technique (SMOTE). Hasilnya menunjukkan
hingga mencapai 93%, sehingga model lebih andal dalam mengidentifikasi sentimen
minoritas
4. Penelitian yang berjudul : “Analisis Sentimen APlikasi Shopee Tokopedia, Lazada dan
Blibli Menggunakan Leksikon dan Random Forest.” Oleh A. Syah,F. Nurdiyansyah, dan
A. Y. Rahman (2024) Penelitian ini membandingkan empat platfrom e-commerce besar
di Indonesia dengan pendekatan berbasis lexicon dan algorimat Random Forest. Hasil
penelitian menunjukkan bahwa Shoppe dan Tokopedia mendapatkan proporsi sentimen
positif yang lebih tinggi dibandingkan Lazada dan Blibli. Kombinasi metode lexicon dan
6
Random Forest tebukti memberikan hasil yang stabil dalam mengidentifikasi sentimen
pengguna.
5. Penelitian yang berjudul : “Analisis Sentimen produk Hijab pada E-Commerce
Tokopedia Menggunakan Algortima Support vector machine dan IndoBERT
Embedding”. Oleh Ghina Tri Fadilah, Lailil Muflikhan, dan Rizal Setya Pedana (2024)
Penelitian ini menggunakan pendekatan word embedding bebasis IndoBERT untuk
meningkatkan representasi semantik teks ulasan, yan gkemudian diklasifikasikan
menggunakan algoritma Support Vector machine (SVM). Hasil menunjukkan bahwa
integrasi IndoBert mampu meningkatkan akurasi klasifikasi dibandikan pedekatan
konvensional berbasis TF-IDF.
Berasarkan bebagai penelitian di atas, dapat disimpulkan bahwa penggunaan
metode text mining dan algoritma klasifikasi seperti Naïve Bayes serta Support vector
Machine (SVM) telah banyak digunakan dalam analisis sentimen ulasan produk ecommerce. Beberapa penelitian juga memperlihatkan penginkatan akurasi melalui
penggabungan teknik seperti Smote untuk penyeimbang data dan penggunaan word
embbeding seperti indoBERT untuk representasi teksyang lebih kontekstual. Namun
demikian sebagian besar penelitian sebelumnya masih berfokus pada suatu platform ecommerce tertentu dan cenderung menitikberatkan pada akurasi model tanpa meninjau
potensi penerapan hasil analisis dalam kontek pengambilan keputusan bisnis secara
menyeluruh.
Oleh karna itu, dalam penelitian yang berjudul “ Analisis Sentimen Ulasan produk
E-Commerce Menggunakan Text Mining untuk Mendukung Keputusan Bisnis,” penulis
akan mengembangkan pendekatan yang lebih komprehensif dengan mengobinasikan
beberapa metode machine learning seperti Naïve bayes dan SVM, serta mengeksporasi
penggunaan IndoBERT embedding untuk mengingkatkan akurasi model klasifikasi.
Selain itu, penelitian ini juga akan menerpakan teknik penyeimbangan data menggunakan
SMOTE dan melakukan aspect-based sentiment analysis untuk mengidenrifikasi
sentimen konsumen pada aspek=aspek penting seperti kualitas produk, harga,
pengiriman, dan layanan pelanggan. Melalui pendekatan ini, penelitian diharapkan dapat
memberikan kontribusi nyata dalam menghasilkan model analisis sentimen yang tidak
hanya akurat, tetapi juga mampu menyajikan insight yang dapat dimangaatkan secara
langsung oleh pelaku bisnis dalam merumuskan strategi pemasaran,peningkatan kualitas
layanan, serta pengambilan keputusan berbasis data yang lebih efektif.
7
B. Landasan Teori
1. E- Commerce
a. Pengertian E-Commerce
Electronic Commerce (E-Commerce) Merupakan proses transaksi bisnis
yan gdilakukan secara elektronik melalui jaringan internet. Menurut Turban et al.
(2018), e-commerce adalah proses membeli, menjual, mentransfer, atau menukar
produk, layanan , dan informasi melalui jaringan komputer, termasuk internet.
Sementara itu , Laudon dan Traver (2020) mendefiniskan e-commerce sebagai
penggunaan internet dan web untuk melakukan transaksi bisnis secar digital
antara organisasi dan individu. Dari berbagai definisi tersebut, dapat disimpulkan
bahwa e-commerce merupakan bentuk perdagangan modern yang memunkinkan
interaksi langsung antara penjual dan pembeli tanpa batasan geografis melalui
media digital.
b. Jenis-Jenis E-Commerce
Menurut Chaffer (2019, E-commerce dapat di bedakan menjadi beberapa
kategori utama berdasarkan pelaku transaksinyam yaitu :
a) Business to Consumer (B2C) – transaksi antara perusahaan dan
konsumen akhir, contohnya Shopee, Tokopedia, atau Lazada.
b) Business to Business (B2B) – transaksi antara perusahaan, seperti
pemasok dengan distributor.
c) Consumer to Consumer (C2C) – transaksi antar individu dengan
individu lain melalui platform digital seperti OLX atau Facebook
marketplace.
d) Consumer to Business (C2B) – model di mana individu menawarkan
produk atau jasa kepada perusahaan, misalnya freelancer yang
menawarkan layanan desai atau konten.
e) Business to Government (B2G) – transaksi antara perusahaan dengan
lembaga pemerintahan melalui sistem elektronik dengan lembaga
pemerintahan melalui sitem elgektronik.
c. Peran E-commerce dalabisnis Modern
E-Commerce memiliki peran strategis dalam transformasi bisnis modern.
Menurut Kotler dan Keller (2016), digitalisasi proses bisnis melalui e0commerce
memungkinkan efisiensi biaya, perluasan jangakauan pasar, serta peningkatan
interaksi dengan pelanggan. Selain itum e-commerce juga menjasdi sumber data
8
penting bagi perusahaan. Melalui ulasan pelanggan, pola pembelian, dan perilaku
konsumen di platform digital, perusahaan dapat memperoleh wawasan (insight)
berharga untuk pengambilan keputusan bisnis. Data ulasan tersebut kemudian
dapat dianalisis menggunakan pendekatan text mining dan sentiment analysis
untuk mengetahui persepsi pelanggan terhadap produk atau layanan yang
ditawarkan. Dengan demikian, e0commerce dtidak hanya berfungsi sebgai sarana
transaksi, tetapi juga sebagai sumber informasi strategis dalam pengembangan
bisnis berbasis data (data-driven decision making).
2. Ulasan Produk (product Review)
a. Pengertian Ulasan Produk
Ulasan Produk (Produc Riview) merupakan opini, komentar , atau
tanggapan yang diberikan konsumen setelah menggunakan suatu produk atau layanan .
Menurut Hu, Pavlou dan Zhang (2099). Ulasan Produk adalah bentuk komunikasi
elektronik antara konsumen (electronic word of mouth) yang berisi pengalaman subjektif
terhadap suatu produk. DSementara itu, Chevalier dan mayzlin (2006) menyatakan
bahwa ulasan produk merupakan salah satu bentuk informasi yang memengaruhi
keputusan pembelian konsumen karena dianggap lebih kredibel dibandingkan iklan dari
produsen. Dengan demikian, ulasan produk dapt dianggap sebgai bentuk evalusi
konsumen yang berperan penting dalam membangun kepercayaan dan persepsi terhadap
kualitas suatu produk.
b. Jenis dan Karakteristik Ulasan Konsumen
Menurut Mudambi dan Schuff (2010) ulasan priduk dapat dibedakan
berdasarkan:
a) Sentimen ulasan, yaitu ulasan postif, negatif atau etral terhadap suatu
produk.
b) Kedalaman informasi, yang mencakup detail deskripsi pengalaman
pengguna.
c) Sumber ulasan, yaitu apakah berasal dari pengguna terverifikasi atau
anonim.
d) Gaya bahas, yang dapat bersifat formal, informatif, emosional.
Karakteristik ulasan yang baik biasanya memuat aspek produk yang jelas,
alasan kepuasan atau ketidapuasan, serta rekomendasi bagi aclom pembeli. Dalam
konteks penelitian ini, teks ulasan tersebut menjadi sumber data utama untuk
analisis sentimen menggunakan metode text mining.
9
c. Pengaruh Ulasan terhadap Keputusam Pembelian
Menurut peneltian yang dilakukan oleh park dan lee (2009, ulasan online
memiliki pengaruh signifikan terhadap persepsi nilai dan niat beli konsumen.
Semakin banyak ulasan positif yang diterima suatu produk, semakin tinggi pula
kemungkinan konsumen untuk membelinya. Sebaliknya, ulasan negatif dapat
menurunkan minat beli, meskipun terkadang dianggap sebagai indikator kejujuran
dan transparansi informasi produk. Dalam lingkungan e-commerce, ulasan
pelanggan menjadi satu indikator reputasi dan kepercayaan terhadap produk. Oleh
karena itu, analisis terhadap sentimen ulasan dapat membantu pelaku bisnis dalam
memahami persepsi pasar, memperbaiki kualitas produk, serta merumuskan
strategi pemasaran yang lebih tepat sasaran.
3. Texit mining
a. Pengertian Text Mining
Text mining atau penambangan teks adalah proses ekstraksi informasi
bergarga dari kumpulan data bebentuk teks tidak terstruktur. Menurut
Feldman dan Sanger (2007), text mining merupakan serangkaian teknik
untuk menemukan pola, tren, atau pengetahuan tersembunyi dari data teks
melalui pendekatan statistik dan linguistik. Sementara itu, Guptan Lehal
(2009) Mendifenisikan text mining sebagai proses menganalisis teks secara
otomatis untuk mengidentifikasi informasi relevan dan bermakna dengan
bantuan teknologi natural language processing (NLP) dan machine
learning. Dengan demikian, text mining dapat diartikan sebagai metode
pengolahan data teks untuk mendapatkan informasi yang dapat digunakan
dalam konteks analisis sentimen ulasan e-commerce.
b. Tahapan Proses Text Mining
Menurut Hotho et al. (2005), proses text mining umumnya meliputi
beberapa tahap utama sebagai berikut:
a) Data collection (Pengumpulan Data)
Tahap ini melibatkan pengambilan data teks dari berbagai
sumber misalnya ulasan produk di situs e-commerce atau media
sosial.
b) Text Preprocessing (Pra-pemrosesan Teks)
Tahap ini bertujaun untuk membersihkan teks dari elemen
yang tidak relevan agar dapat dianalisis secara akurat. Langkah langkah utamanya meliputi.
10
a) Case Folding : Mengubah semua huruf menjadi
huruf kecil.
b) Tokenizing: memecah kalimat menjadi kata-kata
tunggal (token).
c) Stopword Removal: Menghapus kata umum yang
tidak bermakna ( “yang”, “ dan”,”atau”).
d) Stemming : mengembalikan kata ke bentuk
dasarnya, misalnya “membeli” menjadi “beli”.
e) Filtering : Menghapus karakter atau simbol yang
tidak diperlukan.
c. Feature Extraction (Ekstraksi fitur)
Tahapan ini mengubah teks menjadi representasi numerik agar dapat
diproses oleh algoritma. Salah satu metode yang umum digunakan ada TF-IDF (Term
Frequency-Inverse Document Frequency), yang menilai pentingnya suatu kata
berdasarkan frekuensinya di dalam dokumen.
d. Text Analysis ( Analisis Teks)
Pada tahap ini , data yang telah direpsentasikan dalam bentuk numerik
dianalisis menggunakan algortima tertentu, seperti Naïve Bayes, SVM, atau
pendekatan berbasis leksikon, tergantung pada tujuan penelitian.
c. Vizualizationand Interpretation ( Visualisasi dan Interpretasi)
Hasil analissi kemudian divusalisasikan, misalnya dalam bentuk grafif
distribusi sentimen positif, negatifm dan netral. Hasil ini kemudian diintepretasikan
untuk mendukung pengambilan keputusan bisnis.
11
e. Penerapan Text Mining dalam Analissi Sentimen
Text mining memiliki peran penting dalam analisis sentimen,
khusunya dalam mengidentifikasi opini publik terhadap suatu produk atau
layanan. Menurut Pang dan lee (2008), text mining digunakan untuk
mengekstraksi dan mengkalisfikasi teks berdasarkan polaritas sintemen yang
terkandung di dalamnya. Dalam konteks e-commerce hal ini berarti menilai
apakah ulasan pelanggan bersifat positif, negatifm atau netral terhadap produk
tertentu. Melalui Penerapan text mining, perusahaan dapat memproleh gambaran
umum tentang persepsi konsumen dan menggunakan sebagai dasar dalam
pengambilan keputusan strategis seperti peningkata kualitas produk, layanan
pelangan , serta strategi pemasan.
4. Sentimen Analysis
Menurut Liu (2012), sentimen analysis atau nalisis sentimen merupakan cabang
dari text mining yang berfokus pada pengidentifikasianm ekstraksi dan pengukuran opinim
emosi atau sikap terhadap suatu entitasm topik, atau produkm Tujuan utama dari analisis
sentimen adalah untuk menentukan kecenderuangan emosional dari suatu teks apakah
berdifat positif, negatif , atau netral.
Menurut Pang dan Lee (2008) menjelaskan bahwa analissi sentime berupaya
mengklasifikasikan teks berdasarkan polaritsasnyam menggunakan pendekatan machine
learning dan natural lenguage processing (NLP) mereka menekankan pentingnya pemilihan
fitur teks, seperti unigram bigram, serta penggunaan algortma klasifikasi sepert Naïve Bayes,
Support Vecotr Machine (SVM da Maximum Entropy.
Sementara itu menurut, Medhat, Hasasn, dan Korashy (2014) menyatakan bahwa
analisis sentimen dapat dibagi menjadi tiga level, yaitu
a) Level dokumen (document level) enilai kesuluruha opini dalam satu
dokumen.
b) Level kalimat ( sentence level) menganalisis sentimen pada setiap
kalimat.
c) Level aspek ( aspec-based level )) menilia opini terhadap fitur atau
atribut tertentu dari produk.
Pendekatan inimemungkinkan pemahaman yang lbeih mendalam tentang persepsi
konsumen terhadap aspek sepsifik suatu layanan atau produk.
Menutur Cambrian,Schuller,xia dan Havasi (2013), analissi sentimen berkembang
dari metode berbasis lexicon menuju pendekatan berbasis machine learning dan deep
learning, yang mampu menangkap kontek sematik lebih kompleks. Mereka menekankan
pentingnya semantic analysis untuk memahami makna kata dalam konteks kalimat agar
12
hasil klasifikasi sentimen lebih akutar. Lebih lanjut Taboasa, Brooke Tofiloski, Voll, dan
Stede (2011) mengembangkan pendekatan berbasis lexicon menggunakan Semantic
Orientatio Calculator (SO-CAL), yang mengandalkan daftar kata berpolaritas positif dan
negatif. Pendekatan ini efektif dalam mengdientifikasi sentimen pada teks pendek atau
ulasan yang memiliki struktru bahasa sedaerhana. Selain itu, Agarwal, Xie, Vosha,
Tambow, dan Passonneau (2011) menyoroti pentingnya kombinasi antara rule-based
approach dan machine learni approach dalam menginkatkan akurasi anlaisis sentimen,
khususnya dalam teks yang berdifat tidak tersetruktur seperti ulasan priduk atau media
sosial.
Dalam kontek bisnis dan e-commerce, Vindohini dan Chadrasekaran (2012)
menyatakan bahwa analisis sentimen memilki nilai strategis karena memungkinkan
perusahaan memahami persepsi pelanggan terhadap produk mereka secara real-time.
Hasil analisis ini dapat diguanaknk sebagai dasar dalam pengambilan keputusan bisnis,
evaluasi kualitas produk, serta pegembangan strategi pemasaran. Dengan demikian ,
analiss sentimen berperan penting dalam mengubah data teks yang tidak terstruktur
menjadi informasi yan gbernilai. Melalui penerapan metode seperti Naïve Bayes,SVM,
dan pendekatan lexicon-based, penelitian ini berupaya mengali kecenderungan opini
konsumen terhadap produk di platform e-commerce, sehingga dapat mendukung
pengambilan keputusan bisnis yang lebih tepat.
5. Algoritma Naïve Bayes
Menurut Manning, raghaba dan Schütze (2000) Naïve Bayes Classifier
merupakan algoritma klasifikasi berbasis probabilitas yang didasarkan pada Teorema
Bayes denan asumsi independensi antar fitur. Algoritma ini digunakan secara luas dalam
pemrosesan bahasa alami ( Natural Language Processing), termasuk untuk analisis
sentimen dan klasifikasi teks karena kesederhanaan dan efesiensinya
Menurut Han, Kamber, dan Pei (2012) menjelaskan bahwa Naïve Bayes bekerja
dengan menghitung kemungkingkan (probabilitas) suatu Dokumen Termasuk ke dalam
kelas tertentu berdasarkan frekuensi kemunculan kata-kata yang ada di dalamnya.
Dengan kata lain, setiap fitur (kata) dia ggap berkontribusi secara independen terhadap
hasil klasifikasi akhir.
Secara matematis, Naïve Bayes didasarkan pada rumus berikut :
13
di mana :
a) P(C|X) = probabilitas kelas C berdasarkan X,
b) P(X|C) = probabilitas data X muncul pada kelas C,
c) P(C) = probabilitas awal dari kelas C,
d) P(X) = probabilitas data X secara keseluruhan.
Dalam kontek analisis sentimen, X mewakili kumpulan kata dalam sebua h
ulasan, sedangkan C adalah kategori sentimen (positif,negatif, atau netral). Dokumen
akan diklasifikasikan ke dalam kelas dengan nilai probabilitas tertinggi
Menurut Rennie et al. (2003), meskipun asumsi independensi antar fitur jarang
sepenuhnya benar pada data teks, Naïve Bayes tetap memberikan hasil kompetitif dalam
berbegai aplikasi, terutama ketika jumlah data pelatihan cukup besar. Hal ini disebabkan
oleh kemampuanya untuk menangani data berdimensi tinggi secara efisien.
Zhang dan zhou (2004) menbaahkan bahwa keunggulan utama Naïve Bayes adlah
kebutuhan komputasi yang rendah dan stabilitas hasil pada dataset besar, Namun
kelamahan utamanya ada ketidakmampuanya menangkap hubungan antar kata yang saling
bergantung dalam satu kontek kalimat. Sementara itu, Mccallum dan Nigam (1998)
membedakan dua varian utama dari algoritma ini dalam konteks klasifikasi teks, yaitu:
a) Multinomial Naïve Bayes, yag mempertibangkan frekuensi
kemunculan kata dalam dokumen.
b) Bernoulli Naïve Bayes, yang hanya memperhatikan ada
atau tidaknya kata dalam dokumen (biner).
Dalam penelitian ini, Naïve Bayes digunakan untuk mengklasifikasikan sentimen
pada ulasan produk e-commerce berdasarkan kemunculan kata-kata yang telah melalui
proses text preprocessing. Pendekatan ini dipilih karena memberikan hasil yang akurat,
mudah diimplementasikan dan efektif untuk dataset teks berbahasa alami.
6. Lexicon-Based Sentiment Analysis
Menurut Liu (2012), lexicon-based sentimen analysis merupakan pendekatan
analisis sentimen yan gmenggunakan sentiment lexicon – yaitu daftar kata yang telah
diberi label polaritas seperti positif, negatif, atau netral Pendekatan ini tidak memerlukan
data pelatihan seperti pada metode pembelajran mesin (machine learning), melainkan
mengandalkan penlilaian sentimen berdasarkan makna kata dalam kamus.
14
Menurut Tabaoada er al. (2011) menjelaskan bahwa metode lexicon – based
bekerja dengan menghitung skor sentimen dari kata-kata yang terdapat dalam teks. Setiap
kata dalam kalimat memiliki bobot polaritas tertentu, dan skor keseluruhan teks
ditentukan berdasarkan penjumlahan atau rata-rata dari bobot tersebut. Misalnya, jika
sebuah ulasan mengandung lebih banyak kata positif daripada negatif, maka sentimen
ulasan tersebut dikategorikan sebgai positif.
Pendekatan ini biasanya dibagi menjadi dua kategori utama:
1.
Dicitonary-based approach, yaitu pembangunan kamus sentimen melalui
ekspasi manual dari kata-kata positif dan negatif menggunakan sinonim dan
antonim dalam kamus sperti WordNet (Hu&Liu,2004).
2.
Corpus-based approach, yaitu pembentukan nkamus berdasarkan
distribusi kata dalam kumpulan teks (corpus) dengan teknik statistik seperti
Pointwise Mutual Information (PMI) atau Latent Semantic Analysis (LSA)
(Turney & Littman, 2003).
Menurut Baccianella, Esuli, dan Sebastiani (2010), salah satu kamus sentimen
yang banyak digunakan adalah SentiWordNet, yang mengasosiasikan setiap synet dalam
WordNet dengan tida skor numerik: Postivity, negativity, dan objectivity. Kamus ini
banyak digunakan untuk analisis sentimen dalam bahasa inggris.
Namun, untuk bahasa Indonesia, Wicaksono dan Purwarianti (2010)
mengembangkan pendekatan lexicon-based dengan melakukan penerjemahan dan
penyesuaian terhadap konteks budaya serta struktur kalimat khas bahsa Indonesia. Hal ini
penting karena polaritas kata dalam satu bahsa tidak selalu setara maknanya dalam
bahasa lain.
Kelebihan dari metode lexicon-based adalah kemampuanya menangani data baru
tanpa perlu pelatihan ulang serta interpretasi yang mudah. Namun, kekurangannya adalah
sensitibitas terhadap konteks – seperti ironi, negasi, atau ambiguitas kata. Sebagai contoh,
kalimat “produk ini tidak buruk” memiliki kata negatif (“buruk”, namun makna
keseluruhanya bersentimen positif.
Menurut Medhat, Hassan, dan Korashy (2014), pendektan lexicon-based dapat
memberikan hasil yang baik bila dikombinasikan dengan metode machine learning
seperti Naïve Bayes atau SVM. Kombinasi ini dikenal sebgai hybrid sentiment analysis,
yang menggabungkan kekuatan pembelajran data dengan kamus sentimen untuk
meningkatkan akurasi dan stabilitas model.
Dalam kontek penelitian ini , lexicon-vased sentiment analysis digunakan sebgai
pendektan pendukung untuk memperkuat klasifikatsi sentimen yang dilakukan oleh
algoritma Naïve Bayes. Hasil dari kedua metode ini akan dibadingkan atau
dikombinasikan untuk memproleh hasil analisis yan glebih komperhensif terhdap
kecenderungan sentimenn konsumen pada ulasan produk e-commerce.
15
7. Kombinasi Naïve Bayses dan Lexicon-Bases Approach
Pendekatan kombinasi antara metode Naïve Bayes dan Lexicon-Based sentiment
Analysis merupakan strategi yang digunakan untuk mengingkatkan akurasi dan
keandalan hasi l analisis sentimen. Setiap pendekatan memilki kelebihan dan
keterbatasan tersendiri, oleh karne itu, penggabungan keduanya dapat saling melengkapi
dalam mengatasi kelamahan masih-masing.
Menurut Medha, Hassan, KOrashy (2014), metode lexicon-based unggul dalam
interpretabilitas dan tidak memerlukan proses pelatihan data (training data), sedangkan
metode machine learning seperti Naïve Bayes mamu menyesuaikan pola dari data besar
secara otomatis. Kombinasi keduanya menghasilkan modek hibrida yang lebih adaptif
dan kontekstual.
Ravi (2015 menjelaskan bahwa pendekatan hibrida ini biasanya bekerja dengan
cara memanfaatkan lexicon untuk memberikan skor awal polairtas kata dalm teks,
kemudian hasil tersebut digunakan sebagai fitur atau pembobot dalam proses klasifikasi
menggunakna Naïve Bayes. Dengan demikian, model dapat memperhitunkan makna
semantik kata seklaigus hubungan statistik antar kata dalam dokumen.
Saif et al. ( melakukan kombinasi antara lexicon-based features dan machine
learnin gclassifier untuk nalaisis sentimen pada data Twitter. Hasil penelitan mereka
menunnjukan bahwa metode gabugan ini mampu meningkatkan akurasi hingga 5-10%
dibadingkan dengan penggunaan metode tunggal.
Dalam kontek penelitan e0cmmerce, penggabungan kedua metode ini memiliki
relevansi yang tinggi. Ulasan produk dari konsumen sering kali mengandung bahsa
informal, singakatan, atau campuran positif-negatif dalam satu kalimat. Metode Naïve
Bayses dapat menangkap pola statistik dan teksm sedangkan pendekatan lexicon-bases
membantuk mengkalirifikasi makna emosinal dari kata-kata yang tidak umum.
Menurut kumar dan jasiwal (2020), pendektan gabungan ini dapa digunakan
dalam tiga cara utama :
a) Feature-level combination, yaitu menjadi skor dari lexicon sebagai
variael input tambahan bagi algortima Naïve Bayes.
b) Decision-level Combination, yaitu menggabungkan hasil prediksi
kedua metode untuk memproleh keputusan akhir berdasarkan bobot
tertentu.
16
c) Sequential combination, yaitu hasil dari metode lexicon-basesd
digunakan sebgai penyaring atau penantu awal sebeulm dilakukan
klasifikasi dengan Naïve Bayes.
Pendekatan kombinasi ini cocok diterpkan pada penelitian berjudul “Analisis
Sentimen Ulasan Produk E-Commerce Menggunakan Text Mining Mendukung
Keputusan BIsnis” karena
a) Data ulasan e-commerce berdifat sangat beragam dan tidak selalu
memiliki struktur yang konsisten.
b) Pendekatan Naïve Bayes dapat mengenali pola umum berdasarkan
data pelatihan, sedangkan lexicon-based mampu menilai polaritas kata
baru yang belum pernah muncul sebelumnya.
c) Kombinasi keduanya dapat menghasilkan analisis yang lebih stabil
dan representative terhadap persepsi konsumen.
Dengan demikian, metode hbrida ini tidak hanya berfungsi untuk
mengidentifikasi kecenderungan sentiment (positif, negative, netral), tetapi juga membantu
menghasilkan wawasan strategis yang dapat digunakan dalam proses pengambilan
Keputusan bisnis untuk peningkatan kualitas produk dan layanan.
8. Pengambilan Keputusan Bisnis (Business Decision Making)
Pengambilan Keputusan bisnis merupakan proses memiliki alternatif Tindakan
terbaik dari berbagai opsi yang tersedia untuk mencapai tujuan organisasi. Menurut
Simon (1960), Proses penbailan keputsan terdiri dari tiga tahap utama, yaitu :
a) Intelligence, pengumpulan data dan identifikasi masalah.
b) Design, pegembangan alternatif Solusi yang mungkin.
c) Choice, pemilihan Solusi
pertimbangan tertentu.
terbaik
berdasarkan
analisis
dan
Dalam kontek modern, Keputusan bisnins tidak lagi hanya didasarkan pada intuisi
atau pengalaman manajer, melainkan juga pada hasil analisis data yant terukur. Laudon
(2020) menekankan bahwa sistem informasi manajemen dan data-driven decision making
(DSS) Menurut Turban et al. (2011), DSS asalah sistem berbasis computer yang
mendukung pengambilan Keputusan dengan menganalisis data dan menghasilkan
informasi yang relevan. Dalam hal ini, hasil analisis sentiment berfungsi sebgai input untuk
menilai persepsi konsumen terhadap produk atau layanan yang ditawarkan Perusahaan.
17
Menurut Kotler dan Keller (2016), Pemahaman terhadap opini pelanggan
merupakan elemen penting dalam strategi pemasaran modern, karena dapat membantu
perusaah:
a) Menentukan persepsi kondumen terhadap kualitas produk,
b) Menilai efektivitas kampanye promosi,
c) Mengidentifikasi factor yang menyebabkan kepuasan atau
ketidakpuasan pelanggan,
d) Menyesuaikan strategi bisnis agar lebih beroreintasi pada
kebutuhan pasar.
Selain itu, Chaffey (2019) menambahkan bahwa data digital seperti ulasan online
dan media social memberikan peluang bagi pelaku bisnis untuk melakukan customer
insight mining – yaitu penemuan pola persepsi dan emosi pelanggan terhadap produk. Pola
ini dapat digunakan untuk mengoptimalkan strategi pemasaran,, pengembangan produk
dan peningkatan lyanan pelanggan.
Dalam konteks penelitian ini, hasil analisis sentiment terhadap ulasan produk ecommerce diharapkan dapat menjadi dasar dalam mendukung proses pengambilan
Keputusan bisnis. Data sentiment yang telah diklasifikasikan menjadi positif, negative, dan
netral dapat membantu Perusahaan untuk:
a) Mengidentifikasi kekuatan dan kelemahan produk berdasarkan
opinin pelanggan.
b) Menutukan strategi perbaikan kulitas produk dan layanan.
c) Mengukur efektivitas kampanye atau promosi tertentu.
d) Merancang strategi komunikasi yang lebih tepat sasaran.
Dengan demikian penggabungan antara text mining, nalisis sentiment dan
pengambilan Keputusan bisnis menciptakan suatu framwork yang kuat untuk mendukun
proses pengambilan Keputusan berbasis data (datadriven decision makin ). Pendekatan ini
tidak hanya memberikan nilai tambah dalam pengelolaan informasi konsumen, tetapi jug
amembantu Perusahaan untuk menjadi lebih resposif terhadap dinamika pasar.
9. Kerangka Pemikiran Teoritis
Kerangka pemikiran teoritis merupakan dasar konseptual yang menggambarkan
hubungan logis atara teori-teori yang digunakan dengan variable atau focus penelitian.
Tujuan dari karangka ini Adalah untuk memberikan alur berpikir sistematis tentang
bagaimana peneltian dilakukan, serta menjelaskan keterkaitan antara variable yang diteliti
dan pendekatan yang digunakan.
18
Menurut Sugioyono (2019), kerangka pemikiran teoritis berfungsi sebagai peta
konseptual yang menunjukan arah penelitian berdasarkan hasil kajian pusata dan teoriteori yang relevan. Melalui kerangka ini, peneliti dapat menjelaskan bagaiman teori
digunakan untuk menjawab rumus maslah dan mencapai tujuan penelitian.
Hubungan Antar Konsep dalam Penelitian
1. Penelitian ini berjudul “Analisis Sentimen Ulasan Produk ECommerce Menggunakan Text Mining untuk Mendukung
Keputsuan Bisnis.” Berdasarkan teori-teori yang telah
diuraikan pada bagian sebelumnya hubungan antar konsep
dalam penelitian ini dapat dijelaskan sebagai berikut:
2. E-Commerce menyediakan platform digital tempat konsumen
memberikan ulasan penilaian terhadap produk yang telah dibeli
ulasan ini menjado sumber data penting dalam memahami
persepsi dan kepuasan pelanggan.
3. Ulasan Produk (Product Review) berisi opini dan pengalaman
pengguna terhadap produk tertentu. Data ini bersifat tekstual
dan tidak tersetruktur, sehingga memerlukan proses analisis
lebih lanjut melalui metode text mining.
4. Text Mining digunakan untuk mgekstraksi informasi bermakna
dar Kumpulan data teks ulasan Proses ini mencakup
pembersihan data (data cleaning), tokenisasi, dan ekstraksi fitur
untuk digunakan adlam analissi sentiment.
5. Analisis sentiment dilakukan untuk mengidentifikasi polaritas
opini konsumen apakah bersifat positif, negative,atau netral.
Hasil dari analisis ini dapat merepresentasikan persepsi pasar
terhadap suatu produk atau merek.
6. Algoritma Naïve Bayes digunakan sebgai metode machine
learning untuk mengkalisfikasi sentiment berdasarkan
probabilitas kemunculan kata dalam ulasan.
7. Lexicon Based Sentimen Analysis berfungsi sebagai
pendekatan berbasis kamus untk mengidentifikasi polaritas
kata berdasarkan makna leksikalnya. Pendekatan ini
melengkapi hasil klasifikasi dari Naïve Bayes.
8. Kombinasi Naïve Bayes dan Lexicon-Bassed Approach
mencipatkan model hibrida yang menggabungkan kekuatan
statistic dan semantic, menghasilkan klasifikasi sentiment yang
lebih akurat dan kontekstual terhadap data ulasan produk ecommerce.
19
9. Pengambilan Keputusan Bisnis (Business Decision Making)
merupakan tahap penerapan hasil analisis sentiment untuk
mendukung sentiment untuk mendukun strategi bisnis, seperti
pengembangan produk, perbaikan layanan, atau peningkatan
kepuasan pelanggan.
Alur Pemikiran Penelitian
Secara garis besar, alur pemikiran peneltian ini dapat digambarkan sebagai
berikut:
Alur tersebut menunjukkan bahwa sata ulasan pelanggan yan gawalnya
bersifat tidak terstruktur diolah menggunakan pendekatan text mining untuk
menghasilkan informasi sentiment yang bernilai bagi pengambilan Keputusan
strategis. Dengan demikian, penelitian ini berupaya membangun houngan yang
jelas antara teori analisis teks, Teknik klasifikasi sentiment dan penerapan
hasilnya dalam konteks bisis.
20
BAB III
TAHAPAN PENELITIAN
A. Tahapan-Tahapan Penelitian
21
Penelitian ini dilaksanakan mellaui beberapa tahapna yang terseusun secara
sistematis untuk mencapai tujuan peneltian, yaitu melakukan analisis sentiment terhadap
ulasan produk e-commerce menggunakan kombinasi metode Lexicon-Based sentiment
Analysis dan Naïve Bayes Classifier. Adapun Tahapan Penelitian ini terdidri dari
beberapa Langkah utama
1. Sutudi Literatur
Pada tahap ini dilakukan pengumpulan refrensi ilmiah terkait
konsep dasar analisis sentimen, text mining, metode Naïve Bayes, serta
pendekatan berbasis leksikon. Tujuan dari tahap ini Adalah
memperoleh landasan teori yang kuat sebagai acuan dalam
perancangan metodologi dan analisis data.
2. Pengumpulan Data
Data Penelitian diperoleh dari ualsan produk di platform ecommerce. Dataset berisi teks ulasan yan gakan digunakan sebagai
sumber utama dalam analisis sentiment. Data dikumplkan dalam
format CSV untuk memudahkan proses analisis lebih lanjut.
3. Pra-pemrosesan Data (Preprocessing)
Pada tahap ini, data ulasan dibersihkan dan dipersiapkan agar dapat
diolah oleh algoritma. Proses yang dilakukan meliputi case folding,
tokenization, normalization, stopword removal, dan stemming,
mengunakan Pustaka Sastrawi.
4. Penerapan Metode Lexicon-Based
Setiap kata dalam ulasan diberikan skor sentiment berdasarkan
kamu leksikon Bahasa Indonesia. Skor positif dan Negatif
dijumlahkan untuk menentukan kecenderungan sentiment awal.
5. Pelebelan dan Ekstraksi Fitur
Hasil dari analisis leksikon digunakan untuk membantu proses
pelabelan data. Selanjutnya dilakukan ekstraksi fitur menggunakan
Term Frequency-Inverse Document Frequency (TF-IDF) untuk
mengubah teks menjadi vector numerik yang dapat diolah algortima.
6. Klasifikasi menggunakan Naïve Bayes
Data hasil ekstraksi fitur diklasifikasikan menggunakan algoritma
Multinominal Naïve Bayes. Tahap ini menghsilkan prediksi sentiment
untuk setiap ulasan (positif, negarif, atau netral).
22
7. Kombinasi Hasil Lexicon dan Naïve Bayes
Nilai probabilitas hasil klasifikasi digabungkan dengan skor
sentiment leksikon untuk memperkuat keakuratan hasil analisis.
Kombinasi ini menjadi ciri khas metode penelitian ini.
8. Evaluasi dan Interpretasi Hasil
Model yang telah dikembangkan dievaluasi menggunakan metrik
akurasi, presisi, recall, dan F1-score. Selanjutnya dilakukan
interpretasi hasil untuk memberikan rekomendasi yang relevan bagi
pengambilan Keputusan bisnis.
9. Uji Hipotesis (korelasi Pearson)
Setelah diperoleh hasil akhir kelasifikasi, dilakukan uji hipotesis
untuk mengetahui sejauh mana hasil analisis sentiment memiliki
hubungan dengan data penjualan produk. Uji korelasi Pearson
digunakan untuk mengukur kekuatan dan arah hubungan antara skor
sentiment agregat dengan volume atau nilai penjualan.
1. Hâ‚€: Tidak terdapat hubungan signifikan antara hasil
analisis sentimen dengan tingkat penjualan.
2. Terdapat hubungan signifikan antara hasil analisis
sentimen dengan tingkat penjualan.
Hasil dari tahap ini memberikan dasar empiris apakah tren sentiment
konsumen dapat dijadikan indicator performa bisnis.
B. Waktu dan Tempat Penelitian
Penelitian ini dilaksanakan selama periode penelitian yang telah ditentukan,
dimulai dari tahap pengumpulan data hingga analisis hasil.
1. Waktu penelitian: Dilaksanakan selama 3 bulan, terhitung sejak
tahapan pengumpulan data hingga penyusunan laporan akhir.
2. Tempat Penlitian: Proses penlitian dilakukan secara daring dengan
pemanfaatan Google colab sebagai platform pemrograman berbasis
Python, serta perangkat keras berupa laptop pribadi dengan spesifikasi
menegah.
3. Lingkup Data: Data bersumber dari platform e-commerce yang
menyediakan fitur ulasan produk tanpa berfokus pada satu platform
tertentu.
23
C. Tahapan Penelitian
Tahapan Penlitian ini menggabarkan proses kerja sistematis mulai dari input data
hingga hasil akhir. Setiap tahapan dijelas sebagai berikut:
1. Pengumpulan Dataset
Data ulasan produk dikumpulkan dalam format CSV menggunakan
metode web scraping atau melalui dataset publik yang tersedia.
Dataset berisi kolom teks ulasan, rating, serta informasi produk.
2. Pra-pemrosesan Data (Data Preproccessing)
Tahpan ini bertujuan mengubah data mentah menjadi bersih dan
siap untuk dianalisis. Proses yang dilakukan meliputi:
a. Case Folding: Mengubah seluruh huruf menjadi huruf kecil.
b. Tokenization: Memisahkan kalimat menjadi kata-kata Tunggal.
c. Normalization: Menstandarkan kata tidak baku menjadi bentuk
baku.
d. Stopword Removal: Menghapus kata umum yang tidak
memiliki makna sentiment.
e. Stemming: Mengubah kata berimbuhan ke bentuk dasar
menggunakan Sastrawi Stemmer.
3. Analisis Sentimen berbasis Leksikon (Lexicon-Based Sentiment
Scorirng)
Setiap kata dalam ulasan diberi bobot sentiment berdasarkan
kamus leksikon. Nilai Positif, negative, dan netral dijumlahkan untuk
memproleh skor sentiment total per ulasan.
4. Pelabelan Data dan Ekstraksi Fitur
Skor leksikon digunakan untuk membentu proses pelabelan
(positif, negative, netral). Kemudian dilakukan ekstraksi fitu
menggunakan TF-IDF untuk mengubah teks menjadi representasi
numerik.
5. Kalsifikasi Menggunakan Naïve Bayes
Model Multinomial Naïve Bayes digunakan untuk memprediksi
kategori sentiment berdasarkan data fitur hasil TF-IDF. Model ini
dipilih karena efisien dan memiliki performa baik pada data teks.
6. Kombinasi Lexicon dan Naïve Bayes
24
Nilai probabilitas hasil prediksi Naibe Bayes digabungkan dengan
skor sentiment leksikon untuk menghasilkan model akhir yan glebih
stabil dan akurat.
7. Evaluasi Model
Hasil kombinasi diuji menggunakan metrik evaluasi seperti akurasi
presisi,recall, dan F1-score. Analissi hasil evaluasi digunakan untuk
menentukan performa metode gabungan.
8.
Uji Hipotesis
Menguji hubungan antara hasil analisis sentiment dengan data
penjualan menggunakan uji korelasi pearson untuk mengetahui
Tingkat relevansi antara opini pelanggan dan performa bisnis.
D. Evaluasi dan validasi Model
Evaluasi model dilakukan untuk menilai kinerja sistem dalam mengklasifikasikan
sentiment ulasan produk:
1. Akurasi (Accuracy) Mengukur persentase prediksi yang benar dari
seluruh data uji
2. Presisi(Precision) Mengukur Tingkat ketepatan prediksi positif
terhadap hasil aktual.
3. Recall (Sensitivity) Mengukur kemampuan model mendeteksi data
positif secara benar
4. F1-Score Rata-rata harmonis dari presisi dan recall, digunakan Ketika
distribusi data tidak seimbang.
Hasil evaluasi kemudian dianalisis untuk menentukan sejauh mana kombinasi metode
Lexicon_Based dan Naïve Bayes dapat meningkatkan performa analisis sentiment.
Validasi dilakukan menggunakan pembagian data train-test split agar hasil evaluasi
berifat objektif dan dapat direplikasi.
25
BAB IV
HASIL DAN PEMBAHASAN
A.
Hasil
1. Pengambilan Data
Data yang digunakan dalam penelitian ini diperoleh dari dataset
ulasan produk Tokopedia tahun 2019, yang berisi opini konsumen
terhadap berbagai produk yang di jual di platfrom e-commerce
tersetbut. Dataset ini memililiki sejumlha variable penting seperti rivie,
rating dan product name. Fokus utama penelitian Adalah pada teks
ulasan (review), yang digunakan untuk analisis sentiment guna
memahami kecendrungan opini pengguna terhadap produk.
Gambar 4.1 Dokumen CSV Tokopedia Product Review
Proses pengambilan data dilakukan dengan cara menggungah file
berformat csv berjudul Tokopedia product review 2019.csv ke
lingkungan Google Colab menggunakan Pustaka pandas. Data
kemudian dimuat ke dalam datafram yan gmemudahkan eksplorasi
dan analisis.
26
2. Inisialisasi Library dan Setup Lingkungan
Pada tahap ini dilakukan prosess inisialisasi library yang
digunakan dalam proses analisis sentiment. Tujuan dari Langkah
ini Adalah untuk mempersiapkan seluruh Pustaka pendukung agar
pipeline dapat berjalan secara menyeluruh tanpa kendala teknis.
Library yang digunakan meliputi beberapa modul penting seperti
pandas dan numpy untuk manipulasi data, re dan string untuk
proses pemberisahn teks, sklearn untuk vektorisasi dan algoritma
klasifikasi serta Sastrawi untuk stemming Bahasa Indonesia.
Inisialisasi juga mencakup set random seet untuk menjada
konsitensi hasil eksperimen.
Gambar 4.2 Import dan pengaturan umum Library
Script coding pada tahap ini duganakan untuk memanggil seluruh library,
yang secara umum dituliskan dalam bentu perintah import . Tahap ini
bersifat mendasar namun penting untuk memastikan seluruh fungsi yang
dibutuhkan tersedia dalam memori kerja Python.
3. Import Data
27
Pada Langkah ini dilakukan proses import dataset ulusan produk ecommerce menggunakan library pandas. Dataset berisi data mentah
berupakan teks ulasan pelanggan (review), nama produk
(product_name), rating (rating), serta jumlah penjualan (sold).
Gambar 4.3 Import dan pengaturan umum Library
Setelah di import, data diperiska terlbih dahulu untuk memsatikan tidak
terdapat nilai kosong (missing value), baris duplikat, maupun kesalahan
format kolom. Tahap ini menjadi fondasi penting karena kualitas dataset
akan sangat memengaruhi akurasi model analisis sentiment.
4. Auto- Detect kolom Pneting dan penyeragaman nama
Pada datse e-commerce sering kali penamaan kolom berbeda-beda
tergantung sumber data misalnya kolom ulasan bisa Bernama “ulasan”,
“review_text atau “komentar”. Oleh karna itu, dilakukan tahap auto-detect
kolom penting agar pipline dapat bekerja secara otomatis tanpa perlu
penyesuai manual.
28
Gambar 4.4 Script Auto detect kolom penting
Script coding pada tahap ini digunakan untuk memtakan nama-nama kolom
yang berbeda ke dalam format standar yang disebut canonical names. Kode
ini medeteksi nama kolom yang relevan berdasarkan daftar sinonim yang
sudah ditentukan. Pada script di atas, fungsi detecg_columns membaca nama
setiap kolom di dataset dan secara otomatis menyesuaikannya dengan nama
baku yang akan digunakan oleh pipeline, ayitu review, product_name, rating,
dan sold. Tahap ini memastikan sonsitensi penamaan kolom pada setiap
datset yang digunakan, sehingga Ketika vdilakukan proses preprocessing
maupun analisis sentiment, semua gungsi dapat berjalan tanpa error akibat
perbedaan nama kolom.
29
Gambar 4.5 Hasil dari Auto Detect kolom
Selain itu, Langkah ini juga menandai kolom target yang akan mnejadi focus
utama proses analisis, yaitu kolom “review: yang berisi teks komentar
pelanggan. Kolom inilah yang selanjutnya akan melalui proses cleaning,
nomrlaisasi, tokenisasi, hingga dikoversi ke bentu numerik. (TF-IDF ve ctor)
5. Data Cleaning
Pada tahap ini dilakukan proses pembersihan data komentar dari
berbagai komponen yang tidak diperlukan dalam proses analisi sentiment.
Tujuan utamanya Adalah menghapus elemen-elemen non-teks yang tidak
memiliki makna semantik, seperti symbol, angka , tanda baca, emotiko,
hashtag (#), username akun (@username). Retweet (RT), serta tautan (URl
link)
Gambar 4.6 Script Coding Data Cleaning
30
Script di atas menggunakan library re (regular expression) untuk
mendefinisikan pola karakter yang ingin dihapus. Fungsi re.sub bekerja
dengan mengganti pola yang cocok menjadi string kosong. Pada tahap ini
juga dilakukan penghapusan tab (\t), baris baru (\n), backslash dan karakter
Tunggal agar teks menjadi bersih serta mudah diolah oleh algoritma.
Gambar 4.7 Hasil Data Cleaning
Dari table tersebut terlihat bahwa karakter seperti tanda baca, emotikon, dan
hashtag berhasil dihapus, menghasilkan teks yang lebih bersih dan seragam
6.
Label mapping
Pada tahap ini dilakukan proses pembuatan label sentiment yang akan
digunakan sebagai target dalam pelatihan model. Langkah ini sangat penting
karena tidak semua dataset memiliki kolom label yang siap diguankan oleh
karena itu, pipeline ini dirancang adaptif dengan dua pendekatan utama, yaitu
label mapping berbasis rating dan fallback lexcion
Gambar 4.8 Script label mapping
31
Pemataan label berdasakan raing tahap pertama dengan memeriksa apakah
dataset memiliki kolom Bernama rating. Jika kolom tersebut ada, maka nilai
rating dikonversi menjadi label kategorikal sentiment dengan aturan sebagai
berikut :
a. Rating ≤ 2 dikategorikan sebagai negative,
b. Rating = 3 dikategorikan sebagai netral,
c. Rating ≥ 4 dikategorikan sebagai positif.
Proses pemataan ini dilakukan menggunakan fungsi lambda expression pada
library pandas seperti terlihat pada potongan script di atas. Script di atas
terlebih dahulu memastikan bahwa nilai rating bebentuk numerik
menggunakan fungsi pd.to_numeric(). Setelah itu, kolom label baru dibuat
berdasarkan aturan konversi tersebut. Distribusi label yang dihasilkan
ditampilkan ke konsol agar peneliti dapat melihat keseimbangan antar kelas
sebelum dilakukan pembagian data. Tahap ini memastikan bahwa setiap data
ulasan memiliki label sentiment yang sesuai dengan interpretasi penilaian
pengguna, dan selanjutnyadapat digunakan sebagai target pada proses
pelatihan model supervised learning seperti Naïve Bayes.
Apabila dataset tidak memiliki kolom rating, pipeline secara otomatis
mencari kolom lain yang mungkin berisi label sentiment seperti label,
sentiment, sentiment, atau polarity. Hal ini ditangani melalui loop pencarian
di script di atas. Dengan cara ini , pipeline menjadi lebih fleksibel dan
kompatibel dengan berbagai format dataset e-commerce yang mungkin
menggunakan penamaan kolom berbeda.
Jikas setelah dua proses sebelumnya tidak ditemukan kolom label yang
valid, maka pipeline secara otomatis menjalankan fallback lexicon labeling,
yaitu sistem darurat untuk menghasilkan label sementara berdasarkan seed
lexicon. Langkah ini penting agar tetap memunkan dilakukan train-test split
secara stratified, meskipun dataset tidak memiliki anotasi label eksplisit.
Pada kode di atas, pipeline mendefiniskan duat daftar kata seed:
a. Kata positif seperti “bagus”, “mantap”, “puas”, “baik:, “cepat”,
“rekomendasi” diberi bobot +1
b. Kata negative seperti “jelek”, “buruk”, “kecewa”, “lambat”, “rusak”,
diberi bobot -1
Pendekatan ini memungkinkan pipeline tetap robust dan tidak gagal
meskipun data tidak memiliki kolom rating atau label. Lbel sementara ini
diguakan hanya untuk menjaga keseimbangan distribusi kelas pada saat
pembagian data (stratified split), bukan sebagai label utama untuk evaluasi
akhir
32
7. Tokenisasi Awal
Pada tahap ini dilakukan proses tokenisasi awal, yaitu pemecahan
kalimat pada kolom teks hasil cleaning menjadi unit-unit kata atau token.
Langkah ini dilakukan sebelum proses normalisasi, dengan tujua agar
peneliti dapat melihat bentuk asli kata yang akan digunakan sebagai
dasar pembuatan kamus normalisasi otomatis pada tahap berikutnya.
Proses tokenisasi merupakan bagian penting dalam Natural Laguage
Processing (NLP) karena membantu sistem mengenali struktur dan
komponen dasar Bahasa dalam setiap ulasan produk. Pada konteks Bahsa
Indonesia, tokenisasi dilakukan dengan mempertibangkan bahwa satu
kalimat dapat terdiri atas berbagai bentuk kata tidak baku, singkatan, atau
kata gabung (seperti “brg”, “nggakk:, “dpt”, “gak”, “okey”). Script
coding yang digunakan pada tahap ini Adalah sebagai berikut:
Gambar 4.9 Tokenisasi awal
Kode di atas menggunakan fungsi tokenize() yang bertugas memacah
string menjadi daftar kata (list of tokens). Proses ini diterapkan pada
setiap baris teks di kolom cleaned dan hasilnya disimpan ke kolom baru
Bernama tokens_pre_norm. perintah sample(4, random_state=RND)
menampilkan empat contoh acak dari dataset untuk diperiksa secara
manual. Hal ini berguna untuk memverifikasi bahwa tokenisasi sudah
berjalan dengan benar sebelum melanjutkan ke tahap berikutnya. Hasil
dari tokenisasi ini umumnya berupa struktur data seperti berikut:
Gambar 4.10 Hasil Tokenizing awal
Dari hasil di atas terlihat bahwa tokenisasi berhasil memecah teks ulasan
menjadi kata-kata individual, seperti “terima kasih” menjadi “terima” dan
33
“kasih” yang nantinya akan dinormalisasi ke bentu standar pada tahap
selenjutnya secara keseluruhan, tahap ini berfungsi sebagai jembatan
antara proses pemberishan teks dan normalisasi leksikal, memastikan
setiap ulasan siap untuk dikonversi menjadi bentu standar yang dapat
diproses secara konsisten oleh algoritma analisis sentiment.
8. Stratified Split
Pada tahap ini dilakuka proses pembagian data (data splitting) menjadi
dua subset utama, yaitu data latih (train set) dan data uji (test set). Tujuan
utama Langkah ini Adalah untuk memastikan bahwa model dilatih dan diuji
menggunakan data yang berbeda, sehingga hasil evaluasi yang diperoleh
bersifat obyektif dan tidak bias terhadap data yang digunakan saat platihan.
Metode pembagian yang digunakan Adalah stratified split, yaitu Teknik
pembagian data dengan mempertahankan proporsi label sentiment pada
kedua subset secara seimbang. Pendekatan ini dipilih untuk mencegah
terjadinya class imbalance antara data altih dan data uji, yang dapat
mengakibatkan model cenderung “berpihak” pada keals mayoritas (bias ke
keals positif)
Gambar 4.11 Script Stratified split
Pada potongan kode di atas, fungsi train_test_split() dari pusatka scikit-learn
digunakan untuk memsisahkan data dengan rasion 80% untuk data latih dan
20% untuk data uji. Parameter stratify=df[LABEL_COL] memastikan bahwa
distribusi labelpada kedua subset (positif, netral, dan negative) tetap
proporsional terhadap distribusi awal dataset.
Gambar 4.12 Hasil Stratified split
34
Hasil dari proses ini menampilkan ukuran data serta distribusi label pada
amsing-masing subset. Dari hasil tersebut dapat dilihat bahwa proporsi kelas
pada data latih dan data uji relatif sama, menandakan pembagian stratified
berjalan dengan benar. Selain itu, parameter random_state=RND digunakan
untuk menjamin bawha proses pembagian ini bersifat deterministik – artinya
jika pipeline dijalankan ulang, hasil pembagian data akan tetap sama. Tahap
ini menjadi titik transisi penting dalam pipeline, karena setealh proses ini,
dua subset (df_train dan df_test) digunakan secara terpisah pada seluruh
tahap berikutnya mulai dari pembuatan kamus normalisasi hingga evaluasi
model hybrid. Dengan demikian, Langkah ini meastikan integritas
eksperimental dan validitas hasil analisis yang akan dijelaskan pada bagian
selanjutnya.
9. Build normalization dictionary
Pada tahap ini dilakukan proses pembuatan kamus normalisasi
(normalization dictionary) yang berfungsi untuk mengubah kata-kata
tidak baku, singkatan, dan bentuk slang menjadi bentuk standar Bahasa
Indonesia. Tujuan utama dari tahap ini Adalah untuk menyamakan
variasi penulisan kata yang sering muncul dalam ulasan e-commerce
agar model dapat mengenali makna yang sama dengan representasi yang
konsiten.
Gambar 4.13 Script Kamus Manual
Tahap pertama dimulai dengan pembuatan kamus manual uatama yang
bersisi pasangan kata tidak baku dan padanan bakunya. Kamus ini
dikembangkan secara luas berdasarkan observasi token hasil tahap
35
sebelumnya. Kamus ini mencakup lebih dari 70 entri manual termasuk
singkatan umum dalam percakapan daring seperti “gk” untuk tidak,
“udh” untuk “ sudah”, hingga “mantul” untuk “mantap betul”.
Gambar 4.14 Script Kamus Domain E-Commerce
Untuk menyesuaikan dengan konteks e-commerce, kamus ini
diperluas dengan istilah khusus yang sering digunakan oleh konsumen
dalam platfrom belanja daring, seperti kata “barang”, “packing”,
“kemasan”, “refund”, dan “orginal”. Langkah ini membuat kamus
lebih domain-sensitive, sehingga mampu mengenali istilah khas
transaksi online seperti “refundnya” atau “packingan” tanpa
kehilangan konteks bisnis.
Gambar 4.15 Script Pembentukan Kamus Otomatis dengnan Fuzzy Matching
Selain daftar manual, pipeline juga membangun kamus otomatis
menggunakan pendekatan fuzzy string matching dari library difflib.
Pendekatan ini memanfaatkan kesamaan huruf (edit distance) untuk
menemukan pasangan kata yang mirip secara ejaan dengan kata
baku di dalam seed vocabulary. Langkah pertama Adalah
menghitung frekuensi token yang muncul pada data train saja (bukan
seluruh data), untuk menghidari kebocoran data. Kemduian pipeline
36
menggunakan fungsi fuzzy matching fungsi ini mencari kata dalam
seed_vocab (daftar kata baku e-commerce seperti “barang”,
“murah”, “kualitas”, “pengiriman”) yang memiliki Tingkat
kemiripan ≥ 82% jika ditemukan kecocokan, kata tidak baku
otomatis dipetakan ke bakunya misalnya “brng” menjadi “barang”,
“mntaap” menjadi “mantap”dan seterusnya
Gambar 4.15 Script Pengabungan kamus manusal dan Otomatis
Setelah semua entri dari kamus manual dan hasil fuzzy matching
digabung, pipeline membentuk satu kamus besar norm_dict yang
berisi ratusan pasangan tahap terkahir dalam proses ini adala
membaut funfsi untuk menerapkan kamu stersebut pada token hasil
tokenisasi sebelumnya. Fungsin ini memeriksa setiap token jikan
token tersebut terdapat di dalam kamus, maka diganti dengan bentuk
bakunya jika tidak, token tetap dibiarkan apa adanya. Dengan
adanya sistem normalisasi ini, pipeline menjadi lebih Tangguh
dalam menghadapi variasi Bahasa pengguna e-commerce Indonesia
yang sangat beragam dan informal. Tahap ini juga memberikan
fondasi kuat bagi proses vectorization di tahap berikutnya, karena
seluruh teks kini sudah berada dalam bentuk leksikal yang seragam
dan bermakna konsisten.
10.
adsf
37
Download