Uploaded by gilbertusadhimas

jurnal big data

advertisement
Introduction
Revolusi digital telah membawa perubahan substansial dalam banyak aspek teknologi dalam
proses komunikasi manusia (Kaul, 2012). Perubahan tersebut terutama ditandai dengan
menjamurnya penemuan-penemuan baru di bidang teknologi informasi dan komunikasi yang
digunakan dan diterapkan dalam berbagai aspek kehidupan manusia. Salah satu penemuan
teknologi paling fenomenal dalam lingkungan yang terus berubah adalah penemuan internet.
Teknologi memungkinkan koneksi antara komputer dan jaringan komputer besar lainnya di
berbagai belahan dunia (Abbate, 2017), yang merangsang terjadinya interaksi tekstual dan
virtual antar manusia dan pada gilirannya memfasilitasi komunikasi manusia global secara
lebih efektif dan efisien. cara (Matusitz, 2007). Penggunaan internet yang semakin meluas dan
aplikasinya telah mengubah dunia yang kita jalani saat ini secara dramatis dan mengubah dunia
menjadi dunia cyber yang saling berhubungan (Tsou, 2011). Kondisi tersebut selanjutnya
mendorong semakin banyak masyarakat kita untuk terlibat dalam berbagai kegiatan
komunikasi online. Mengirim dan menerima email, mengunjungi situs web, menonton video
di youtube, mengobrol di media sosial, memperbarui status di media sosial, menulis review
online, dan menelusuri informasi terkait produk adalah beberapa contoh aktivitas online
populer dalam kehidupan kita sehari-hari. Menurut Manyika, aktivitas online manusia di atas
dapat menghasilkan sejumlah besar jejak dan data digital (Lewis, Zamith, & Hermida, 2013),
yang terekam dan disimpan secara permanen di server komputer penyedia tertentu yang
memfasilitasi dan memungkinkan aktivitas online tersebut. dan layanan (Power, 2014). Contoh
sederhana bagaimana jejak dan data digital dihasilkan oleh aktivitas manusia sehari-hari adalah
melalui interaksi manusia di berbagai platform media sosial. Setiap hari pengguna media sosial
di seluruh dunia berkomunikasi satu sama lain dengan memperbarui status mereka
(menanggapi berbagai masalah sosial saat ini, mengeluh atau memuji kinerja produk,
mengungkapkan perasaan tertentu seperti kebahagiaan atau kesedihan, ratapan, kemarahan,
menanggapi status orang lain, berdebat tentang masalah sosial, memberi suka, dll.). Di
antaranya, terdapat beberapa media sosial populer yang banyak digunakan oleh pengguna di
seluruh dunia seperti Facebook, Instagram, Twitter dan Google+. Media sosial menghasilkan
petabyte data setiap hari (Housley, Williams, Williams, & Edwards, 2013). Jumlah datanya
akan semakin besar bila kita juga memperhitungkan data digital lainnya yang dihasilkan oleh
manusia dalam berbagai aspek kehidupan seperti kesehatan, pendidikan, sosial ekonomi dan
politik. Dalam konteks kajian teknologi dan informasi, data disebut sebagai “big data”. Istilah
“big data” mengacu pada sejumlah set data yang berkapasitas sangat besar dan karena
ukurannya yang besar, data tersebut tidak dapat diproses menggunakan komputer pribadi atau
perangkat lunak sederhana yang umum digunakan oleh sebagian besar pengguna komputer
(Eynon , 2013). Ketersediaan jejak data digital dalam jumlah besar tersebut telah menarik
perhatian berbagai pihak seperti organisasi bisnis (Zhao, Fan, & Hu, 2014), pemerintah (Eynon,
2013) dan juga berbagai peneliti dari berbagai disiplin ilmu (Boyd & Crawford, 2012). Mereka
mencoba mendapatkan akses ke data dan mulai menganalisis kumpulan data digital yang besar
untuk memahami tren umum dan pola perilaku manusia (Tsou, 2015). Dalam konteks
penelitian komunikasi, “the big data” muncul sebagai pendekatan baru dalam mengumpulkan
dan menganalisis data digital di internet (Boyd & Crawford, 2012). Lebih jauh, fenomena
tersebut tentunya memberikan banyak kesempatan dan manfaat bagi para ilmuwan komunikasi
untuk mengeksplorasi dan menemukan pola komunikasi manusia secara lebih praktis dan
ringkas (Mahrt & Scharkow, 2013). Akibatnya, berbagai studi awal terkait “the big data” di
bidang komunikasi mulai bermunculan secara sporadis (Burgess, Bruns, & Hjorth, 2013).
Salah satu studi paling awal yang membahas pentingnya "data besar" dalam penelitian
komunikasi dilakukan oleh Papacharissi & De Fatima Oliveira (2012). Dalam studi tersebut,
mereka menerapkan analisis wacana komputasi untuk menilai pemberitaan di Twitter di Mesir
terkait pengunduran diri Hosni Mobarrak sebagai presiden pada periode Januari - Februari
2011. Selain itu, Burgess & Bruns (2012) mulai menyarankan penggunaan istilah "big data"
dalam studi komunikasi dan media dengan menjelaskan kemungkinan menggunakan Twitter
API (Application Programming Interface) dan arsip Twitter sebagai dua aspek penting dalam
mengumpulkan jejak data digital dari Twitter. Penelitian lain yang terkait dengan topik tersebut
dilakukan oleh Lewis et. al., (2013) yang menggabungkan metode komputasi dan manual
dalam membuat analisis konten dari dataset digital masif.
Terlepas dari pentingnya dan potensi penggunaan data dalam studi komunikasi, penggunaan
“the big data” sebagai sumber data digital dalam studi komunikasi masih sangat langka di
Indonesia. Keadaan tersebut sangat disayangkan mengingat perkembangan internet dan
teknologi digital berjalan sangat pesat di Indonesia. Berdasarkan data APJII (Indonesia Internet
Service Provider), Indonesia memiliki 132,7 juta pengguna internet (sekitar 52% dari total
populasi) dengan tingkat penetrasi internet 34,9% (2016). Selain itu, data tersebut juga
menunjukkan bahwa media sosial, hiburan, berita, pendidikan, dan perdagangan merupakan
konten yang paling banyak diakses oleh pengguna internet di Indonesia. Sejalan dengan temuan
penelitian sebelumnya, data lain juga mengonfirmasi bahwa terdapat sekitar 79 juta pengguna
media sosial aktif di Indonesia (wearesocial, 2016). Lebih lanjut, data tersebut juga
menunjukkan bahwa Facebook, Twitter dan Instagram merupakan platform media sosial
terpopuler yang banyak digunakan oleh masyarakat Indonesia. Fakta dan statistik penggunaan
internet serta ketersediaan data digital di atas jelas menunjukkan bahwa Indonesia merupakan
salah satu negara yang warganya melakukan aktivitas internet secara masif. Akibatnya,
Indonesia menghasilkan jejak digital yang sangat besar yang dapat digunakan para ilmuwan
komunikasi sebagai sumber data digital dalam memprediksi sikap dan pola perilaku manusia
terkait aspek kehidupan tertentu. Oleh karena itu, diperlukan penanganan metode digital dalam
melakukan penelitian berbasis internet (data retrieval) (Hutchinson, 2016). Makalah ini
bertujuan untuk mendeskripsikan secara umum konsep “big data”, potensi penggunaan jejak
data digital untuk penelitian komunikasi di Indonesia dalam konteks media sosial populer
(Facebook, Twitter dan Instagram). Selain itu, juga akan mencoba menjelaskan secara singkat
alat dan metode untuk mengambil, mengekstrak dan menganalisis data, menganalisis sentimen,
arah dan kecenderungan penelitian dalam studi komunikasi, dan untuk mengatasi tantangan
dan kelemahan.
Theoretical Framework
1. The conceptualization of “big data”
Digitalisasi telah membawa perubahan radikal dalam lanskap lingkungan media dan juga
menawarkan metode baru bagi ilmuwan lintas disiplin dalam proses pengumpulan data
(Burgess et. Al., 2013). Perubahan tersebut terjadi terutama karena tersedianya sejumlah besar
jejak data digital yang ditinggalkan oleh manusia akibat interaksi manusia dengan teknologi
berbasis digital. Dalam konteks ilmu komputer, data disebut sebagai "big data". Pada dasarnya,
"data besar" dapat didefinisikan sebagai sejumlah besar data yang tidak dapat disimpan,
dikelola, dan diproses secara memadai hanya dengan menggunakan komputer standar (Kaisler,
Armor, Espinosa, & Money, 2013). Definisi yang lebih komprehensif yang dikemukakan oleh
Zou (2015) menyatakan bahwa “big data” mengacu pada kumpulan data yang sangat besar
(terstruktur dan tidak terstruktur) yang dihasilkan dari interaksi manusia dengan teknologi
berbasis digital dalam komunikasi, pergerakan, dan perilaku.
Menurut Duan & Xiong (2015), ada tiga masalah utama dalam pembahasan “big data”, yaitu
volume, kecepatan, dan variasi. Volume biasanya terkait dengan ukuran data substansial yang
disediakan oleh sumber tertentu. Kecepatan yang terkait dengan aplikasi waktu nyata dan
kecepatan pemrosesan data. Sedangkan variasi adalah keragaman format data atau data tidak
terstruktur yang berbeda seperti teks, grafik, data seri, dan hal-hal lain yang terkait. Selain
permasalahan tersebut di atas, peta umum dimana data digital dapat diperoleh juga harus
disikapi dengan tepat. Secara umum, sumber “big data” dapat ditemukan di berbagai tempat di
mana terjadi interaksi manusia dengan teknologi digital. Tsou (2015) mengidentifikasi
beberapa contoh sumber “big data” dalam kehidupan sehari-hari aktivitas manusia, yaitu
percakapan yang berlangsung di platform media sosial, rekam medis elektronik di rumah sakit,
puskesmas atau perusahaan asuransi, catatan transaksi bisnis seperti catatan kartu kredit dan
transaksi belanja online, data pergerakan dan lalu lintas menggunakan sistem GPS, data
penelitian ilmiah seperti catatan gempa bumi, catatan cuaca dan catatan sensus. Senada dengan
itu, Edwards, Housley, Williams, Sloan, & Williams (2013) merumuskan beberapa aktivitas
manusia yang berpotensi menghasilkan jejak data digital, antara lain transaksi retail,
komunikasi telepon, pengeluaran keuangan dan klaim asuransi, data sensus penduduk, survei
rumah tangga umum. , catatan kejahatan polisi, survei korban kejahatan dan survei pasar tenaga
kerja.
2. “The big data” as a source of data in communication research
Meskipun jejak data digital dapat ditemukan dalam berbagai bentuk interaksi manusia dengan
teknologi, tidak semua jenis sumber dan data digital dapat digunakan dalam disiplin ilmu sosial
seperti studi komunikasi. Mempertimbangkan jenis data digital yang biasanya berupa katakata, kalimat, percakapan, angka dan emoticon, setidaknya ada dua bidang studi yang berbeda
dimana studi komunikasi dapat dilakukan, yaitu interaksi berbasis media sosial dan web.
interaksi berbasis. Dalam konteks interaksi berbasis media sosial, dapat dilakukan kajian sosial
terhadap berbagai media sosial populer (situs jejaring sosial, mikro blog dan blogging)
(Edwards et. Al., 2013). Untuk situs jejaring sosial, Facebook, Instagram dan Youtube
merupakan beberapa contoh umum situs jejaring sosial favorit yang dapat berfungsi sebagai
sumber data digital studi komunikasi dan Twitter merupakan sumber data potensial untuk
platform micro-blogging. Dalam hal blog, sarjana komunikasi dapat menggunakan berbagai
jenis blog publik yang tersedia di internet. Selain kategori yang disebutkan di atas, ilmuwan
komunikasi juga dapat menggunakan interaksi berbasis web sebagai sumber data digital besar
untuk tujuan pembelajaran. Dalam kategori ini, situs berita umum (portal berita online) dan
situs ulasan online dapat digunakan sebagai sumber utama jejak data digital untuk keperluan
studi komunikasi.
Material and Methodology
Berbeda dengan berbagai metode dominan dalam IPS yang umumnya menggunakan kuesioner
atau berbagai teknik kualitatif (wawancara, focus group discussion, dll) sebagai alat dalam
proses pengumpulan data, studi yang berkaitan dengan “big data” dalam ilmu komunikasi
membutuhkan perangkat yang sama sekali berbeda. Salah satu teknik yang biasa digunakan
dalam studi “the big data” adalah penambangan teks. Menurut Feldman & Sanger (2007),
penambangan teks dapat didefinisikan sebagai "proses intensif pengetahuan di mana pengguna
berinteraksi dengan dokumen yang dikumpulkan dari waktu ke waktu dengan menggunakan
serangkaian alat analisis". Selain itu, penambangan teks juga dianggap sebagai metode yang
digunakan
untuk
mengungkap
pengetahuan
dalam
proses
penyaringan
informasi
terkomputerisasi dari dokumen teks tidak terstruktur yang melibatkan kombinasi beberapa
teknik, termasuk penggalian data, pembelajaran mesin, pemrosesan bahasa alami (NLP),
pengambilan informasi dan manajemen pengetahuan (de Fortuny, Smedt, Martens, &
Daelemans, 2012). Dalam konteks ilmu sosial seperti komunikasi, pendekatan penambangan
teks dapat berguna ketika seorang peneliti ingin menemukan informasi berharga dari
percakapan atau teks yang tersedia di berbagai platform media sosial. Untuk dapat melakukan
proses pengumpulan data dalam studi “big data”, biasanya peneliti membutuhkan alat yang
memadai yang mampu menangkap, mengolah dan menganalisa data dari server komputer
tertentu. Kebutuhan alat tersebut dapat dipenuhi dengan menggunakan perangkat lunak analitik
data. Pada dasarnya perangkat lunak analisis data adalah perangkat lunak yang dapat digunakan
untuk proses penarikan (pengumpulan), pengolahan dan analisis data digital yang terdapat pada
berbagai sumber “big data”. Sama seperti mesin pencari (yaitu Google), perangkat lunak
tersebut dapat mengindeks berbagai data di lingkungan online. Selain fitur, juga dapat menarik
/ mengambil kembali data untuk kemudian mengolah data tersebut dan selanjutnya
menampilkan hasil pengolahan data tersebut. Cara kerja perangkat lunak seperti yang
dijelaskan di atas mengharuskan peneliti menyesuaikan definisi pengambilan data di sumber
"data besar". Kustomisasi mesin pencari dilakukan dengan menggunakan beberapa kata kunci
yang berhubungan (termasuk) atau tidak terkait (dikecualikan) dengan tema penelitian tertentu.
Semakin akurat kata kunci (disertakan dan dikecualikan) yang berkaitan dengan tema
penelitian tertentu yang ditentukan oleh peneliti, semakin tinggi ketepatan hasil yang diperoleh
oleh perangkat lunak yang digunakan. Misalnya, studi tentang "Tweet yang berisi SARA
(Suku, Agama, Ras, dan Antar-golongan) atau masalah etnis, agama, ras, dan hubungan
antarkelompok selama kampanye Pilgub Jakarta 2017" akan mengambil data dari platform
Twitter dengan menetapkan beberapa kata kunci yang terkait dengan tema seperti "nama semua
kandidat peserta pemilu", "kampanye", "pribumi", "non-pribumi", "Tionghoa", "Islam",
"Kristen", "Muslim" "," Non-Muslim "," kafir "dll. Selain penggunaan kata kunci, periodisasi
pengambilan data juga menjadi faktor penting yang harus diperhatikan secara cermat oleh
peneliti. Untuk contoh kasus di atas, periode pengambilan data diatur selama kampanye Pilkada
Jakarta 2017.
Selain teknik text mining yang dijelaskan di atas, studi ilmu komunikasi dalam konteks “the
big data” juga dapat dilakukan dengan menggunakan analisis sentimen. Teknik analisis
sentimen dapat berguna jika sebuah penelitian harus mengungkap kecenderungan dan sikap
(emosi) dalam percakapan atau postingan di lingkungan online (termasuk media sosial)
(W.Duan, Cao, Yu, & Levy, 2013 ). Analisis sentimen juga mengacu pada aplikasi komputasi
khusus berdasarkan polaritas emosional komunikator (Li & Wu, 2010). Selain itu, mereka
menyarankan bahwa tujuan utama dari analisis adalah untuk menentukan emosi yang
terkandung dalam teks yang diposting atau ditulis oleh seseorang yang terkait dengan topik
tertentu di lingkungan online. Liu (2010) menyatakan bahwa analisis sentimen adalah
perhitungan terkomputerisasi yang menguji opini, sentimen dan emosi yang diungkapkan
dalam teks yang diekspresikan di dunia online. Seiring pertumbuhan media sosial dan
pengguna internet di Indonesia yang terus berkembang, ketersediaan “big data” juga semakin
signifikan. Situasi seperti itu memberikan kesempatan bagi para sarjana komunikasi di
Indonesia untuk mengembangkan bidang studi baru. Oleh karena itu, teknik text mining dan
analisis sentimen menjadi alat yang sangat penting bagi para sarjana komunikasi dalam
menganalisis berbagai data yang tersedia secara online, khususnya data yang berkaitan dengan
tema kajian komunikasi.
Results and Discussion
1. Political Communication
Dalam konteks komunikasi politik, berbagai tema penelitian aktual mungkin diangkat sebagai
tanggapan atas melimpahnya data digital yang dihasilkan manusia. Beberapa contoh isu
tersebut adalah sebagai berikut: memprediksi pemenang pemilu (lokal, nasional, legislatif dan
eksekutif) melalui tingkat popularitas dan sentimen di ranah media sosial dan portal berita
online, membuat perbandingan akun media sosial resmi aktor politik dan institusi politik (partai
politik, presiden, DPR, dll.), mengkaji dan membandingkan pemikiran dan pernyataan aktor
politik seperti yang diungkapkan di lingkungan online, menilai isu-isu politik yang populer,
menarik dan menjadi isu utama publik pada umumnya.
2. Marketing Communication
Tema kajian pada domain komunikasi pemasaran mendapat perhatian yang baik karena
ketersediaan data yang dihasilkan oleh interaksi manusia dengan teknologi digital. Secara
umum, tema utama studi yang dapat dilakukan dalam konteks tersebut antara lain mengukur
sikap dan sentimen konsumen terhadap produk tertentu, mendeteksi kelemahan suatu produk
dengan menguraikan keluhan konsumen terhadap produk tersebut, mengukur dan
membandingkan popularitas beberapa produk dan layanan di pasar, membandingkan dan
menilai tingkat interaktivitas akun media sosial untuk produk tertentu, menilai popularitas dan
tingkat kepercayaan publik terhadap layanan freelancer dan menguji hubungan antara tingkat
popularitas di dunia maya (media sosial) dan penerimaan publik dan tingkat penjualan .
3. Bidang Lain (Antarbudaya, Organisasi dan Interpersonal) dalam Studi Komunikasi
Selain dua bidang yang telah dibahas di atas, bidang komunikasi lainnya juga dapat
memberikan arahan baru dalam berbagai kajian. Beberapa contohnya antara lain
membandingkan perbedaan penggunaan kata sifat (emosi) lintas budaya pada berbagai akun
(komunikasi antar budaya), mengukur penggunaan media sosial sebagai media komunikasi
resmi internal dan eksternal (komunikasi organisasi), menilai kedalaman interpersonal.
komunikasi yang terjadi di platform media sosial dan menguji keterkaitan antara kedekatan
online dengan kedekatan dunia nyata (komunikasi antar budaya).
4. Content analysis
Dalam konteks teknik pembelajaran, salah satu teknik (metode) pembelajaran dalam disiplin
ilmu komunikasi yang menimbulkan tantangan dan pengembangan baru adalah teknik analisis
isi (Lewis et. Al., 2013). Teknik ini banyak digunakan dalam studi komunikasi. Teknik
penelitian analisis isi klasik umumnya diterapkan untuk mendeskripsikan isi, ciri-ciri pesan
dan perkembangan isi (trend) dalam berbagai teks tertulis seperti surat kabar, iklan, dokumen
penting seperti peraturan perundang-undangan (Eriyanto, 2011). Interaksi manusia yang
semakin intens di lingkungan online turut mendorong ketersediaan data digital dalam bentuk
teks tertulis. Kondisi tersebut memberikan peluang yang besar bagi para sarjana komunikasi
untuk menggunakan berbagai jenis data sebagai bahan kajian dalam penerapan metode analisis
isi. Selain analisis isi kuantitatif, teknik kualitatif juga dapat digunakan dalam berbagai arah
studi.
Challenges and Limitations
Transformasi digital di satu sisi memberikan peluang untuk menggunakan model pembelajaran
terkini dalam ilmu komunikasi, sedangkan di sisi lain pembelajaran yang menggunakan data
digital juga memiliki kerentanan dalam pelaksanaannya. Ada beberapa hal penting terkait
dengan metodologi yang harus ditangani dalam melakukan studi berbasis data digital.
1. Validity issue
Validitas merupakan salah satu isu utama yang muncul ketika data / text mining atau analisis
sentimen dibuat dalam studi komunikasi (Boyd & Crawford, 2012). Masalah validitas dapat
muncul pada saat data / text mining dan oleh karena itu perlu dilakukan uji validitas data yang
dikumpulkan dari sumber di internet. Berbagai perangkat lunak yang digunakan untuk
mengumpulkan dan menganalisis data masih memiliki kesalahan yang cukup besar. Sebagian
besar pengembang perangkat lunak yang mengembangkan alat tersebut mengklaim bahwa
tingkat akurasi aplikasi hanya sekitar 70%. Persentase tersebut menunjukkan bahwa masih ada
sejumlah besar data yang mungkin belum diambil dan dianalisis lebih lanjut. Mungkin akan
menjadi masalah serius dalam hal generalisasi hasil. Sebaliknya, survei "konvensional" secara
umum dapat mentolerir kesalahan dalam proses pengambilan sampel hingga 5%. Akibatnya,
kondisi tersebut tentunya dapat mempengaruhi tingkat ketelitian penelitian.
2. Population and sample
Persoalan sampel dan populasi mengemuka dalam studi komunikasi berbasis data digital
karena jumlah pasti dari populasi postingan dan percakapan terkait isu-isu tertentu di domain
internet secara umum bisa sangat besar sehingga sulit untuk memperkirakan jumlah pastinya.
Akibatnya, sulit untuk memastikan jumlah pasti dari sampel yang diambil dengan
menggunakan teknik random sampling (Mahrt & Scharkow, 2013). Sementara itu, generalisasi
yang dapat dibenarkan dari hasil studi berdasarkan kaidah statistik dan studi sosial menjadi
meragukan.
3. Ethical issue
Faktor lain yang dapat menimbulkan masalah serius dalam melakukan studi data digital di
dunia maya adalah faktor etika. Masalah ini terutama menjadi menonjol karena penggunaan
data publik dan semi-publik. Tidak terdapat prosedur baku dan standar etika apapun yang
menjadi dasar dari jenis penggunaan data di atas dalam konteks kajian ilmiah (Mahrt &
Scharkow, 2013).
Conclusion
Terbuka lebar peluang hasil interaksi manusia dengan internet atau dunia digital
mengakibatkan tersedianya data digital dalam jumlah besar yang dapat diolah dalam suatu
kajian komunikasi. Akibatnya, dimungkinkan untuk memulai dan mengembangkan cara-cara
baru dalam melakukan studi di bidang komunikasi. Dalam konteks Indonesia sebagai negara
dengan tingkat penggunaan internet yang relatif tinggi, peluang harus diambil oleh para sarjana
komunikasi. Selain itu, para sarjana komunikasi di Indonesia harus memperhatikan masalah
tersebut dan mulai mengembangkan metode baru untuk menghadapi tantangan sebagai hasil
dari studi / penggunaan data digital. Upaya tersebut harus dilakukan dengan mengikuti
prosedur metode penelitian dan desain penelitian yang memadai. Selain itu, kajian juga harus
memperhatikan dengan baik berbagai masalah yang telah dijelaskan sebelumnya untuk
mendapatkan hasil yang bermanfaat dengan menggunakan proses yang tepat (populasi dan
sampel, validitas dan etika). Keterbatasan studi akibat keterbatasan alat yang digunakan dalam
mengambil data juga harus menjadi perhatian utama semua sarjana komunikasi dan oleh karena
itu perlu dikembangkan teknik tambahan untuk mengoptimalkan hasil studi media digital.
Download