Introduction Revolusi digital telah membawa perubahan substansial dalam banyak aspek teknologi dalam proses komunikasi manusia (Kaul, 2012). Perubahan tersebut terutama ditandai dengan menjamurnya penemuan-penemuan baru di bidang teknologi informasi dan komunikasi yang digunakan dan diterapkan dalam berbagai aspek kehidupan manusia. Salah satu penemuan teknologi paling fenomenal dalam lingkungan yang terus berubah adalah penemuan internet. Teknologi memungkinkan koneksi antara komputer dan jaringan komputer besar lainnya di berbagai belahan dunia (Abbate, 2017), yang merangsang terjadinya interaksi tekstual dan virtual antar manusia dan pada gilirannya memfasilitasi komunikasi manusia global secara lebih efektif dan efisien. cara (Matusitz, 2007). Penggunaan internet yang semakin meluas dan aplikasinya telah mengubah dunia yang kita jalani saat ini secara dramatis dan mengubah dunia menjadi dunia cyber yang saling berhubungan (Tsou, 2011). Kondisi tersebut selanjutnya mendorong semakin banyak masyarakat kita untuk terlibat dalam berbagai kegiatan komunikasi online. Mengirim dan menerima email, mengunjungi situs web, menonton video di youtube, mengobrol di media sosial, memperbarui status di media sosial, menulis review online, dan menelusuri informasi terkait produk adalah beberapa contoh aktivitas online populer dalam kehidupan kita sehari-hari. Menurut Manyika, aktivitas online manusia di atas dapat menghasilkan sejumlah besar jejak dan data digital (Lewis, Zamith, & Hermida, 2013), yang terekam dan disimpan secara permanen di server komputer penyedia tertentu yang memfasilitasi dan memungkinkan aktivitas online tersebut. dan layanan (Power, 2014). Contoh sederhana bagaimana jejak dan data digital dihasilkan oleh aktivitas manusia sehari-hari adalah melalui interaksi manusia di berbagai platform media sosial. Setiap hari pengguna media sosial di seluruh dunia berkomunikasi satu sama lain dengan memperbarui status mereka (menanggapi berbagai masalah sosial saat ini, mengeluh atau memuji kinerja produk, mengungkapkan perasaan tertentu seperti kebahagiaan atau kesedihan, ratapan, kemarahan, menanggapi status orang lain, berdebat tentang masalah sosial, memberi suka, dll.). Di antaranya, terdapat beberapa media sosial populer yang banyak digunakan oleh pengguna di seluruh dunia seperti Facebook, Instagram, Twitter dan Google+. Media sosial menghasilkan petabyte data setiap hari (Housley, Williams, Williams, & Edwards, 2013). Jumlah datanya akan semakin besar bila kita juga memperhitungkan data digital lainnya yang dihasilkan oleh manusia dalam berbagai aspek kehidupan seperti kesehatan, pendidikan, sosial ekonomi dan politik. Dalam konteks kajian teknologi dan informasi, data disebut sebagai “big data”. Istilah “big data” mengacu pada sejumlah set data yang berkapasitas sangat besar dan karena ukurannya yang besar, data tersebut tidak dapat diproses menggunakan komputer pribadi atau perangkat lunak sederhana yang umum digunakan oleh sebagian besar pengguna komputer (Eynon , 2013). Ketersediaan jejak data digital dalam jumlah besar tersebut telah menarik perhatian berbagai pihak seperti organisasi bisnis (Zhao, Fan, & Hu, 2014), pemerintah (Eynon, 2013) dan juga berbagai peneliti dari berbagai disiplin ilmu (Boyd & Crawford, 2012). Mereka mencoba mendapatkan akses ke data dan mulai menganalisis kumpulan data digital yang besar untuk memahami tren umum dan pola perilaku manusia (Tsou, 2015). Dalam konteks penelitian komunikasi, “the big data” muncul sebagai pendekatan baru dalam mengumpulkan dan menganalisis data digital di internet (Boyd & Crawford, 2012). Lebih jauh, fenomena tersebut tentunya memberikan banyak kesempatan dan manfaat bagi para ilmuwan komunikasi untuk mengeksplorasi dan menemukan pola komunikasi manusia secara lebih praktis dan ringkas (Mahrt & Scharkow, 2013). Akibatnya, berbagai studi awal terkait “the big data” di bidang komunikasi mulai bermunculan secara sporadis (Burgess, Bruns, & Hjorth, 2013). Salah satu studi paling awal yang membahas pentingnya "data besar" dalam penelitian komunikasi dilakukan oleh Papacharissi & De Fatima Oliveira (2012). Dalam studi tersebut, mereka menerapkan analisis wacana komputasi untuk menilai pemberitaan di Twitter di Mesir terkait pengunduran diri Hosni Mobarrak sebagai presiden pada periode Januari - Februari 2011. Selain itu, Burgess & Bruns (2012) mulai menyarankan penggunaan istilah "big data" dalam studi komunikasi dan media dengan menjelaskan kemungkinan menggunakan Twitter API (Application Programming Interface) dan arsip Twitter sebagai dua aspek penting dalam mengumpulkan jejak data digital dari Twitter. Penelitian lain yang terkait dengan topik tersebut dilakukan oleh Lewis et. al., (2013) yang menggabungkan metode komputasi dan manual dalam membuat analisis konten dari dataset digital masif. Terlepas dari pentingnya dan potensi penggunaan data dalam studi komunikasi, penggunaan “the big data” sebagai sumber data digital dalam studi komunikasi masih sangat langka di Indonesia. Keadaan tersebut sangat disayangkan mengingat perkembangan internet dan teknologi digital berjalan sangat pesat di Indonesia. Berdasarkan data APJII (Indonesia Internet Service Provider), Indonesia memiliki 132,7 juta pengguna internet (sekitar 52% dari total populasi) dengan tingkat penetrasi internet 34,9% (2016). Selain itu, data tersebut juga menunjukkan bahwa media sosial, hiburan, berita, pendidikan, dan perdagangan merupakan konten yang paling banyak diakses oleh pengguna internet di Indonesia. Sejalan dengan temuan penelitian sebelumnya, data lain juga mengonfirmasi bahwa terdapat sekitar 79 juta pengguna media sosial aktif di Indonesia (wearesocial, 2016). Lebih lanjut, data tersebut juga menunjukkan bahwa Facebook, Twitter dan Instagram merupakan platform media sosial terpopuler yang banyak digunakan oleh masyarakat Indonesia. Fakta dan statistik penggunaan internet serta ketersediaan data digital di atas jelas menunjukkan bahwa Indonesia merupakan salah satu negara yang warganya melakukan aktivitas internet secara masif. Akibatnya, Indonesia menghasilkan jejak digital yang sangat besar yang dapat digunakan para ilmuwan komunikasi sebagai sumber data digital dalam memprediksi sikap dan pola perilaku manusia terkait aspek kehidupan tertentu. Oleh karena itu, diperlukan penanganan metode digital dalam melakukan penelitian berbasis internet (data retrieval) (Hutchinson, 2016). Makalah ini bertujuan untuk mendeskripsikan secara umum konsep “big data”, potensi penggunaan jejak data digital untuk penelitian komunikasi di Indonesia dalam konteks media sosial populer (Facebook, Twitter dan Instagram). Selain itu, juga akan mencoba menjelaskan secara singkat alat dan metode untuk mengambil, mengekstrak dan menganalisis data, menganalisis sentimen, arah dan kecenderungan penelitian dalam studi komunikasi, dan untuk mengatasi tantangan dan kelemahan. Theoretical Framework 1. The conceptualization of “big data” Digitalisasi telah membawa perubahan radikal dalam lanskap lingkungan media dan juga menawarkan metode baru bagi ilmuwan lintas disiplin dalam proses pengumpulan data (Burgess et. Al., 2013). Perubahan tersebut terjadi terutama karena tersedianya sejumlah besar jejak data digital yang ditinggalkan oleh manusia akibat interaksi manusia dengan teknologi berbasis digital. Dalam konteks ilmu komputer, data disebut sebagai "big data". Pada dasarnya, "data besar" dapat didefinisikan sebagai sejumlah besar data yang tidak dapat disimpan, dikelola, dan diproses secara memadai hanya dengan menggunakan komputer standar (Kaisler, Armor, Espinosa, & Money, 2013). Definisi yang lebih komprehensif yang dikemukakan oleh Zou (2015) menyatakan bahwa “big data” mengacu pada kumpulan data yang sangat besar (terstruktur dan tidak terstruktur) yang dihasilkan dari interaksi manusia dengan teknologi berbasis digital dalam komunikasi, pergerakan, dan perilaku. Menurut Duan & Xiong (2015), ada tiga masalah utama dalam pembahasan “big data”, yaitu volume, kecepatan, dan variasi. Volume biasanya terkait dengan ukuran data substansial yang disediakan oleh sumber tertentu. Kecepatan yang terkait dengan aplikasi waktu nyata dan kecepatan pemrosesan data. Sedangkan variasi adalah keragaman format data atau data tidak terstruktur yang berbeda seperti teks, grafik, data seri, dan hal-hal lain yang terkait. Selain permasalahan tersebut di atas, peta umum dimana data digital dapat diperoleh juga harus disikapi dengan tepat. Secara umum, sumber “big data” dapat ditemukan di berbagai tempat di mana terjadi interaksi manusia dengan teknologi digital. Tsou (2015) mengidentifikasi beberapa contoh sumber “big data” dalam kehidupan sehari-hari aktivitas manusia, yaitu percakapan yang berlangsung di platform media sosial, rekam medis elektronik di rumah sakit, puskesmas atau perusahaan asuransi, catatan transaksi bisnis seperti catatan kartu kredit dan transaksi belanja online, data pergerakan dan lalu lintas menggunakan sistem GPS, data penelitian ilmiah seperti catatan gempa bumi, catatan cuaca dan catatan sensus. Senada dengan itu, Edwards, Housley, Williams, Sloan, & Williams (2013) merumuskan beberapa aktivitas manusia yang berpotensi menghasilkan jejak data digital, antara lain transaksi retail, komunikasi telepon, pengeluaran keuangan dan klaim asuransi, data sensus penduduk, survei rumah tangga umum. , catatan kejahatan polisi, survei korban kejahatan dan survei pasar tenaga kerja. 2. “The big data” as a source of data in communication research Meskipun jejak data digital dapat ditemukan dalam berbagai bentuk interaksi manusia dengan teknologi, tidak semua jenis sumber dan data digital dapat digunakan dalam disiplin ilmu sosial seperti studi komunikasi. Mempertimbangkan jenis data digital yang biasanya berupa katakata, kalimat, percakapan, angka dan emoticon, setidaknya ada dua bidang studi yang berbeda dimana studi komunikasi dapat dilakukan, yaitu interaksi berbasis media sosial dan web. interaksi berbasis. Dalam konteks interaksi berbasis media sosial, dapat dilakukan kajian sosial terhadap berbagai media sosial populer (situs jejaring sosial, mikro blog dan blogging) (Edwards et. Al., 2013). Untuk situs jejaring sosial, Facebook, Instagram dan Youtube merupakan beberapa contoh umum situs jejaring sosial favorit yang dapat berfungsi sebagai sumber data digital studi komunikasi dan Twitter merupakan sumber data potensial untuk platform micro-blogging. Dalam hal blog, sarjana komunikasi dapat menggunakan berbagai jenis blog publik yang tersedia di internet. Selain kategori yang disebutkan di atas, ilmuwan komunikasi juga dapat menggunakan interaksi berbasis web sebagai sumber data digital besar untuk tujuan pembelajaran. Dalam kategori ini, situs berita umum (portal berita online) dan situs ulasan online dapat digunakan sebagai sumber utama jejak data digital untuk keperluan studi komunikasi. Material and Methodology Berbeda dengan berbagai metode dominan dalam IPS yang umumnya menggunakan kuesioner atau berbagai teknik kualitatif (wawancara, focus group discussion, dll) sebagai alat dalam proses pengumpulan data, studi yang berkaitan dengan “big data” dalam ilmu komunikasi membutuhkan perangkat yang sama sekali berbeda. Salah satu teknik yang biasa digunakan dalam studi “the big data” adalah penambangan teks. Menurut Feldman & Sanger (2007), penambangan teks dapat didefinisikan sebagai "proses intensif pengetahuan di mana pengguna berinteraksi dengan dokumen yang dikumpulkan dari waktu ke waktu dengan menggunakan serangkaian alat analisis". Selain itu, penambangan teks juga dianggap sebagai metode yang digunakan untuk mengungkap pengetahuan dalam proses penyaringan informasi terkomputerisasi dari dokumen teks tidak terstruktur yang melibatkan kombinasi beberapa teknik, termasuk penggalian data, pembelajaran mesin, pemrosesan bahasa alami (NLP), pengambilan informasi dan manajemen pengetahuan (de Fortuny, Smedt, Martens, & Daelemans, 2012). Dalam konteks ilmu sosial seperti komunikasi, pendekatan penambangan teks dapat berguna ketika seorang peneliti ingin menemukan informasi berharga dari percakapan atau teks yang tersedia di berbagai platform media sosial. Untuk dapat melakukan proses pengumpulan data dalam studi “big data”, biasanya peneliti membutuhkan alat yang memadai yang mampu menangkap, mengolah dan menganalisa data dari server komputer tertentu. Kebutuhan alat tersebut dapat dipenuhi dengan menggunakan perangkat lunak analitik data. Pada dasarnya perangkat lunak analisis data adalah perangkat lunak yang dapat digunakan untuk proses penarikan (pengumpulan), pengolahan dan analisis data digital yang terdapat pada berbagai sumber “big data”. Sama seperti mesin pencari (yaitu Google), perangkat lunak tersebut dapat mengindeks berbagai data di lingkungan online. Selain fitur, juga dapat menarik / mengambil kembali data untuk kemudian mengolah data tersebut dan selanjutnya menampilkan hasil pengolahan data tersebut. Cara kerja perangkat lunak seperti yang dijelaskan di atas mengharuskan peneliti menyesuaikan definisi pengambilan data di sumber "data besar". Kustomisasi mesin pencari dilakukan dengan menggunakan beberapa kata kunci yang berhubungan (termasuk) atau tidak terkait (dikecualikan) dengan tema penelitian tertentu. Semakin akurat kata kunci (disertakan dan dikecualikan) yang berkaitan dengan tema penelitian tertentu yang ditentukan oleh peneliti, semakin tinggi ketepatan hasil yang diperoleh oleh perangkat lunak yang digunakan. Misalnya, studi tentang "Tweet yang berisi SARA (Suku, Agama, Ras, dan Antar-golongan) atau masalah etnis, agama, ras, dan hubungan antarkelompok selama kampanye Pilgub Jakarta 2017" akan mengambil data dari platform Twitter dengan menetapkan beberapa kata kunci yang terkait dengan tema seperti "nama semua kandidat peserta pemilu", "kampanye", "pribumi", "non-pribumi", "Tionghoa", "Islam", "Kristen", "Muslim" "," Non-Muslim "," kafir "dll. Selain penggunaan kata kunci, periodisasi pengambilan data juga menjadi faktor penting yang harus diperhatikan secara cermat oleh peneliti. Untuk contoh kasus di atas, periode pengambilan data diatur selama kampanye Pilkada Jakarta 2017. Selain teknik text mining yang dijelaskan di atas, studi ilmu komunikasi dalam konteks “the big data” juga dapat dilakukan dengan menggunakan analisis sentimen. Teknik analisis sentimen dapat berguna jika sebuah penelitian harus mengungkap kecenderungan dan sikap (emosi) dalam percakapan atau postingan di lingkungan online (termasuk media sosial) (W.Duan, Cao, Yu, & Levy, 2013 ). Analisis sentimen juga mengacu pada aplikasi komputasi khusus berdasarkan polaritas emosional komunikator (Li & Wu, 2010). Selain itu, mereka menyarankan bahwa tujuan utama dari analisis adalah untuk menentukan emosi yang terkandung dalam teks yang diposting atau ditulis oleh seseorang yang terkait dengan topik tertentu di lingkungan online. Liu (2010) menyatakan bahwa analisis sentimen adalah perhitungan terkomputerisasi yang menguji opini, sentimen dan emosi yang diungkapkan dalam teks yang diekspresikan di dunia online. Seiring pertumbuhan media sosial dan pengguna internet di Indonesia yang terus berkembang, ketersediaan “big data” juga semakin signifikan. Situasi seperti itu memberikan kesempatan bagi para sarjana komunikasi di Indonesia untuk mengembangkan bidang studi baru. Oleh karena itu, teknik text mining dan analisis sentimen menjadi alat yang sangat penting bagi para sarjana komunikasi dalam menganalisis berbagai data yang tersedia secara online, khususnya data yang berkaitan dengan tema kajian komunikasi. Results and Discussion 1. Political Communication Dalam konteks komunikasi politik, berbagai tema penelitian aktual mungkin diangkat sebagai tanggapan atas melimpahnya data digital yang dihasilkan manusia. Beberapa contoh isu tersebut adalah sebagai berikut: memprediksi pemenang pemilu (lokal, nasional, legislatif dan eksekutif) melalui tingkat popularitas dan sentimen di ranah media sosial dan portal berita online, membuat perbandingan akun media sosial resmi aktor politik dan institusi politik (partai politik, presiden, DPR, dll.), mengkaji dan membandingkan pemikiran dan pernyataan aktor politik seperti yang diungkapkan di lingkungan online, menilai isu-isu politik yang populer, menarik dan menjadi isu utama publik pada umumnya. 2. Marketing Communication Tema kajian pada domain komunikasi pemasaran mendapat perhatian yang baik karena ketersediaan data yang dihasilkan oleh interaksi manusia dengan teknologi digital. Secara umum, tema utama studi yang dapat dilakukan dalam konteks tersebut antara lain mengukur sikap dan sentimen konsumen terhadap produk tertentu, mendeteksi kelemahan suatu produk dengan menguraikan keluhan konsumen terhadap produk tersebut, mengukur dan membandingkan popularitas beberapa produk dan layanan di pasar, membandingkan dan menilai tingkat interaktivitas akun media sosial untuk produk tertentu, menilai popularitas dan tingkat kepercayaan publik terhadap layanan freelancer dan menguji hubungan antara tingkat popularitas di dunia maya (media sosial) dan penerimaan publik dan tingkat penjualan . 3. Bidang Lain (Antarbudaya, Organisasi dan Interpersonal) dalam Studi Komunikasi Selain dua bidang yang telah dibahas di atas, bidang komunikasi lainnya juga dapat memberikan arahan baru dalam berbagai kajian. Beberapa contohnya antara lain membandingkan perbedaan penggunaan kata sifat (emosi) lintas budaya pada berbagai akun (komunikasi antar budaya), mengukur penggunaan media sosial sebagai media komunikasi resmi internal dan eksternal (komunikasi organisasi), menilai kedalaman interpersonal. komunikasi yang terjadi di platform media sosial dan menguji keterkaitan antara kedekatan online dengan kedekatan dunia nyata (komunikasi antar budaya). 4. Content analysis Dalam konteks teknik pembelajaran, salah satu teknik (metode) pembelajaran dalam disiplin ilmu komunikasi yang menimbulkan tantangan dan pengembangan baru adalah teknik analisis isi (Lewis et. Al., 2013). Teknik ini banyak digunakan dalam studi komunikasi. Teknik penelitian analisis isi klasik umumnya diterapkan untuk mendeskripsikan isi, ciri-ciri pesan dan perkembangan isi (trend) dalam berbagai teks tertulis seperti surat kabar, iklan, dokumen penting seperti peraturan perundang-undangan (Eriyanto, 2011). Interaksi manusia yang semakin intens di lingkungan online turut mendorong ketersediaan data digital dalam bentuk teks tertulis. Kondisi tersebut memberikan peluang yang besar bagi para sarjana komunikasi untuk menggunakan berbagai jenis data sebagai bahan kajian dalam penerapan metode analisis isi. Selain analisis isi kuantitatif, teknik kualitatif juga dapat digunakan dalam berbagai arah studi. Challenges and Limitations Transformasi digital di satu sisi memberikan peluang untuk menggunakan model pembelajaran terkini dalam ilmu komunikasi, sedangkan di sisi lain pembelajaran yang menggunakan data digital juga memiliki kerentanan dalam pelaksanaannya. Ada beberapa hal penting terkait dengan metodologi yang harus ditangani dalam melakukan studi berbasis data digital. 1. Validity issue Validitas merupakan salah satu isu utama yang muncul ketika data / text mining atau analisis sentimen dibuat dalam studi komunikasi (Boyd & Crawford, 2012). Masalah validitas dapat muncul pada saat data / text mining dan oleh karena itu perlu dilakukan uji validitas data yang dikumpulkan dari sumber di internet. Berbagai perangkat lunak yang digunakan untuk mengumpulkan dan menganalisis data masih memiliki kesalahan yang cukup besar. Sebagian besar pengembang perangkat lunak yang mengembangkan alat tersebut mengklaim bahwa tingkat akurasi aplikasi hanya sekitar 70%. Persentase tersebut menunjukkan bahwa masih ada sejumlah besar data yang mungkin belum diambil dan dianalisis lebih lanjut. Mungkin akan menjadi masalah serius dalam hal generalisasi hasil. Sebaliknya, survei "konvensional" secara umum dapat mentolerir kesalahan dalam proses pengambilan sampel hingga 5%. Akibatnya, kondisi tersebut tentunya dapat mempengaruhi tingkat ketelitian penelitian. 2. Population and sample Persoalan sampel dan populasi mengemuka dalam studi komunikasi berbasis data digital karena jumlah pasti dari populasi postingan dan percakapan terkait isu-isu tertentu di domain internet secara umum bisa sangat besar sehingga sulit untuk memperkirakan jumlah pastinya. Akibatnya, sulit untuk memastikan jumlah pasti dari sampel yang diambil dengan menggunakan teknik random sampling (Mahrt & Scharkow, 2013). Sementara itu, generalisasi yang dapat dibenarkan dari hasil studi berdasarkan kaidah statistik dan studi sosial menjadi meragukan. 3. Ethical issue Faktor lain yang dapat menimbulkan masalah serius dalam melakukan studi data digital di dunia maya adalah faktor etika. Masalah ini terutama menjadi menonjol karena penggunaan data publik dan semi-publik. Tidak terdapat prosedur baku dan standar etika apapun yang menjadi dasar dari jenis penggunaan data di atas dalam konteks kajian ilmiah (Mahrt & Scharkow, 2013). Conclusion Terbuka lebar peluang hasil interaksi manusia dengan internet atau dunia digital mengakibatkan tersedianya data digital dalam jumlah besar yang dapat diolah dalam suatu kajian komunikasi. Akibatnya, dimungkinkan untuk memulai dan mengembangkan cara-cara baru dalam melakukan studi di bidang komunikasi. Dalam konteks Indonesia sebagai negara dengan tingkat penggunaan internet yang relatif tinggi, peluang harus diambil oleh para sarjana komunikasi. Selain itu, para sarjana komunikasi di Indonesia harus memperhatikan masalah tersebut dan mulai mengembangkan metode baru untuk menghadapi tantangan sebagai hasil dari studi / penggunaan data digital. Upaya tersebut harus dilakukan dengan mengikuti prosedur metode penelitian dan desain penelitian yang memadai. Selain itu, kajian juga harus memperhatikan dengan baik berbagai masalah yang telah dijelaskan sebelumnya untuk mendapatkan hasil yang bermanfaat dengan menggunakan proses yang tepat (populasi dan sampel, validitas dan etika). Keterbatasan studi akibat keterbatasan alat yang digunakan dalam mengambil data juga harus menjadi perhatian utama semua sarjana komunikasi dan oleh karena itu perlu dikembangkan teknik tambahan untuk mengoptimalkan hasil studi media digital.