BAB II LANDASAN TEORI 2.1 Business Intelligence Business Intelligence (BI) is an umbrella term that combines architectures, tools, databases, analytical tools, applications, and methodologies (Turban et al, 2007, p.24). BI meliputi semua proses mengumpulkan dan menganalis data menggunakan teknologi yang bertujuan untuk mendapatkan informasi yang membantu sebuah institusi dalam mengambil keputusan (Connoly & Begg, 2010, p.1195), membantu organisasi mengelola dan menyaring informasi dalam membuat keputusan yang lebih efektif (Lonnqvist & Pirttimaki, 2006). BI menyediakan informasi yang bersifat historical, current dan predictive. Adapun fungsi-fungsi BI antara lain reporting, online analytical processing, analytics, data mining, process mining, complex event processing, business performance management, benchmarking, text mining, predictive analytics dan prescriptive analytics (http://en.wikipedia.org/wiki/Business_intelligence). 2.2 Data Mining Data mining adalah sebuah istilah yang digunakan untuk menggambarkan penemuan ilmu pengetahuan dalam bidang database, sebuah bidang analisis informasi yang mencari pola tersembunyi dalam sekelompok data yang dapat digunakan untuk memprediksi perilaku masa depan (Turban et al, 2007, p.202). 7 8 Data mining adalah suatu proses yang menggunakan statistical, mathematical, artificial intelligence, dan machine-learning techniques untuk mengekstrak dan mengindentifikasi informasi penting dan subsequent knowledge dari databases yang besar (Turban et al, 2007, p.305), dimana informasi yang diektrak digunakan dalam mengambil keputusan bisnis yang cukup krusial (crucial business decision) (Connoly & Begg, 2010, p.1280). Data mining juga merupakan proses penemuan pengetahun (knowledge discovery) dengan mencari pola dan struktur pada sekumpulan data (Kifer at el, 2006, p.730). Data mining adalah teknologi baru yang powerful dengan kemampuan penemuan useful knowledge, yang semuanya itu diperoleh dari sumber data yang besar dan cukup kompleks untuk diketahui (Delavari et al, 2008). Teknik data mining dapat diaplikasikan dalam berbagai bidang bisnis seperti bidang medicine, statistical analysis, engineering, education, banking, marketing, sale, etc (ZhaoHui & Maclennan, 2005). Menurut Delavari dkk (2008), data mining dikenal sebagai teknologi yang sangat tepat dalam menemukan pengetahuan (insight) bagi entitas lembaga pendidikan seperti pengetahuan seputar mahasiswa, dosen, karyawan, alumni dan perilaku managerial. Pada Gambar 2.1 berikut adalah gambaran dari posisi data mining dalam konteksi Business Intelligence. Data mining merupakan tahapan data analysis yang bertujuan pada penemuan pengetahuan (knowledge discovery). 9 Gambar 2.1 Data Mining in the BI Context (Sumber: http://www.cs.jyu.fi/~mpechen/TIES443) 2.3 Data Mining Function Data mining memiliki kemampuan cepat dalam melakukan analisis dan sangat fokus pada variabel-variabel penting. Patterns (pola) dan rules (aturan, kaidah) yang dapat digunakan dalam membuat keputusan dan forecast (meramalkan) dampak dari keputusan tersebut. Intelligent data mining meliputi informasi dalam data warehouse dimana query dan laporan biasa tidak bisa mengungkapkan informasi secara efektif. Data mining tools mampu menemukan pola dalam data dan memberi dugaan berupa rules. Dalam bukunya Turban (2007, p.307), ada tiga metode yang digunakan dalam mengidentifikasi pola dalam data (Nemati & Barko, 2001), yaitu: simple models (contoh, SQL berbasis query yang merupakan cara sederhana dalam menarik data, online analytical processing (OLAP), human judgment); Intermediate models (contoh, regression, decision trees, clustering); Complex models (contoh, neural networks, other rule 10 induction). Algoritma data mining tradisional juga membagi empat kategori besar, yakni classification, clustering, association, dan sequence discovery. Pada Tabel 2.1 di bawah ini mengklasifikasikan model data mining berdasarkan fungsi dan algoritma yang digunakan. Tabel 2.1 Data mining Functions, Algorithms, and Application Examples Data mining function Association Classification Clustering Algorithm Statistics, set theory Decision trees, neural networks, control, risk assessment, rules Neural network, statistics, optimization, discriminate analysis Statistics, set theory Sequence discovery Modeling Drill-down and aggregate view of data Linear and nonlinear regression, curve fitting, neural networks Visualization, using many different approaches. Application Examples Market basket analysis Target marketing quality Market segmentation Market basket analysis over time, customer life cycle analysis Sales forecasting, interest rate, prediction, inventory control Virtually all the preceding application Sumber: Adapted from J.P. Bigus, Data mining with Neural Networks, McGraw-Hill, New York, 1996 (Turban et al, 2007, p.309). 2.4 Data Mining Model Ada berbagai model dalam data mining atau sering disebut teknik data mining, secara umum model data mining dibagi dalam tiga kelompok berdasarkan pada tugas atau fungsi yang terdiri dari classification, clustering, dan association. 11 2.4.1 Classification Classification melakukan analisa pada data historikal yang tersimpan dalam database dan mengenerate otomatis model yang dapat memprediksi perilaku masa depan. Dengan melakuan redefined class, model dapat memprediksi sebuah kelas atau membuat kelas pada rekord-rekord data yang terklasifikasi. Classification menemukan pola data yang digunakan untuk mengklasifikasi dalam kategori tertentu (Kifer et al, 2006, p.730), contohnya pada aplikasi email yang dapat mengklasifikasi email yang bukan spam dan email spam (http://en.wikipedia.org/wiki/Data_mining#Data_mining). Contoh lain, klasifikasi antara pelanggan yang membeli produk terbanyak dengan pelanggan yang membeli produk dalam jumlah sedikit. Informasi ini misalnya bisa digunakan dalam melakukan iklan, tentu iklan akan difokuskan kepada pelanggan yang memiliki jumlah pembelian paling banyak, karena besar peluang pelanggan tersebut untuk membeli kembali. Algoritma yang biasa digunakan dalam classification adalah neural network, decision trees, naïve bayes dan if-then-else rules (Turban et al, 2007, p.307). 2.4.1.1 Decision Trees Decision trees adalah algoritma yang paling banyak digunakan untuk masalah pengklasifikasian. Decision trees break down problems into increasingly discrete subsets by working from generalizations to increasingly more specific information. A decision tree can be define as a root followed by internal nodes (Turban, 2007, p.313). Pola data yang menggunakan banyak variabel yang sangat berdampak pada klasifikasi sebuah pola. Variabel ini disebut sebagai atribut dan 12 hasilnya disebut class label. Contoh, ketika mencari pola mahasiswa yang lulus tidak tepat waktu, klasifikasi yang digunakan seperti lama studi, jumlah SKS dan GPA, inilah yang disebut atribut. Setiap tree terdiri dari branch dan nodes. Branch merepresentasikan sebuah hasil dari sebuah test klasifikasi sebuah pola, berdasarkan pada sebuah test, …a branch represents the outcomes of a test to classify a pattern on the basis of a test, using an attribute (Turban et al, 2007, p.315). Leaf node adalah representasi akhir dari sebuah pilihan klasifikasi pada sebuah pola. Sedangkan intermediate node mereprentasikan test atas suatu atribut. Decision trees merupakan teknik yang umum digunakan dalam melakukan prediksi. Berikut adalah contoh dari penerapan decision trees. Gambar 2.2 Sample Decision Tree For Predicting Academic Failure/Success (Sumber: Bresfelean, 2009) 13 Dari contoh pada Gambar 2.2 di atas dapat diterjemahkan sebagai berikut: • “If students’ admittance grade was above 8, then they would pass all their exams” • “If students’ admittance grade was in the (7,8] interval, were neutral that their expectations regarding the present specialization were fulfilled, believed the financial support from their parents was normal, then they would fail one or more exams” • “If students’ admittance grade was in the (7,8] interval, did not agree that their expectations regarding the present specialization were fulfilled, then they would fail one or more exams” 2.4.1.2 Neural Network Suatu representatif dari brain methapor dalam pengolahan informasi, sebuah model yang secara biologi meniru fungsi kerja otak. Neural network mengacu kepada metode pengenalan terhadap pola. Sudah banyak digunakan dalam aplikasi bisnis untuk pattern recognition, forecasting, prediction, dan classification (Turban et al, 2007, p.346). Hecht-Nielsend (1988) mendefinisikan Artificial Neural Network (ANN) atau diterjemahkan menjadi jaringan saraf tiruan adalah suatu struktur pemroses informasi yang terdistribusi dan bekerja secara paralel, terdiri atas elemen pemroses (yang memiliki memori lokal dan beroperasi dengan informasi lokal) yang diinterkoneksi bersama dengan alur sinyal searah yang disebut koneksi. Setiap elemen pemroses memiliki koneksi keluaran tunggal yang bercabang (fan out) ke sejumlah koneksi kolateral yang diinginkan (setiap koneksi membawa 14 sinyal yang sama dari keluaran elemen pemroses tersebut). Keluaran dari elemen pemroses tersebut dapat merupakan sebarang jenis persamaan matematis yang diinginkan. Seluruh proses yang berlangsung pada setiap elemen pemroses harus benar-benar dilakukan secara lokal, yaitu keluaran hanya bergantung pada nilai masukan pada saat itu yang diperoleh melalui koneksi dan nilai yang tersimpan dalam memori lokal. Sebuah ANN adalah sebuah prosesor yang terdistribusi paralel dan mempuyai kecenderungan untuk menyimpan pengetahuan yang didapatkannya dari pengalaman dan membuatnya tetap tersedia untuk digunakan. Jenis ANN yang paling dikenal adalah ANN multilayer feedforward. Selsel saraf diurutkan berdasarkan pada layer-layer, diawali oleh layer input dan diakhiri dengan layer output sedangkan di antaranya terdapat layer hidden. Hubungan dalam ANN jenis ini terjadi hanya satu arah, dari layer input ke layer hidden pertama lalu ke layer hidden kedua dan seterusnya. Jenis ANN ini bukan merupakan satu-satunya, namun jenis ANN ini adalah yang paling mudah untuk dipelajari. Struktur Neural Network dapat dibagi dalam tiga layar seperti pada Gambar 2.3 berikut. Gambar 2.3 Neural Network Structure (Source: SPSS Manual) 15 2.4.1.3 Naive Bayes Algoritma Naïve Bayes akan mengevaluasi setiap atribut yang mengkontribusi prediksi pada atribut target. Naïve Bayes tidak memperhitungkan relasi antar atribut-atribut kontributor prediksi, tidak seperti Decision Tree yang memperhitungkan relasi antara atribut. Bentuk tugas dasar yang dilakukan oleh algoritma Naïve Bayes adalah hanyalah klasifikasi (ZhaoHui & MacLennan, 2005, p.132). Naïve Bayes merupakan teknik data mining dengan pendekatan teori probabilitas untuk membangun sebuah model klasifikasi berdasarkan pada kejadian masa lalu yang mempunyai potensi membentuk sebuah objek baru yang dikategorikan sebagai kelas yang memiliki probabilitas terbaik (Turban et all, 2011, p.220). Naïve Bayes memiliki kemampuan yang cepat dalam membuat model, mempunyai kemampuan memprediksi dan juga menyediakan metode baru dalam mengeksplor dan memahami data. Algoritma Naïve Bayes hanya mendukung pada atribut yang bertipe data discrete atau discretized, atau tidak mendukung atribut yang bernilai continuous (numerik) dan semua atribut dapat menjadi independen, menjadi atribut yang memberi kontribusi kepada atribut yang diprediksi. Klasifikasi Bayesian adalah klasifikasi statistik yang bisa memprediksi probabilitas sebuah kelas. Klasifikasi Bayesian ini dihitung berdasarkan Teorema Bayes berikut ini: Berdasarkan rumus di atas kejadian H merepresentasikan sebuah kelas dan X merepresentasikan sebuah atribut. P(H) disebut prior probability H, contoh 16 dalam kasus ini adalah probabilitas kelas yang mendeklarasikan normal. P(X) merupakan prior probability X, contoh untuk probabilitas sebuah atribut protocol_type. P(H|X) adalah posterior probability yang merefleksikan probabilitas munculnya kelas normal terhadap data atribut protocol_type. P(X|H) menunjukkan kemungkinan munculnya prediktor X (protocol_type) pada kelas normal. Dan begitu juga seterusnya untuk proses menghitung probabilitas keempat kelas lainnya. Sebagai contoh kasus Naïve Bayes seperti pada Tabel 2.2. Bertujuan menemukan pola yang digunakan dalam mendeteksi permohonan kredit yang beresiko tinggi. Tabel 2.2 Contoh Data Set Naïve Bayes Name Debt Income Married? Risk Joe Sue John Mary Fred High Low Low High Low High High High Low Low Yes Yes No Yes Yes Good Good Poor Poor Poor 1. Membuat model berdasarkan pada kasus Tabel 2.3 Tabel Perhitungan Contoh Kasus Naïve Bayes Counts Independent Variables Debt Debt Income Income Married Married Total by Risk Value High Low High Low Yes No Good Risk 1 1 2 0 2 0 2 Counts Probabilities Probabilities Poor Risk Good Risk Poor Risk 1 2 1 2 2 1 3 0.50 0.50 1.00 0.00 1.00 0.00 0.33 0.67 0.33 0.67 0.67 0.33 17 - Hitunglah Counts berdasarkan jumlah data - Hitunglah pula Total by Risk berdasarkan data set - Hitung Probabilities = Counts / Total by Risk Cara membaca: Peluang Good Risk Customer jika diketahui Debt-nya High adalah 0.5=50% 2. Prediksi resiko berdasarkan model yang telah dibuat Tabel 2.4 Tabel Hasil Contoh Kasus Naïve Bayes - Name Debt Income Married? Risk Actual Joe Sue John Mary Fred High Low Low High Low High High High Low Low Good Good Poor Poor Poor Yes Yes No Yes Yes Good Risk Score 0.200 0.077 0 0 0 Poor Risk Score 0.044 0.034 0.086 0.096 0.137 Risk Predicted Good Good Poor Poor Poor Score = (Total by Risk / Total Record) * Probabilities of Debt * Probabilities of Income * Probabilities of Married - Jika Good Risk Score > Poor Risk Score maka Risk Predicted = Good, dan sebaliknya jika Good Risk Score < Poor Risk Score maka Risk Predicted = Bad 18 2.5 Data Mining Dalam Lembaga Pendidikan Berbagai keuntungan dalam penerapan data mining khususnya dalam bidang pendidikan seperti increasing student’s promotion rate, retention rate, transition rate, increasing educational improvement ratio, increasing student’s success, increasing student’s learning outcome, maximizing educational system efficiency, decreasing student’s drop-out rate, and reducing the cost of system processes (Baradwaj & Pal, 2011). Data mining mampu menemukan pola seperti membuat target mahasiswa yang membutuhkan perhatian khusus, memantau mahasiswa yang mempunyai nilai tertinggi, memantau kehadiran, kejadian yang berhubungan dengan kedisiplinan dan berbagai hal yang mempengaruhi kinerja atau prestasi mahasiswa. Cara seperti ini dapat menghemat waktu, mengurangi pekerjaan para karyawan dan dapat melakukan perbaikan terhadap layanan akademik (Jayanthi & Kamna, 2007). Pengembangan data mining pada lembaga pendidikan lebih kepada pengembangan model baru dalam menemukan pengetahuan (discover knowledge) dari database akademik (Galit, 2007; Erdogan & Timor 2005) dan untuk menganalisa tren dan perilaku akademik mahasiswa. Lembaga pendidikan yang semakin berkembang, tentu memiliki informasi akademik yang semakin banyak pula. Potensi data hilang dan tidak tersedianya informasi penting pada saat dibutuhkan, menjadi hal yang krusial. Salah satu solusi untuk mengatasi masalah ini adalah dengan menerapkan data mining dalam sistem informasi manajemen di lembaga pendidikan (Ayesha et al, 2010). Ada berbagai teknik data mining yang dapat diterapkan dalam lingkungan pendidikan, seperti diuraikan oleh Jayanthi & Raju (2010) pada Tabel 2.5 berikut ini. 19 Tabel 2.5 Contoh Penerapan Data Mining pada Lembaga Pendidikan Major Data mining Techniques Patterns • • • • Clustering • • • Classification & Prediction • • • • • • • Association • • • Data mining using other inter-disciplinary methods • Students having similar characteristics Grouping top performers Groups of students most likely to drop Predicting students learning outcome in an institute Predicting the percentage accuracy in students’ performance Classifying the admission process Prediction of what type of students most likely to drop Predicting students’ behavior, attitude Predicting the performance progress throughout the semester Identifying the best profile for different students Prediction to find what factors will attract meritorious students Scores of students in risk category predicted to voluntarily leave Association of training undertaken with various types of students and performance scores, individually and in teams. Association of students’ work profiles to the most appropriate project Association of students’ team building and leadership approaches. Association of students’ attitude with performance. Standardizing teaching methods, performance monitoring in career management Use historical data to build models of students’ indecent behavior and use Data mining to help identify similar instances. Sumber: Application Of Data Mining Techniques In Higher Education In India (Jayanthi & Raju, 2010) 20 2.6 Data Mining Methodology CRISP-DM adalah data mining methodology yang pada awalnya dikembangkan oleh tiga perusahaan, yakni SPSS (ISL by then), NCR, dan DaimlerChrysler pada tahun 1996 dan baru pada bulan Agustus 2000, version 1.0 CRISP-DM dipublikasikan. Kemudian tahun 2009 CRISP-DM dikenal dengan SEMMA (sample, explore, modify, model dan assess) yang dikembangkan oleh SAS Institute, dan CRISP-DM merupakan metodologi data mining yang paling banyak digunakan (Turban et al, 2011, p214). CRISP-DM merupakan metodologi yang dikhususkan pada pengembangan data mining, yang terdiri dari enam fase seperti pada Gambar 2.4 berikut. Gambar 2.4 Fase CRISP-DM (Sumber: ZhaoHui & MacLennan, 2005, p.29) 21 Setiap fase dalam CRISP-DM terdiri dari beberapa proses tahapan di dalamnya, berikut penjelasan setiap fase (Connoly & Begg, 2010, p.1286), yaitu: 1. Business Understanding Tahapan ini fokus pada tujuan bisnis (business goal) yang ingin dicapai dan mendefinisikan poin-poin penting yang menjadi kebutuhan bisnis dan kemudian menerjemahkannya dalam data mining goal. 2. Data Understanding Mendefinisikan data yang dibutuhkan, keterangan dari setiap data, data tersebut dapat diambil dari sumber data mana. Kemudian menentukan jenis data yang dijadikan variabel yang merupakan data yang paling berpengaruh pada model data mining yang dikembangkan. 3. Data Preparation Membuat data set yang dapat digunakan dalam modeling. Adapun tugas dalam tahapan ini yaitu: select data, clean data, construct data, integrated data dan format data. 4. Modeling Melakukan proses data mining dengan men-generate struktur data mining dan kemudian memilih teknik data mining dalam membuat model dan menguji keakuratan setiap model untuk memperoleh model data mining yang memiliki akurasi paling tepat. 22 5. Evaluation Menganalisa hasil dari analisis yang diperoleh dari modelling, mengevaluasi dan meninjau semua proses untuk memastikan apakah sesuai dengan tujuan bisnis. 6. Deployment Tapahan dimana dilakukan implementasi, rencana pengawasan, pemeliharaan dan laporan akhir. 2.7 Data Mining Tools 2.7.1 ETL ETL merupakan singkatan dari extract, transform dan load yang berfungsi melakukan ekstraksi data dari sumber data dan kemudian melakukan transformasi data, sebelum mengirimkannya ke database tujuan. ETL adalah sebuah alat yang melakukan 3 fungsi utama data warehouse (Connoly & Begg, 2010, p.1208), yaitu: • Extraction. Fase dimana data diektrak dari sumber data yang tersedia baik dari internal dan external. • Transformation. Fase cleaning dan transformation yang bertujuan untuk membersihkan data yang telah diekstrak yang diperoleh dari sumber yang berbeda, dengan memperbaiki data yang belum inconsistencies, inaccuracies dan missing value. • Loading. Fase akhir, dimana setelah data diekstrak dan dipindahkan, data kemudian dimasukkan ke dalam tabel data warehouse, kemudian data ini yang digunakan oleh analytics application dan decision support application. 23 2.7.2 Microsoft SQL Server Analysis Services Microsoft menyediakan tools yang berguna dalam membangun, mengelola dan menggunakan solusi BI pada suatu perusahaan. Microsoft SQL Server 2008 merupakan platform untuk data warehouse maupun data mart. Ada 3 fitur utama BI pada SQL Server 2008, yaitu: 1. SQL Server 2008 Integration Services (SSIS) SQL Server Integration Services adalah tools yang digunakan untuk melakukan proses ETL (Extract, Transform, Load). Dalam kaitannya dengan BI, SSIS adalah fitur yang digunakan untuk menarik data dari relational database, kemudian hasilnya disimpan dalam data warehouse. 2. SQL Server 2008 Analysis Services (SSAS) SQL Server Analysis Services adalah teknologi untuk OLAP (Online Analytical Processing) dan data mining. Proses OLAP administration dilakukan di SQL Server Management Studio berupa viewing data, membuat Multidimensional Expression (MDX), Data Mining Extension (DMX) dan XML for Analysis (XML/A) dan mendefenisikan role akses security. Menurut Connoly (2010, p1101), OLAP adalah perpaduan dinamis, analisis, dan konsolidasi dari suatu multi-dimensional database yang besar. OLAP merupakan sebuah istilah yang menggambarkan sebuah teknologi yang menggunakan sebuah kumpulan data multidimensi untuk menyediakan akses yang cepat kepada informasi strategi untuk keperluan analisis secara mendetail. OLAP adalah sebuah kumpulan dari alat-alat yang menganalisa dan mengumpulkan data untuk menggambarkan kebutuhan bisnis dari suatu perusahaan (Turban et al, 2006, p423). 24 3. SQL Server 2008 Reporting Services (SSRS) SQL Server Reporting Services adalah platform laporan berbasis server yang menyediakan fungsi pembuatan laporan dengan berbagai sumber data. SSRS terdiri dari kumpulan tools yang digunakan untuk membuat, mengatur dan mengirim laporan. Dengan SSRS, laporan dapat dibuat dalam bentuk tabular, grafikal dari sumber data relational (OLTP), multidimensional (OLAP) atau bahkan XML. Microsoft SQL Server 2005 Analysis Services (SSAS) menyediakan fungsi OLAP dan data mining yang digunakan dalam pengembangan aplikasi business intelligence. Pada aplikasi data mining, SSAS menyediakan berbagai fitur untuk design, create, visualize model data mining dimana memungkinkan data berasal dari berbagai sumber data. SSAS memiliki 9 algoritma data mining yaitu: 1. Microsoft Decision Tree; 2. Microsoft Linear Regression; 3. Microsoft Naïve Bayes; 4. Microsoft Clustering; 5. Microsoft Association Rules; 6. Microsoft Sequence Clustering; 7. Microsoft Time Series; 8. Microsoft Neutral Network; dan 9. Microsoft Logistic Regression Algorithm. SSAS ini mempunyai kemampuan yang luar biasa dalam melakukan identifikasi pola data, memunculkan berbagai pola yang menjadi informasi penting bagi para pengambil keputusan, mengetahui apa yang akan terjadi pada masa yang akan datang dan mengapa. Pola inilah yang disebut insight knowledge yang sangat berguna bagi yang mengambil keputusan. Menggunakan Analysis Services tidak selalu menggunakan data warehouse, tetapi cukup dengan tabulasi data yang diambil dari sumber lain seperti file excel dan proses data mining sudah bisa dilakukan. Bila menggunakan data warehouse atau 25 sumber data berasal dari beberapa sumber data, misalnya dari data mart atau database operasional, maka Ms SQL Server sudah menyedikan tools BI yang disebut Integration Services yang berfungsi dalam melakukan proses ETL (http://msdn.microsoft.com/en-us/library/ms175609%28v=sql.90%29.aspx). 2.7.3 Data Mining Extensions to SQL (DMX) DMX merupakan suatu query yang digunakan untuk membuat dan memanipulasi model-model data mining pada SQL Server. Data mining memiliki bentuk SQL tersendiri yang dinamakan DMX (Data Mining Extension). Lewat DMX, prediksi dapat dilakukan terhadap algoritma mining model yang tersedia. 2.7.4 Microsoft SQL Server 2005 Data Mining Add-Ins for Office 2007 Microsoft SQL Server 2005 Data Mining Add-Ins for Office 2007 adalah data mining engine yang disediakan oleh Microsoft, dimana engine ini bisa dijalankan dalam aplikasi Ms Office 2007. Data mining tools tidak hanya terdapat pada Ms SQL Server 2005 yang disebut SSAS, dimana di dalamnya tersedia berbagai fitur data mining. Fitur ini sudah embedded (add-ins) dalam aplikasi Office. Data mining Add-Ins ini sudah disediakan mulai pada Ms Office versi 2007 ke atas. Data mining Add-Ins khususnya digunakan dalam aplikasi Excel dan Visio. Lewat Excel, user sangat dimudahkan untuk melakukan proses analisis dengan menggunakan teknik data mining, tanpa harus memiliki pengetahuan lebih dalam di dalam penggunaan Analysis Services. Jadi proses data mining bisa dilakukan oleh siapapun yang sudah terbiasa menggunakan program Ms Office. Dengan Add-Ins ini sangat memudahkan untuk deploy model di komputer klien 26 manapun, tidak mengharuskan adanya database server, friendly interface dan memudahkan untuk diakses oleh komputer lain, misalnya dengan menggunakan web services. Add-Ins ini merupakan aplikasi tambahan, bukan merupakan program default Ms Office, untuk menggunakannya harus di-install terlebih dahulu, dimana software ini dapat di-download secara gratis dari situs http://www.microsoft.com/en-us/download/details.aspx?id=8569. Tersedia tiga paket yaitu: Table Analysis Tools for Excel, Table Analysis Tools for Excel dan Data mining Templates for Visio (http://dataminingtools.net/wiki/dm_excel.php). 2.8 Web Application Web application adalah aplikasi yang dibuat berbasis web dan dapat diakses melalui jaringan seperti Internet atau intranet. Merupakan suatu aplikasi perangkat lunak komputer yang dikodekan dalam bahasa yang didukung penjelajah web (seperti HTML, JavaScript, AJAX, Java, dll). Aplikasi web sangat populer digunakan dalam pengembangan aplikasi khususnya aplikasi sistem informasi karena kemudahan dalam mengakses dan kemampuan untuk memperbarui dan memelihara aplikasi web tanpa harus mendistribusikan di masing-masing komputer klien. 2.8.1 Apache HTTP Server Apache HTTP Server adalah web server yang merupakan perangkat lunak yang menyediakan layanan akses kepada pengguna melalui protokol komunikasi HTTP atau HTTPS atas dokumen yang terdapat pada situs web dalam layanan ke pengguna dengan menggunakan aplikasi tertentu seperti web browser. Apache 27 HTTP Server atau server web/www apache merupakan web server yang dapat dijalankan di berbagai sistem operasi seperti Linux, Windows, dan OS lainnya yang berguna untuk melayani dan memfungsikan situs web. Apache HTTP Server merupakan perangkat lunak open source yang dapat digunakan oleh siapapun, dapat diunduh dari http://www.apache.org. 2.8.2 PHP PHP: Hypertext Preprocessor adalah bahasa skrip server yang dapat disisipkan ke dalam halaman HTML. PHP merupakan server client script yang banyak digunakan dalam pemrograman situs web dinamis, merupakan perangkat lunak open source yang dapat diunduh dari php.net/downloads.php. Beberapa kelebihan PHP dari bahasa pemrograman web lainnya (http://id.wikipedia.org/wiki/PHP), antara lain: • Bahasa pemrograman PHP adalah sebuah bahasa pemrograman yang tidak melakukan kompilasi dalam penggunaanya; • Web Server yang mendukung PHP dapat ditemukan dimana-mana dari apache, IIS, Lighttpd, hingga Xitami dengan konfigurasi yang relatif mudah; • Dalam sisi pengembangan lebih mudah, karena banyaknya milis-milis dan developer yang siap membantu dalam pengembangan; • Dalam sisi pemahamanan, PHP adalah bahasa pemrograman yang paling mudah karena memiliki referensi yang banyak; • PHP adalah bahasa open source yang dapat digunakan di berbagai mesin (Linux, Unix, Macintosh, Windows) dan dapat dijalankan secara runtime melalui console serta juga dapat menjalankan perintah-perintah sistem. 28 2.9 Prestasi Akademik Mahasiswa Lembaga pendidikan pada dasarnya mengutamakan pencapaian prestasi mahasiswa (student performance) yang setinggi-tingginya. Prestasi atau kinerja mahasiswa diukur dari berbagai komponen kompetensi akademik. Prestasi mahasiswa diukur dari nilai akhir pada setiap kelas matakuliah yang diambil dan secara keseluruhannya dapat diukur dari GPA yang merupakan indeks prestasi yang diperoleh dari setiap nilai pada tiap komponen kompetensi. Universitas Bina Nusantara memiliki visi “A World-class university”. Kualitas pendidikan menjadi hal paling utama dan sudah menjadi tanggungjawab para manajemen di Universtas Bina Nusantara. Universitas Bina Nusantara membuat target minimal 90% mahasiswa (http://binus.ac.id/delivered-ontime-graduation). lulus Improve tepat waktu student’s timely graduation & high student performance adalah misi Universitas Bina Nusantara khususnya di program BINUS INTERNATIONAL. Manajemen di BINUS INTERNATIONAL mempunyai misi untuk mendorong para mahasiswa mencapai kinerja akademik yang setinggi-tingginya, seperti tertuang pada Dean’s Goals & Objectives berikut ini: Goals To ensure that consistent standards of excellence are applied to and across all high-achieving students • To ensure that students who achieve exceptionally high academic performance are suitably recognized • To highlight the quality reputation of BINUS INTERNATIONAL 29 Objectives • To identify all students who achieve an exceptionally high level of academic performance • To ensure that those students receive timely recognition of their efforts and talent • To enhance the quality reputation of BINUS by identifying and tracking honour roll students following graduation BINUS INTERNATIONAL mempunyai syarat kelulusan dan pengukuran kinerja mahasiswa berdasarkan pada BINUS INTERNATIONAL Student Guideline – Binusian 2016 6 September 2012. 2.9.1 GPA BINUS INTERNATIONAL mengukur prestasi mahasiswa dengan GPA atau grade point average dengan indeks 0,00 sampai 4,00. GPA diperoleh dari rata-rata poin matakuliah yang diambil. GPA diukur pada setiap semester dan kumulatif. • Semestral GPA (GPS) merupakan GPA yang dihitung pada setiap semester berdasarkan pada nilai akhir dari matakuliah pada semester tersebut. • Cumulative GPA merupakan GPA yang dihitung dari keseluruhan nilai matakuliah. GPA diukur dengan menggunakan formula seperti berikut: 30 Mahasiswa BINUS INTERNATIONAL diwajibkan memiliki GPA minimum 2,00. Bila GPA mahasiswa di bawah 2,00 berturut-turut selama dua semester maka mahasiswa tersebut dipertimbangkan untuk diberikan peringatan yang memungkinkan bisa sampai drop out. 2.9.2 Grade Untuk nilai akhir setiap matakuliah menggunakan grade seperti Tabel 2.6 berikut. Score merupakan nilai angka yang diberikan oleh dosen untuk satu matakuliah tertentu. Score ini merupakan kumulatif dari nilai pada setiap bobot pada matakuliah, setiap matakuliah mempunyai bobot nilai seperti nilai tugas, nilai ujian tengah semester, nilai akhir semester, dan seterusnya. Nilai dari setiap bobot dalam matakuliah mempunyai persentase bobot masing-masing sehingga menghasilkan score akhir. Dari score inilah bisa diperoleh grade berdasarkan pada score range yang telah ditentukan pada Tabel 2.6. Setiap grade mempunyai weigth (bobot) yang digunakan dalam perhitungan GPA mahasiswa. 31 Tabel 2.6 Grade Matakuliah Grade A : Excellent AB+ B : Good BC+ C : Fair D : Low Pass E : Failed F : Non-attendance Weight 4,00 3,67 3,33 3,00 2,67 2,33 2,00 1,00 0,00 0,00 Score 91 - 100 86 - 90 81 - 85 76 - 80 71 - 75 66 - 70 61 - 65 50 - 60 < 50 0 Adapun yang menjadi syarat akademik kelulusan mahasiswa, antaralain: • Sudah lulus semua matakuliah pokok minimum grade C • Sudah lulus matakuliah Characater Building I minimum grade B- • GPA kumulatif harus lebih besar dari 2,75 Kehadiran mahasiswa pada sesi perkuliahan juga menjadi faktor kelulusan mahasiswa pada suatu kelas matakuliah. Syarat minimum kehadiran mahasiswa adalah 80% bila kurang maka tidak layak mengikuti ujian akhir, dimana hal ini sudah bisa dipastikan mahasiswa yang bersangkutan gagal pada matakuliah tersebut. 2.10 Literature Review Penerapan data mining dalam lembaga pendidikan ternyata semakin banyak dilakukan oleh peneliti saat ini. Data mining merupakan teknologi yang tepat dalam meningkatkan kualitas pendidikan dan prestasi akademik mahasiswa. Di bawah ini adalah beberapa penelitian di bidang pendidikan yang bertujuan untuk melakukan improvement terhadap prestasi akademik mahasiswa. 32 1. Effective Educational Process: A Data-Mining Approach (Jayanthi & Kamna, 2007) Dalam studi ini mengembangkan holistic model untuk tujuan pendidikan menggunakan teknik data mining dengan mengeksplorasi dampak dari perubahan dalam proses admisi, course delivery dan recruitments. Mengusulkan sebuah framework proses edukasi yang efektif menggunakan teknik data mining untuk menemukan tren dan pola. Teknik data mining yang digunakan adalah decision trees, bayesian models dan forecasting. Studi ini bertujuan untuk melakukan improvement dalam proses penelitian dan pengambilan keputusan yang berhubungan dengan akademik melalui penemuan tren dan pola yang menggunakan kombinasi antara explicit knowledge base, sophisticated analytical skills dan academic domain knowledge. Dengan harapan kualitas dan prestasi akademik mahasiswa dapat menjadi lebih baik secara efisien dan efektif. 2. Using Data Mining To Predict Secondary School Student Performance (Cortez & Silva, 2008) Studi ini dilakukan di Portugal, dilatarbelakangi oleh tingginya angka kegagalan para siswa khususnya dalam matapelajaran Matematika dan Bahasa Portugal. Cortez dan Silva dalam studinya menggunakan data mining dengan beberapa teknik seperti Decision Tree, Random Forest, Neural Network, dan Support Vector Machines. Adapun variabel yang digunakan seperti grade matakuliah siswa, demographic, sosial dan atribut yang berhubungan dengan akademik siswa itu sendiri. Tujuan studi ini untuk memprediksi grade para siswa pada periode pertama dan kedua, dalam meningkatkan kualitas pendidikan. 33 3. Data Mining Model for Higher Education System (Ayesha et al, 2010) Dalam studi ini melakukan analisis terhadap perilaku belajar mahasiswa (student's learning behaviour). Menganalisa bagaimana perbedaan dampak antar faktor student's learning behaviour dan performance during academic dengan menggunakan k-mean dan decision tree. Menggunakan teknik data mining Kmeans clustering. Clustering analysis membuat segmen mahasiswa ke dalam beberapa kelompok berdasarkan karakteristik. Kinerja mahasiswa ditentukan oleh internal assessment dan external assessment. Internal assessment berdasarkan pada nilai tugas, kuis, tugas lab, grade kehadiran pada semester sebelumnya, dan keaktifan pada ekstra kurikulum. Sedangkan external assessment didapatkan dari nilai ujian akhir. Studi ini bertujuan membantu para dosen untuk mengurangi jumlah mahasiswa yang drop out secara signifikan dan meningkatkan prestasi akademik mahasiswa itu sendiri. 4. Use Data Mining To Improve Student Retention In Higher Education – A Case Study (Kim et al, 2010) Salah satu tantangan lain pada lembaga pendidikan adalah meningkatkan student retention (National Audition Office, 2007). Student retention ini sudah menjadi indikator penting dalam mengukur kinerja lembaga pendidikan. Studi ini mengembangkan data mining untuk memonitor para siswa, menganalisa perilaku akademik siswa dan menyediakan informasi penting yang bisa mendukung strategi yang akan dilakukan untuk tujuan dalam melakukan improvement terhadap student retention. Informasi yang dibutuhkan antara lain student enrolment, student result, course/module, learning skills dan student activities. 34 Menggunakan teknik data mining association, classification dan clustering. Model yang dikembangkan yaitu: Student behavior patterns; Course behavior patterns; Predict student retention; Predict Course suitability dan Personalized intervention strategy. 5. Web Usage Mining for Improving Students Performance in Learning Management Systems (Zafra & Ventura, 2010) Studi ini bertujuan untuk mendeteksi aktivitas mahasiswa yang sangat relevan atau mempengaruhi kelulusan mahasiswa pada matakuliahnya, berdasarkan pada data-data yang diperoleh dari log data pada education webbased system. Hasil dari penelitian ini adalah memberikan informasi yang mengklasifikasi mahasiswa dalam dua kelompok: - high performance: mahasiswa yang mempunyai probabilitas tertinggi akan lulus - low performance: mahasiswa memiliki probabilitas tertinggi akan gagal (drop out). Secara umum data set yang digunakan yakni: number of students, number of assignments, number of forums, dan number of quizzes. Beberapa algoritma yang diuji, MOG3P-MI adalah algorima yang digunakan karena mempunyai tingkat akurasi model paling tinggi. 35 6. Mining Educational Data to Analyze Students Performance (Baradwaj & Pal, 2011) Menurut Baradwaj dan Saurabh Pal dalam studinya, salah satu cara dalam mencapai kualitas pendidikan terbaik adalah dengan menemukan knowledge yang dimulai dari enrollment, cara mengajar di kelas, mengetahui siapa yang curang pada saat ujian online, memprediksi kinerja mahasiswa dan lain sebagainya. Knowledge ini sudah ada dalam sekumpulan data edukasi yang besar, sehingga diperlukanlah data mining untuk mengekstrak knowledge tersebut. Dalam studi ini menggunakan classification model untuk menemukan pola dalam mengevaluasi kinerja mahasiswa. Teknik yang digunakan antara lain termasuk Decision Trees, Neural Networks, Naïve Bayes, K- Nearest neighbor, dan lain sebagainya. Studi ini bertujuan untuk memprediksi prestas akademik seorang mahasiswa pada akhir semester. Ini sangat membantu dalam mengidentifikasi dengan lebih dini, siapa siswa yang akan drop out dan mahasiswa yang memerlukan perhatian khusus dan memungkinkan dosen memberikan konseling secara khusus. 7. A Data Mining Approach To Guide Students Through The Enrollment Process Based On Academic Performance (Vialardi et al, 2011) Tujuan dari studi ini adalah membuat model yang memberikan rekomendasi kepada mahasiswa dalam menentukan matakuliah mana yang lebih tepat akan diambil. Model data mining dibuat berdasarkan prestasi akademik mahasiswa itu sendiri. Atribut yang diprediksi pertama adalah matakuliah yang memiliki tingkat kesulitan yang tinggi dan yang kedua memprediksi kemampuan atau grade yang akan diperoleh mahasiswa tersebut terhadap matakuliah yang 36 akan diambil. Dalam pengembangan data mining menggunakan CRISP-DM methodology. Menggunakan teknik C4.5, KNN (K-nearest neighbor), Naïve Bayes, Bagging dan Boosting. Bagging adalah model yang paling akurat yang digunakan dalam studi ini. 8. Data Mining: A Prediction For Performance Improvement Using Classification (Bhardwaj & Pal, 2011). Tujuan studi ini adalah memprediksi mahasiswa yang memiliki motivasi belajar yang tinggi dan rendah. Menggunakan teknik Bayesian Classification dalam memprediksi yang dasarkan pada data setahun sebelumnya. 9. Improving Academic Performance of Students of Defence University Based on Data Warehousing and Data Mining (Sreenivasarao & Yohannes, 2012) Studi ini dilakukan oleh Defence University College jurusan Teknik, berkonsentrasi terhadap faktor-faktor yang mempengaruhi kinerja mahasiswa. Prestasi akademik mahasiswa jurusan Teknik kebanyakan relatif rendah, diukur dari GPA setiap mahasiswa. Sehingga manajemen membutuhkan analisis terhadap pencapaian prestasi mahasiswa. Oleh karena itu, dalam studi ini menerapkan data mining untuk mengekstrak informasi dan variabel penting yang signifikan berpengaruh terhadap prestasi akademik mahasiswa. Teknik data mining yang digunakan adalah k-Means clustering dan Decision tree. Studi ini bertujuan membantu para guru mengurangi angka mahasiswa yang di drop out dan memperbaiki prestasi akademik para mahasiswa. 37 10. Mining Educational Data to Improve Students’ Performance: A Case Study (Tair & El-Halees, 2012) Dalam studi ini menggunakan data akademik terdiri dari atribut: Gender, Speciality, City, Matriculation GPA, Secondary School Type dan Grade. Tujuan studi ini dilakukan untuk meningkatkan prestasi akademik mahasiswa. Menggunakan teknik data mining association, classification, clustering dan outlier detection rules untuk memprediksi grade mahasiswa. 11. Educational Data Mining for Improving Educational Quality (Gulati & Sharma, 2012) Tujuan dari studi ini adalah meningkatkan kualitas pendidikan berdasarkan pada aktivitas atau operasional akademik mulai dari jadwal kelas, siswa dan guru. Bagaimana mengoptimalkan operasional akademik sehingga dapat menjadi faktor pendukung dalam meningkatkan prestasi mahasiswa. Menggunakan Knowledge Discovery Database dalam pengembangan data mining. Penerapan data mining dapat membantu institusi pendidikan dalam mengarahkan mahasiswa, dosen dan manajemen untuk memperbaiki prestasi institusi. Selain itu dapat membantu para dosen untuk me-manage kelas dengan baik dan membantu manajemen dalam membuat aturan akademik dengan baik. 38 Tabel 2.7 berikut adalah rangkuman dari literatur yang berhubungan dengan penelitian yang akan dilakukan di BINUS INTERNATIONAL. Penelitian ini diurutkan berdasarkan tahun penelitian. Variabel dan teknik yang ditulis hitam tebal (bold) merupakan variabel atau teknik yang juga digunakan dalam penelitian ini. Tabel 2.7 Rangkuman Literatur No Tahun Judul Teknik/Agoritma 1. 2007 Effective Educational Process: A DataMining Approach (Jayanthi & Kamna) 2. 2008 Using Data Mining To Predict Secondary School Student Performance (Cortez & Silva). Decision Trees, Bayesian & Forecasting Decision Tree, Random Forest, Neural Network, & Support Vector Machines. 3. 4. 2010 2010 Variabel: sex, age, school, address, Pstatus, Medu, Mjob, Fedu, Fjob, guardian, famsize, famrel, reason, traveltime, studytime, failures, schoolsup, famsup, activities, paidclass, internet, nursery, higher, romantic, freetime, goout, Walc, Dalc, health, absences, G1 (first period grade), G2(second period grade), G3 (final grade) Data Mining Model for Higher Education System (Ayesha et al). Variabel: prev-sem-grade, class-quiz, assignment, practical-wok, mid-term, attendance, finalgrade Use Data Mining To Improve Student Retention In Higher Education – A Case Study (Kim et al). Variabel: Average mark, online learning systems information, library information, nationality, university entry certificate, course award, current study level, study mode, postgraduate k-Mean & Decision Tree Naïve Bayes, Support Vector Machine, Decision Tree 39 No Tahun 5. 2010 6. 2011 7. 2011 8. 2011 9. 2012 10. 2012 Judul Teknik/Agoritma or undergraduate, resit number, current year, age, gender, race Web Usage Mining for Improving Students PART, Performance in Learning Management AdaBoostM1&PA Systems (Zafra & Ventura, 2010). RT, Bagging&PART, Variabel: daBoostM1&PAR T, PART, Number of students, number of assignments, NaiveBayes, number of forums, dan number of quizzes SMO, MIOptimalBall, CitationKNN, DecisionStump, RepTree, MILR, MIDD, MIEMDD, MDD, G3P-MI, MOG3P-MI Mining Educational Data to Analyze Students Decision Trees, Performance (Baradwaj & Pal). Neural Networks, Naïve Bayes, KVariabel: Nearest Neighbor Previous Semester Marks, Class Test Grade, Seminar Performance, Assignment, General Proficiency, Attendance, Lab Work, End Semester Marks Bagging , C4.5, A Data Mining Approach To Guide Students KNN (K-nearest Through The Enrollment Process Based On Academic Performance (Vialardi et al). neighbor), Naïve Bayes, and Variabel: Boosting Course name, Attempt number, Cumulative average, Difficulty, Potential, Course credits, Number of credits, Final grade (class) Data Mining: A Prediction For Performance Bayesian Improvement Using Classification (Bhardwaj & Pal, 2011) K-Means Improving Academic Performance of clustering & Students of Defence University Based on Decision Tree Data Warehousing and Data mining (Sreenivasarao & Yohannes). Variabel: Student ID, Student Name, Course, Professor, Marks, Grade, Result Mining Educational Data to Improve Association, Students’ Performance: A Case Study (Tair & Classification, 40 No Tahun 11. 2012 Judul Teknik/Agoritma El-Halees). Clustering & Outlier Detection Rules Variabel: Student ID, student name, gender, date of birth, place of birth, speciality, enrollment year, graduation year, city, location, address, telephone number, matriculation GPA, secondary school type, matriculation obtained place, matriculation year, college GPA & GPA Educational Data Mining for Improving Educational Quality (Gulati & Sharma). Variabel: Menggunakan informasi dari courses assignments, marks, student background Classification