MAKALAH REGRESI LOGISTIK ORDINAL (CONTOH PENERAPAN: AKREDITASI SMK DI JAWA TIMUR) Ainun Farida LPMP Sulawesi Selatan [email protected] ABSTRAK : Ordinal regression (regresi ordinal) adalah analisis regresi di mana variabel terikatnya menggunakan skala ordinal. Apakah itu skala ordinal?. Sedangkan variabel prediktor atau bebasnya bisa merupakan Covariate (jika menggunakan skala interval atau rasio) atau bisa merupakan Factor (jika menggunakan skala nominal atau ordinal). Variabel prediktor (independen) yang dapat disertakan dalam model berupa data kategori atau kontinu yang berjumlah dua variabel atau lebih. Penting untuk dimengerti bahwa jika kita mempunyai variabel terikat dalam data ordinal, maka penggunaan regresi linear berganda memberikan hasil yang tidak baik, atau bahasa resmi pada buku panduan SPSS mengatakan “don’t work very well”. Alternatif metode yang digunakan sering juga disebut dengan Generalized linear models yang memprediksikan cummulative probabilities dari kategori yang ada. http://www.lpmpsulsel.net/v2/index.php?option=com_content&view=article&id=345:regresi-logistikordinal&catid=42:ebuletin&Itemid=215 Artikel E-Buletin edisi Maret 2015 1 I. Kajian Teori Regresi logistik ordinal merupakan salah satu metode statistika untuk menganalisis variabel respon (dependen) yang mempunyai skala data ordinal dan terdiri tiga kategori atau lebih. Variabel prediktor (independen) yang dapat disertakan dalam model berupa data kategori atau kontinu yang berjumlah dua variabel atau lebih. Model yang dapat dipakai untuk regresi logistik ordinal adalah model logit. Model logit tersebut adalah cumulative logit models. Pada model logit ini sifat ordinal dari respon Y dituangkan dalam peluang kumulatif sehingga cumulative logit models merupakan model yang didapatkan dengan membandingkan peluang kumulatif yaitu peluang kurang dari atau sama dengan kategori respon ke-j pada p variabel prediktor yang dinyatakan dalam vektor x , P(Y j| x ), dengan peluang lebih besar dari kategori ~ ~ respon ke-j, P(Y>j| x ) (Hosmer dan Lemeshow, 2000). ~ Peluang kumulatif, P(Y j| x ), didefinisikan sebagai berikut : ~ p exp j k x k k 1 P(Y j | x ) p ~ 1 exp j k x k k 1 (1) dimana j = 1, 2, ..., J adalah kategori respon (Agresti, 1990). Dari persamaan (1) didapatkan lim F ( x) 0 , x lim F ( x) x 0 1 , 2 dan lim F ( x) 1 sehingga dapat digambarkan dengan kurva sebagai berikut : x http://www.lpmpsulsel.net/v2/index.php?option=com_content&view=article&id=345:regresi-logistikordinal&catid=42:ebuletin&Itemid=215 Artikel E-Buletin edisi Maret 2015 2 F(x) 1 1/2 x 0 –1 Gambar 1 Kurva Distribusi Logistik Sesuai dengan definisi cumulative logit model di atas maka didapatkan model sebagai berikut : P(Y j | x ) ~ Logit P(Y j | x ) log P(Y j | x ) ~ ~ (2) Dengan mensubstitusikan persamaan (1) pada persamaan (2) maka didapatkan : P(Y j | x ) ~ Logit P(Y j | x ) log 1 P(Y j | x ) ~ ~ p j k xk (3) k 1 Dalam hal klasifikasi Cumulative Logit Model merupakan fungsi pembeda atau fungsi klasifikasi. Fungsi klasifikasi yang terbentuk bila terdapat J kategori respon adalah sejumlah J – 1. Jika j ( x ) = P(Y=j| x ) menyatakan peluang kategori ~ ~ respon ke-j pada p variabel prediktor yang dinyatakan dalam vektor x dan P(Y j| x )) ~ http://www.lpmpsulsel.net/v2/index.php?option=com_content&view=article&id=345:regresi-logistikordinal&catid=42:ebuletin&Itemid=215 Artikel E-Buletin edisi Maret 2015 ~ 3 menyatakan peluang kumulatif pada p variabel prediktor yang dinyatakan dalam vektor x maka nilai j ( x ) didapatkan dengan persamaan berikut : ~ ~ P(Y j | x ) 1 ( x ) 2 ( x ) ... j ( x ) ~ ~ ~ ~ (4) dimana j = 1, 2, ..., J Estimasi Parameter Untuk mengestimasi parameter dapat digunakan metode maksimum likelihood. Metode ini memperoleh estimasi maksimum likelihood bagi dengan langkah awal yaitu membentuk fungsi likelihood. Estimasi dari parameter regresi logistik ordinal didapatkan dengan menurunkan fungsi log likelihood terhadap parameter yang akan diestimasi dan disamakan dengan nol. Persamaan L( ) 0 k parameter k dimana k = 1, 2, ...p dan dipergunakan untuk estimasi L( ) 0 dipergunakan untuk estimasi j intersep j dimana j = 1, 2, ..., J – 1. Hasil dari persamaan L( ) L( ) 0 dan 0 merupakan fungsi nonlinear j k sehingga diperlukan metode numerik untuk memperoleh estimasi parameternya. Metode numerik yang dipergunakan adalah metode iterasi Newton Raphson. Persamaan-persamaan yang dipergunakan dalam metode iterasi Newton Raphson adalah sebagai berikut : (t 1) (t ) H (t ) q (t ) 1 (5) dimana : H (t ) q (t ) 2 L( ) k k L( ) (6) (7) dan t = iterasi ke-t http://www.lpmpsulsel.net/v2/index.php?option=com_content&view=article&id=345:regresi-logistikordinal&catid=42:ebuletin&Itemid=215 Artikel E-Buletin edisi Maret 2015 4 Uji Serentak Dalam pengujian serentak, uji signifikansi model dapat dipergunakan likelihood-ratio test. Hipotesis : H0 : 1 2 ... p 0 H1 : minimal ada satu k 0 ; k = 1, 2, ..., p p = jumlah prediktor dalam model Daerah tolak : H0 ditolak bila G > (2p; ) dimana p adalah jumlah prediktor dalam model. Uji Individu Untuk pengujian individu signifikansi parameter model dapat diuji dengan Wald test. Hasil dari Wald test ini akan menunjukkan apakah suatu variabel prediktor signifikan atau layak untuk masuk dalam model atau tidak. Hipotesis : H0 : k = 0 H1 : k ≠ 0 ; k = 1, 2, ...p ; p = jumlah prediktor dalam model Statistik Uji : W= ˆ k SE( ˆ k ) (19) Daerah Penolakan : H0 ditolak bila W lebih besar dari z / 2 atau P-value kurang dari . Hal ini dikarenakan statistik uji W mengikuti distribusi normal (Hosmer dan Lemeshow, 2000). II. Contoh Penerapan Contoh penerapan regresi logistik ordinal adalah studi akreditasi SMK di Jawa Timur. Sertifikat akreditasi sekolah memuat nilai masing-masing komponen (dalam angka) dan peringkat/status akreditasi sekolah yang dinyatakan dengan huruf http://www.lpmpsulsel.net/v2/index.php?option=com_content&view=article&id=345:regresi-logistikordinal&catid=42:ebuletin&Itemid=215 Artikel E-Buletin edisi Maret 2015 5 A (amat baik), B (baik), dan C (cukup). Ditinjau dari skala data, peringkat/status akreditasi merupakan data dengan skala ordinal. Oleh karena itu, penentuan peringkat/status ini adalah klasifikasi data yang bersifat ordinal. Salah satu metode statistika yang dapat dipakai untuk klasifikasi data yang bersifat ordinal adalah regresi logistik ordinal. Sebagai variabel respon adalah peringkat atau status akreditasi yaitu: 1=C 2=B 3=A sedangkan sebagai variabel prediktor atau independen adalah aspek-aspek yang terdapat dalam profil sekolah yaitu: 1. Status sekolah (0=swasta, 1=negeri) 2. Lama berdiri sekolah 3. Jumlah siswa 4. Jumlah guru 5. Jumlah alumni yang diterima di dunia usaha dan industri setahun terakhir 6. Nilai rata-rata jumlah ujian nasional sekolah setahun terakhir III. Interpretasi Dengan menggunakan Minitab 14 didapatkan output regresi logistic ordinal sebagai berikut: Response Information Variable AKREDITASI Value 1 2 3 Total Count 11 62 36 109 Logistic Regression Table Predictor Const(1) Const(2) STATUS LAMA BERDIRI JUMLAH SISWA Coef 4.58314 8.33462 -1.85012 -0.0360895 -0.0013871 SE Coef 1.92156 2.08410 1.38024 0.0193924 0.0011274 Z 2.39 4.00 -1.34 -1.86 -1.23 P 0.017 0.000 0.180 0.063 0.219 Odds Ratio 95% CI Lower Upper 0.16 0.96 1.00 http://www.lpmpsulsel.net/v2/index.php?option=com_content&view=article&id=345:regresi-logistikordinal&catid=42:ebuletin&Itemid=215 Artikel E-Buletin edisi Maret 2015 0.01 0.93 1.00 2.35 1.00 1.00 6 JUMLAH GURU DITERIMA DU/DI STATUS TANAH UNAS -0.0384253 0.0021090 -0.511582 -0.228404 0.0190664 0.0057966 0.686322 0.0883552 -2.02 0.36 -0.75 -2.59 0.044 0.716 0.456 0.010 0.96 1.00 0.60 0.80 0.93 0.99 0.16 0.67 1.00 1.01 2.30 0.95 Log-Likelihood = -81.743 Test that all slopes are zero: G = 36.695, DF = 7, P-Value = 0.000 Goodness-of-Fit Tests Method Pearson Deviance Chi-Square 174.063 163.487 DF 209 209 P 0.963 0.991 Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Concordant Discordant Ties Total Number 2628 675 7 3310 Percent 79.4 20.4 0.2 100.0 Summary Measures Somers' D Goodman-Kruskal Gamma Kendall's Tau-a 0.59 0.59 0.33 Model regresi logistik ordinal yang terbentuk pada fungsi klasifikasi akreditasi SMK di Jawa Timur adalah: Logit P(Y≤1| X) = 4,58314 – 1,85012 Status sekolah – 0,0360895 Lama berdiri sekolah – 0,0013871 Jumlah siswa – 0,0384253 Jumlah guru + 0,0021090 Jumlah alumni yang diterima didunia usaha dan industri – 0,511582 Status tanah dan bangunan - 0,228404 Nilai rata-rata jumlah nilai ujian nasional sekolah setahun terakhir. Logit P(Y≤2| X) = 8,33462 – 1,85012 Status sekolah – 0,0360895 Lama berdiri sekolah – 0,0013871 Jumlah siswa – 0,0384253 Jumlah guru + 0,0021090 Jumlah alumni yang diterima didunia usaha dan industri – 0,511582 Status tanah dan bangunan - 0,228404 Nilai rata-rata jumlah nilai ujian nasional sekolah setahun terakhir. Nilai koefisien variabel prediktor kedua fungsi klasifikasi di atas mempunyai nilai yang sama tetapi untuk konstanta mempunyai nilai yang berbeda. Nilai konstanta tersebut merupakan cut point yang akan menjadi pembeda dari kedua fungsi klasifikasi dan dipergunakan untuk klasifikasi. http://www.lpmpsulsel.net/v2/index.php?option=com_content&view=article&id=345:regresi-logistikordinal&catid=42:ebuletin&Itemid=215 Artikel E-Buletin edisi Maret 2015 7 Dari pengujian secara serentak dapat diketahu bahwa p-value = 0,000 sehingga model adalah signifikan pada α = 0,1. Sedangkan pengujian secara individu dapat diketahui bahwa konstanta 1 dan 2 adalah signifikan dalam model dengan α = 0,1. Sedangkan variabel yang signifikan adalah lama berdiri sekolah, jumlah guru, serta nilai rata-rata jumlah nilai ujian nasional sekolah setahun terakhir. http://www.lpmpsulsel.net/v2/index.php?option=com_content&view=article&id=345:regresi-logistikordinal&catid=42:ebuletin&Itemid=215 Artikel E-Buletin edisi Maret 2015 8 IV. Daftar Pustaka Agresti, A., (1990), Categorical Data Analysis, John Wiley & Sons, Inc., New York. Antonov, A., (2004), ‘Performance of Modern Techniques for Rating Model Design’, Master Thesis, Zürich. Hosmer, D. W., dan Lemeshow, S., (2000), Applied Logistic Regression, John Wiley & Sons, Inc., New York. Tim Sekretariat Negara RI (2005), Peraturan Pemerintah Tentang Standar Nasional Pendidikan, Sekretariat Negara RI, Jakarta. Wibowo, W., (2002), ‘Perbandingan Hasil Klasifikasi Analisis Diskriminan dan Regresi Logistik Pada Pengklasifikasian Data Respon Biner’, KAPPA Vol. 3, No.1, hal 36-45. http://www.lpmpsulsel.net/v2/index.php?option=com_content&view=article&id=345:regresi-logistikordinal&catid=42:ebuletin&Itemid=215 Artikel E-Buletin edisi Maret 2015 9