TUGAS KELOMPOK DIGITAL FORENSIK SUMMARY CHAPTER 2 : THEOREMS, TRUISM, AND LITTLE TRIVIA Oleh : SUTRISNO HEINDRIKA EKA PRAMUDITA PROGRAM STUDI MAGISTER AKUNTANSI FAKULTAS EKONOMI & BISNIS UNIVERSITAS TRUNOJOYO MADURA 2019 RANGKUMAN CHAPTER 2 TEORI, KEBENARAN DAN SEDIKIT HAL SEPELE (THEOREMS, TRUISMS, AND LITTLE TRIVIA) Goudsmit (1977) memberikan sedikit wawasan menarik tentang Hukum Benford ini. Dia mencatat bahwa makalah yang dimulai pada halaman 573 adalah makalah fisika penting oleh Bethe, Rose, dan Smith. Fisikawan membaca kertas Bethe melihat halaman terakhir artikel Benford dan mungkin tertarik dengan kalimat terakhir, yang menyatakan: "dan memainkan angka merupakan bagian yang buruk dari simbol tak bernyawa untuk makhluk hidup." Bab ini mengulas beberapa teorema penting, menyangkal dan menggunakan fakta fakta penting untuk hukum benford sebagai analisis data atau teknik analitik forensik. Teorema terpenting adalah teorema invarian skala pinkham. Teorema penting lainnya berhubungan dengan perkalian berulang dengan konstanta. Beberapa teorema yang lebih baru disimpan untuk Bab 5, di mana mereka digunakan dalam tes lanjutan yang berkaitan dengan Hukum Benford. Potongan-potongan trivia terutama terkait dengan cara-cara di mana beberapa orang telah mencoba membuktikan Hukum Benford. Bab ini mencakup beberapa contoh lagi karena sejauh ini kami hanya melihat satu set data yang sangat dekat (populasi kota dan kota). Bab ini dimulai dengan analisis pembayaran perusahaan dan data terkait sebuah danau sebagai contoh dari dua set data yang tidak sesuai. DIGIT DATA PEMBAYARAN PERUSAHAAN Data terdiri dari pembayaran 2010 sebua devisi perusahaan utilitas pantai barat. Faktur arang da jasa yang diterima dari vendor misalnya perusahaan kemungkinan melakukan perbaikan pada kendaraan sebesar $ 1,103.64 dan perusahaan perbaikan akan mengirimkan faktur untuk jumlah ke departemen hutang. Jumlah nya akan dicatat dan dibayar kecuali jika ada koreksi atau kredit jatu tempo. . Jika (katakanlah) salah satu item pada tagihan (sebesar $ 250,00) seharusnya merupakan perbaikan garansi, akan ada memo kredit sebesar $ 250,00 dan hanya jumlah bersih $ 853,64 yang akan dibayarkan dengan cek. Tabel data akan menunjukkan faktur sebesar $ 1,103.64 dan memo kredit sebesar $ 250,00. Profil data ditunjukkan pada Gambar 2.1. Profil data dan histogram biasanya merupakan langkah-langkah awal dalam analisis apa pun dan hadir untuk memberikan kesan kepada analis tentang pengaturan atau distribusi jumlah yang sedang ditinjau. Pemahaman yang lebih baik tentang tata ruang tanah mungkin memberikan beberapa wawasan tentang kemungkinan inefisiensi pemrosesan, kesalahan, angka negatif yang dipertanyakan, dan ukuran strata terbesar.) Profil data diatas berguna untuk memisahkan data menjadi berbagai strata. Berikut strata yang biasa digunakan untu hutang dagang dalam dola AS seperti yang tercantum dalam tabel: 1. Jumlah sama dengan atau lebih besar dari 10.00 2. Jumlah dari 0.01 hingga 9.99 3. Jumlah sama dengan nol 4. Jumlah dari –0.01 hingga –9.99 5. Jumlah yang sama dengan atau lebih kecil dari –10.00 Strata atau kategori ini disebut dengan (1 ) angka positif besar, (2) angka positif kecil, (3) nol, (4) angka negatif kecil, dan (5) angka negatif besar. Templat profil data mencakup dua strata tambahan yang ditunjukkan di bagian bawah Gambar 2.1. Strata tambahan ini dapat mengarahkan auditor ke jumlah dolar rendah yang menggunakan sumber daya berharga untuk memproses pembayaran ini dan ke item bernilai tinggi yang biasanya akan bersifat material. Profil data dibahas lagi di Bab 4. Hasilnya menunjukkan bahwa ada 177.763 faktur yang $ 10 dan lebih tinggi, dan total strata $ 10-dan-lebih tinggi adalah $ 492.913.582,26. Tes Hukum Benford pada jumlah hutang biasanya hanya dijalankan pada jumlah yang $ 10 dan lebih tinggi. Dua digit pertama ditunjukkan pada Gambar 2.2. Grafik pembayaran pada Gambar 2.2 menunjukkan lonjakan besar di 50 dan juga lonjakan besar di 10 dan 11. Lonjakan terjadi di mana proporsi aktual secara signifikan lebih besar dari proporsi yang diharapkan. Statistik yang digunakan untuk menghitung signifikansi ditinjau dalam Bab 7. Kedua paku di 98 dan 99 juga menarik. Ini mungkin tampaknya bukan lonjakan yang sangat besar, tetapi proporsi aktual 0,009 dan 0,008 hampir dua kali lipat proporsi yang diharapkan dari 0,004. Angka 98 dan 99 adalah dua digit angka pertama yang tepat di bawah ambang psikologis 100, 1.000, 10.000, dan seterusnya. Dari sudut pandang investigasi, penting apakah jumlah 98 dan 99 adalah $ 98 dan $ 99 (yang tidak terlalu material) atau $ 9.800 hingga $ 9.999 (yang material). Paku di 90 dan 92 juga penting, tetapi mereka lebih kecil dari tiga paku terbesar dan mereka tidak pada ambang psikologis, membuat mereka kurang penting daripada paku 10, 11, 50, 98, dan 99. Kesimpulannya adalah: (a) data tidak sesuai dengan Hukum Benford, (b) kecenderungan umum Benford (kelebihan dua digit pertama-dua), dan (c) data mencakup lima lonjakan minat. Data pembayaran digunakan lagi di bab-bab selanjutnya. DIGIT DATA DATA DANAU Data tentang danau dan lahan basah diperoleh dari basis data global danau dan lahan basah (GLWD) yang dikembangkan dalam kemitraan dengan Pusat Penelitian Sistem Lingkungan di Universitas Kassel. Basis data ini dijelaskan secara rinci dalam Lehner dan D oll (2004). Versi database yang digunakan untuk analisis ini adalah untuk (a) danau dan waduk besar dan (b) badan air yang lebih kecil (GLWD-1 ditambahkan ke GLWD-2). Tabel data memiliki data untuk 248.613 badan air. Data ini juga dianalisis dalam Nigrini dan Miller (2007). Lehner dan D oll (2004) menggambarkan tabel data dan juga mendiskusikan pentingnya pengetahuan kita tentang badan air. Mereka mengakui masalah dalam mendefinisikan secara tepat apa yang membentuk sebuah danau. Tidak selalu jelas apakah danau yang bersebelahan dengan laut (juga disebut laguna) benar-benar danau, dan perbedaan antara sungai dan danau yang bergerak lambat mungkin ambigu. Juga, mungkin ada kontinum antara danau dan lahan basah. Mereka mendefinisikan danau sebagai badan air tetap permanen (badan air lentic) tanpa koneksi langsung ke laut, tetapi mereka menerima danau dan laguna asin (tetapi bukan daerah laguna) sebagai danau. Mereka juga termasuk reservoir buatan. Tabel data terbatas pada danau dengan luas lebih dari 0,1 km2 (1 hektar). Sebagian besar catatan (99 persen) diklasifikasikan sebagai danau, dan sisanya diklasifikasikan sebagai sungai dan waduk.) Batas danau berkisar dari 1 km hingga 36.641 km. Nilai kuartil pertama dan ketiga masing-masing adalah 4,0 dan 9,3, yang berarti bahwa sekitar setengah dari danau memiliki batas dari 4,0 hingga 9,3 km. Batas-batasnya secara positif miring dan dengan setengah nilai mulai dari 4 hingga 9,3, kita seharusnya tidak mengharapkan data sesuai dengan Hukum Benford. Profil data tepi danau ditunjukkan pada Gambar 2.3. Profil data tepi danau menunjukkan bahwa sekitar tiga perempat dari jumlah tersebut berada dalam kisaran positif kecil (kurang dari 10). Profil data juga menunjukkan bahwa tidak ada danau dengan nol perimeter (seperti yang diharapkan) dan juga tidak ada danau dengan batas negatif (juga seperti yang diharapkan). Total perimeter (3,6 juta km) menunjukkan bahwa ada banyak rekaman tepi danau di dunia. Baris terakhir di profil data menunjukkan bahwa ada 248.607 catatan. Database memiliki 248.613 catatan, dan ada enam danau dengan data perimeter yang hilang. Kelalaian ini tidak akan memengaruhi hasil dua digit pertama. Dua digit pertama dari tepi danau ditunjukkan pada Gambar 2.4. Pola digit data perimeter danau pada Gambar 2.4 tidak sesuai dengan Hukum Benford, dan tampaknya ada diskontinuitas dalam data. Perbedaan untuk angka 10 hingga 30 adalah negatif. Setelah itu kita mendapatkan lonjakan besar di 31, dan ukuran lonjakan menurun cukup lancar hingga 99. Proporsi yang sebenarnya menurun (seperti yang diharapkan) dari 10 hingga 30 dan lagi dari 31 hingga 99, tetapi fungsi tersebut memiliki diskontinuitas dengan lompatan ke atas utama pada 31. Grafik adalah contoh dari apa yang akan kita temukan jika kita menganalisis tabel perimeter yang sama dengan atau lebih besar dari 3,0. Angka-angka perimeter dianalisis, dan distribusi perimeter ditunjukkan dalam histogram pada Gambar 2.5. Dari histogram ini, tampaknya data dimulai dengan danau yang 3,0 km atau lebih besar, dan rentang 3,0 hingga 4,9 km mendominasi data. Faktanya, 37,33 persen dari semua danau memiliki batas dari 3,0 hingga 4,9 km. Ada sekitar 9.000 danau dengan batas kurang dari 3.0, dan jumlah ini kecil dibandingkan dengan jumlah catatan. Pola non-Benford pada Gambar 2.4 adalah karena data memiliki titik awal yang bukan kekuatan bilangan bulat dari 10. Dari hasil ini kami tidak dapat menarik kesimpulan tentang Hukum Benford dan data alami secara umum. Alasan yang mungkin untuk ketidaksesuaian bisa berupa definisi danau yang agak terbuka. Tidak begitu jelas seberapa besar kolam sudah bisa disebut danau. Lehner dan D oll (2004) tampaknya memasukkan sampel danau di dunia. Ilmuwan lain, Meybeck, memperkirakan ada 8 juta danau lebih besar dari 1 hektar. Danau bundar 1 hektar cukup kecil; ia memiliki diameter sekitar 113 meter. Tabel data GLWD memiliki total 250.000 catatan. Alasan lain untuk jumlah besar danau 3,0 hingga 5,9 km adalah bahwa medan bumi di lingkungan Finlandia dan Rusia barat kondusif bagi ribuan danau dengan batas antara 3,0 dan 5,9 km. Bisa juga bahwa perimeter bukanlah ukuran yang benar dari ukuran danau. Satu danau bisa berbentuk seperti pensil (dengan panjang panjang dan lebar sempit) sedangkan danau lain dengan panjang perimeter yang sama bisa berbentuk lingkaran. Kedua danau ini akan memiliki area permukaan yang sangat berbeda dan kedalaman yang mungkin berbeda. Pola digit menunjukkan bahwa kita memiliki sampel nonrandom dari danau yang lebih besar di dunia dan bahwa kita juga tidak yakin dengan definisi danau atau ukuran ukuran danau. TEORI INVESTASI BERKALA Dalam kertas kerja Pinkham tahun 1961 dan makalah Hill's tahun 1995 ada dua kemajuan paling signifikan pada sisi matematika Hukum Benford sejak makalah asli Benford. Pinkham (1961) menyatakan sebagai premis bahwa jika memang ada beberapa hukum yang mengatur distribusi digital, undang-undang ini harus berskala invarian. Jadi, jika area pulau di dunia atau panjang sungai di dunia mengikuti semacam hukum, itu tidak penting jika angka-angka ini dinyatakan dalam (persegi) mil atau (persegi) kilometer. Pinkham menunjukkan bahwa Hukum Benford adalah skala invarian di bawah penggandaan. Artinya jika semua angka dalam bidang hukum benford yang sesuai dikalikan dengan konstanta (bukan nol). Pinkham juga menunjukkan bahwa hanya frekuensi Hukum Benford yang tidak berubah di bawah multiplikasi. Jadi jika daftar angka memiliki frekuensi digit selain dari Hukum Benford, perkalian dengan konstanta akan menghasilkan frekuensi digital yang berbeda. Tampaknya logis bahwa semakin dekat kesesuaian sebelum perkalian (terlepas dari konstanta), semakin dekat kesesuaian setelah penggandaan. Hasil dari tabel data kecil dari 20 catatan ditunjukkan pada Gambar 2.6. Kolom B pada Gambar 2.6 memberikan mantra (yang sama dengan log) dari Benford Set sintetis dengan 20 catatan. Rumus untuk setiap log di Kolom B diberikan dalam Persamaan 2.1 dibawah ini di mana BS menunjukkan elemen dari Benford Set, n menunjukkan istilah ke-n, Rank menunjukkan Peringkat dari 1 hingga N, dan N adalah jumlah catatan. Dalam Kolom B pada Gambar 2.6, kolom. Bidang pertama yang dihitung pada Gambar 2.6 adalah Peringkat. Kemudian distribusi seragam mantra dimasukkan di Kolom B, dan kemudian Bilangan dihitung di Kolom C. Bilangan hampir sedekat menjadi Benford Set sebanyak mungkin dengan 20 catatan. Persentase digit 1 adalah 30 persen, persentase digit 2 adalah 20 persen, dan persentase digit 3 adalah 10 persen. Persentase kemudian turun untuk digit yang lebih tinggi serta dimungkinkan hanya dengan 20 catatan. Uji invarian skala pertama menggunakan Kolom E dan Nomor 2 di mana semua Angka dikalikan dengan 2. Di sini angka 1 persentase lagi 30 persen, angka 2 persentase lagi 20 persen, dan angka 3 persentase lagi 10 persen. Persentase kemudian turun untuk angka yang lebih tinggi. Mantera (bagian fraksional) dari log didistribusikan secara seragam. Mantera terkecil di Kolom D adalah 0,026 (Baris 16), dan mantisa meningkat 0,05 hingga 0,976. Di Kolom B, mantisa asli dimulai pada 0,025 (Baris 2) dan meningkat 0,05 hingga 0,975. Uji invarian skala kedua menggunakan Kolom G dan Nomor 7, di mana Angka semuanya dikalikan dengan 7. Di sini angka 1 persentase lagi 30 persen, angka 2 persentase lagi 20 persen, dan angka 3 persentase lagi 10 persen . Persentase kemudian turun untuk angka yang lebih tinggi. Mantra dari log didistribusikan secara seragam. Mantera terkecil di Kolom F adalah 0,020 (Baris 5), dan mantisa bertambah 0,05 hingga 0,970. Sekali lagi ini sangat mirip dengan pola Kolom B meskipun angka-angka telah dikalikan dengan 7. Tes invarian skala ketiga menggunakan Kolom I pada Nomor 1/2, di mana Angka-angka semuanya dikalikan dengan setengah (yang merupakan konstanta itu kurang dari 1). Persentase digit sekali lagi tidak berubah dari persentase digit asli karena penurunannya adalah yang paling cocok yang dimungkinkan dengan hanya 20 catatan. Mantra dari log didistribusikan secara seragam. Namun, tampaknya mantissa terbesar di Kolom H adalah 0,674 (Baris 21). Mantera terkecil adalah 0,024 (Baris 8), dan mantisa bertambah 0,05 hingga 0,674 di Baris 21. Tampaknya, kami memiliki mantisa dari 0,026 hingga 0,276 di Baris 2 hingga 7. Angka pertama di Kolom 1 (Baris 2) adalah 0,53. Log dari 53, 5.3, dan 0.53 diberikan dalam Persamaan 2.3. Persamaan 2.3 menunjukkan bahwa log 5.3 adalah 0.724. Mantera 0,724 menentukan digit angka (53), dan karakteristik 0 menunjukkan bahwa angka tersebut lebih besar dari 1 tetapi kurang dari 10, yang berlaku untuk 5,30. Karakteristik 1 pada baris pertama menunjukkan bahwa angka tersebut terletak pada interval 10 hingga 99,99999. Cara yang benar untuk menulis log 0,53 ditunjukkan pada baris ketiga. Bilah di atas angka 1 menunjukkan bahwa karakteristiknya adalah –1 (artinya daripada angka tersebut dalam kisaran 0,1 hingga 0,99999), dan mantissa 0,724 memberi kita angka (53 dalam kasus ini). Excel menjaring karakteristik dan mantra saling bertentangan, dan –1 ditambah 0,724 menjadi –0,276. Ini memberi kesan bahwa mantissa adalah 0,276 ketika itu benar-benar 0,724. Mantera yang benar untuk Baris 2 hingga 7 adalah 0,724, 0,774, 0,824, 0,824, 0,924, dan 0,974, yang membuat mantisa Kolom H terdistribusi secara seragam dan sangat dekat dengan rangkaian manta asli. Hasil Gambar 2.6 bersifat universal karena jika angka dalam Kolom C dikalikan dengan konstanta bukan nol, hasil kami akan menjadi Benford Set dan mantisa dari angka-angka itu akan didistribusikan secara seragam. Hasil kami akan "membaik" karena N, jumlah catatan, meningkat. Jika konstanta kita hanya sedikit lebih besar dari 1 (mungkin 1,001), pola digit hanya akan sedikit terganggu. Juga, jika konstanta kita hanya sedikit kurang dari 1 (mungkin 0,999), pola digit juga hanya akan sedikit terganggu. Jika konstanta adalah 10 (atau kekuatan bilangan bulat lainnya dari 10, seperti 102 atau 10-1), pola digit akan tidak berubah. Ini sama dengan menambahkan (katakanlah) 2 atau mengurangi (katakanlah) 1 dari setiap log. MEAN DEVIASI MUTLAK MAD adalah ukuran kesesuaian dengan Hukum Benford yang mengabaikan jumlah rekaman, N. MAD dihitung menggunakan Persamaan 2.4. Minitab menghitung MAD dan dua ukuran akurasi lainnya untuk analisis deret waktu. Karena MAD mengukur akurasi dalam unit yang sama dengan data (dalam kasus kami proporsinya), lebih mudah untuk memahami ukuran ini. Pembilang dalam Persamaan 2.4 juga meminta kita untuk menjumlahkan 90 penyimpangan absolut dua digit pertama. Penyebutnya memberitahu kita untuk membagi dengan jumlah sampah, yaitu 90. Ini akan memberi kita rata-rata (atau rata-rata) penyimpangan absolut. Karenanya, MAD adalah penyimpangan rata-rata antara ketinggian batang dan garis Benford dalam grafik dua digit pertama (mis., Gambar 2.2, 2.4, dan 2.7). Semakin tinggi MAD, semakin besar perbedaan rata-rata antara proporsi aktual dan yang diharapkan. MAD dapat membandingkan kesesuaian dua set data. Data dengan MAD terendah memiliki kesesuaian paling dekat dengan Hukum Benford. INVESTASI SKALA DAN SENSUS DATA Jumlah penduduk kota tahun 2009 dianalisis dalam Bab 1. Gambar 1.3. Hasil dari populasi kali p ditunjukkan pada Gambar 2.7. Angka ini menunjukkan bahwa jumlah populasi baru juga sesuai dengan Hukum Benford. Bayangkan sebuah situasi di mana jari kecil tangan kiri rata-rata orang adalah π. MAD dari angka-angka lama (dianalisis pada Bab 1) adalah 0,00061, dan MAD dari angka-angka baru (ditunjukkan pada Gambar 2.7) adalah 0,00067. Perbedaan antara kedua MAD adalah kecil dan tidak memiliki arti praktis. Hasil mendukung teorema skala invarian. Kota asli dan data kota memiliki kesesuaian dekat dengan Hukum Benford, seperti halnya data kota dan kota setelah penggandaan dengan konstanta. Dari perspektif integritas data atau penipuan, ini berarti bahwa tes dua digit pertama tidak dapat mendeteksi kasus di mana semua angka telah dikalikan dengan konstanta. Jika setiap nomor sensus dikempiskan oleh (katakanlah) 4 persen dengan mengalikannya dengan 0,96, data akan sesuai dengan Hukum Benford sebelum dan sesudah manipulasi. INVESTASI SKALA DAN PEMBAYARAN PERUSAHAAN Gambar 2.2 menunjukkan hasil dari set data faktur perusahaan. Sebagai uji invarian skala, setiap angka dikalikan dengan p dan kemudian dibulatkan ke dua tempat desimal. Kita dapat mengasumsikan (hanya untuk latihan ini) bahwa perusahaan induk berdomisili di Malaysia dan ingin menganalisis pembayaran dalam mata uang lokalnya, ringgit Malaysia (MYR). Kami juga akan berpura-pura bahwa nilai tukar persis sama dengan p (1 USD sama dengan 3,14159 MYR). Hasil tes digit pada jumlah yang lebih besar dari 10 USD (atau 31,42 MYR) ditunjukkan pada Gambar 2.8. Data yang diubah juga tidak sesuai dengan Hukum Benford, tetapi kecenderungan Benford yang pasti (lebih banyak digit rendah dan lebih sedikit digit tinggi) ada. Ada lonjakan, pada 15, 31, 36, 47, 62, 78, dan 94. Lonjakan pada 15 ini terutama disebabkan oleh jumlah 50 USD yang dikonversi menjadi 157,08 MYR. Lonjakan pada 36 terutama disebabkan oleh jumlah 1.153,35 USD yang dikonversi menjadi 3.623,35 MYR. Jumlah 50 USD dan 1.153,35 USD adalah penyebab utama paku asli pada 50 dan 11. Masing-masing paku asli (pada 10, 11, 50, 90, 92, 98, dan 99) disebabkan oleh angka-angka tertentu yang terjadi secara tidak normal sering; angka-angka ini sekarang menjadi penyebab tujuh lonjakan baru di tempat lain dalam grafik. Sangat menarik bahwa meskipun angka sekarang mulai pada 31,42 MYR (10 USD kali 3,14159 dibulatkan ke dua tempat desimal), ini tidak mempengaruhi grafik dengan cara yang sama seperti 3 km mempengaruhi grafik perimeter danau. MAD untuk data asli adalah 0,00243, yang menandakan ketidaksesuaian. MAD untuk data MYR adalah 0,00259, dan sekali lagi tidak ada perbedaan yang signifikan antara MAD sebelum dan sesudah. Hasil menunjukkan bahwa lonjakan dalam data asli akan menjadi lonjakan dalam data baru. Posisi paku baru tergantung pada konstanta perkalian. INVESTASI SKALA DAN DATA DANAU Gambar 2.4 menunjukkan hasil digit dari tabel tepi danau. Menyambung pada bidang data yang digunakan untuk analisis Gambar 2.9 memiliki jumlah rekaman yang sama (248.607 catatan) seperti bidang data asli. Data yang diubah tidak sesuai dengan Hukum Benford, dan situasi aneh proporsi aktual tidak teratur (pola naik-turun) terbukti dari sekitar 60 ke atas. Titik penting pertama adalah bahwa skala sumbu y berbeda antara Gambar 2.4 dan Gambar 2.9. Perbandingan kedua grafik harus memperhitungkan hal ini. Lonjakan pada angka 97 pada Gambar 2.9 disebabkan oleh jumlah 3,1 km yang ditransformasikan menjadi 9,74. Proporsi aktual sekitar 0,025 dalam setiap kasus. Lonjakan di 11 membutuhkan beberapa wawasan dari data asli. Angka 11 berasal dari kombinasi 3,5 yang ditransformasikan menjadi 11 (melalui pembulatan ke atas), 3,6 ditransformasikan menjadi 11,31, 3,7 ditransformasikan menjadi 11,62, dan 3,8 ditransformasikan menjadi 11,94. Empat paku yang berdekatan (35, 36, 37, dan 38) pada grafik asli, yang semuanya sama dengan sekitar 0,0225, bersekongkol dan bersama-sama membentuk satu paku besar 0,09 pada grafik yang diubah. Lonjakan pada 12 disebabkan oleh lonjakan sebelumnya di 39, 40, dan 41. Dalam hal ini lonjakan tetangga bersekongkol dan membentuk satu lonjakan besar pada grafik yang diubah. Kita juga dapat melihat bahwa ada lebih sedikit lonjakan besar pada grafik baru (10 hingga 21, dan 94 dan 97), yang berarti bahwa beberapa lonjakan pada grafik asli (31 hingga 64) digabungkan untuk membentuk loncatan super. MAD untuk data asli adalah 0,00601, yang menandakan ketidaksesuaian ekstrim. MAD untuk data pimeter baru adalah 0,00632, dan sekali lagi tidak ada banyak perbedaan antara kedua MAD. Lonjakan yang berdekatan di data asli bergabung untuk membuat beberapa loncatan super pada data baru. Posisi paku baru adalah fungsi dari konstanta perkalian. Dalam hal ini tidak begitu mudah untuk melihat bahwa data memiliki nilai minimum bukan nol karena nilai tersebut adalah sekitar 10, dan analisis Benford biasanya tidak dipengaruhi oleh nilai minimum yang merupakan kekuatan bilangan bulat 10 (atau nol). MAD praktis tidak berubah dalam ketiga kasus meskipun mantissa diubah oleh (hampir) nilai maksimum yang mungkin. Hasil kota dan kota, hutang, dan data danau memberi kita Teorema 1 yang dikaitkan dengan Pinkham (1961): Teorema 1. Jika angka x1, x2, x3, ..., xN dalam bidang data sesuai dengan Hukum Benford's , setiap bidang baru yang dibentuk dengan mengalikan nilai xi dengan konstanta bukan nol c juga akan sesuai dengan Hukum Benford. TINGKAT PERMAINAN DILAPANGAN AKIBAT BENFORDS Distribusi seragam adalah apa yang dapat kita harapkan dari angka tanpa adanya Hukum Benford. Ini juga disebut noninformatif kami sebelum ketika kami menggunakan pendekatan Bayesian ketika tidak ada (atau minimal) informasi sebelumnya tersedia. Meskipun distribusi seragam bukan yang paling cocok untuk Benford, itu adalah yang mungkin diharapkan oleh kebanyakan orang yang tidak terbiasa dengan Hukum Benford. Mereka akan mengasumsikan bahwa digit-digit itu sama-sama berpeluang sama dan bahwa 10 sama besar kemungkinannya dengan dua digit pertama dan 99. Dengan 90 kemungkinan pertama-dua digit, harapannya adalah bahwa proporsi aktualnya adalah 1/90 dari 10. hingga 99. Kesesuaian terburuk dari data akan terjadi jika semua angka hanya terdiri dari angka 9. Ini akan terjadi ketika signifikansi semua angka kami sama dengan 9,99999 dengan angka 9 berulang. Signifikansi didefinisikan dalam Persamaan 1.10. Kasus ekstrem ini ditunjukkan dalam format persamaan dalam Persamaan 2.5. Kecocokan terburuk dengan Hukum Benford jika semua signifikansi = 101-ε (2.5) di mana epsilon (ε) digunakan karena digunakan dalam batas untuk menunjukkan kuantitas positif yang sangat kecil. Setiap angka dengan signifikansi sama dengan yang ditunjukkan pada Persamaan 2.5 akan menjadi angka yang terdiri dari angka 9 berulang. Bidang data angka yang terdiri dari angka 9 berulang akan menjadi kecocokan terburuk menurut Hukum Benford. Garis solid pada Gambar 2.10 menunjukkan mantra teratur dari bidang data angka yang didistribusikan secara seragam (merata) pada rentang [1,10). Dua digit pertama dari data ini akan didistribusikan secara merata dari 10 hingga 99. Setiap proporsi aktual akan sama dengan 0,1111 (1/90) karena 1/90 dari angka akan memiliki dua digit pertama dari 10, 1/90 dari angka-angka tersebut. akan memiliki dua digit pertama dari 11, dan seterusnya hingga 99. MAD 0,00600 akan menandakan ketidaksesuaian. pada Gambar 2.11. Rumus Excel yang digunakan untuk setiap sel dalam B2: H25001 ditampilkan di bawah ini: Rumus RAND () 9 membuat angka acak dalam kisaran [0,9). Rumus dalam B2: B25001 dikonversi ke nilai menggunakan Home –Clipboard - Salin diikuti oleh Home - Clipboard - Tempel - Tempel Nilai. Angka-angka ditampilkan ke empat tempat desimal, tetapi nilai-nilai asli yang mengelilingi tidak digunakan untuk perhitungan. Pola digit dari 20 produk pertama tidak begitu dekat dengan Benford, tetapi ini adalah sampel acak dari hanya 20 catatan. Pola mantisa berperingkat untuk bidang pertama (Kolom B) ditunjukkan pada Gambar 2.10. Fungsi cekung ke bawah (kurva terletak di bawah garis singgung). Jalur memori kalkulus yang berjalan cepat akan mengingatkan kita bahwa suatu fungsi cekung ke bawah jika fn (x) <0 untuk semua x dalam suatu interval. Karena data menjadi lebih Benford maka grafik mantisa akan cenderung ke arah garis lurus dari titik asal (0,0) hingga (25000,1). Sekali lagi, dalam istilah kalkulus, turunan kedua akan cenderung ke nol, atau fn (x) - 0. Hasil B x C, dan B x C x D ditunjukkan pada Gambar 2.12. Tabel 2.1 menunjukkan bahwa ada peningkatan dramatis (reduksi) pada MAD setelah iterasi pertama (B x C). Namun, setelah MAD mencapai 0,0051 (setelah hanya empat iterasi), itu stabil dan tidak ada peningkatan yang terlihat dengan iterasi tambahan. Ini mungkin karena generator angka acak tidak sempurna, dan selalu ada sedikit bias yang tersisa setelah penggandaan. MAD untuk iterasi 4 hingga 7 menunjukkan bahwa ada kesesuaian data yang dekat dengan Hukum Benford. Dua digit pertama setelah iterasi ketujuh ditunjukkan pada Gambar 2.13, hasil dari mengalikan tujuh variabel acak. Teorema 2 dikaitkan dengan Adhikari dan Sarkar (1968), dan menyatakan bahwa jika kita mengalikan variabel acak yang terdistribusi secara seragam, karena jumlah perkalian meningkat, maka tabel akan cenderung menjadi Benford Set. Teorema berikutnya adalah sedikit pengalihan sebelum kita kembali ke perkalian berturut-turut. MULTIPLIKASI OLEH 1 / X Teorema berikutnya juga dikaitkan dengan Adhikari dan Sarkar (1968), dan itu berkaitan dengan mengalikan semua angka X dalam bidang data dengan 1 / X. Teorema adalah: Teorema 3. Jika satu set angka x1, x2, x3, ..., xN sesuai dengan Hukum Benford, demikian juga set angka yang dibentuk oleh 1 / X atau c / X di mana c> 0.) Hasil pada Gambar 2.14 menunjukkan bahwa angka-angka dari angka 1 / X juga sesuai dengan Hukum Benford, yang seperti yang diharapkan dalam Teorema 3. Teorema ini mungkin berguna ketika menganalisis angka yang sangat kecil di mana mungkin sulit untuk menghitung angka pertama karena penggunaan aritmatika floating-point di komputer. Dengan transformasi 1 / X, angka kecil ini akan diubah menjadi angka besar. Jika hasil dari angka besar adalah Benford, ini menyiratkan bahwa angka kecil aslinya juga Benford. SEMUA DISTRIBUSI MENUJU BENFORD Prosedur simulasi adalah untuk menghasilkan 25.000 catatan dari berbagai dan beragam distribusi. Distribusi dan parameter yang dipilih ditunjukkan pada Tabel 2.2. Enam distribusi simulasi dibuat di Minitab. Hasilnya kemudian diekspor ke Excel, di mana produk dari enam angka dihitung. Nilai absolut dari produk diambil, dan hasilnya dibulatkan menjadi tiga tempat desimal. Pembulatan tidak mungkin mempengaruhi dua digit pertama. Profil data dari 25.000 produk ditunjukkan pada Gambar 2.16. Profil data pada Gambar 2.16 menunjukkan bahwa sembilan angka sama dengan nol. Ini karena distribusi Poisson yang disimulasikan menghasilkan sembilan nol. Ini meninggalkan 24.991 angka yang valid. Jumlah rata-rata sekitar 865. Ada 334 jumlah lebih besar dari 5.000. Data condong positif dengan ukuran kemiringan 3,65. Hasilnya ditunjukkan pada Gambar 2.17 Hasil pada Gambar 2.17 menunjukkan kesesuaian yang dekat dengan Hukum Benford. MAD 0,00053 tampaknya hampir mendekati nol seperti yang bisa kita dapatkan dengan angka yang dihasilkan komputer dan bidang data dengan 25.000 catatan. Semua distribusi kecuali untuk distribusi Poisson kontinu. Distribusi Poisson terdiri dari 21 bilangan bulat dari 0 hingga 20 inklusif. Kumpulan data berlaku dibuat dengan mengalikan Set data yang berlaku dibuat dengan mengalikan angka-angka dari lima distribusi kontinu dan kemudian membentuk 21 subset dan mengalikan setiap subset dengan konstanta. Hasilnya adalah Benford Set yang nyaris sempurna. Teorema 4. Jika himpunan angka x1, x2, x3, ..., xN adalah variabel acak kontinu independen dengan kepadatan f1, f2, f3, ..., fN, seperti N - ᵆ, untuk banyak pilihan kepadatan, maka distribusi produk menyatu dengan Hukum Benford. Oleh karena itu, tampaknya Hukum Benford mirip dengan teorema batas pusat untuk produk. Pengecualian terhadap aturan dapat ditemukan, tetapi aturan umumnya adalah bahwa produkproduk nomor bertemu dengan Hukum Benford. MENDAPATKAN GRIPF PADA BENFORD DAN ZIPF Langkah-langkah persiapan data yang ditunjukkan pada Gambar 2.18 dimulai dengan menyortir nilai numerik dari yang terbesar ke yang terkecil (menurun). Frekuensi relatif yang dinormalisasi ditunjukkan pada Kolom C. Kami mengharapkan nilai populasi kedua, ketiga, dan keempat kira-kira sebanding dengan 1/2, 1/3, 1/4, dan seterusnya hingga ke 1 / N. Kolom D dan E adalah nilai-nilai yang digambarkan. Nilai-nilai ini adalah log dari Pangkat dan log dari angka Populasi. Kita dapat melihat bahwa kita akan memiliki masalah Zipf bahkan sebelum menyiapkan grafik. Ada 19.509 catatan. Ini berarti bahwa rekor terkecil diharapkan menjadi 430 ((1/19509) 8391881). Ukuran populasi terkecil adalah 1. 1.000 catatan terakhir semuanya di bawah 100, dan 3.000 catatan terakhir semuanya di bawah 225 (yaitu sekitar setengah dari 430). Grafik log dari jajaran dan jumlah populasi untuk 80 persen pertama dari jumlah populasi ditunjukkan pada Gambar 2.19. Jika data sesuai dengan Hukum Zipf, kami akan memiliki garis lurus dari y = 7 ke x = 4.3. Nilai untuk y adalah log dari nilai populasi terbesar; nilai untuk x adalah log dari jumlah rekaman, N. Kemiringan akan –7 / 4.3 (sekitar –1.62), dan intersep akan menjadi 7. Persamaan garis lurus yang diharapkan ditunjukkan pada Persamaan 2.7 y = 1,62x + 7 (2.7) jumlah penduduk kota dan kota dan untuk memaksa mereka mengikuti Hukum Zipf sambil tetap memberi mereka kesempatan untuk menyesuaikan diri dengan Hukum Benford. Ekstrak dari tabel Excel ditunjukkan pada Gambar 2.22. Titik awal pada Gambar 2.22 adalah populasi 10 juta orang. Angka ini adalah kekuatan integer 10 (107). Peringkat dimulai pada 1 dan menuju ke N yang dalam hal ini 10.000. Kolom yang tersisa cukup jelas. Dua digit pertama dalam (Kolom F diformat sebagai mata uang untuk menghindari kemungkinan kesalahan aritmatika floating-point. Pada N sama dengan 10.000, Kolom B adalah 0,0001 dan jumlah populasi yang disimulasikan adalah 1.000 (10 juta kali 0,0001). Ini berarti bahwa perbedaan antara log batas bawah (103) dan batas atas (107) adalah nilai integer (4), dan kami setidaknya memiliki peluang olahraga dari data yang sesuai dengan Hukum Benford. Digit ditunjukkan pada Gambar 2.23. Proporsi digit pada Gambar 2.23 menunjukkan pola penurunan yang halus seperti proporsi yang diharapkan dari Hukum Benford. Data Zipf bahkan memiliki bias yang lebih besar terhadap digit yang lebih rendah dan jauh dari digit yang lebih tinggi. MAD 0,006 menandakan ketidaksesuaian. KESIMPULAN Teorema penting yang terkait dengan Hukum Benford adalah teorema invarians skala Pinkham. Teorema menyatakan bahwa kumpulan data angka yang sesuai dengan Hukum Benford masih akan sesuai dengan Hukum Benford jika setiap angka dikalikan dengan konstanta. Dari perspektif pendeteksian kecurangan atau kesalahan, teorema ini berarti bahwa kecurangan yang mengalikan setiap angka dengan konstanta tidak akan dapat dideteksi menggunakan uji dua digit standar pertama. Data perusahaan dan data danau menunjukkan bahwa data yang tidak sesuai dengan Hukum Benford pada awalnya juga tidak akan sesuai dengan Hukum Benford setelah penggandaan dengan konstanta. Set data yang sesuai tidak dapat dibentuk dengan mengalikan elemen tabel data yang tidak sesuai dengan konstanta. Penggandaan nomor yang terdistribusi secara berurutan menghasilkan Benford Set. Hasil penggandaan data dari distribusi yang berbeda juga memberi kami Benford Set. Karena itu kita harus mengharapkan angka dunia nyata yang merupakan hasil dari perkalian agar sesuai dengan Hukum Benford. Contohnya termasuk nilai inventaris di mana jumlah individu diperoleh dengan mengalikan biaya dengan kuantitas yang ada. Contoh lain akan mencakup nilai pasar perusahaan yang dihitung dengan mengalikan harga saham dengan jumlah saham yang beredar. Hukum Zipf terkait dengan berapa kali berbagai kata digunakan dalam dokumen. Rumus yang mendasarinya dapat disesuaikan dengan jumlah populasi dan tabulasi semacam itu. Data yang sesuai dengan Hukum Benford tidak akan sesuai dengan Hukum Zipf dan sebaliknya. Tentu saja sangat mungkin bahwa kumpulan data tidak sesuai dengan Benford atau Zipf. Bab ini menunjukkan cara mensimulasikan angka dan mungkin mengujinya terhadap aturan atau prinsip lain, seperti prinsip Pareto (juga dikenal sebagai aturan 80/20).