Uploaded by User55693

RANGKUMAN CHAPTER 2

advertisement
TUGAS KELOMPOK
DIGITAL FORENSIK
SUMMARY CHAPTER 2 : THEOREMS, TRUISM, AND LITTLE TRIVIA
Oleh :
SUTRISNO
HEINDRIKA EKA PRAMUDITA
PROGRAM STUDI MAGISTER AKUNTANSI
FAKULTAS EKONOMI & BISNIS
UNIVERSITAS TRUNOJOYO MADURA
2019
RANGKUMAN
CHAPTER 2
TEORI, KEBENARAN DAN SEDIKIT HAL SEPELE
(THEOREMS, TRUISMS, AND LITTLE TRIVIA)
Goudsmit (1977) memberikan sedikit wawasan menarik tentang Hukum Benford ini. Dia mencatat
bahwa makalah yang dimulai pada halaman 573 adalah makalah fisika penting oleh Bethe, Rose, dan
Smith. Fisikawan membaca kertas Bethe melihat halaman terakhir artikel Benford dan mungkin
tertarik dengan kalimat terakhir, yang menyatakan: "dan memainkan angka merupakan bagian yang
buruk dari simbol tak bernyawa untuk makhluk hidup."
Bab ini mengulas beberapa teorema penting, menyangkal dan menggunakan fakta fakta penting untuk
hukum benford sebagai analisis data atau teknik analitik forensik. Teorema terpenting adalah teorema
invarian skala pinkham. Teorema penting lainnya berhubungan dengan perkalian berulang dengan
konstanta. Beberapa teorema yang lebih baru disimpan untuk Bab 5, di mana mereka digunakan
dalam tes lanjutan yang berkaitan dengan Hukum Benford. Potongan-potongan trivia terutama terkait
dengan cara-cara di mana beberapa orang telah mencoba membuktikan Hukum Benford. Bab ini
mencakup beberapa contoh lagi karena sejauh ini kami hanya melihat satu set data yang sangat dekat
(populasi kota dan kota). Bab ini dimulai dengan analisis pembayaran perusahaan dan data terkait
sebuah danau sebagai contoh dari dua set data yang tidak sesuai.
DIGIT DATA PEMBAYARAN PERUSAHAAN
Data terdiri dari pembayaran 2010 sebua devisi perusahaan utilitas pantai barat. Faktur arang da jasa
yang diterima dari vendor misalnya perusahaan kemungkinan melakukan perbaikan pada kendaraan
sebesar $ 1,103.64 dan perusahaan perbaikan akan mengirimkan faktur untuk jumlah ke departemen
hutang. Jumlah nya akan dicatat dan dibayar kecuali jika ada koreksi atau kredit jatu tempo. . Jika
(katakanlah) salah satu item pada tagihan (sebesar $ 250,00) seharusnya merupakan perbaikan
garansi, akan ada memo kredit sebesar $ 250,00 dan hanya jumlah bersih $ 853,64 yang akan
dibayarkan dengan cek. Tabel data akan menunjukkan faktur sebesar $ 1,103.64 dan memo kredit
sebesar $ 250,00. Profil data ditunjukkan pada Gambar 2.1. Profil data dan histogram biasanya
merupakan langkah-langkah awal dalam analisis apa pun dan hadir untuk memberikan kesan kepada
analis tentang pengaturan atau distribusi jumlah yang sedang ditinjau. Pemahaman yang lebih baik
tentang tata ruang tanah mungkin memberikan beberapa wawasan tentang kemungkinan inefisiensi
pemrosesan, kesalahan, angka negatif yang dipertanyakan, dan ukuran strata terbesar.)
Profil data diatas berguna untuk memisahkan data menjadi berbagai strata. Berikut strata yang biasa
digunakan untu hutang dagang dalam dola AS seperti yang tercantum dalam tabel:
1. Jumlah sama dengan atau lebih besar dari 10.00
2. Jumlah dari 0.01 hingga 9.99
3. Jumlah sama dengan nol
4. Jumlah dari –0.01 hingga –9.99
5. Jumlah yang sama dengan atau lebih kecil dari –10.00 Strata atau kategori ini disebut dengan (1 )
angka positif besar, (2) angka positif kecil, (3) nol, (4) angka negatif kecil, dan (5) angka negatif besar.
Templat profil data mencakup dua strata tambahan yang ditunjukkan di bagian bawah Gambar 2.1.
Strata tambahan ini dapat mengarahkan auditor ke jumlah dolar rendah yang menggunakan sumber
daya berharga untuk memproses pembayaran ini dan ke item bernilai tinggi yang biasanya akan
bersifat material. Profil data dibahas lagi di Bab 4. Hasilnya menunjukkan bahwa ada 177.763 faktur
yang $ 10 dan lebih tinggi, dan total strata $ 10-dan-lebih tinggi adalah $ 492.913.582,26. Tes Hukum
Benford pada jumlah hutang biasanya hanya dijalankan pada jumlah yang $ 10 dan lebih tinggi. Dua
digit pertama ditunjukkan pada Gambar 2.2. Grafik pembayaran pada Gambar 2.2 menunjukkan
lonjakan besar di 50 dan juga lonjakan besar di 10 dan 11. Lonjakan terjadi di mana proporsi aktual
secara signifikan lebih besar dari proporsi yang diharapkan. Statistik yang digunakan untuk
menghitung signifikansi ditinjau dalam Bab 7. Kedua paku di 98 dan 99 juga menarik. Ini mungkin
tampaknya bukan lonjakan yang sangat besar, tetapi proporsi aktual 0,009 dan 0,008 hampir dua kali
lipat proporsi yang diharapkan dari 0,004. Angka 98 dan 99 adalah dua digit angka pertama yang tepat
di bawah ambang psikologis 100, 1.000, 10.000, dan seterusnya. Dari sudut pandang investigasi,
penting apakah jumlah 98 dan 99 adalah $ 98 dan $ 99 (yang tidak terlalu material) atau $ 9.800 hingga
$ 9.999 (yang material). Paku di 90 dan 92 juga penting, tetapi mereka lebih kecil dari tiga paku
terbesar dan mereka tidak pada ambang psikologis, membuat mereka kurang penting daripada paku
10, 11, 50, 98, dan 99.
Kesimpulannya adalah: (a) data tidak sesuai dengan Hukum Benford, (b) kecenderungan umum
Benford (kelebihan dua digit pertama-dua), dan (c) data mencakup lima lonjakan minat. Data
pembayaran digunakan lagi di bab-bab selanjutnya.
DIGIT DATA DATA DANAU
Data tentang danau dan lahan basah diperoleh dari basis data global danau dan lahan basah (GLWD)
yang dikembangkan dalam kemitraan dengan Pusat Penelitian Sistem Lingkungan di Universitas
Kassel. Basis data ini dijelaskan secara rinci dalam Lehner dan D oll (2004). Versi database yang
digunakan untuk analisis ini adalah untuk (a) danau dan waduk besar dan (b) badan air yang lebih kecil
(GLWD-1 ditambahkan ke GLWD-2). Tabel data memiliki data untuk 248.613 badan air.
Data ini juga dianalisis dalam Nigrini dan Miller (2007). Lehner dan D oll (2004) menggambarkan tabel
data dan juga mendiskusikan pentingnya pengetahuan kita tentang badan air. Mereka mengakui
masalah dalam mendefinisikan secara tepat apa yang membentuk sebuah danau. Tidak selalu jelas
apakah danau yang bersebelahan dengan laut (juga disebut laguna) benar-benar danau, dan
perbedaan antara sungai dan danau yang bergerak lambat mungkin ambigu. Juga, mungkin ada
kontinum antara danau dan lahan basah.
Mereka mendefinisikan danau sebagai badan air tetap permanen (badan air lentic) tanpa koneksi
langsung ke laut, tetapi mereka menerima danau dan laguna asin (tetapi bukan daerah laguna) sebagai
danau. Mereka juga termasuk reservoir buatan. Tabel data terbatas pada danau dengan luas lebih dari
0,1 km2 (1 hektar). Sebagian besar catatan (99 persen) diklasifikasikan sebagai danau, dan sisanya
diklasifikasikan sebagai sungai dan waduk.)
Batas danau berkisar dari 1 km hingga 36.641 km. Nilai kuartil pertama dan ketiga masing-masing
adalah 4,0 dan 9,3, yang berarti bahwa sekitar setengah dari danau memiliki batas dari 4,0 hingga 9,3
km. Batas-batasnya secara positif miring dan dengan setengah nilai mulai dari 4 hingga 9,3, kita
seharusnya tidak mengharapkan data sesuai dengan Hukum Benford. Profil data tepi danau
ditunjukkan pada Gambar 2.3.
Profil data tepi danau menunjukkan bahwa sekitar tiga perempat dari jumlah tersebut berada dalam
kisaran positif kecil (kurang dari 10). Profil data juga menunjukkan bahwa tidak ada danau dengan nol
perimeter (seperti yang diharapkan) dan juga tidak ada danau dengan batas negatif (juga seperti yang
diharapkan). Total perimeter (3,6 juta km) menunjukkan bahwa ada banyak rekaman tepi danau di
dunia. Baris terakhir di profil data menunjukkan bahwa ada 248.607 catatan. Database memiliki
248.613 catatan, dan ada enam danau dengan data perimeter yang hilang. Kelalaian ini tidak akan
memengaruhi hasil dua digit pertama. Dua digit pertama dari tepi danau ditunjukkan pada Gambar
2.4.
Pola digit data perimeter danau pada Gambar 2.4 tidak sesuai dengan Hukum Benford, dan tampaknya
ada diskontinuitas dalam data. Perbedaan untuk angka 10 hingga 30 adalah negatif. Setelah itu kita
mendapatkan lonjakan besar di 31, dan ukuran lonjakan menurun cukup lancar hingga 99. Proporsi
yang sebenarnya menurun (seperti yang diharapkan) dari 10 hingga 30 dan lagi dari 31 hingga 99,
tetapi fungsi tersebut memiliki diskontinuitas dengan lompatan ke atas utama pada 31.
Grafik adalah contoh dari apa yang akan kita temukan jika kita menganalisis tabel perimeter yang sama
dengan atau lebih besar dari 3,0. Angka-angka perimeter dianalisis, dan distribusi perimeter
ditunjukkan dalam histogram pada Gambar 2.5. Dari histogram ini, tampaknya data dimulai dengan
danau yang 3,0 km atau lebih besar, dan rentang 3,0 hingga 4,9 km mendominasi data. Faktanya, 37,33
persen dari semua danau memiliki batas dari 3,0 hingga 4,9 km. Ada sekitar 9.000 danau dengan batas
kurang dari 3.0, dan jumlah ini kecil dibandingkan dengan jumlah catatan.
Pola non-Benford pada Gambar 2.4 adalah karena data memiliki titik awal yang bukan kekuatan
bilangan bulat dari 10. Dari hasil ini kami tidak dapat menarik kesimpulan tentang Hukum Benford dan
data alami secara umum. Alasan yang mungkin untuk ketidaksesuaian bisa berupa definisi danau yang
agak terbuka. Tidak begitu jelas seberapa besar kolam sudah bisa disebut danau. Lehner dan D oll
(2004) tampaknya memasukkan sampel danau di dunia. Ilmuwan lain, Meybeck, memperkirakan ada
8 juta danau lebih besar dari 1 hektar. Danau bundar 1 hektar cukup kecil; ia memiliki diameter sekitar
113 meter. Tabel data GLWD memiliki total 250.000 catatan. Alasan lain untuk jumlah besar danau
3,0 hingga 5,9 km adalah bahwa medan bumi di lingkungan Finlandia dan Rusia barat kondusif bagi
ribuan danau dengan batas antara 3,0 dan 5,9 km. Bisa juga bahwa perimeter bukanlah ukuran yang
benar dari ukuran danau. Satu danau bisa berbentuk seperti pensil (dengan panjang panjang dan lebar
sempit) sedangkan danau lain dengan panjang perimeter yang sama bisa berbentuk lingkaran. Kedua
danau ini akan memiliki area permukaan yang sangat berbeda dan kedalaman yang mungkin berbeda.
Pola digit menunjukkan bahwa kita memiliki sampel nonrandom dari danau yang lebih besar di dunia
dan bahwa kita juga tidak yakin dengan definisi danau atau ukuran ukuran danau.
TEORI INVESTASI BERKALA
Dalam kertas kerja Pinkham tahun 1961 dan makalah Hill's tahun 1995 ada dua kemajuan paling
signifikan pada sisi matematika Hukum Benford sejak makalah asli Benford. Pinkham (1961)
menyatakan sebagai premis bahwa jika memang ada beberapa hukum yang mengatur distribusi
digital, undang-undang ini harus berskala invarian. Jadi, jika area pulau di dunia atau panjang sungai
di dunia mengikuti semacam hukum, itu tidak penting jika angka-angka ini dinyatakan dalam (persegi)
mil atau (persegi) kilometer. Pinkham menunjukkan bahwa Hukum Benford adalah skala invarian di
bawah penggandaan.
Artinya jika semua angka dalam bidang hukum benford yang sesuai dikalikan dengan konstanta (bukan
nol). Pinkham juga menunjukkan bahwa hanya frekuensi Hukum Benford yang tidak berubah di bawah
multiplikasi. Jadi jika daftar angka memiliki frekuensi digit selain dari Hukum Benford, perkalian
dengan konstanta akan menghasilkan frekuensi digital yang berbeda. Tampaknya logis bahwa semakin
dekat kesesuaian sebelum perkalian (terlepas dari konstanta), semakin dekat kesesuaian setelah
penggandaan. Hasil dari tabel data kecil dari 20 catatan ditunjukkan pada Gambar 2.6. Kolom B pada
Gambar 2.6 memberikan mantra (yang sama dengan log) dari Benford Set sintetis dengan 20 catatan.
Rumus untuk setiap log di Kolom B diberikan dalam Persamaan 2.1 dibawah ini
di mana BS menunjukkan elemen dari Benford Set, n menunjukkan istilah ke-n, Rank menunjukkan
Peringkat dari 1 hingga N, dan N adalah jumlah catatan. Dalam Kolom B pada Gambar 2.6, kolom.
Bidang pertama yang dihitung pada Gambar 2.6 adalah Peringkat. Kemudian distribusi seragam
mantra dimasukkan di Kolom B, dan kemudian Bilangan dihitung di Kolom C. Bilangan hampir sedekat
menjadi Benford Set sebanyak mungkin dengan 20 catatan. Persentase digit 1 adalah 30 persen,
persentase digit 2 adalah 20 persen, dan persentase digit 3 adalah 10 persen. Persentase kemudian
turun untuk digit yang lebih tinggi serta dimungkinkan hanya dengan 20 catatan. Uji invarian skala
pertama menggunakan Kolom E dan Nomor 2 di mana semua Angka dikalikan dengan 2. Di sini angka
1 persentase lagi 30 persen, angka 2 persentase lagi 20 persen, dan angka 3 persentase lagi 10 persen.
Persentase kemudian turun untuk angka yang lebih tinggi. Mantera (bagian fraksional) dari log
didistribusikan secara seragam. Mantera terkecil di Kolom D adalah 0,026 (Baris 16), dan mantisa
meningkat 0,05 hingga 0,976. Di Kolom B, mantisa asli dimulai pada 0,025 (Baris 2) dan meningkat
0,05 hingga 0,975. Uji invarian skala kedua menggunakan Kolom G dan Nomor 7, di mana Angka
semuanya dikalikan dengan 7. Di sini angka 1 persentase lagi 30 persen, angka 2 persentase lagi 20
persen, dan angka 3 persentase lagi 10 persen . Persentase kemudian turun untuk angka yang lebih
tinggi. Mantra dari log didistribusikan secara seragam. Mantera terkecil di Kolom F adalah 0,020 (Baris
5), dan mantisa bertambah 0,05 hingga 0,970. Sekali lagi ini sangat mirip dengan pola Kolom B
meskipun angka-angka telah dikalikan dengan 7. Tes invarian skala ketiga menggunakan Kolom I pada
Nomor 1/2, di mana Angka-angka semuanya dikalikan dengan setengah (yang merupakan konstanta
itu kurang dari 1).
Persentase digit sekali lagi tidak berubah dari persentase digit asli karena penurunannya adalah yang
paling cocok yang dimungkinkan dengan hanya 20 catatan. Mantra dari log didistribusikan secara
seragam. Namun, tampaknya mantissa terbesar di Kolom H adalah 0,674 (Baris 21). Mantera terkecil
adalah 0,024 (Baris 8), dan mantisa bertambah 0,05 hingga 0,674 di Baris 21. Tampaknya, kami
memiliki mantisa dari 0,026 hingga 0,276 di Baris 2 hingga 7. Angka pertama di Kolom 1 (Baris 2) adalah
0,53. Log dari 53, 5.3, dan 0.53 diberikan dalam Persamaan 2.3.
Persamaan 2.3 menunjukkan bahwa log 5.3 adalah 0.724. Mantera 0,724 menentukan digit angka
(53), dan karakteristik 0 menunjukkan bahwa angka tersebut lebih besar dari 1 tetapi kurang dari 10,
yang berlaku untuk 5,30. Karakteristik 1 pada baris pertama menunjukkan bahwa angka tersebut
terletak pada interval 10 hingga 99,99999. Cara yang benar untuk menulis log 0,53 ditunjukkan pada
baris ketiga. Bilah di atas angka 1 menunjukkan bahwa karakteristiknya adalah –1 (artinya daripada
angka tersebut dalam kisaran 0,1 hingga 0,99999), dan mantissa 0,724 memberi kita angka (53 dalam
kasus ini). Excel menjaring karakteristik dan mantra saling bertentangan, dan –1 ditambah 0,724
menjadi –0,276. Ini memberi kesan bahwa mantissa adalah 0,276 ketika itu benar-benar 0,724.
Mantera yang benar untuk Baris 2 hingga 7 adalah 0,724, 0,774, 0,824, 0,824, 0,924, dan 0,974, yang
membuat mantisa Kolom H terdistribusi secara seragam dan sangat dekat dengan rangkaian manta
asli.
Hasil Gambar 2.6 bersifat universal karena jika angka dalam Kolom C dikalikan dengan konstanta
bukan nol, hasil kami akan menjadi Benford Set dan mantisa dari angka-angka itu akan didistribusikan
secara seragam. Hasil kami akan "membaik" karena N, jumlah catatan, meningkat. Jika konstanta kita
hanya sedikit lebih besar dari 1 (mungkin 1,001), pola digit hanya akan sedikit terganggu. Juga, jika
konstanta kita hanya sedikit kurang dari 1 (mungkin 0,999), pola digit juga hanya akan sedikit
terganggu. Jika konstanta adalah 10 (atau kekuatan bilangan bulat lainnya dari 10, seperti 102 atau
10-1), pola digit akan tidak berubah. Ini sama dengan menambahkan (katakanlah) 2 atau mengurangi
(katakanlah) 1 dari setiap log.
MEAN DEVIASI MUTLAK
MAD adalah ukuran kesesuaian dengan Hukum Benford yang mengabaikan jumlah rekaman, N. MAD
dihitung menggunakan Persamaan 2.4.
Minitab menghitung MAD dan dua ukuran akurasi lainnya untuk analisis deret waktu. Karena MAD
mengukur akurasi dalam unit yang sama dengan data (dalam kasus kami proporsinya), lebih mudah
untuk memahami ukuran ini. Pembilang dalam Persamaan 2.4 juga meminta kita untuk menjumlahkan
90 penyimpangan absolut dua digit pertama. Penyebutnya memberitahu kita untuk membagi dengan
jumlah sampah, yaitu 90. Ini akan memberi kita rata-rata (atau rata-rata) penyimpangan absolut.
Karenanya, MAD adalah penyimpangan rata-rata antara ketinggian batang dan garis Benford dalam
grafik dua digit pertama (mis., Gambar 2.2, 2.4, dan 2.7). Semakin tinggi MAD, semakin besar
perbedaan rata-rata antara proporsi aktual dan yang diharapkan. MAD dapat membandingkan
kesesuaian dua set data. Data dengan MAD terendah memiliki kesesuaian paling dekat dengan Hukum
Benford.
INVESTASI SKALA DAN SENSUS DATA
Jumlah penduduk kota tahun 2009 dianalisis dalam Bab 1. Gambar 1.3. Hasil dari populasi kali p
ditunjukkan pada Gambar 2.7. Angka ini menunjukkan bahwa jumlah populasi baru juga sesuai dengan
Hukum Benford. Bayangkan sebuah situasi di mana jari kecil tangan kiri rata-rata orang adalah π.
MAD dari angka-angka lama (dianalisis pada Bab 1) adalah 0,00061, dan MAD dari angka-angka baru
(ditunjukkan pada Gambar 2.7) adalah 0,00067. Perbedaan antara kedua MAD adalah kecil dan tidak
memiliki arti praktis. Hasil mendukung teorema skala invarian. Kota asli dan data kota memiliki
kesesuaian dekat dengan Hukum Benford, seperti halnya data kota dan kota setelah penggandaan
dengan konstanta. Dari perspektif integritas data atau penipuan, ini berarti bahwa tes dua digit
pertama tidak dapat mendeteksi kasus di mana semua angka telah dikalikan dengan konstanta. Jika
setiap nomor sensus dikempiskan oleh (katakanlah) 4 persen dengan mengalikannya dengan 0,96,
data akan sesuai dengan Hukum Benford sebelum dan sesudah manipulasi.
INVESTASI SKALA DAN PEMBAYARAN PERUSAHAAN
Gambar 2.2 menunjukkan hasil dari set data faktur perusahaan. Sebagai uji invarian skala, setiap angka
dikalikan dengan p dan kemudian dibulatkan ke dua tempat desimal. Kita dapat mengasumsikan
(hanya untuk latihan ini) bahwa perusahaan induk berdomisili di Malaysia dan ingin menganalisis
pembayaran dalam mata uang lokalnya, ringgit Malaysia (MYR). Kami juga akan berpura-pura bahwa
nilai tukar persis sama dengan p (1 USD sama dengan 3,14159 MYR). Hasil tes digit pada jumlah yang
lebih besar dari 10 USD (atau 31,42 MYR) ditunjukkan pada Gambar 2.8.
Data yang diubah juga tidak sesuai dengan Hukum Benford, tetapi kecenderungan Benford yang pasti
(lebih banyak digit rendah dan lebih sedikit digit tinggi) ada. Ada lonjakan, pada 15, 31, 36, 47, 62, 78,
dan 94. Lonjakan pada 15 ini terutama disebabkan oleh jumlah 50 USD yang dikonversi menjadi 157,08
MYR. Lonjakan pada 36 terutama disebabkan oleh jumlah 1.153,35 USD yang dikonversi menjadi
3.623,35 MYR. Jumlah 50 USD dan 1.153,35 USD adalah penyebab utama paku asli pada 50 dan 11.
Masing-masing paku asli (pada 10, 11, 50, 90, 92, 98, dan 99) disebabkan oleh angka-angka tertentu
yang terjadi secara tidak normal sering; angka-angka ini sekarang menjadi penyebab tujuh lonjakan
baru di tempat lain dalam grafik. Sangat menarik bahwa meskipun angka sekarang mulai pada 31,42
MYR (10 USD kali 3,14159 dibulatkan ke dua tempat desimal), ini tidak mempengaruhi grafik dengan
cara yang sama seperti 3 km mempengaruhi grafik perimeter danau. MAD untuk data asli adalah
0,00243, yang menandakan ketidaksesuaian.
MAD untuk data MYR adalah 0,00259, dan sekali lagi tidak ada perbedaan yang signifikan antara MAD
sebelum dan sesudah. Hasil menunjukkan bahwa lonjakan dalam data asli akan menjadi lonjakan
dalam data baru. Posisi paku baru tergantung pada konstanta perkalian.
INVESTASI SKALA DAN DATA DANAU
Gambar 2.4 menunjukkan hasil digit dari tabel tepi danau. Menyambung pada bidang data yang
digunakan untuk analisis Gambar 2.9 memiliki jumlah rekaman yang sama (248.607 catatan) seperti
bidang data asli. Data yang diubah tidak sesuai dengan Hukum Benford, dan situasi aneh proporsi
aktual tidak teratur (pola naik-turun) terbukti dari sekitar 60 ke atas.
Titik penting pertama adalah bahwa skala sumbu y berbeda antara Gambar 2.4 dan Gambar 2.9.
Perbandingan kedua grafik harus memperhitungkan hal ini. Lonjakan pada angka 97 pada Gambar 2.9
disebabkan oleh jumlah 3,1 km yang ditransformasikan menjadi 9,74. Proporsi aktual sekitar 0,025
dalam setiap kasus. Lonjakan di 11 membutuhkan beberapa wawasan dari data asli. Angka 11 berasal
dari kombinasi 3,5 yang ditransformasikan menjadi 11 (melalui pembulatan ke atas), 3,6
ditransformasikan menjadi 11,31, 3,7 ditransformasikan menjadi 11,62, dan 3,8 ditransformasikan
menjadi 11,94. Empat paku yang berdekatan (35, 36, 37, dan 38) pada grafik asli, yang semuanya sama
dengan sekitar 0,0225, bersekongkol dan bersama-sama membentuk satu paku besar 0,09 pada grafik
yang diubah. Lonjakan pada 12 disebabkan oleh lonjakan sebelumnya di 39, 40, dan 41. Dalam hal ini
lonjakan tetangga bersekongkol dan membentuk satu lonjakan besar pada grafik yang diubah. Kita
juga dapat melihat bahwa ada lebih sedikit lonjakan besar pada grafik baru (10 hingga 21, dan 94 dan
97), yang berarti bahwa beberapa lonjakan pada grafik asli (31 hingga 64) digabungkan untuk
membentuk loncatan super.
MAD untuk data asli adalah 0,00601, yang menandakan ketidaksesuaian ekstrim. MAD untuk data
pimeter baru adalah 0,00632, dan sekali lagi tidak ada banyak perbedaan antara kedua MAD. Lonjakan
yang berdekatan di data asli bergabung untuk membuat beberapa loncatan super pada data baru.
Posisi paku baru adalah fungsi dari konstanta perkalian. Dalam hal ini tidak begitu mudah untuk
melihat bahwa data memiliki nilai minimum bukan nol karena nilai tersebut adalah sekitar 10, dan
analisis Benford biasanya tidak dipengaruhi oleh nilai minimum yang merupakan kekuatan bilangan
bulat 10 (atau nol). MAD praktis tidak berubah dalam ketiga kasus meskipun mantissa diubah oleh
(hampir) nilai maksimum yang mungkin. Hasil kota dan kota, hutang, dan data danau memberi kita
Teorema 1 yang dikaitkan dengan Pinkham (1961): Teorema 1. Jika angka x1, x2, x3, ..., xN dalam
bidang data sesuai dengan Hukum Benford's , setiap bidang baru yang dibentuk dengan mengalikan
nilai xi dengan konstanta bukan nol c juga akan sesuai dengan Hukum Benford.
TINGKAT PERMAINAN DILAPANGAN AKIBAT BENFORDS
Distribusi seragam adalah apa yang dapat kita harapkan dari angka tanpa adanya Hukum Benford. Ini
juga disebut noninformatif kami sebelum ketika kami menggunakan pendekatan Bayesian ketika tidak
ada (atau minimal) informasi sebelumnya tersedia. Meskipun distribusi seragam bukan yang paling
cocok untuk Benford, itu adalah yang mungkin diharapkan oleh kebanyakan orang yang tidak terbiasa
dengan Hukum Benford. Mereka akan mengasumsikan bahwa digit-digit itu sama-sama berpeluang
sama dan bahwa 10 sama besar kemungkinannya dengan dua digit pertama dan 99. Dengan 90
kemungkinan pertama-dua digit, harapannya adalah bahwa proporsi aktualnya adalah 1/90 dari 10.
hingga 99. Kesesuaian terburuk dari data akan terjadi jika semua angka hanya terdiri dari angka 9. Ini
akan terjadi ketika signifikansi semua angka kami sama dengan 9,99999 dengan angka 9 berulang.
Signifikansi didefinisikan dalam Persamaan 1.10. Kasus ekstrem ini ditunjukkan dalam format
persamaan dalam Persamaan 2.5.
Kecocokan terburuk dengan Hukum Benford jika semua signifikansi = 101-ε (2.5)
di mana epsilon (ε) digunakan karena digunakan dalam batas untuk menunjukkan kuantitas positif
yang sangat kecil. Setiap angka dengan signifikansi sama dengan yang ditunjukkan pada Persamaan
2.5 akan menjadi angka yang terdiri dari angka 9 berulang. Bidang data angka yang terdiri dari angka
9 berulang akan menjadi kecocokan terburuk menurut Hukum Benford.
Garis solid pada Gambar 2.10 menunjukkan mantra teratur dari bidang data angka yang
didistribusikan secara seragam (merata) pada rentang [1,10). Dua digit pertama dari data ini akan
didistribusikan secara merata dari 10 hingga 99. Setiap proporsi aktual akan sama dengan 0,1111
(1/90) karena 1/90 dari angka akan memiliki dua digit pertama dari 10, 1/90 dari angka-angka
tersebut. akan memiliki dua digit pertama dari 11, dan seterusnya hingga 99. MAD 0,00600 akan
menandakan ketidaksesuaian. pada Gambar 2.11. Rumus Excel yang digunakan untuk setiap sel dalam
B2: H25001 ditampilkan di bawah ini:
Rumus RAND () 9 membuat angka acak dalam kisaran [0,9). Rumus dalam B2: B25001 dikonversi ke
nilai menggunakan Home –Clipboard - Salin diikuti oleh Home - Clipboard - Tempel - Tempel Nilai.
Angka-angka ditampilkan ke empat tempat desimal, tetapi nilai-nilai asli yang mengelilingi tidak
digunakan untuk perhitungan.
Pola digit dari 20 produk pertama tidak begitu dekat dengan Benford, tetapi ini adalah sampel acak
dari hanya 20 catatan. Pola mantisa berperingkat untuk bidang pertama (Kolom B) ditunjukkan pada
Gambar 2.10. Fungsi cekung ke bawah (kurva terletak di bawah garis singgung). Jalur memori kalkulus
yang berjalan cepat akan mengingatkan kita bahwa suatu fungsi cekung ke bawah jika fn (x) <0 untuk
semua x dalam suatu interval. Karena data menjadi lebih Benford maka grafik mantisa akan cenderung
ke arah garis lurus dari titik asal (0,0) hingga (25000,1). Sekali lagi, dalam istilah kalkulus, turunan
kedua akan cenderung ke nol, atau fn (x) - 0. Hasil B x C, dan B x C x D ditunjukkan pada Gambar 2.12.
Tabel 2.1 menunjukkan bahwa ada peningkatan dramatis (reduksi) pada MAD setelah iterasi pertama
(B x C). Namun, setelah MAD mencapai 0,0051 (setelah hanya empat iterasi), itu stabil dan tidak ada
peningkatan yang terlihat dengan iterasi tambahan. Ini mungkin karena generator angka acak tidak
sempurna, dan selalu ada sedikit bias yang tersisa setelah penggandaan. MAD untuk iterasi 4 hingga
7 menunjukkan bahwa ada kesesuaian data yang dekat dengan Hukum Benford. Dua digit pertama
setelah iterasi ketujuh ditunjukkan pada Gambar 2.13, hasil dari mengalikan tujuh variabel acak.
Teorema 2 dikaitkan dengan Adhikari dan Sarkar (1968), dan menyatakan bahwa jika kita mengalikan
variabel acak yang terdistribusi secara seragam, karena jumlah perkalian meningkat, maka tabel akan
cenderung menjadi Benford Set. Teorema berikutnya adalah sedikit pengalihan sebelum kita kembali
ke perkalian berturut-turut.
MULTIPLIKASI OLEH 1 / X
Teorema berikutnya juga dikaitkan dengan Adhikari dan Sarkar (1968), dan itu berkaitan dengan
mengalikan semua angka X dalam bidang data dengan 1 / X. Teorema adalah:
Teorema 3. Jika satu set angka x1, x2, x3, ..., xN sesuai dengan Hukum Benford, demikian juga set
angka yang dibentuk oleh 1 / X atau c / X di mana c> 0.)
Hasil pada Gambar 2.14 menunjukkan bahwa angka-angka dari angka 1 / X juga sesuai dengan Hukum
Benford, yang seperti yang diharapkan dalam Teorema 3. Teorema ini mungkin berguna ketika
menganalisis angka yang sangat kecil di mana mungkin sulit untuk menghitung angka pertama karena
penggunaan aritmatika floating-point di komputer. Dengan transformasi 1 / X, angka kecil ini akan
diubah menjadi angka besar. Jika hasil dari angka besar adalah Benford, ini menyiratkan bahwa angka
kecil aslinya juga Benford.
SEMUA DISTRIBUSI MENUJU BENFORD
Prosedur simulasi adalah untuk menghasilkan 25.000 catatan dari berbagai dan beragam distribusi.
Distribusi dan parameter yang dipilih ditunjukkan pada Tabel 2.2. Enam distribusi simulasi dibuat di
Minitab. Hasilnya kemudian diekspor ke Excel, di mana produk dari enam angka dihitung. Nilai absolut
dari produk diambil, dan hasilnya dibulatkan menjadi tiga tempat desimal. Pembulatan tidak mungkin
mempengaruhi dua digit pertama. Profil data dari 25.000 produk ditunjukkan pada Gambar 2.16. Profil
data pada Gambar 2.16 menunjukkan bahwa sembilan angka sama dengan nol. Ini karena distribusi
Poisson yang disimulasikan menghasilkan sembilan nol. Ini meninggalkan 24.991 angka yang valid.
Jumlah rata-rata sekitar 865. Ada 334 jumlah lebih besar dari 5.000. Data condong positif dengan
ukuran kemiringan 3,65. Hasilnya ditunjukkan pada Gambar 2.17
Hasil pada Gambar 2.17 menunjukkan kesesuaian yang dekat dengan Hukum Benford. MAD 0,00053
tampaknya hampir mendekati nol seperti yang bisa kita dapatkan dengan angka yang dihasilkan
komputer dan bidang data dengan 25.000 catatan. Semua distribusi kecuali untuk distribusi Poisson
kontinu. Distribusi Poisson terdiri dari 21 bilangan bulat dari 0 hingga 20 inklusif. Kumpulan data
berlaku dibuat dengan mengalikan Set data yang berlaku dibuat dengan mengalikan angka-angka dari
lima distribusi kontinu dan kemudian membentuk 21 subset dan mengalikan setiap subset dengan
konstanta. Hasilnya adalah Benford Set yang nyaris sempurna.
Teorema 4. Jika himpunan angka x1, x2, x3, ..., xN adalah variabel acak kontinu independen dengan
kepadatan f1, f2, f3, ..., fN, seperti N - ᵆ, untuk banyak pilihan kepadatan, maka distribusi produk
menyatu dengan Hukum Benford.
Oleh karena itu, tampaknya Hukum Benford mirip dengan teorema batas pusat untuk produk.
Pengecualian terhadap aturan dapat ditemukan, tetapi aturan umumnya adalah bahwa produkproduk nomor bertemu dengan Hukum Benford.
MENDAPATKAN GRIPF PADA BENFORD DAN ZIPF
Langkah-langkah persiapan data yang ditunjukkan pada Gambar 2.18 dimulai dengan menyortir nilai
numerik dari yang terbesar ke yang terkecil (menurun). Frekuensi relatif yang dinormalisasi
ditunjukkan pada Kolom C. Kami mengharapkan nilai populasi kedua, ketiga, dan keempat kira-kira
sebanding dengan 1/2, 1/3, 1/4, dan seterusnya hingga ke 1 / N. Kolom D dan E adalah nilai-nilai yang
digambarkan. Nilai-nilai ini adalah log dari Pangkat dan log dari angka Populasi.
Kita dapat melihat bahwa kita akan memiliki masalah Zipf bahkan sebelum menyiapkan grafik. Ada
19.509 catatan. Ini berarti bahwa rekor terkecil diharapkan menjadi 430 ((1/19509) 8391881).
Ukuran populasi terkecil adalah 1. 1.000 catatan terakhir semuanya di bawah 100, dan 3.000 catatan
terakhir semuanya di bawah 225 (yaitu sekitar setengah dari 430). Grafik log dari jajaran dan jumlah
populasi untuk 80 persen pertama dari jumlah populasi ditunjukkan pada Gambar 2.19.
Jika data sesuai dengan Hukum Zipf, kami akan memiliki garis lurus dari y = 7 ke x = 4.3. Nilai untuk y
adalah log dari nilai populasi terbesar; nilai untuk x adalah log dari jumlah rekaman, N. Kemiringan
akan –7 / 4.3 (sekitar –1.62), dan intersep akan menjadi 7. Persamaan garis lurus yang diharapkan
ditunjukkan pada Persamaan 2.7
y = 1,62x + 7
(2.7)
jumlah penduduk kota dan kota dan untuk memaksa mereka mengikuti Hukum Zipf sambil tetap
memberi mereka kesempatan untuk menyesuaikan diri dengan Hukum Benford. Ekstrak dari tabel
Excel ditunjukkan pada Gambar 2.22. Titik awal pada Gambar 2.22 adalah populasi 10 juta orang.
Angka ini adalah kekuatan integer 10 (107). Peringkat dimulai pada 1 dan menuju ke N yang dalam hal
ini 10.000. Kolom yang tersisa cukup jelas. Dua digit pertama dalam (Kolom F diformat sebagai mata
uang untuk menghindari kemungkinan kesalahan aritmatika floating-point. Pada N sama dengan
10.000, Kolom B adalah 0,0001 dan jumlah populasi yang disimulasikan adalah 1.000 (10 juta kali
0,0001).
Ini berarti bahwa perbedaan antara log batas bawah (103) dan batas atas (107) adalah nilai integer
(4), dan kami setidaknya memiliki peluang olahraga dari data yang sesuai dengan Hukum Benford.
Digit ditunjukkan pada Gambar 2.23. Proporsi digit pada Gambar 2.23 menunjukkan pola penurunan
yang halus seperti proporsi yang diharapkan dari Hukum Benford. Data Zipf bahkan memiliki bias yang
lebih besar terhadap digit yang lebih rendah dan jauh dari digit yang lebih tinggi. MAD 0,006
menandakan ketidaksesuaian.
KESIMPULAN
Teorema penting yang terkait dengan Hukum Benford adalah teorema invarians skala Pinkham.
Teorema menyatakan bahwa kumpulan data angka yang sesuai dengan Hukum Benford masih akan
sesuai dengan Hukum Benford jika setiap angka dikalikan dengan konstanta. Dari perspektif
pendeteksian kecurangan atau kesalahan, teorema ini berarti bahwa kecurangan yang mengalikan
setiap angka dengan konstanta tidak akan dapat dideteksi menggunakan uji dua digit standar pertama.
Data perusahaan dan data danau menunjukkan bahwa data yang tidak sesuai dengan Hukum Benford
pada awalnya juga tidak akan sesuai dengan Hukum Benford setelah penggandaan dengan konstanta.
Set data yang sesuai tidak dapat dibentuk dengan mengalikan elemen tabel data yang tidak sesuai
dengan konstanta. Penggandaan nomor yang terdistribusi secara berurutan menghasilkan Benford
Set. Hasil penggandaan data dari distribusi yang berbeda juga memberi kami Benford Set. Karena itu
kita harus mengharapkan angka dunia nyata yang merupakan hasil dari perkalian agar sesuai dengan
Hukum Benford. Contohnya termasuk nilai inventaris di mana jumlah individu diperoleh dengan
mengalikan biaya dengan kuantitas yang ada. Contoh lain akan mencakup nilai pasar perusahaan yang
dihitung dengan mengalikan harga saham dengan jumlah saham yang beredar. Hukum Zipf terkait
dengan berapa kali berbagai kata digunakan dalam dokumen. Rumus yang mendasarinya dapat
disesuaikan dengan jumlah populasi dan tabulasi semacam itu. Data yang sesuai dengan Hukum
Benford tidak akan sesuai dengan Hukum Zipf dan sebaliknya. Tentu saja sangat mungkin bahwa
kumpulan data tidak sesuai dengan Benford atau Zipf. Bab ini menunjukkan cara mensimulasikan
angka dan mungkin mengujinya terhadap aturan atau prinsip lain, seperti prinsip Pareto (juga dikenal
sebagai aturan 80/20).
Download