۱۳۸۸ خرداد ۳۰, شنبه

مطلب دوم: آيا اعداد اعلام شده توسط وزارت كشور تست بنفورد را پاس مي‌كند؟

تست بنفورد روشي است براي بررسي ساختگي بودن آمارها. اين روش در تشخيص تقلب در انتخابات و نيز داده‌هاي آماري ديگر مثل حساب مالي شركت‌ها و غيره كاربرد دارد. تست بنفورد بر قانوني رياضياتي بنا شده است به نام قانون بنفورد كه در اين‌جا بطور مختصر توضيح خواهم داد: قانون بنفورد مي‌گويد كه در داده‌هاي آماري واقعي اعداد كوچك‌تر مثل يك و دو بسيار بيش‌تر ظاهر مي‌شوند تا اعداد بزرگ‌تر مثل هشت و نه. بطور دقيق‌تر قانون بنفورد براي احتمال ديده شدن هر يك از اعداد 1 تا 9 فرمولي ارايه مي‌دهد كه نتيجه‌ي آن به اين ترتيب است:

1--> 30.1%
2--> 17.6%
3--> 12.5%
4--> 9.7%
5--> 7.9%
6--> 6.7%
7--> 5.8%
8--> 5.1%
9--> 4.6%


عدد 1 با احتمالي حدود 30 درصد، عدد دو 17.6 درصد و غيره ظاهر مي‌شوند. از اين قانون براي تشخيص تقلب مي‌توان استفاده كرد، زيرا هنگامي كه عامل انساني يا نرم‌افزاري مي‌خواهد عدد بسازد، اين تصور شهودي اما غلط وجود دارد كه اعداد بايد تصادفي باشند يعني براي اين كه اعداد طبيعي جلوه كنند بايد از هر عدد به ميزان يكساني وجود داشته باشد. اين امر باعث مي‌شود كه فركانس ظاهر شدن اعداد 1 تا 9 در داده‌هاي ساختگي از قانون بنفورد پيروي نكند. البته كاربرد قانون بنفورد در تشخيص تقلب محدوديت‌هايي دارد كه در ادامه به برخي از آن‌ها اشاره مي‌شود. از بعد از اعلام ريز نتايج انتخابات توسط وزارت كشور آماردانان بسياري تست بنفورد را به طرق مختلف (با رقم اول اعداد، رقم دوم اعداد، ...) به نتايج اعمال كرده‌اند. ميان آماردانان در مورد نتيجه‌ي تست اختلاف‌نظرهايي هست. در اين‌جا به برخي از مطالعات انجام شده اشاره مي‌كنيم

والتر ميبين در يكي از نخستين مقاله‌هايي كه تست بنفورد را به نتايج انتخابات اعمال كردند مي‌گويد: هنگامي كه داده‌ها در سطح شهرها جمع زده مي‌شوند تست‌هايي مانند تست بنفورد چندان تعيين‌كننده نيستند. حتي اگر اعداد در مقياس ريزتر مشكلاتي داشته باشند، انتظار مي‌رود كه اعدادي كه از جمع زدن آن‌ها حاصل مي‌شوند از قانون بنفورد پيروي كنند. وي در ادامه‌ي مقاله مي‌نويسد تا زماني كه داده‌هاي دقيق‌تري ارايه شوند بد نيست نتيجه‌ي تست بنفورد روي داده‌هاي موجود را بررسي كنيم. ميبين براي اين منظور تست بنفورد را روي رقم دوم آرا اعلام شده اعمال مي‌كند و نتيجه مي‌گيرد كه داده‌ها بطور كلي با قانون بنفورد سازگاري دارند. تنها كانديدايي كه آراء وي تخطي نسبتاً قابل ملاحظه‌اي از قانون بنفورد نشان مي‌دهد آقاي رضايي است، اگرچه اين مورد نيز در محدوده‌ي معني‌دار قرار ندارد (اگرچه به آن نزديك است)

بودواين اف روكما در مقاله‌ي خويش به بررسي تطابق رقم اول اعداد اعلام شده با قانون بنفورد يكنواخت و قانون بنفورد تجربي مي‌پردازد. وي نتيجه مي‌گيرد كه دو ناهنجاري عمده در اعداد اعلام شده وجود دارد. اول: در رقم اول آراء آقاي كروبي تعداد بيش از حد زيادي 7 ظاهر شده است كه بشدت با قانون بنفورد در تضاد است. با توجه به اين ناهنجاري در آراء آقاي كروبي احتمال تقلب طبق محاسبه‌ي روكما حدود 99.3 درصد است. دوم: آراء آقاي احمدي‌نژاد نسبت به آن‌چه از قانون بنفورد انتظار داريم تعداد كم‌تري 1 و تعداد بيش‌تري 2 دارد، اما اين ناهنجاري به شدت ناهنجاري آراي آقاي كروبي نيست. روكما فرضيه‌اي مطرح مي‌كند مبني بر اين كه ممكن است تقلب‌كنندگان در برخي از آراء آقاي احمدي‌نژاد رقم 1 را به 2 تبديل كرده باشند

نمودار زير 7هاي اضافي آراء كروبي را نشان مي‌دهد



نيت سيلور در بررسي انتقادي خويش از مقاله‌ي روكما در نتيجه‌بخش بودن اين تحليل بخصوص در مورد ناهنجاري دوم (آراء احمدي‌نژاد) ترديد مي‌كند. وي با ارايه‌ي مثالي از آراء آقاي ال‌فرنكن، كانديداي سناتوري در ايالت مينسوتا نشان مي‌دهد كه در آراء ال‌فرنكن نيز تخطي از قانون بنفورد بحدي است كه نتواند تصادفي باشد. وي در ادامه مي‌گويد البته شايد اين مثال چندان خوبي نباشد، زيرا بسياري معتقد اند كه در آراء ال‌فرنكن در ايالت مينسوتا نيز تقلب شده بود (اين آرا بعداً بازشماري شد). اما نتيجه‌اي كه مد نظر سيلور است اين است كه شايد اصولاً نبايد انتظار داشت كه اعداد مربوط به انتخابات‌ها از قانون بنفورد پيروي كند. دليل اين امر اين است كه قانون بنفورد زماني مطرح است كه قيد خاصي روي محدوده‌ي مجاز ريز اعداد نباشد. اما در مورد انتخابات، همواره اين سياست وجود دارد كه صندوق‌هاي خيلي كوچك را تلفيق يا صندوق‌هاي خيلي بزرگ را تقسيم كنند. درنتيجه اعداد به دست آمده بناچار در محدوده‌هاي خاصي هستند و لزومي ندارد كه از قانون بنفورد پيروي كنند


سيلور سپس تأكيد مي‌كند كه اين ملاحظات اگرچه درباره‌ي اهميت ناهنجاري در رقم اول آراء احمدي‌نژاد ترديد ايجاد مي‌كند كماكان ناهنجاري هفت‌هاي اضافي كروبي را توضيح نمي‌دهد. ناهنجاري در آراء كروبي بصورت يك "قله"ي مجزا ظاهر شده است، درحالي‌كه ناهنجاري در آراء ال‌فرنكن ازدياد نه فقط 7 بلكه 6 و 8 را نيز نشان مي‌دهد. سيلور فرضيه‌اي مطرح مي‌كند مبني بر اين كه تقلب‌كنندگان آراء كروبي را به احمدي‌نژاد داده‌اند و سپس براي كروبي اعدادي توليد كرده‌اند. (شايد اين نكته نيز جالب باشد كه مطالعات تجربي نشان مي‌دهد كه وقتي از افراد خواسته مي‌شود اعداد تصادفي توليد كنند اكثر افراد تمايل ناخودآگاهي به توليد عدد هفت دارند.) اين فرضيه با نتيجه‌ي مقاله‌ي ديگر سيلور سازگاري دارد مبني بر اين كه احتمالاً بخش اعظم آراء كروبي به احمدي‌نژاد داده شده است


جاناتان برون طي محاسباتي به اين نتيجه مي‌رسد كه ازدياد 2ها و كمبود 1ها در آراء احمدي‌نژاد با سه فاكتور ذيل قابل توجيه نيست: اندازه‌ي حوزه‌ي انتخاباتي، كل آراء احمدي‌نژاد، و آراء وي در هر حوزه. وي پس از انجام محاسبات نتيجه مي‌گيرد كه فرضيه‌اي كه ازدياد 2ها و كمبود 1ها در آراء احمدي‌نژاد را توضيح ‌مي‌دهد اين است كه آراء وي در بسياري از حوزه‌ها دوبرابر اعلام شده است. نمودار زير فراواني ارقام 1 تا 9 در آراء احمدي‌نژاد را با قانون بنفورد مقايسه مي‌كند
.


خبرگزاري انتخاب نيز طي مقاله‌اي با اعمال تست بنفورد به نتايج انتخابات اخير ادعا كرده است كه دستكاري در آرا تقريباً قطعي است، البته اعدادي كه اين مقاله براي احتمال تقلب اعلام مي‌كند (99.9 درصد) كمي اغراق‌آميز به نظر مي‌رسد و با نتيجه‌گيري‌هاي متواضعانه‌تر مقالاتي كه در بالا ذكر شد چندان همخواني ندارد
.
روزنامه‌ي واشنگتن‌پست در گزارش اخيرش از مقاله‌ي ببر و اسكاكو به بررسي ارقام آخر (ارقام سمت راست) اعداد اعلام شده توسط وزارت كشور پرداخته است. طبق ادعاي اين مقاله در ارقام سمت راست آراء اعلام شده نيز تعداد بسيار زيادي (17 درصد) رقم 7 و تعداد بيش از حد كمي (4 درصد) رقم 5 ديده مي‌شود. احتمال اين كه چنين ناهنجاري‌اي بطور تصادفي و بدون دستكاري رخ دهد كم‌تر از 4 درصد است. يعني احتمال تقلب طبق اين محاسبه بيش از 96% مي‌باشد. ايشان سپس اين نتيجه را با انتخابات اخير ايالات متحده‌ي آمريكا مقايسه مي‌كنند تا نشان دهند كه در يك مجموعه اعداد غيرجعلي چه الگويي مشاهده مي‌شود. به گفته‌ي واشنگتن‌پست بيش‌ترين ناهنجاري از اين نوع در‌ آراء آقاي رضايي ديده مي‌شود
.
اين مقاله در ادامه به بررسي رابطه‌ي دو رقم آخر مي‌پردازد. طبق گفته‌ي نويسندگان، روان‌شناسان نشان داده‌اند كه افراد تمايل كم‌تري به توليد اعدادي دارند كه ارقام آن‌ها از هم فاصله‌ي زيادي دارد (مثلاً مثل 17 يا 26 در مقابل مثلاً 23). در حالت عادي انتظار داريم كه حدود 70 درصد اعداد ارقام بافاصله داشته باشند، اما بررسي اعداد وزارت كشور نشان مي‌دهد كه حدود 62 اين اعداد ارقام بافاصله دارند. اين ناهنجاري بخصوص در آراء آقاي احمدي‌نژاد مشهود است. اگرچه 62 درصد ممكن است خيلي كم‌تر از مقدار مورد انتظار 70 درصد به نظر نرسد، نويسندگان ادعا مي‌كنند كه احتمال تصادفي بودن همين‌قدر تفاوت كم‌تر از 4.2 درصد است، يعني احتمال تقلب بيش از 95.8 درصد مي‌باشد. نويسندگان در پايان اشاره مي‌كنند كه درحالي‌كه احتمال هر يك از اين ناهنجاري‌ها بسيار پايين است، احتمال اين كه هر دو بطور همزمان در مجموعه‌اي از داده‌ها رخ دهند بسيار پايين‌تر است و به كم‌تر از 0.5 درصد مي‌رسد
.
نتيجه‌گيري: رقم اول و دوم اعداد اعلام شده تخلف قابل ملاحظه‌اي از قانون بنفورد ندارد، به جز در مورد آراء كروبي. تعداد 7ها در آراء كروبي بيش از آن كه بتواند با تصادف پديد آيد زياد است و احتمالاً نشانه‌ي توليد اعداد توسط كامپيوتر يا عامل انساني است. ضمناً در ارقام آخر و يكي مانده به آخر نيز تعداد 7ها و 5ها ناهنجار است. درباره‌ي اهميت ناهنجاري رقم اول آراء احمدي‌نژاد و چگونگي توضيح آن بحث در جريان است.

هیچ نظری موجود نیست:

ارسال یک نظر