松江教育
直播
 
您现在的位置:
    小学
    中学
    小学
    中学
    小学
    中学
    小学
    中学
    小学
    中学
 
  中学
 
 

对大量数据的真伪鉴别

研训部    2015-03-12 11:49:00


松江二中高三(1 李鑫尧 吴皞 董浩宇 费逸笑 饶俊伟 戴志尧 张越泽

 

 

本福特定律说明,一堆从实际生活得出的数据中,以1为首位数字的数出现的概率约为期望值1/93倍,而比1大的数码,越大的数码,以它为首几位的数出现的概率就越低。

本文运用本福特定律及其拓展定律建立起数学公式模型,对2012——2014年的中央有关部门所公布的三公数据进行了详尽的分析,对数据组中数据规律与定律的差值进行了定量的计算,数据的真伪性、准确性进行了初步评估和判断。此外,本文还提供了一种监测三公消费数据的方法,希望能给人民、社会、舆论对政府的监督提供一点帮助。

关键词

本福特定律    数据    概率

2012418日,国务院总理温家宝主持国务院常务会议,要求省级政府两年内全面公开三公经费三公经费问题由此成为社会热点问题。三公消费,指政府部门人员因公出国(境)经费、公务车购置及运行费、公务招待费产生的消费,是当前公共行政领域亟待解决的问题之一。

但是,民众是无法去检验公开信息的正确与否的,因而这并不能在最大程度上实现民众对政府的监督。

如今,三公问题又被抬上了风口浪尖,原因有两点:一者,中国三公消费总额突破了9000亿元,相当于2012年全年财政收入10%。越来越庞大的三公消费支出引发民众的不满,损害了政府的形象;二者,在20124月,国务院再下三公经费公开令箭,这一次剑指省级政府。2012418日,国务院总理温家宝主持国务院常务会议,要求省级政府两年内全面公开三公经费时间已到2014年,两年之期已到,各省市、中央各部门的行动也日见成效,让民众看到了极大的希望。然而,“三公”费用虽然公开,但政府与民众还是处在信息极大的不对称的情况中,民众无法去检验公开信息的正确与否,不由得一些“多疑”之徒心下困惑。

还好,我们有数学这个强大的武器。有这样一个定律,借了我们一双慧眼。这就是本福特定律,本福特定律的运用使公布的三公消费数据的真伪一目了然。我们只要对数据首位数字出现的频率进行分析,如果基本符合其计算值,则数据是较真实的,如果差别较大,那么其真实性就值得商榷了。

首先请考虑这样一个问题:在自然界中所有数字的首位数字出现的频率是多大?大家一定会认为一共19这九个自然数可能出现在首位,自然界数字的数量是足够大的,因此每个数字出现在首位的频率会很接近于期望值1/9,但是事实却并非如此。

接着再来试想,假设一个新入市的股票是10点,每天都能涨停板以10%的增幅增长,那么从10点升到20点需要7.27天,从20点升到30点需要4.25天,从30点到40点需要3.01……80点到90点只需要1.24天,而从100点到200点又需要7.27天,从800点到900点又需要1.24天。不难看出,1为首的数字是最多的,对于,其它数字,数字越大,则出现的概率就越小。

这些现象揭示了一个定理——本福特定律本福特定律,也称为本福德法则,这一定律表明:一堆从实际生活得出的数据中,以1为首位数字的数出现的概率约为期望值1/93倍,而比1大的数码,越大的数码,以它为首几位的数出现的概率就越低。

本福特定律可以简单证明如下:

假设我们有一个很大的样本空间,有随机变量x1x2……xnn是足够大的。

如果要知道n为首位出现的概率,我们只需要算出lg x的小数部分介于lg nlgn+1)之间的长度为多少即可。画一个lg x的小数部分关于时间t的图像,实际上就相当于把lg x的图像折叠到[lg1,lg 10]区间。由于时间轴t被折叠,则时间可以不考虑。那么首位数字为D的概率即为 [lg(D+1)-lg(D)]/(lg 10-lg 1)=lg(D+1)-lg(D)

本福特定说明在b进位制中,以数n起头的数出现的机率为logb(n + 1) ? logb(n) .本福特定不但适用于个位数字,连多位的数也可用。由此可见,在十进制中数字1出现概率约0.301,而数字9只有0.046

但是本福特定律并不是适用于一切数据,它有一定的要求要求:一是数据应是由度量单位制获得,即数据应有度量单位的;二是数据不能是规律排序的,比如发票编号、身份证号码等;三是有指定数值范围,或不是以几率分布出现的数据也不适用,如正态分布的数据;四是数据不能经过人为加工,即事前按照本福特定律对数据进行调整。

生活中的本福特定律无处不在,无论是在股市里,斐波那契数列里,无不遵循着本福特定律,这一点,在本文最后提供的拓展应用中有很好的体现。

例举验证

中国是个人口大国,上海是人口大市,全国各城市的人口统计数据也表现了本福特定律的存在。以下是2013-2014年中国各城市人口数量排名的部分数据:(表-1)(人口数量单位:万人)

城市

重庆

上海

北京

临沂

武汉

潍坊

周口

南京

长沙

人口

2884.62

2301.91

1961.24

1003.94

978.54

908.62

895.32

800.49

704.41

排名

1

2

3

13

14

17

18

30

45

信阳

南昌

朝阳

和田

鄂州

610.87

504.26

304.46

201.44

104.87

59

88

180

251

302

(表-1

经过数据整合,人口数量首位数是1的城市占所调查城市的28.67%,首位数字为2的占21.36%,首位数为3的占16.67%……首位数是8的占7.1%,首位数为9的占3.16%。虽然以上数据相比于本福特定律计算值还有偏差,但是,随着首位数增大而出现频率减少的趋势还是显而易见的。在如此大的数据量中,首位数字都遵循着本福特定律。

建立模型

根据本福特定律的适用要求的第四点:数据不能人为改动过,对于研究政府公布的三公消费数据真伪问题,我们的工具即是上文引出的的本福特定律,由此判别该数据是否被人为改动过。验证自然条件下数据真伪就是本福特定理的一大应用。

由此,我们需要建立统计学的模型,对表格数据进行数据分析。

由上文我们可知,通过分析大量数据的各首位数码出现的频率,并与标准值进行比较,如果相差在合理范围内,那么就可以基本判定数据的准确性。

但本福特定理不单单是“首位数字定理”。在本福特定律被发现后,学者们将其推广到任意位数上,他们对第n位的数字出现概率进行了研究和计算,得到如下表的数据:(表-2


依据本福德定律测算的数字出现的概率

数字

第一位

第二位

第三位

第四位

0

 

0.11968

0.10178

0.10018

1

0.30103

0.11389

0.10138

0.10014

2

0.17609

0.10882

0.10097

0.10010

3

0.12494

0.10433

0.10057

0.10006

4

0.09691

0.10031

0.10018

0.10002

5

0.07981

0.09668

0.09979

0.09998

6

0.06695

0.09337

0.09940

0.09994

7

0.05799

0.09035

0.09902

0.09990

8

0.05115

0.08757

0.09864

0.09986

9

0.04576

0.08500

0.09827

0.09982

合计

1

1

1

1.00000

(表-2

根据第n位计算出的数字出现概率,第位上,每个数字出现的概率几乎是相同的,即为0.1

接下来,我们就可以根据本福特定律及其拓展定律的定义和内容建立我们对于一组数据真实性进行判别的模型。模型的中心思想是:在对应第n位上,各数码出现的频率和本福特定律所计算的概率之差来体现数据真实性。

首先定义Vn是表示在本福特定律中,以n为首位数出现的频率期望值,Vn’表示实际样本中以n为首位数出现的实际频率。为了更加精确地表示数据对于定律的偏差,我们再收集第四位数的样本,定义Fn‘为第四位上是n的实际频率,根据本福特定律拓展定律,第四位上各数码出现的概率几乎都是0.1,因此,为了计算的简单,我们把第四位上的期望值记为0.1。那么我们可以分别算出首位上数码是n的与定律的偏差值为|Vn-Vn’|,第四位上数码是n的与定律的偏差值为|Fn-0.1|

但是根据本福特定律,首位数上各数码出现的概率是有较明显的差距的,即在不同数码上的偏差对于总偏差值的贡献显然是不同的,比如,同样是相对于本福特定律,数码1的实际频率和期望值相差1/n,数码9的实际频率和期望值也相差1/n,但由于原本数码1的出现概率要比9大得多,因此显然数码9出现频率偏差更大。所以我们对不同数码的偏差值进行加权,为了更好示数码n在首位上对于定律的偏差值,我们加的权为其数码的理论概率的倒数。而在第四位上乘以0.1的倒数,即乘以10。那么数码n的偏差值σn=|lg(n+1)-lgn-Vn’|/[lg(n+1)-lgn]+10*|Fn’-0.1|。这里需要说明的有两点:

一、我们对于|Fn’-0.1|并未进行加权,原因在于第四位可能出现的数码概率期望值是几乎相等。但是考虑到,首位上的偏差和第四位上的偏差对于偏差值的贡献应是相等的,因此在经过我们多次的尝试后发现,对第四位上的各数码出现频率的偏差除以其期望值0.1,能使第四位的偏差值对于总偏差值的贡献接近于首位偏差值对于总偏差值的贡献。

二、我们将加权后首位上数码是n的偏差值与第四位上数码是n的与定律的偏差值相加来表示数码n的偏差值,原因在于相加加之其他运算法则更加方便,且能够准确反映出偏离程度大小,而不会导致运算后产生相反结论。

其次,我们又注意到,本福特定律需要有足够大的数据量,也就是说数据可信度也一定程度上和数据量有关系。显然,如果数据组在各数码偏离值之和上相等,那么数据量越大,其可信度也越高,因此我们在偏离值之和的基础上乘以数据量的倒数,那么数据偏差量也就随着数据量的增大而减小。经过以上对于模型的思考,我们可以得到最终的检验数据与本福特定律偏差的模型公式:σ=σ1+σ2+σ3+σ4+σ5+σ6+σ7+σ8+σ9/A,其中A为总的数据量,σn=|lg(n+1)-lgn-Vn’|/[lg(n+1)-lgn]+10*|Fn’-0.1|。那么σ就可以表示一组数据整体和本福特定律的偏差,我们称之为本福特定律期望偏差值。我们可以利用以上的定义式对于2013年中科院对外公布的三公消费数据进行相对于本福特定律偏差的计算,那么我们就能对数据进行真伪判别了。

问题解决

现在,我们通过以上建立的模型对本文研究对象——三公数据鉴别问题进行解决。

寻找数据是统计学的关键之一。为了研究本文问题,我们查找到了2011年的中央部委三公消费数据。如下表:(表-3

排名

中央部委名称

2010年三公总支出决算数

2011年三公总支出预算数

1

中科院

28710.83万元

24350.59万元

2

交通运输部

10454.99万元

10996.49万元

3

商务部

6171.41万元

5624.07万元

4

新华通讯社

5462.77万元

5395.37万元

5

卫生部

429644万元

466685万元

6

财政部

4172.01万元

4752.54万元

7

文化部

3392.61万元

3688.69万元

8

发改委

3206.11万元

2982.09万元

9

教育部

2496.12万元

2509.6万元

10

审计署

2488.8万元

2687万元

11

社科院

2133.47万元

2051.05万元

12

知识产权局

1825.83万元

2141.88万元

13

监察部

1126.56万元

1254.4万元

14

民政部

1112.19万元

1114.52万元

15

新闻出版总署

1082.6万元

1126.54万元

16

外文局

968万元

1068.74万元

17

自然科学基金会

761.33万元

575.48万元

18

国家文物局

593.53万元

667.43万元

19

中国工程院

489.18万元

未全部公布

20

国家中医药管理局

373.74万元

374.08万元

21

国家行政学院

332.1万元

363.42万元

22

科技部

未公布

4018.72万元

(表-3

 

本福特定理可以适用整个的数据,只需其来自于现实。但预算毕竟存在猜测与估计的成分,因此我们主要对结算进行分析。

经过统计:数据一共42个,首位为110个,占23.8%,首位为29个,占21.4%,首位为37个,占16.7%,首位为46个,占14.3%,首位为53个,占11.9%,首位为62个,占4.8%,首位为71个,占2.4%,首位为80个,占0%,首位为91个,占2.4%

从以上数据统计来看,不同的首位数字出现频率与本福特定律中所计算的频率期望值还有着差距,各个数字出现在首位的频率甚至没有较明显的差距。于是我们对于模型进行反思,找到了问题所在。从数学的角度看,42个样本显然过于少,而本福特定律成立的充分条件是数据要足够多。

由于中科院三公消费最多,我们进入中科院官网找到了中科院于2013年对外公布的三公数据。如下表(单位:万元):(表-4

项目

消费合计

财政消费

事业消费

经营消费

附属单位消费

其他消费

合计

458510455

249943539

176381574

5413480

1975907

24795953

教育

15129711

9366197

2397430

 

20621

3345466

普通教育

15129711

9366197

2397430

 

20621

3345466

高等教育

15129711

9366197

2397430

 

20621

3345466

科学技术

432954191

231592241

172977468

5413480

1955288

21015715

基础研究

185959034

115754264

56529225

2179628

1940000

955917

机构运行

44609038

34844193

5567789

1305882

 

2891174

重点基础研究规划

15033618

 

15033618

 

 

 

自然科学基金

22305752

 

22305752

 

 

 

重点实验

10923495

10805856

14964

 

 

102673

专项基础

27081097

21680809

4821205

316369

 

262714

重大科学工程

7395370

7395370

 

 

 

 

专项基础科研

27081097

21680809

4821205

316369

 

2662714

技术基础

433131

 

433131

 

 

 

其他研究

58177532

41028034

8352765

557378

1970000

6299355

应用研究

187866157

83450679

92099830

3195246

 

9120402

机构运行

89547247

50619487

32871785

2402025

 

3653951

公益研究

17716287

8687426

8715462

107041

 

6071111

高技术研究

75635177

23842166

48900487

582504

 

2310020

其他应用

4967446

301600

2012850

103676

 

2549320

技术研究开发

6153335

4077510

2075825

 

 

 

应用研究开发

1760545

 

1760545

 

 

 

产业技术研究开发

822080

803750

18330

 

 

 

其他研究开发

3570711

3273760

296951

 

 

 

客运条件服务

25435311

20410296

4890154

13830

 

121031

机构运行

1517532

1008640

478751

13830

 

16311

可以条件专项

17811302

17322210

489092

 

 

 

其他条件服务

6106476

2079446

3922310

 

 

104720

科技交流合作

38780

14250

12482

 

 

12048

国际交流合作

24530

 

12482

 

 

12048

其他交流合作

14250

14250

 

 

 

 

科技重大专项

16813275

3616770

13196423

 

 

0.83

其他技术支出

10688299

4268472

4173529

24775

15288

2206235

转制科研机构

1146753

1146753

 

 

 

 

其他技术支出

9514546

3121719

4173529

24775

15288

2206235

文化体育传播

130000

130000

 

 

 

 

其他文化体育传播

130000

130000

 

 

 

 

节能环保

183404

183404

 

 

 

 

污染减排

123404

123404

 

 

 

 

环境监测信息

123404

123404

 

 

 

 

可再生能源

60000

60000

 

 

 

 

农林水事务

60000

60000

 

 

 

 

农业

60000

60000

 

 

 

 

技术推广

60000

60000

 

 

 

 

电力信息事务

1033978

985700

 

 

 

482.78

制造业

455778

407500

 

 

 

482.78

工艺品制造

257278

2090000

 

 

 

482.78

其他制造

198500

198500

 

 

 

 

其他电力信息事务

578200

578200

 

 

 

 

技术改造支出

578200

578200

 

 

 

 

国土资源气象事务

76000

76000

 

 

 

 

国土资源事务

76000

76000

 

 

 

 

矿产资源收入

76000

76000

 

 

 

 

住房保障

8943170

7550000

106676

 

 

 

住房改革

8943170

7550000

106676

 

 

 

住房公积金

5301620

4250000

731798

 

 

 

(表-4

首先我们先对数据进行统计(单位:个,括号内为其频率):(表-5

数码

0

1

2

3

4

5

6

7

8

9

首位

\

61

(0.295)

58

(0.280)

24

(0.116)

20

(0.097)

11

(0.053)

14

(0.068)

7

(0.034)

7

(0.034)

5

(0.024)

第四位

35

(0.169)

18

(0.087)

22

(0.106)

24

(0.116)

15

(0.0725)

22

(0.106)

16

(0.0773)

25

(0.121)

15

(0.0725)

15

(0.0725)

(表-5

经过以上对数据的统计,我们得到了各个出现次数,因此,我们可以带入之前建立的模型公式中去:σ=4.494725157,。显然这个值还是处于可以接受的范围内,如果当数值达到8甚至以上时,那么该数据就有伪造的嫌疑了。

下面我们单独分析首位数的偏差值。我们整合了以上中科院于2013年对外公布的三公数据,对19各数字出现在数据首位的频率做出了统计:数据一共207个,首位为161个,首位为258个,首位为324个,首位为420个,首位为511个,首位为614个,首位为77个,首位为87个,首位为95个。并得到如下所示关于出现次数所占比例的饼图:(图-1

(图-1

由图表中比例不难看出,首位数出现的频率和本福特定律的期望值还是基本吻合的。单独计算首位数偏差为2.127545399,显然在经过加权后数值会被增大些,而这个数字是比较小的,因此我们可以说这组数据来源也是可靠的。

但如果单看第四位的偏差,可以看到第四位偏差有2.367179758,这个数值还是给予人们一定的警示,相对而言,第四位期望值较为集中加权也很平均,偏差应当小些。又纵观表中的数据,不难看出第四位为0的频率有些过于大了,而且在原来的数据组中,发现末尾有连续几个0出现的数据也不在少数,可见有关部门在统计的时候也是有偷工减料的嫌疑,取的有效数字过少,导致该数据实际上不够精确。

总结来说,三公消费的数据还是可靠的真实数据,但是其精度还是不够的,因而导致了社会上的种种怀疑。当然是否绝对真实也并不能确定,不过模型帮助我们得到了该数据对于本福特定律的偏离情况,对我们鉴别数据真伪提供了极大的帮助。

 

小结

通过上文的模型建立,其实我们是想提供一种方法,中科院只是一个例子。中央各部门的公布数据从一般的情况来说是值得相信的。但在未来,三公数据公开要执行到省市县政府,其可信度未必有中央部门那么高。这时,由于本模型操作是十分简单的,普通老百姓也可用本模型对数据加以辨别,如此,才可以真正形成人民、社会、舆论对政府科学、有效的监督。

当然,本模型存在不少缺点。我们无法真正从实践的角度验证模型的科学性,这一模型稍显理论化。只能说明,本福特定律是试验数据真伪的第一把钥匙,如果和本福特定律有明显偏差,而且数据量足够大,那么数据基本上可以断定是伪造的。相信在未来,本福特定律在各个领域都能有广泛的应用。

 

拓展应用

本福特定律还能检验游戏运营商是否制造了外挂。一个网络游戏的账号和由此产生的用户行为可以产生一系列的可数字形态的数据,例如经验值”“财富值等各类属性数值和数值型数据,(当然这些数据都是随机的),将多个单独的账号信息(例如一个服务器)收集起来,并用本福特定律加以分析。假设数据分布符合定律,则推导出网络游戏的整体没有进行舞弊。

更深层次的考虑,游戏运营中广告造假的手段已经演进到将部分广告费用实施在效果关联性造假上门,而这方面的欺骗检测难度非常高,应用本福特定律,对于测试期间的服务器数值状况进行趋势性判断,当得出总体存在造假等可能时,提取具有造假条件属性维度的用户群体进行二次判断(维度例如:IP地址段,上网时间规律,用户注册信息缺失项等)也能更好的保障玩家的公平性。

此外,本福特定还有不少的作用。在公司老板检查别人报上的公共计划的经济数额时,可以根据本福特定去判别其是否有伪造数据的嫌疑。只要是自然产生的数据,且数据涵盖范围很大,首位数分布即会符合本福特定。当进行投票选举后发布票数分布情况时,用本福特定也可以判别是否有造假的嫌疑。

本福特定正是能够解释生活中首位数字频率大相径庭的钥匙,正是这个定理,生活中数据的真伪也都难逃本福特定的法眼。

主要参考文献:

百度、The Detection of Income Tax Evasion Through an Analysis of Digital Frequencies."Ph.D. thesis. Cincinnati, OH: University of Cincinnatii, 1992.

 

指导教师点评

松江二中高三(1)班李鑫尧等同学的这一项成果,是我校2014年度应用数学竞赛研究小组的研究成果之一。该成果运用本福特定律及其拓展定律建立起数学公式模型,对2012——2014年的中央有关部门所公布的三公数据进行了详尽的分析,对数据组中数据规律与定律的差值进行了定量的计算,数据的真伪性、准确性进行了初步评估和判断。此外,本文还提供了一种监测三公消费数据的方法。

本成果结合我国当前公众关注的热点问题、焦点问题,具有一定的可操作性,具有较高的现实意义和研究价值。

(指导教师 缪雪松)

 

 
文章附件:

文章作者:研训部
文章出处:教师进修学院研训部

相关文章:


 
首页 |  基础型课程 |  拓展型课程 | 研究型课程 | 职业教育 |  评价研究 |  课题研究 |  幼教课改 
上海市松江区教育局 地址:中山中路207号 电话:021-37736304 邮政编码:201600
Email:webmaster@sjedu.cn 上海市松江教育局 ©2005版权所有
沪教Z2-20100035号  沪ICP备11030667号