| 最近看到一篇关于纽约老鼠的统计学报道,很有意思。趁着周末时间把这篇报道的主要内容用中文写下来,算是给自己交的一份学习笔记。我知道小站上有也跑教授是专门研究统计学的,还有好几位老师也都精通统计学。如果我的学习笔记里有什么差错,请不吝赐教。 纽约在美国算是有个既有历史又有规模的一个大城市。在纽约的种种声誉中,有一个说法,纽约地面上有个人,地下就有只耗子。2008年在纽约街头曾经出现过一幅漫画,就是《耗子爱纽约》。刚才我去谷歌地图查了一下,现在这个地方已经盖了一座楼房了。 据美国的人口普查局报告,纽约的人口目前已经超过8百万。那么,纽约到底有没有8百万只耗子呢?无论你信与不信,到底应该怎么统计这个数字呢? 大家知道,要想统计老鼠的数字,困难很多。据说传统的普查野生动物数量的办法,通常是采用统计学中的抽样原理。大致上是这样的安排的,首先在限定范围内随机捕捉一批野生动物,然后打上标记,释放出去。然后再次在限定范围内进行第二次随机捕捉,然后统计出其中带有标志的动物在第二次捕捉动物中的比例。最后用这种办法,大致推算出这种野生动物在限定范围内的总量。 正在哥伦比亚大学攻读博士学位的Jonathan Auerbach同学曾经在纽约市立大学城市研究中心工作过,他知道老鼠问题是市政管理中的一个难题,同时他也知道无法采用常规的野生动物数量调查方法来统计纽约的老鼠。无论从人力与物力上,市政府无法拿出足够的预算来让他进行一项捕捉释放再捕捉的老鼠试验。于是,他利用统计学的原理,设计了这么一个研究方案,然后采用市政府已经收集到的数据,最终推算出了纽约市区的老鼠总数。 这个方案首先确定纽约市有842,000个city lots(市区地块)。来自地块的地产税是政府税务收入的主要来源之一。所以市政府一直拥有这个方面的完整数据。 然后收集城市健康卫生主管部门在2010年整年和2011年上半年所收集到的老鼠报告。纽约市的健康卫生主管部门一直设有专线电话,接收市民对各种与健康卫生相关的各种情况报告,其中包括了看到老鼠的这个项目。 以上两个项目的数据都是现有的,而且是完整的。用今天流行的话说,都属于“大数据”。 下面开始就是Auerbach同学的贡献。他把这一年半的老鼠数据分为三段,1)2010年上半年;2)2010年下半年;3)2011年上半年。然后,先把第一时段的数据按照市区地块进行统计,找出发现老鼠的地块。然后再把第三时段的数据按照市区地块进行统计,找出重复发现老鼠的地块所占的比例。这样推算的结果,大致确定了40,500的城市地块有鼠居住,误差率为正负3000地块,约占城市总地块的4.75%。(具体的计算过程,在参考文献中有链接。) 最后,根据其他的研究表明,一个鼠群平均由40-50只老鼠构成。把这个数字乘以40,500,得出的总数是2百万,误差为正负150,000。 我觉得这是一个很好的开发利用大数据的例子。虽然这个研究的结论没有包括居住在纽约地铁、地下水道、城市公园、公路系统以及其他不属于城市地块区域的老鼠。但是在已有数据的基础上,能另辟蹊径,找到一种实际有效的解决问题的办法,还是非常有意义的。所以,年仅26岁的Auerbach同学凭借这个研究在本年度英国皇家伦敦统计学会的YSS写作竞赛 (Young Significance Statistics Writing Competition) 中获奖。 顺便借这个机会我也想向各位统计学家请教一下。统计学是不是一门比较年轻的学科?我们中国应该算是一个很有数学历史的国家,历史上也出现过《九章算术》以及好多种《算经》,但是好像没有什么属于统计学方面的成就。是这样的吗? 参考资料:8 Million Rats for 8 Million New Yorkers? Data Suggest a City Legend Is Flawed, by James Barron, Nov 5, 2014, NYT (http://www.nytimes.com/2014/11/06/nyregion/8-million-rats-in-new-york-data-suggest-that-legend-is-flawed.html?_r=0) |
SevenStar: Again: what the hell are you talking about?

fancao: have you used statistics to analysis result? If so, how did you present your data? Do you use Kai, p etc. ?
SevenStar: What the hell are you talking about?
老巫: 我大概没说清楚。我的意思是:“一个lot最多一个鼠群”是一个没有reasoning的假定。
他的原话是:it is unlikely that two colonies will inhabit the same lot ...
昨夜雨: 总共的lot数字大约是842,000,原文里面应该有。和你推算的差不多。Lot的大小差别是存在。因为纽约的住房中,很多是公寓。至于说有的特大的lot会不会有特别多的老 ...
老巫: 读了也跑帖的原文。一个lot最多一个鼠群(colony),这个假定是原作者take for granted。理论上如果lots足够小,那这个假定没有问题。
那么lots有多大呢?文章 ...
昨夜雨: 其实这个“假设”(假设“卫生主管部门没有收集到的老鼠报告的lot没有老鼠”。)是一个误区。这个研究的目的,就是要找出在没有报告老鼠的lot里,究竟可能有老鼠 ...
八月风: 纽约的老鼠,最著名的是这只吧:Stuart Little。这电影我看了不止一遍。
http://en.wikipedia.org/wiki/Stuart_Little_(film)
Linwood: 没看过原文,纽约的老鼠是80万,800万,8000万,知道了又怎么样?
用“收集到的报告”做研究,有一个致命的缺点,就是假设“卫生主管部门没有收集到的老鼠报告的 ...
alsoRun: The original article is here
http://onlinelibrary.wiley.com/doi/10.1111/j.1740-9713.2014.00764.x/pdf

fancao: 同意老巫的看法。没看过文章,不过,从这个结果的表示来看,不明白他怎么用到了统计学。使用统计学来做试验,采样的设计和结果的分析都要符合统计学的要求。这里 ...
老巫: 没看原文,估计也看不懂,但是风雨这里说的貌似没什么“统计”成分,所以不能完全按他的字面来了解。误差是大,不过这足以否定纽约有八百万老鼠的神话。也就是说 ...

昨夜雨: 老巫同学,你是在挺我还是在砸我啊?人家得的可是统计学的奖啊。
老巫: 没看原文,估计也看不懂,但是风雨这里说的貌似没什么“统计”成分,所以不能完全按他的字面来了解。误差是大,不过这足以否定纽约有八百万老鼠的神话。也就是说 ...

Powered by Discuz! X3.4
© 2001-2017 Comsenz Inc.