天涯小站 2.0

 找回密码
 注册
搜索
天涯小站 2.0 首页 拾萃 科技网络 查看内容

昨夜雨:纽约老鼠的数量是怎样统计出来的

2014-11-8 06:39 AM| 发布者: 星光| 查看: 1121| 评论: 27|原作者: 昨夜雨

摘要: 最近看到一篇关于纽约老鼠的统计学报道,很有意思。趁着周末时间把这篇报道的主要内容用中文写下来,算是给自己交的一份学习笔记。我知道小站上有也跑教授是专门研究统计学的,还有好几位老师也都精通统计学。如果我 ...
最近看到一篇关于纽约老鼠的统计学报道,很有意思。趁着周末时间把这篇报道的主要内容用中文写下来,算是给自己交的一份学习笔记。我知道小站上有也跑教授是专门研究统计学的,还有好几位老师也都精通统计学。如果我的学习笔记里有什么差错,请不吝赐教。

纽约在美国算是有个既有历史又有规模的一个大城市。在纽约的种种声誉中,有一个说法,纽约地面上有个人,地下就有只耗子。2008年在纽约街头曾经出现过一幅漫画,就是《耗子爱纽约》。刚才我去谷歌地图查了一下,现在这个地方已经盖了一座楼房了。


据美国的人口普查局报告,纽约的人口目前已经超过8百万。那么,纽约到底有没有8百万只耗子呢?无论你信与不信,到底应该怎么统计这个数字呢?

大家知道,要想统计老鼠的数字,困难很多。据说传统的普查野生动物数量的办法,通常是采用统计学中的抽样原理。大致上是这样的安排的,首先在限定范围内随机捕捉一批野生动物,然后打上标记,释放出去。然后再次在限定范围内进行第二次随机捕捉,然后统计出其中带有标志的动物在第二次捕捉动物中的比例。最后用这种办法,大致推算出这种野生动物在限定范围内的总量。

正在哥伦比亚大学攻读博士学位的Jonathan Auerbach同学曾经在纽约市立大学城市研究中心工作过,他知道老鼠问题是市政管理中的一个难题,同时他也知道无法采用常规的野生动物数量调查方法来统计纽约的老鼠。无论从人力与物力上,市政府无法拿出足够的预算来让他进行一项捕捉释放再捕捉的老鼠试验。于是,他利用统计学的原理,设计了这么一个研究方案,然后采用市政府已经收集到的数据,最终推算出了纽约市区的老鼠总数。


这个方案首先确定纽约市有842,000个city lots(市区地块)。来自地块的地产税是政府税务收入的主要来源之一。所以市政府一直拥有这个方面的完整数据。

然后收集城市健康卫生主管部门在2010年整年和2011年上半年所收集到的老鼠报告。纽约市的健康卫生主管部门一直设有专线电话,接收市民对各种与健康卫生相关的各种情况报告,其中包括了看到老鼠的这个项目。

以上两个项目的数据都是现有的,而且是完整的。用今天流行的话说,都属于“大数据”。

下面开始就是Auerbach同学的贡献。他把这一年半的老鼠数据分为三段,1)2010年上半年;2)2010年下半年;3)2011年上半年。然后,先把第一时段的数据按照市区地块进行统计,找出发现老鼠的地块。然后再把第三时段的数据按照市区地块进行统计,找出重复发现老鼠的地块所占的比例。这样推算的结果,大致确定了40,500的城市地块有鼠居住,误差率为正负3000地块,约占城市总地块的4.75%。(具体的计算过程,在参考文献中有链接。)

最后,根据其他的研究表明,一个鼠群平均由40-50只老鼠构成。把这个数字乘以40,500,得出的总数是2百万,误差为正负150,000。

我觉得这是一个很好的开发利用大数据的例子。虽然这个研究的结论没有包括居住在纽约地铁、地下水道、城市公园、公路系统以及其他不属于城市地块区域的老鼠。但是在已有数据的基础上,能另辟蹊径,找到一种实际有效的解决问题的办法,还是非常有意义的。所以,年仅26岁的Auerbach同学凭借这个研究在本年度英国皇家伦敦统计学会的YSS写作竞赛 (Young Significance Statistics Writing Competition) 中获奖。

顺便借这个机会我也想向各位统计学家请教一下。统计学是不是一门比较年轻的学科?我们中国应该算是一个很有数学历史的国家,历史上也出现过《九章算术》以及好多种《算经》,但是好像没有什么属于统计学方面的成就。是这样的吗?

参考资料:8 Million Rats for 8 Million New Yorkers? Data Suggest a City Legend Is Flawed, by James Barron, Nov 5, 2014, NYT (http://www.nytimes.com/2014/11/06/nyregion/8-million-rats-in-new-york-data-suggest-that-legend-is-flawed.html?_r=0)
发表评论

最新评论

引用 2014-11-11 09:32 PM
SevenStar: Again: what the hell are you talking about?
琳兄嘉奖你呢,快去领奖吧。别在这里搅和了。
引用 2014-11-11 09:19 PM
fancao: have you used statistics to analysis result? If so, how did you present your data? Do you use Kai, p etc. ?
Again: what the hell are you talking about?
引用 2014-11-11 08:59 PM
SevenStar: What the hell are you talking about?
have you used statistics to analysis result? If so, how did you present your data? Do you use Kai, p etc. ?
引用 2014-11-11 04:12 PM
老巫: 我大概没说清楚。我的意思是:“一个lot最多一个鼠群”是一个没有reasoning的假定。

他的原话是:it is unlikely that two colonies will inhabit the same lot ...
其实到目前为止所看到的质疑,都是对每个lot上面究竟有多少老鼠的问题。这个问题不是他的贡献或者缺陷,是另外一个层次的问题。他的方法是从大数据中找到了一种思路,经济而又有效地估测大范围内有鼠害地块的比例。这是他的贡献。至于说一个有鼠地块上的40-50只老鼠,是不是一个合理的平均数值,或者说有没有办法来确定这个数值,都不会影响到他所奠定的基础。这一点你前面也提到了。对不对?
引用 2014-11-11 03:51 PM
昨夜雨: 总共的lot数字大约是842,000,原文里面应该有。和你推算的差不多。Lot的大小差别是存在。因为纽约的住房中,很多是公寓。至于说有的特大的lot会不会有特别多的老 ...
我大概没说清楚。我的意思是:“一个lot最多一个鼠群”是一个没有reasoning的假定。

他的原话是:it is unlikely that two colonies will inhabit the same lot simultaneously。
引用 2014-11-11 03:40 PM
老巫: 读了也跑帖的原文。一个lot最多一个鼠群(colony),这个假定是原作者take for granted。理论上如果lots足够小,那这个假定没有问题。

那么lots有多大呢?文章 ...
总共的lot数字大约是842,000,原文里面应该有。和你推算的差不多。Lot的大小差别是存在。因为纽约的住房中,很多是公寓。至于说有的特大的lot会不会有特别多的老鼠,或者某些有鼠的lot上可能只是路过的,现实上这些都有可能,所以应该从平均数的意义上去理解。
引用 2014-11-11 01:06 PM
读了也跑帖的原文。一个lot最多一个鼠群(colony),这个假定是原作者take for granted。理论上如果lots足够小,那这个假定没有问题。

那么lots有多大呢?文章里没说,不过提供了一些间接的数字。文章估计有40500有老鼠的lots,占全市总数的0.0475%。这么推算全市一共有 852632个lots。8百万居民,平均每个lot 9.38 居民。考虑到绝大部分single family house lots 最多就是4口人,要达到9.38这平均数,恐怕有很多数百(甚至上千)人口的特大lots,这么大的lot 最多一个鼠群,说不过去。

我挑这个刺,是觉得原作者是知道这个问题的,因为没办法,所以轻轻带过。(虽然得奖,但这不是正式学术文章。)他应该知道纽约市的lots有多大,如果对他有利,说出来,免得读者(比如老巫)瞎猜。

再挑一个刺。他说几个lots可能有同一个鼠群。如果是这样,从lot编号上应该能看出迹象,但是他没有提及。只是没想到?
引用 2014-11-11 12:41 PM
昨夜雨: 其实这个“假设”(假设“卫生主管部门没有收集到的老鼠报告的lot没有老鼠”。)是一个误区。这个研究的目的,就是要找出在没有报告老鼠的lot里,究竟可能有老鼠 ...
说得对,“卫生主管部门没有收集到的老鼠报告的lot没有老鼠”不在他的假设之中。这正是为什么这个研究属于统计(更准确地说,sampling)范畴。
引用 2014-11-10 11:36 PM
八月风: 纽约的老鼠,最著名的是这只吧:Stuart Little。这电影我看了不止一遍。
http://en.wikipedia.org/wiki/Stuart_Little_(film)
汗。这个我第一次听说。有时间要看看。
引用 2014-11-10 11:35 PM
Linwood: 没看过原文,纽约的老鼠是80万,800万,8000万,知道了又怎么样?
用“收集到的报告”做研究,有一个致命的缺点,就是假设“卫生主管部门没有收集到的老鼠报告的 ...
其实这个“假设”(假设“卫生主管部门没有收集到的老鼠报告的lot没有老鼠”。)是一个误区。这个研究的目的,就是要找出在没有报告老鼠的lot里,究竟可能有老鼠的lot会有多少。
引用 2014-11-10 11:31 PM
也跑教授的评价如何啊?
引用 2014-11-10 11:02 PM
(不好意思,这文章是关于统计老鼠的,俺跑题了)
引用 2014-11-10 10:59 PM
估计是禁用thallium作鼠药以后老鼠才那么多的。
引用 2014-11-10 07:05 PM
没看过原文,纽约的老鼠是80万,800万,8000万,知道了又怎么样?
用“收集到的报告”做研究,有一个致命的缺点,就是假设“卫生主管部门没有收集到的老鼠报告的lot没有老鼠”。不知道你们在家里见过老鼠,并报告卫生部门。我,我坦白,我见过,没报告。这个研究还假设一个lot就一窝老鼠,你家的老鼠不会去打扰邻居.            
一年前我听了个大数据的报告,说是用大数据什么都能预测,问题在于准确性。如果不管准确性的话,500年前,岂不也是什么都能预测??
引用 2014-11-10 06:02 PM
The original article is here
http://onlinelibrary.wiley.com/doi/10.1111/j.1740-9713.2014.00764.x/pdf
引用 2014-11-10 05:09 PM
fancao: 同意老巫的看法。没看过文章,不过,从这个结果的表示来看,不明白他怎么用到了统计学。使用统计学来做试验,采样的设计和结果的分析都要符合统计学的要求。这里 ...
What the hell are you talking about?
引用 2014-11-9 10:01 PM
纽约的老鼠,最著名的是这只吧:Stuart Little。这电影我看了不止一遍。
http://en.wikipedia.org/wiki/Stuart_Little_(film)
引用 2014-11-9 08:02 PM
老巫: 没看原文,估计也看不懂,但是风雨这里说的貌似没什么“统计”成分,所以不能完全按他的字面来了解。误差是大,不过这足以否定纽约有八百万老鼠的神话。也就是说 ...
同意老巫的看法。没看过文章,不过,从这个结果的表示来看,不明白他怎么用到了统计学。使用统计学来做试验,采样的设计和结果的分析都要符合统计学的要求。这里采样没说得很明白,而结果的表达也不清楚。
一般来说,对试验结果作统计分析,必然要用到最基本的,如果不是更高级的统计方法的话,比方说t-test,Z-test, etc.。
而使用了这些方法以后再来表达这个结果就要用特定的统计语言而不能简单地说平均结果,正负误差吧。
引用 2014-11-9 05:58 PM
昨夜雨: 老巫同学,你是在挺我还是在砸我啊?人家得的可是统计学的奖啊。
不是挺,也不是砸,是帮你挡砖。:)
引用 2014-11-9 11:37 AM
老巫: 没看原文,估计也看不懂,但是风雨这里说的貌似没什么“统计”成分,所以不能完全按他的字面来了解。误差是大,不过这足以否定纽约有八百万老鼠的神话。也就是说 ...
老巫同学,你是在挺我还是在砸我啊?人家得的可是统计学的奖啊。

查看全部评论(27)

手机版|天涯小站

GMT-5, 2026-6-30 12:40 PM

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

返回顶部