幸存者偏差(Survivorship Bias)

什么是幸存者偏差

  幸存者偏差,另译为“生存者偏差”或“存活者偏差”,是一种常见的逻辑谬误(“谬误”而不是“偏差”),意思是只能看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。这东西的别名有很多,比如“沉默的数据”、“死人不会说话”等等。[编辑]

幸存者偏差的案例[1]

  关于幸存者偏差(Survivorship Bias),有一个较知名的“飞机防护”案例。

  1941年,第二次世界大战中,美国哥伦比亚大学统计学沃德教授(Abraham Wald)应军方要求,利用其在统计方面的专业知识来提供关于《飞机应该如何加强防护,才能降低被炮火击落的几率》的相关建议。沃德教授针对联军的轰炸机遭受攻击后的数据,进行研究后发现:机翼是最容易被击中的位置,机尾则是最少被击中的位置。沃德教授的结论是“我们应该强化机尾的防护”,而军方指挥官认为“应该加强机翼的防护,因为这是最容易被击中的位置”。沃德教授坚持认为:(1)统计的样本,只涵盖平安返回的轰炸机;(2)被多次击中机翼的轰炸机,似乎还是能够安全返航;(3)而在机尾的位置,很少发现弹孔的原因并非真的不会中弹,而是一旦中弹,其安全返航的概率就微乎其微。军方采用了教授的建议,并且后来证实该决策是正确的,看不见的弹痕却最致命!

  这个故事有两个启示:一是战死或被俘的飞行员无法发表意见,所以弹痕数据的来源本身就有严重的偏误;二是作战经验丰富的飞行员的专业意见也不一定能提升决策的质量,因为这些飞行员大多是机翼中弹而机尾未中弹的幸存者。

  俗语“死人不会说话”很好地解释了这种偏差的重要成因。当我们分析问题所依赖信息全部或者大部分来自“显著的信息”,较少利用“不显著的信息”甚至彻底忽略“沉默的信息”,得到的结论与事实情况就可能存在巨大偏差。

  比如常言说“老婆都是别人的好”。这话有很多生理和心理层面的解释,读者可以参考渡边淳一的《男人这东西》。笔者认为还有几个跟生存者偏差相关的原因:一是你看到的别人老婆有很多,但你往往记住那些漂亮优雅贤惠的少数人,自觉不自觉地忽略大部分;二是你记住的别人老婆的样本信息并不完整,你看到的更多是淡妆华服而不是睡衣素颜,是温柔体贴而不是唠叨抱怨,而后者可能只是她老公下班回家后才能看到。

  再比如媒体调查“喝葡萄酒的人长寿”。一般是调查了那些长寿的老人,发现其中很多饮用葡萄酒。但还有更多经常饮用葡萄酒但不长寿的人已经死了,媒体根本不可能调查到他们。

  回到投资领域,在投资理财电视节目中,我们经常看到取得成功的投资者谈论其投资经验和方法,但观众往往会忽略了一个事实:采用同样经验和方法而投资失败的人是没有机会上电视的。幸存者偏差现象可能导致以下的结果:(1)投资成功者出书出名,失败者将默默无闻,导致电视上大量专家在传经布道、市面上充斥着太多投资成功学类的书籍,可能会让观众或读者高估了通过投资获得成功的概率;(2)由于条件限制或者心理因素,投资成功者难以保证理性和客观,容易夸大自己能力、忽略运气因素、弱化当时所承担的风险等。

  另外,在投资领域,幸存者偏差还具有明显的时间周期。股市具有系统性波动特点,导致样本特征产生时间分布偏差,很明显例子是我国2006年、2007年的“股神”要比2008年多得多。

  对于如何消除幸存者偏差的误区,没有好的办法,但如果能做到以下几点,应该有些好处:(1)在投资领域,我们改变不了生存者偏差现象的存在,但我们可以努力不盲从所谓的权威;(2)对于基金私募以及个人投资者的能力评价,要看长期的、最好是跨越多个经济周期的业绩记录;(3)为了使样本更反映事实,我们更应该搜集介绍投资失败的案例和总结,不但要向成功的人学习如何成功,更要从失败的人那里总结为什么失败,因为投资很大程度上是个避免失败的过程。[编辑]

参考文献

  1.  荣令睿.消除“幸存者偏差”[J].钱经.2013,7

民用开放数据库

1 -Kaggle数据集

网址:www.kaggle.com/datasets

每个数据集都有对应的一个小型社区,你可以在其中讨论数据、查找公共代码或在内核中创建自己的项目。该网站包含大量形状、大小、格式各异的真实数据集。你还可以看到与每个数据集相关的“内核”,其中许多不同的数据科学家提供了笔记来分析数据集。有时在某些特定的数据集中,你可以从笔记中找到相应的算法,解决预测问题。

2 -亚马逊数据集

网址:registry.opendata.aws

该数据源包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等。它也有一个搜索框来帮助你找到你正在寻找的数据集,另外它还有数据集描述和使用示例,这是非常简单、实用的!

3- UCI机器学习库:

网址:archive.ics.uci.edu/ml/datasets.html

这是加州大学信息与计算机科学学院的一个数据库,包含了100多个数据集。它根据机器学习问题的类型对数据集进行分类。你可以找到单变量、多变量、分类、回归或者是推荐系统的数据集。UCI的某些数据集已经更新完毕并准备使用。

4-谷歌的数据集搜索引擎:

网址:toolbox.google.com/datasetsearch

在2018年末,谷歌做了他们最擅长的事情,推出了另一项伟大的服务。它是一个可以按名称搜索数据集的工具箱。谷歌的目标是统一成千上万个不同的数据集存储库,使这些数据能够被发现。

5 -微软数据集:

网址:msropendata.com

2018年7月,微软与外部研究社区共同宣布推出“微软研究开放数据”。

它在公共云中包含一个数据存储库,用于促进全球研究社区之间的协作。另外它还提供了一组在已发表的研究中使用的、经过整理的数据集。

6-Awesome公共数据集:

网址:github.com/awesomedata/awesome-public-datasets

这是一个按照主题分类的,由社区公开维护的一系列数据集清单,比如生物学、经济学、教育学等。这里列出的大多数数据集都是免费的,但是在使用任何数据集之前,你应该检查相应的许可要求。

7-计算机视觉数据集:

网址:www.visualdata.io

如果你从事图像处理、计算机视觉或者是深度学习,那么这应该是你的实验获取数据的重要来源之一。

该数据集包含一些可以用来构建计算机视觉(CV)模型的大型数据集。你可以通过特定的CV主题查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)查找特定的数据集。

8-SofaSofa数据集:

网址:SofaSofa竞赛与数据集

SofaSofa上的朋友都知道吧

综上所述,从我所观察到的情况来看,越来越多的用于研究机器学习的各种数据集变得更容易获取,维护这些新数据集的社区,也将不断地发展,使计算机科学社区能够继续快速创新,为生活带来更多创造性的解决方案。

加州大学尔湾分校的公开数据库(这个是最全的!) UCI Machine Learning DataBase 

加州大学河滨分校的时间序列数据库 UCR Time Series Classification Archive

国家数据(咱们自己的) 国家数据

Kaggle数据竞赛 Kaggle数据集

疫情当前,欧洲多国宣布暂时从伊拉克撤军

据简氏周刊30日报道,欧洲多个国家宣布暂时从伊拉克的打击“伊斯兰国”国际联盟和北约训练团中撤走自己的军人。

3月20日,西方主导的联合特遣部队“固有决心行动”(CJTF-OIR)宣布已停止训练伊拉克安全部队,以减少新冠病毒的扩散。此前,伊拉克军方已经决定暂停训练。

法国武装力量部已经通过新闻发布会宣布,将撤出约100名参与培训伊拉克人员的法国部队官兵,并表示直到情况允许,才会恢复这些活动。不过,法国外交部表示,将继续打击“伊斯兰国”极端组织,并在科威特和卡塔尔的基地内保留法国人员,在海上部署法国海军人员,并保证对约旦和卡塔尔的空中支援。

与此同时,德国军队宣布,作为美国领导的国际联盟的一部分,将从伊拉克撤出部分驻扎在伊拉克的士兵。德国联邦国防军指挥官周日证实,那些在当地的“非必要人员”将返回德国。据德新社报道,一些军人已经在周日早上抵达德国。德国联邦国防军作战司令部没透露这次撤军的具体规模。

另据当地媒体报道,西班牙将暂时从伊拉克撤出150至200名士兵,其中包括国民警卫队人员。这次撤离还包括了葡萄牙人员。3月26日,葡萄牙国防部在其网站上宣布,由于新冠病毒的原因,31名军事人员将从距巴格达50公里的基地返回葡萄牙,另外还有驻扎大使馆的两名该国士兵也将撤离。

荷兰国防部和外交部告诉荷兰议会,40名荷兰士兵已经在伊拉克埃尔比勒和巴格达暂时取消培训活动。由于斋月的关系,预计5月24日之前不会恢复活动。荷兰国防部说这些士兵们将返回本国。由荷兰皇家空军KDC-10从伊拉克运送这些士兵回到荷兰埃因霍温空军基地。加上从阿富汗撤离的人员,共有110名荷兰士兵搭乘这一飞机返回本国。

苹果回应iPhone抢夺者:手机能远程禁用并追踪实时位置,无法被重置

6月3日消息,针对自己多家官方零售店出现被砸抢,苹果现在给出回应称,在零售店中用于展示的iPhone等产品,是远程可以禁用的,同时还能追踪到你的实时位置,并将其发送到当地执法部门手里。

近日,包括华盛顿、洛杉矶、旧金山和费城的苹果商店陆续受到抢劫和破坏。对此,官方给出回应称,苹果商店被掠夺的手机和电脑等演示机型产品均配备了特殊的功能,将用于追踪不法者的位置并发送到当地执法部门手里。

所有用于苹果商店的演示产品均可以防止不法分子恶意对产品进行重置(恢复出厂设置),产品被盗后,屏幕会显示消息 “此设备已被禁用并正在被跟踪,将向地方当局发送警报。”

当然了,携带演示设备的窃贼也会发现它们抢来的产品用途有限,因为当iPhone这些展示设备离开苹果零售店时,它们会被禁用和跟踪。

此前,苹果始终在通过技术手段解决设备被盗抢给用户带来的损失,最知名的莫过于 “查找我的 iPhone”功能,它可以使用户远程锁定自己的手机,并发送丢失手机的位置信息。

尽管苹果已经在技术方面,对产品被盗做足了准备,但目前苹果公司的策略还是格外谨慎。

为了应对当前紧张局势,以及保护零售员工避免受到伤害,苹果周日决定暂时关闭其在美国各地的零售店,其中许多零售店刚刚因疫情封锁措施解除而重新恢复运营。

苹果在其零售店页面上建议:“考虑到我们团队的健康和安全,我们决定继续关闭在美国的部分零售店。”为了应对抗议和抢劫企图,许多苹果零售店已经开始打包商品,并用木板封住窗户,以减少损失。

按照苹果官方的统计,其在美国各地的Apple Store,包括波特兰、费城、布鲁克林、盐湖城、洛杉矶、查尔斯顿、华盛顿特区、斯科茨代尔和旧金山等地的苹果商店都遭受了重大损失。

猎头找的工程师:阿里系

联系微信: tiantian20020308

岗位要求 

  1. 计算机软件或相关专业本科及以上学历
    2.八年及以上Java研发经验,撞长企业级技术架构治理及分布式业务系统架枃的方法论、技术规范和设计模式
    3.负责过大规模系统的架构和研发工作;从事过IOT、物流等系统设计者优先
    4.具备从0到全链路搭建业务产品技术的经验
    5.熟悉复杂系统的设计和应用,熟悉分布式缓存、消息搜索等机制;能对各类技术进行合理应用,解决问题
    6.具有良好的沟通能力和团队合作能力,有强烈的责任心,具有owner精神,主动承担
    7.眼界开阔,关注业界新兴流行的技术应用,具有创新性的思维和方法

阿里招聘

联系微信号:tiantian20020308

岗位描述
1.主导菜鸟物流IoT数字化中台系统架构设计与开发工作,对中台的发展进行规划并推广到业务线落地
2.能够根据业务以及产品运营的需求变化,整理相配套的技术解决方案,能够从复杂多变的业务中找到核心问题,并且提出合理的技术解決方案,并且能够推动技术方案落地,包括架构技术和編码实现
3.确保服务高可用、高质量和高性能
4.主动关注和学习新技术,并能够挖据出业务应用场景,用技术推动业务,提高体验和效率

微信回应监听用户聊天记录并推送广告:假的

近日,有短视频声称“微信正在监听你的聊天记录”,并在视频中传授所谓“1分钟关闭”诀窍,并以此推送相关广告。针对此事,微信团队回应称,该消息是假的。“按照聊天内容推送广告”也是谣言。腾讯表示,“聊天内容属于用户的通信秘密和个人隐私,微信不会监测用户的聊天记录,腾讯更不会通过监测用户聊天记录来推送广告。”

微信

@Voldemort_13:假的是指“一分钟关闭”,因为根本关不掉。

@一语弥情:还假?你试试说几个想买的东西,然后打开购物App,惊悚!

@好像可爱的猪:你看我像傻子么?

@布魯斯:不会监控,但是你会因为聊天记录被封号。