大数据已死!从业10年老哥爆文抨击:这套唬不住客户了
詹士 发自 凹非寺
量子位 | 公众号 QbitAI
“大数据已死。”
说这话的,正是来自Google十年员工,数据分析产品BigQuery创始成员之一,Jordan Tigani。
在最新发布的一篇博文中,他表示——
大数据概念在十多年前开始兴起,时至今日,销售们仍用“海量数据带来指数级增长曲线”说法,来勾起(唬住)客户为相关服务买单的**,否则就将被数字时代抛弃。作者自己也曾是其中之一。
但现在,Jordan Tigani不仅认为这种说法行不通,还称——“数据大小根本不是问题所在。”
那么问题在哪?他认为,我们已无需担心数据大小,而应专注于如何使用数据来做出更好的决策。
如此言论之下,也吸引了不少业内人士的围观和热议。
他的上述观点有何依据?
不妨从证明过程看起。
值得注意的是,作者表示,证明过程中相关图表曲线并不是严格参考了数据,而是凭记忆手绘的,这位资深从业者强调——重要的是曲线形状趋势,而非确切数值。
“恐吓”客户的话术出问题了
Jordan Tigani先从一张PPT聊开去。
这是一条数据量随时间增长,呈现指数级增长的曲线,在过去十年,几乎每个大数据产品推销都从该曲线开启。他曾就职的谷歌、SingleStore都不例外。
亮出曲线后,销售们会顺势鼓吹产品,告诉客户——大数据时代来了!你需要我手里的产品服务!
但Jordan Tigani认为,多年来的事实已证明,处理数据的老方法已经行不通了,且大多数应用程序也不需要处理大量数据。
一个佐证是近些年传统架构的数据管理**复兴,诸如SQLite、Postgres、MySQL都增长强劲,与之对比,“NoSQL”甚至“NewSQL”增长却停滞不前。
一个明显例子是MongoDB,它是排名最高的NoSQL类数据库,也同样是最火的横向扩展类数据库,此前几年MongoDB增长势头强劲,但最近规模却小幅下降,且与MySQL等主流数据库仍存差距。
Jordan Tigani认为——如果大数据真是未来,那情况应该不一样。
鼓吹大数据时代就在眼前的另一个说法是——每个人都会被产生的数据淹没。
但Jordan Tigani在研究客户中发现绝大多数客户总数据存储量不超过1TB,即便大型企业,其数据量级也soso。
根据他的从业经验,所服务的最大客户数据存储量是第二大客户的2倍,第二大客户又是第三位的2倍。
这样一来,客户数据大小与数量服从幂律分布。
只有极少数客户拥有PB级数据,成千上万客户每月存储费用不超过10美元,而他们服务客户存储资源使用的中位数,连100GB都不到。
不仅作者本人这么认为,Gartner、Forrester等机构分析师及其他从业者也表示,大部分企业的数据库量级都小于1TB,且100GB是常态。
拿一家超千名客户的公司举例,即便每个客户每天下一个订单,里面包含100项数据,每天生成数据仍小于1字节,三年后是1GB,而要达到1TB,这家公司得做几千年生意。
另一个例子是之前作者接触了一家E轮独角兽公司,且还在快速成长中,但即便这样,他们的财务数据、客户数据、营销**数据及服务日志加起来,也只有几GB。
就这,能叫大数据?
还不算完,即便看“已有”部分,也有问题。
由于现代云平台将存储与计算分开,两部分利用量级也有很大差距,即——数据存储增长速度,远大于计算资源需求增速。
具体来说,企业数据的存储量随时间推移,肯定是线性增加的,但大部分分析计算需求是针对近期数据,不可能一遍又一遍反复读取旧数据。因此,计算需求不会同步迅速增加。
Jordan Tigani的一个客户就是这样。
作为全球头部零售商,他们原有100TB本地数据,迁移到云上后,数据量变成了30PB,增加了300倍,如果计算资源需求也随之拉满,那他们在数据分析上的花费将达几十亿美元,但事实上,他们只花了很小一笔费用。
作者认为,大量计算服务不被需要,也就意味着前沿架构不太有必要,甚至分布式处理也Duck不必。
与之类似,分析数据的工作负载也远小于数据体量。
多数时候,人们往往只会查询前1小时、前1天或上周数据,较小的表会被频繁查询,但大表就不一定了。
在作者本人BigQuery工作经历中,数据量巨大的客户几乎从不查询大量数据,除非他们正在生成一些报告。
这种需求,也不要求性能优先,且仅是企业一周几十万个查询中的极少数。
正如下图,90%查询任务涉及的数据量级不超过100MB,仅1%超过10GB,且即便查询巨型表,数据库也可通过一定处理,减少计算量和延迟。
一个侧面佐证是——业内符合原本“大数据”定义的产品也在变少。
在当初,大数据的定义之一是“任何单机无法处理相关任务/场景需求”,比如00年代,数据工作负载对于单个商业计算机来说,带不动是常态。
但今天,一个AWS的标准实例所用到的物理服务器包含了64核及256GB RAM,如果为优化实例再多掏一点钱,又能在原基础上增加2个数量级RAM,这几乎覆盖所有工作负载需求。
既然大数据时代结束了,那是不是说,相关从业者要下岗了?
作者也提出了自己的看法——
结束了,但没完全结束。
具体来说,作者认为,大数据的另一重内涵是“当数据保存的支出小于其挖掘价值,那就应该放弃”,因而,我们需要判定哪些数据需要及时清除,以及背后的原因,这将成为数据工作的重要部分。
这当中,也包括不同时期同一数据以不同字段存储,需要有人来加以维护和留有记录。
此外,基于相关监管规定,很多类型数据(比如涉及个人隐私的电话号码)也需要定期清除。
再有,便是一些公司需要定期判断哪些旧数据要清理,以避免未来可能的法律风险。(手动狗头)
ChatGPT老板有不同看法
对于Jordan Tigani上述观点及论证,有网友表示支持,还联想到之前类似的工作经历。
也有网友表示:
当XX已死,说明它真实被认可的地方会被保留下来。
值得一提的是,并非所有人都赞同作者的观点。
尤其鉴于“XX已死”将话说得太满,有网友认为:
在近期AI大火之际,判决AI所依赖的大数据已死,也是挺敢说。
当红炸子鸡ChatGPT背后老板Sam Altman,此前在旧金山一次技术活动中,也谈过对大数据的看法,Sam认为——
AI研究领域取得令人印象深刻的进步,不仅依靠海量数据,同时更需要海量的计算。
上述观点不仅强调了海量数据重要性,对比Jordan Tigani所认为的“重存储轻计算”看法,正好相反。
另一个不同声音来自一位名叫Lewis Gavin的大数据与软件工程师,此前他曾在Medium上发文,主题也是围绕“大数据是否消亡”
他认为:
大数据不会死,只会变得更重要。
所给出理由是:一方面依据是全球生成的数据总量仍在加速增长,且细分领域中,处理“大数据”正成为常态。
基于此,Lewis Gavin认为——所谓“大数据死亡”,只是营销说法的消亡,但Big Data处理技术和应用仍存在,且它会成为习以为常的现象。
IDC于1月24日发布的一篇预测证明了大数据市场仍在增长,内容指出——
未来几年,全球大数据和分析软件市场将实现强劲增长,且具体到该板块各细分领域,未来几年增长率均为双位数。
有意思的是,有网友提出“大数据的死亡”并不是个技术话题。
他表示:数据之所以没发挥价值,其实是商界精英们往往忽略数据内蕴藏的结论。
另一位网友也表示赞同,还称:
自己曾开玩笑,数据科学家的工作其实不是搞分析,而是为高管们前瞻性观点提供有力证明。(手动狗头)
参考链接:
[1]https://motherduck.com/blog/big-data-is-dead/
[2]https://news.ycombinator.com/item?id=34694926
[3]https://twitter.com/jrdntgn/status/1622986160833437697
[4]https://towardsdatascience.com/big-data-will-be-dead-in-5-years-ef4344269aef
[5]https://www.bigcompute.org/speaker-series/fireside-with-sam-altman
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
当前,以芯片为代表的信创产业逐步成为国家科技竞争力的重要标志。在国产CPU产业强势崛起的过程中,你首先想到的会是哪几企业?答案有很多,但“中科系”的提及率绝对很高。作为国家战略科技力量,“中科系”旗下
21世纪经济报道记者倪雨晴 圣何塞报道在硅谷源泉之一的圣何塞,英特尔CEO帕特·基辛格(Pat Gelsinger)正在带领英特尔加速奔跑。当地时间9月19日,2023英特尔on技术创新大会于美国加利
财联社9月19日讯(记者 唐植潇)近日有消息称,OPPO将会重启芯片业务,并且“有部分员工已经回流,加入到了车载业务之中”。记者就此事向OPPO方面进行核实,对方表示“不予置评”。特百惠(我国)数字与
600亿颗芯片!我国巨头正式宣布,美媒:**也没料到制裁这么快
我国芯片市场与美国依赖我国的集成电路市场一直以来都是一个巨大的市场,拥有庞大的需求和巨大的增长潜力。我国的电子消费市场一直在迅速增长,包括智能手机、电视、电脑和各种智能设备等,这些设备都需要高性能的芯
最新手机芯片天梯图:A17、华为麒麟9000S,排在什么位置?
近日,最火的两颗芯片分别是苹果的3nm芯片A17 Pro,虽然很多人吐槽它较上一代提升不明显,但论性能,可以碾压任何安卓芯片,甚至是领先2代的。另外一款芯片,则是华为麒麟9000S,当然,这颗芯片工艺
韩国芯片连续13个月暴跌,尹锡悦指责我国不采购,外媒:自食其果
据韩国媒体称,韩国的半导体出口额已经连续暴跌13个月了,比去年同比下降了28%左右。韩国政府急的焦头烂额。尹锡悦政府竟直接甩锅我国,话里话外都是指责,他认为韩国半导体卖不出竟是我国的原因,我国应该帮助
我国突破芯片瓶颈将影响全球秩序?美国很担心,指出我国关键弱点
我国在芯片半导体领域一直深受美国的**,通过贸易制裁的方式阻止高端芯片进入我国市场。这样的举措一度造成我国芯片领域发展断档,不过随着我国科技企业近几年的突破,目前我国已经在芯片制造方面取得了重大的成果
前几天,华为一声不响的上线了mate60系列,带着麒麟芯片9000s强势回归,吸引了全世界的目光。而华为麒麟芯片**背后,我们不该忘记这位老人—张汝京。我国半导体之父,为回**造芯片,被开除**户籍,
【有车以后 资讯】“未来汽车对传统汽车的颠覆性,使传统零部件体系的50%以上都面临重构。”12月16日,在全球智能汽车产业峰会(GIV2022)上,我国电动汽车百人会理事长陈清泰指出,智能汽车的价值链
投稿点这里汽车有多少个零件?其实这个问题并没有一个十分确切的标准答案...据估计,一般轿车约由1万多个不可拆解的**零部件组装而成。结构极其复杂的特制汽车,如F1赛车等,其**零部件的数量可达到2万个
全球最大的10家汽车零部件供应商 都是世界500强 无我国企业
【卡车之家 原创】美国《财富》**每年发布的世界500强排行榜,是以营业收入数据对全球企业作出排名的榜单。2017年“世界500强”榜单中,汽车制造商和零部件厂商共占据33席(除去大型工程车辆企业),
汽车零部件企业哪家强?除了博世**还有这些名字你一定耳熟能详
文:懂车帝原创 李德喆[懂车帝原创 行业]9月18日,由《我国汽车报》主办,罗兰贝格协办的2019汽车零部件“双百强”企业发布会在江苏南京举行。在两份榜单中,博世、**、电装位列2019全球汽车零部件
行业现状(Reference:产业运行 | 2021年汽车工业经济运行情况)中汽协预测:2022年我国汽车销量达到2700万辆,新能源销量超过550万辆(Reference:乘用车市场信息联席会)以乘
全球十大汽车零部件供应商,核心技术都被他们垄断,自主遗憾缺席
提到电影,我们会想到张艺谋、冯小刚,而很少会想到幕后的制作人;提起流行乐,我们会想到周杰伦、萧敬腾,而很少会想到背后的作词人。台前台后,一幕之别,知名度往往相差甚远。车界又何尝不是如此,知名车企我们都
来源:环球时报 【环球时报记者 倪浩 陶震 环球时报驻德国特约记者 青木】经过3年疫情后,全球最具影响力的通信展今年有望再现往日盛况。2月27日至3月2日,由全球移动通信**协会(GSMA)主办的20
近日华为、苹果争相推出手机卫星通信功能,成为一大亮点,不少手机厂商也将目光投到卫星通信。放眼未来,手机直连卫星的卫星通信服务将是大势所趋,也是6G时代的重要标志。华为以“北斗三号”为依托,率先把“卫星
国内企业在光通信产品的参数测试过程中,通常使用国外的先进测试设备。然而,这些测试仪器之间往往是孤立存在的,需要手动调试仪器并通过旋钮、按钮和人眼观察波形或数据。这不仅*作繁琐易出错,而且测试效率低下。
龙头20cm涨停,7天股价翻倍!一文看懂卫星通信前世今生及产业链
卫星通信概念股华力创通今日再度强势拉升,截至发稿,该股股价20cm涨停,7个交易日累计涨幅近113%,现报23.52元续刷阶段新高,总市值155.9亿元。消息上,有媒体从供应链获悉,Mate 60 P
工信部:目前我国尚不具备实现网络层面的移动通信号码归属地变更的条件
针对网友提出的“电话号码归属地更改”建议,工信部近日给出了官方回复。此前,有网友在人民网留言板向工信部留言称,“现在电话都是实名制,电话号绑定的***及一些主流的软件较多,更换号码后造成一系列问题