很多同学可能并未察觉,我们接的电话来电中相当的比例已经变成了数字人。它们惟妙惟肖,如果不是经常听的人在相对简单的对话情境中,根本听不出来语音合成的声音和真人声音的差异。
这种数字员工的前奏自从2010年以来其实一直在响起,只不过不够激烈和密集,始终局限在几个有限的领域,比如外呼促销、客服等。此前核心瓶颈是“智能不够”,所以只能处理相对狭小领域里的单一任务。ChatGPT等大模型则改变了这种底层约束。虽然成功的数字员工产品还没出来,但这是注定发生的事实,就像互联网只要开始普及,搜索就必然会出现一样。从这个角度看2023年,是数字员工的元年。
(资料图片仅供参考)
数字员工汹涌而来
人工智能发展这些年商业上不成功,但各个技术点上实在有了很大进步,包括各类识别算法、语音合成算法等。而这些技术的组合正好为数字员工的诞生准备了充足的条件。
我们拿一个招聘的数字员工做例子,看下到底需要哪些技术:
在最简单的场景,她需要能够围绕着自己的招聘主题进行宣讲,并能够回答候选人关切的问题。说到这个大家会马上想到现在的大模型。是的,基于现在的通用大模型能够比较好地完成这一基础工作。这打破了过去不同方向要分别定制,并且应对变化成本过高的约束。当前是招聘场景越简单,比如工厂的工人,那这种数字员工越胜任,招聘对象越复杂,它越不灵。
再递进一步,招聘的时候如果不是文字沟通,那还需要什么?
这就和过去做的智能音箱有点像,数字员工需要听得清,说得出来。听得清这事,在智能音箱等产品的推动下,即使是远场也能达到95%以上的精度,而TTS更是已经进展到只要录几句就能模拟出你的声音。完全没有技术障碍,并且成本可控。
再逼真一些,还需要什么?
还需要你的数字员工在表情、手势、体态上和真人一样。这个在这几年的努力下成本已经从几十万降到几万或者一万。
在这个时间点,这种数字员工能力还是有限度的,不管是智能还是表达方式。
如果硬要分个级别,估计在工厂这类岗位表现会超过人类,在软件工程师这类岗位上有可能打平,在招高管的时候就还不行。
可这没关系,丝毫不会影响数字员工汹涌而来的趋势。
这就像一旦286出现,PC浪潮就会很快席卷而来,一旦窄带出现互联网就会蓬勃发展一样。数据的连通性会增强,比如更知道招聘对象是谁;智能会增强,大模型肯定还会进阶;技术会变得更便宜,比如一个数字员工的成本会进一步下降。所有关联的技术,所有对应的产品在几个迭代周期后,就会变得像微信一样好用。
商业闭环
如果要下个定义,数字员工和过去说的数字人的核心差别是什么?
数字人是一种简单的人形表示,对应局部功能;数字员工要在指定区域完整解决场景问题。
过去的人工智能产品核心的问题就是只承担局部功能,解决局部问题。
比如闸机、智慧电梯等,从人和场景的角度看,它们是一个个半拉子产品,只能干一个小点的功能。所以在各种场景下它们解决的是“更好”,但其实增加成本。这就好比带了人脸的闸机和保安,智能助理和App等都是这种情况。哪怕在最简单的场景下,它们的价值创造也不完整。
经常会提到的价值创造,这个词要和场景关联,然后再对应到具体产品,不应该对应具体某个具体技术。价值创造是个整体性问题,从整体性视角很容易看到过往十年AI产品的各种问题,从技术角度则看不到。
过去就客服等寥寥几个场景能实现一点全场景的价值创造,外呼都还不太行。
核心瓶颈就是上面说的智能供给不足。
为什么全场景创造价值很关键?
因为价值创造在场景上完整了,商业模式会非常简单直接。否则对客户和用户就很鸡肋,有了更好没有也行,当然购买意愿就不强。
假如雇佣一个人15万,雇佣一个数字员工1.5万,如果从场景上看这两者百分百等价,那从人效的角度看,所有的企业都会雇佣数字员工。
现在不雇佣只是因为产品不够好,不够完整。
如果能搞定,这个产业空间,比IDC等估计的要大得多。
并且一旦搞定,这注定会成为一种和互联网一样的巨大浪潮。人效有2倍差异的时候,没人能忽略它。
从这个角度看,数字员工确实会打碎许多现有的饭碗。
现有的饭碗底层越是依赖于简单的逻辑和概念组合,越是很快会被打碎。这一点在之前OpenAI论文中有提,此处不展开。
需要补充的是,我们过去因为人的智能不够而分工,把干一个产品分解成产品经理,设计、架构师,程序员,测试等。那现在因为智能供给的充沛而回卷,其实合情合理。如果回到程序员的上古时代,这个行当早期很多产品还真是一个人干的。所以上面的所谓的消灭,其实也是一种回滚。
人的位置在哪儿?
在给出答案前,我们来看几个例子。
一个是Linux。Linux早期是个什么运作模式呢?最开始就这哥们一个人干,结果干来干去,干不动了,他就开源。参与开源的人,每个人把自己的变更通过邮件发给他,他负责合并到正式版本的Linux里。Linux对应这个产品的核心,但把工作量大的部分分出去了。后来这模式被Git等工具放大了,但本质上还是这套逻辑。
假如AI大模型变厉害了,会发生什么?
这个社区会围绕这个Linux这个核心回卷。比如两千人的社区,最外围的会先被大模型取代掉。然后一圈一圈往中心折叠。但即使到最后Linux这角色是不能取代的,因为Linux解决的不单是编程问题,大模型的工具属性回答不了到底要成什么样,应该为现在考虑多少,为将来考虑多少这类问题。
(这么个涨法,Linux内核社区也未必扛得住)
我们再看个例子,罗永浩老师。论利润,所有创业的AI公司十年时间赚的钱,可能还不如罗老师创业失败带货这几年一个人赚得多。那为什么可以这样?
我们可以讲没有短视频平台就没有罗老师的“真还传”。
短视频平台就像一块肥沃的地,罗老师在上面发挥了自己的才华,种出了自己的粮食。
那短视频平台是什么呢?
它是一组算法的集合。虽然我们不管哪个算法叫人工智能,但推荐算法这些和AI底层是有很多共通之处的。所以罗老师的“真还传”是一个把人的才华嫁接到硅基智能之上,并取得巨大成功的案例。
据此回溯,我们可以发现过去互联网崛起的过程中,不单有罗老师的带货,还有各种其他主播,起点上还有网文作家,网红店等的成功。
这是什么概念和人工智能又有什么关系呢?
AI算法会让过去的平台具有更强大的力量,借助于AI平台,小团队可以实现指定场景下的直接价值创造。比如个性化的生产在过去是不太可能的,但当大量数字人崛起之后,理论上讲不管是纯虚的服务还是真正的生产,都可以做到每个人一个设计师,一条生产线。
我们的就业形式在因此而发生变化。
在互联网兴起前,很多时候我们想到就业就会想到工人,农民,干部等。
现在播主,网文作家,滴滴司机,外卖小哥,网红店主每一个都是单独的经济单位。他们对某一个平台形成单向依赖,但横向的分工配合被弱化很多。
在这种模式下,没有平台就没有就业。
有趣的是,这也是一个循环。
在上古我们还和猩猩差不多的时候,其实每个个体都是一个独立的经济单位,在农业文明的时候,被弱化了一点,但基本农民还是自给自足,就是对地球有依赖。
大工业时代就不是了,人和生产资料发生了巨大分离。但现在往回走,核心是平台扮演了地球的角色。
差异是地球是不收钱的,但平台和个体之间牵涉利益分割。“平台”的模式是未来,但必须处理好这种利益分配。
从这个角度看,数字员工就不是饭碗的破坏者,而是创造者。他们站在了每个人脚下,让每个人都可以形成自己的经济闭环,让每个人有机会发挥你自己属于人的那部分特色。
如果没有短视频平台,很多知名的主播现在会在干什么呢?
硅基和碳基的边界
哪些会由数字员工在平台里面做,哪些会由人在作为一个个分散个体,在平台外面做呢?
回答这个问题要看清硅基智能和碳基智能的能力边界。
在过去分工体系下创建的各种岗位,核心依赖的正是记忆、对逻辑和概念的处置。
这部分实在不灵,人根本没可能和数字员工进行比较。数字员工越发展,这种分工体系越会回卷。场景和产品应该还在,但它背后对应的人员会削减。
但数字员工站到每个人的脚下后,每个人都迎来一个独立创造价值的机会,这部分会依赖于碳基智能的优势,比如创造力、活性、共情价值等。碳的活性和硅的稳定性在这里要做结合。
最终结果可以用一个形象的指标来形容:
苏联老大帝国的SKU一共不过2万种,电商平台的SKU已经超过4000万。如果是上面这种情形那SKU可能再翻100倍。之前总说SKU是数目小于人的数目,在未来则可能彻底反过来。一个SKU只服务于极少的人,甚至一个人,但还有利润空间。因为基础成本被缩减了。
这是一种新式的多点多维的经济循环。
这种循环下,需求和供给是对等的,且是多样化的。每个人既是生产者也是消费者,人们的全面物质文化需求可以更好地被满足。
我们有时候可能会困惑:为什么生产力高度发展,我们每个人的物质文化需求也没被满足,但经济却出问题?核心可能就是循环的通路和循环的形式问题。这是我为什么说市场和凯恩斯主义的统一,可能在于一个新的概念“科技道权”的一个原因。
总结
假如一群蚂蚁在一只大象的耳朵上生活,这蚂蚁有智慧根据大象的习性基于大数据统计,分析出了非常严密的公式,可以根据各种变动信号预测耳朵大象会怎么摆。现在地球气候变了,大象就一路往北。这样一来固然可以修正模型,让预测模型看着能解释过去,但骨子里是不可能准了。因为原点出了根本变化。
我们总是面对两类问题,一类问题是连续性的,一类则是基础要素变了。基础要素变的情形就导致原点类问题,而原点类问题需要褪去细节,回到原点。
标签: