大模型里的“数字工人”:有人日结35,有人年薪300万

发布日期: 2023-12-27
来源网站:www.163.com
作者:和讯网
主题分类:劳动者处境
内容类型:深度报道或非虚构写作
关键词:年薪, 模型, 训练, 公司, 人才, 数据
涉及行业:互联网信息服务, 服务业
涉及职业:白领受雇者
地点:

相关议题:

  • 大模型领域人才需求旺盛,但薪资提升不均衡。一些高端人才获得丰厚回报,而中层及以下的算法、架构工程师涨薪幅度有限。
  • 大模型市场对于学术成果、实践经验、学历背景和创新意识要求较高。拥有大模型预训练经验、熟悉Transformer框架、深入理解大模型应用场景等经验会得到青睐。
  • 大模型发展需要大量的数据支撑,数据标注员成为供养大模型的重要一环。他们通过对图像、语音、视频、文本等进行标注,为大模型提供训练和更新所需的数据。
  • 大模型公司在人才招聘中更注重核心算法人才,具备大模型训练实践经验和创新能力的候选人更受欢迎。
  • 大模型行业发展迅速,但普通人的收入预期需要降低,行业热度不如预期。

以上摘要由系统自动生成,仅供参考,若要使用需对照原文确认。

“快烧不起了,但年底也没有好的出路。”一家北京AI大模型明星创业公司员工李晓远告诉和讯商业。

今年2月,大模型吹来一股风,春江水暖鸭先知,原本身处互联网大厂担任产品经理岗位的李晓远感受到AGI可能有机会。4月,在看到杭州一家公司因320万年薪招聘AI专家登上微博热搜后,他决定也要搭上这趟快车。

李晓远的抉择,其实是今年大模型领域人才迭代的缩影。

在这场战役中,有人追逐大模型,有人供养大模型,亦有人不相信内里可以淘金,有产业的地方就有人和江湖,但谁也不敢肯定,这股潮水,将会将他们推向何处。

追着大模型跑的人

风起,要把时间拨回至2022下半年,随着ChatGPT这款跨时代产品的问世,类GPT项目成为AGI最大热门。上至百度、阿里等互联网大厂,下至如李晓远公司一般成立仅仅几个月的初创企业,都把研发大模型列为了业务的最高优先级。

短短一年,百度文言一心、商汤日日新等大模型相继问世,截至2023年10月,我国拥有10亿参数规模以上大模型的厂商及高校院所共计254家,分布于20多个省市/地区,国内大模型总数达238个,正式拉开“百模大战”竞争的序幕。

在这个新赛道里,招兵买马,是每个入局玩家的焦虑和渴求。

来自脉脉高聘人才智库数据显示,今年春招期间,是大模型创业的高峰期,人才需求一度井喷。2月,AIGC新发岗位量增幅75.6%,3月持续上升,环比增幅上涨12.56%。随着春招结束和创业潮告一段落,人才需求有所回落。6月,大模型公司波澜再起,人才需求再度上扬4.16%,以算法工程师需求为主。

大模型如雨后春笋拔地而起,李晓远心情却有些复杂,入职新公司后,他依然担任产品经理,一个在互联网行业高度成熟且角色重要的职位,但职业规划远没有在大厂时清晰。“虽然薪资确实越级了,但公司甚至这个行业是否需要产品经理岗位,我不敢给定论。”

在他看来,这家公司虽然融资进展不错,但尚处于初创阶段,远没有大厂的算力和底蕴。“现阶段,还是集中在给大模型打基础,而底层的技术大拿,譬如算法人才、架构人才,那才是核心,也是市场中最被需要的一波人。”

李晓远此言非虚。一位专注于AI领域的猎头告诉和讯商业,大模型市场中处于金字塔顶尖的人,学术成果、实践经验、学历背景和创新意识缺一不可。

他介绍,从客户的需求来看,一方面,这个人需要紧跟大模型的进展,全球范围内,研究这个方向的优秀者很多,进展很快,每天或许有几百篇新论文出来,你需要在各个方向、领域做改进,最好也能贡献Paper。

另一方面,做到前沿还不够,这个人还需要沉下来,从实际需求出发,用好大模型,来解决在工程上遇到的问题,最好可以提高某些指标,才有人买单。

上游早就传导过需求。天工智能联席CEO兼昆仑万维2050全球研究院院长颜水成就曾提到,大模型训练本质是个工程问题,实践经验非常重要。目前,昆仑万维最稀缺的是核心算法人才,除了要求候选人具备扎实的编程能力和算法基础,对业务有深入理解以外,还希望候选人拥有大模型训练实践经验以及创新能力。

和讯商业从猎聘、BOSS直聘等招聘平台发现,无论互联网大厂、AI独角兽等科技公司,还是金融、医疗等传统公司,在招聘大模型相关岗位时,很多要求“具备大模型预训练经验”、“熟悉Transformer(适用于大模型的预训练框架)”、“深入理解大模型应用场景”。

更有甚者,注明拥有“曾就职于OpenAI”、“在国际顶级核心期刊发表过大模型相关研究成果”等经验大大加分,给出的年薪也普遍超过百万,如果再加上期权等福利,可谓优厚。

vivo副总裁周围算过一笔账,现在,vivo大模型总投入成本已经超过200亿元,人才和数据算力各占一半,人才成本平均每人税后100万元,证实了传闻中的产业行情。

行业热度不减,发展至今,不少人将这项新技术形容为20年前的互联网、10年前的移动互联网,蕴藏无限机遇,渴求可以培育出新一轮“BAT”们,更期望自己可以身处在这项造福神话中。

但鲜为人知的是,AI人才市场处在冰火两重天的境遇。少数的高端人才掌握多数机会,拿下丰厚回报,余下的打工人是不被选择的分母,薪资提升有限,冷热不均是常态。

这位猎头说,根据最近的offer情况来看,中层及以下的算法、架构工程师,涨薪都在20%以内,其他职位大多平薪跳槽。

脉脉高聘最新发布的《2023人工智能人才洞察》报告显示,2022年人工智能新职位的平均月薪为43817元,而2023年1至8月上升至46518元,涨幅为6.16%,并非天文数字。

最近,王慧文和他的光年之外踩下急刹车,已经给中国大模型增添了几分冷峻色彩,狂飙的大模型创业潮并不如想象中纸醉金迷,“普通人的收入预期要降低一些,尽早从梦里醒来。”李晓远一语点破。

供养大模型的人

“人工智能车间里的数据女工。”这是辛蕊给自己数据标注员的工作打得标签。

去年产子休息了一段时间后,辛蕊已经无法胜任此前车间装配的工作,为了生活,她来到广州的城中村,找到了现在这份与AI密切相关的生计,更重要的是,入职前,公司承诺这份工作简单易上手,完全没有门槛,适合宝妈。

算力、数据、算法被称为驱动人工智能大模型发展的“三驾马车”。AGI流行后,为了让大模型可以识途认路,数据识别必不可少。无论是模型的训练还是后续对模型的进一步更新以满足实际应用,都需要大量的数据来支撑,在模型开发的成本中,数据成本也占据了很高的比重。

辛蕊最擅长的工种是图像识别,例如给某自动驾驶企业的图像进行标注。举个例子,当一张图像中有多个行人和车辆,需要将其分门别类,区分出不同物体和颜色,拉出框进行汇总标注。“2D图相对简单和固定,3D的动态图很复杂,物体移动容易造成遮挡,很容易出错,这时候需要标注员进行合理联想,然后拉框、标注。”

除此之外,这家公司还有语音、视频、文本等标注业务,其实恰好对应了AI世界的不同能力,一个标准的AI模型,背后可能是“辛蕊们”成千上万次的拉框标注,才能供养出一套成体系的大模型。

辛蕊透露,这份工作是底薪+按件计费的薪酬体系,底薪普遍在3000元上下,按日结算的拉框计费则很低,同组人经常开玩笑说“拉一个框,打一个标签,就是半个毛”。

因为熟练,她一天可以拉700个框,收入在35元上下,勉强算是一天的饭钱。如果准确率高,还能获得奖金,但奖励并不好拿,下单的客户要求的准确率底线在95%以上,如果准确率达到98%-99%才能获得奖励,这也意味着,辛蕊每拉100个框,至多只能错两次。

“一天下来,眼睛都胀胀的。”辛蕊说,这碗也算青春饭了。

在大模型风起后,AI企业对于数据标准的要求、标准和规则都日益苛刻,早期各大公司之间比拼的是技术能力,但随着竞争到末期,技术的鸿沟被抹平,数据就是重中之重,尤其是专业领域里的高质量私域数据,更为稀缺。

如果说辛蕊的拉框属于粗标,那卢珍妮的工作算是精细活。

日常,卢珍妮不但答题,还需要给大模型当判官,判断训练后的大模型是否可以提供答案,以及答案是否准确。卢珍妮是本科毕业生,专业是生物医学,她兼职的大模型企业提供定制化的解决方案,训练完备的模型可以提供多种常见慢性病和复杂性疾病的风险预测。

卢珍妮说,从事医疗行业大模型的判定,既要懂一点人工智能技术,又要懂相关生物信息技术,利用专业性,将知识“填鸭”式喂给大模型,这样的好处就是从数据源上不会出错。“大概每天答30道题,根据知识种类的不同,每道题在2.4元-4.8元之间,判断题则更高,日收入破百一般没有问题。”

除了收入的稳定性,训练AI的数据标注员们,也在面临一个迫在眉睫的问题:供养好AI大模型后,怕不怕自己失业?

两位标注员均表示,没有仔细思考过这个问题,但辛蕊自认为自己的工作是很容易被取代的,如果可以,她也希望能够成为卢珍妮。

原因很好理解。现在,你每输入一次谷歌验证码,都在义务劳动帮助谷歌训练AI,代替这群处于金字塔底层的人的工作。

谷歌验证码(图源/网络)

不敢投身进来的人

面对大模型这个当下最热门的技术风口,也有一部分边缘从业者表现出纠结和焦虑,一方面,对AI未来的应用场景不明确,害怕大模型公司活不久,抑或是担心又只是一阵风潮,短暂流行后就过眼云烟。

而在硬币的另一面,大模型工作机会目前更多集中在大厂,相比其他基础岗位,此类岗位一般是公司的“卷王”,学历、能力、工作时长等要求都更高,让一些人打了退堂鼓。

但留给他们思考的时间可能已经不多了,窗口转瞬即逝。如火如荼的产业更替,将随着大模型研发市场完成整合而快速关闭。

在国内大模型爆发后,创新工场董事长兼CEO、零一万物CEO李开复判断,目前看起来美国至少有两家,中国也可能有两三家,预计未来效果惊艳且能够成功赚钱的大模型公司,中美加起来应该只有五六家。

这也意味着,现阶段99%的通用大模型公司都要倒下,倒在大模型训练的烧钱汹涌上。

据悉,只是用于训练GPU芯片,就需要上百亿的资产累积。基础大模型的技术创新,注定只是大公司的角斗场。要知道,OpenAI的成功也是硅谷当初用数十亿美金堆出来的。

李晓远透露,目前公司内部选择“大牛带小牛”的培养方式,大牛们普遍的观点是,大模型的应用层还有机会,这里的人才消耗也会随之增多,对于新同学而言也更有希望实现自身价值。

“相比从零开始研发通用大模型,基于现有的大模型,指向垂类应用,被认为是更加容易、更有望成功的一条商业路径。”

这也符合百度创始人李彦宏的说法,“过去一年,我看大家对于大模型的关注还在基础模型,没有在应用上,我有些着急。我们要去卷AI原生应用,把这个做出来了才有价值。为什么大家不去认真做AI原生应用,而去关心大模型进展?这个进展对大多数人来说不是机会。”

可以看见,面对持续火爆的“百模大战”,业内已经开始出现一些冷思考。现实是:如今国内在应用层能产生实际收入的场景和公司还非常少,未来,有自己垂直模型与场景的公司,才能获得现金奶牛,更易培育出自己的大模型团队。对于普通从业人员,亦是入局奇点。(本文受访者皆为化名)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

网友评论仅供其表达个人看法,并不表明网易立场。

目前没有热门跟贴

目前没有跟贴,欢迎你发表观点

编辑 删除 返回