安大互联
财经热点 > 财经资讯 > 大厂高薪-挖人- 大模型热下的-AI民工-之变
【人工智能】大厂高薪-挖人- 大模型热下的-AI民工-之变
浏览次数:【642】  发布日期:2024-6-13 18:17:44    文章分类:财经资讯   
专题:人工智能】 【大模型】 【AI民工
 

  你听过AI数据标注师么?

  几年前,宝妈群体扛起数据标注的大旗,仅需基础的电脑操作能力和充分的细心耐心,识别文本、拉个框便可胜任,被称为 人工智能 末梢的“流水线民工”;而如今,大模型热下的后半场,这一业态吸引来无数青年群体,他们凭借精湛的知识储蓄和个人理解,不仅要给机器“挑错”,还要教对方“调优”,做起了AI的首个“启蒙师”。

  求职者之变,源于市场需求之变。对AI数据标注这一新业态,北京商报记者了解到,有公司花费超十亿的高价投入,也有公司打出自建自管的“持久战”,还有公司仅在一年中就发展出上千人的规模。

  其中,不乏蚂蚁、百度、字节、美团等大厂高价“挖人”,相较以往的数据标注,他们更青睐有专业和经验多重“buff加身”的复合型人才,由此,一场从流水线民工到标注领域专家的职业巨变,正悄然铺开……

  大厂高价“挖人”,有人月薪高至5万元

  尽管身世法律专业,但杨威(化名)决心进入数据标注行业。

  和其它“00后”一样,作出决策前她没有过多犹豫,吸引她的点是觉得这个新职业比较“酷”。

  “给 机器人 打工,接触科技前沿,这泼天的富贵终于轮到了我头上!”揣着对 人工智能 的好奇心,杨威在一家法律数据公司的驻外项目组获得了一份“数据标注师”的实习工作,目前,她所在的企业已经具备为客户提供合同大模型服务的能力,而她所承担的数据标注,则是对合同中需要提取审查的要素进行框选,进而让大模型更具学习能力。

  就像教孩子蹒跚学步,大模型的每一次进步,都有数据标注师的引导。杨威称,她每天都会在扫描好的合约上框出数据“键值key”对应的“属性值value”,如合同中的双方当事人、签约时间地点、合同金额、验收条款、违约责任等,一份合同大约有30-60个key与value对应。

  在建立这样的连接和人工标注后,机器学习时就能知道合同里当事人在啥位置、保险条款如何体现、违约责任在合同里是否有,进而施展合同大模型的作用——协助更高效的合约审查。

  “事少钱还多,有趣又有价值”是杨威对这一职业的评价。虽然文科身世,但能接触到前沿科技,还能实现财富积累和个人价值,何乐而不为?

  是否“事少”未可知,不过“钱多”已经有多方佐证。北京商报记者从多位受访者处了解到,从事一般的初级AI数据标注员,一般月薪在数千元至万元不等,但大多数人将目标瞄准的是顶级AI数据标注师甚至专家,月薪通常都会过万元人民币,高者甚至达到5万元。

  此点从公开招聘来看同样有所体现。北京商报记者了解到,有招聘网站设置了AI数据标注师招聘专场,新增职位1476个。其中,包含百度、字节、美团等大厂,均在AI数据标注市场花高价“挖人”,月薪多数在1.5万元上下,专家级别能给到5万元甚至更高。

  从在招的多个岗位来看,“有相关工作经验、有项目管理能力”是基本要求,一些顶级AI数据标注专家职位,除了数据处理、特征提取、模型训练外,还需负责深入研究AI数据科学领域、主流AI框架等,结合公司的业务场景,评估引入新技术并应用落地。

  有意思的是,和杨威有着相似想法的“00后”还有许多。北京商报记者采访了解到,或出于对 人工智能 的兴趣,或出于不错的薪资水平,如今,许多正在求职中的结业生、拓展新职业可能的年轻人,均将眼光投向了AI数据标注,为金融业、 无人驾驶 、智能客服、 新零售人工智能 场景提供数据支撑。

  对此,蚂蚁集团数字天蚂总经理徐怡悦同样向北京商报记者透露,招聘进程中的确发现有很多大学生逆流回归的现象,很多大模型标注师中,越来越多大学生更愿意回抵家乡承接该类工作,她介绍,“这个职业更看重能力和经验,不局限于个人位置和场地,对标大城市来看还能拿到较高工资收入,的确能吸引很多年轻人群体” 。

  市场偏见仍存,高学历人才瞧不起流水线

  求职者的决策,离不开市场需求的扩大与产业的渐渐成熟。随着 人工智能 的蓬勃发展,庞大的数据标注需求,推动着我国数据标注产业市场的快速增长。数据标注企业不断涌现并相继落地三、四线城市。

  不过,对于AI数据标注师这一新业态,有人向往,也有人嗤之以鼻。不同于杨威的新奇,来自某211高校计算机精湛的王林(化名)坦言,画框、分类、评级,这样“机械”的数据标注工作似乎并没有啥门槛,也不会进入 人工智能 、计算机、深度学习专业同学的求职意向单中。

  这样的情景并很多见,在北京商报记者的多个采访对话中,很多人也发出疑问,数据标注不就是打打标、画个框?难道还有啥特别高的要求么?

  殊不知,王林口中所称的机械式工作,只是数据标注业态的“过去式”。北京商报记者了解到,以往的数据标注工作,主要以“打点”和“画框”为主,执行的是已成客观事实的标注行为,是啥就是啥,需严格根据既定的标注规范进行。

  也正因此,曾经的数据标注被称为AI领域的流水线“民工”,有电脑就能做,人群主要为低学历及兼职人群,月薪为数千元。

  而现在市场热招的大模型标注师,不再是计件式、简单化,更像在做阅读理解。由此,对于人才的切实需求也更偏向复合型,需要更为综合的专业能力和表达能力。

  作为 人工智能 算法的“燃料”,数据是 人工智能 实现应用落地的必备要素。大多数未加工的原始数据需经过精湛的标注和处理,才能被有效转化为有价值的信息。其实,从更狭义的视角来看,数据标注师的工作不只是容易的分类或标记,而涉及到对原始数据进行深入理解,然后以一种机器可以识别和学习的形式进行标注。这个过程对于训练机器学习模型来说非常重要,因为高质量地标注数据可以明显提高模型的准确性和效率。

  但正如王林的表态,即便清楚数据标注对大模型优化的意义,总还是认为“这一岗位与算法工程师、大模型架构师相比没那么高端”。“我们在招聘进程中,的确会遇见很多对数据标注师的偏见,想要吸引复合型人才比较难。” 徐怡悦向北京商报记者坦言,“一方面,很多人群对数据标注岗位的认知还没有转变;另外,我们更需要行业专家,如具有多年从业经验的律师、主任医师,但这群人才本身在自己的领域就十分优秀了,要想把他们挖掘过来帮助我们做标注非常难。”

  为了打破偏见,将社会标签从“工厂流水线”转型“标注专家”,是企业侧吸引复合型高学历人才的一大手段。在蚂蚁,数据标注师或许更应该被称作AI训练师。他们深度参与大模型标注的全生命周期,包含模型训练阶段的数据准备、强化训练和特定领域的微调,模型上线之后的能力评估、对客安全管控等工作。

  北京商报记者从知情人士处了解到,很多大厂招聘的大模型标注人员,本科学历比例达到六成以上,还有的已达到100%,甚至很多专业领域的标注人员都是硕士或博士学历。要求提高,自然“地位”提高。他们的身份就不再是“流水线”标注员,而是“领域标注专家”甚至是“解决方案架构师”。

  随着医疗、金融、法律等专业领域大模型的开发应用,如今行业对数据标注的专业性也有了更高的要求。中国信息通信研究院 人工智能 研究所顶级工程师李荪指出,未来大模型向行业领域深耕落地,对行业的数据和知识需求会更多,因此对数据标注人才的专业知识和技能要求会更高、更强。另外根据不同专业领域的切实需求,数据标注服务定制化需求更多、安全合规也会更严,企业端对人才培养体系和产业运作模式需要更加的创新,以适应新质生产力对生产关系的切实需求。

  “不过,在这个进程中也会出现很多风险,应该重点注意、加强防范,例如数据隐私泄露、数据伦理安全、数据投毒检测、数据合规审计和数据质量控制等。” 李荪强调。

  十亿级投入,新用工模式受追捧

  懂算法更懂专业知识、能操作细节也能产出方案,这样的“复合型人才”,成为一个合格数据标注师的培养方向。

  从“流水线民工”进化至行业专家,对于数据标注行业的转变,蚂蚁集团智能标注专项责任人林城深有所感。“数据提质和强化训练阶段将直接影响大模型的练习效果,同时,准确的效果评测和防御能力的建设可以引导大模型持续优化合规应用。”林城说道,因此,甭管是将标注人员所掌握的一些知识转化成数据提供给大模型训练,还是对大模型的评测、校准,都需要行业专家才能产出。

  以金融管家为例,大模型回答诸如金融保险的分类、资产如何配置等话题,所需知识在网络中都不是结构化的,没有成文的东西可“喂养”。这时,AI训练师就可以通过自有知识的转化,使大模型学习更多。

  但“缺人”仍是目前众多大模型研发大厂最棘手的槽点。

  企业也在尝试新的应对之策,例如有大厂正在探索基于大模型的新用工模式,对岗位位置和场地不设限制,更多要求的是个人的经验和能力。

  同时,也在尝试跑通“更高端的众包模式”,增强用人灵活性。例如,在职律师以兼职的形式参与数据标注的指导工作,既能获取额外收入,也能确保较高的产出。

  在复合型人才紧缺的情景下,自建自管自主培养的模式也成为很多公司的决策。北京商报记者了解到,百度、字节等公司均在自建数据标注团队。有知情人士表示,大厂对AI数据标注给予了极高的注意,有公司在该领域的投入高达上亿甚至十亿级别。另有公开信息显示,百度目前已与各地政府合作共建了十多个数据标注基地,提供给上万个就业岗位。

  “将所有的大模型训练资源聚焦在一个地方,统一规模化管理,从而服务上游的各个大模型基座训练应用,一方面方便各个项目之间的资源协调,另一方面也有益于将数据标注方法论沉淀、复用,形成大模型全体系提质增效。”林城评价。

  “数据标注这个业态一直存在, 人工智能 的发展,对数据标注产业的形成和培育起到了极为重要的作用。”李荪总结到,在发展进程中,当前数据标注产业已包含众包模式、专业数据服务模式、自建团队+外包团队服务模式、第叁方专业服务等新业态新模式。从人员结构上来看,显现多样化、多条理、多技能型发展趋势。

  知名经济学者盘和林则提出,数据标注企业需要向数据服务商转变,因为AI向多领域发展,机器学习所期望的数据类型将越来越丰富,预标注需要响应客户定制化要求。

  从“挑错”到“调优”,背后的AI之变

  从刚开始的“挑错”工作,进化至高阶的“调优”,数据标注之变,源于AI需求之变。

  有人说,从前的AI,仅是一种看不见摸不着的底层技术,而进化后的AI,则更像是一个需要驯化的智慧生命体,需应对千人千面的切实需求。

  尤其是近两年来,大模型开发进入深水区,行业也从“百模大战”进化到“价格战”,如何实现大模型的商业化落地成为各大厂商的一大考题。近期,阿里、百度、字节跳动等各大厂商纷纷降价,在抢占市场的同时,也增进大模型应用的快速落地。

  可以看到,甭管是在金融、医疗、教育、制造业,还是身边触手可及的餐饮、消费、出行, 人工智能 在以更快的速度应用至各行各业,并以看得见摸得着的形式不断拓宽界限。

  这背后自然造成数据需求的扩大与精细化。李荪将训练数据比作为 人工智能 编制高质量的教材。以往的深度学习范式下,模型训练是“有监督”学习,数据从定向收集、精细化标注到训练,是全程陪伴式课堂教学,主要处理感知智能问题,教会机器对客观信息做基础性的准确判断。在大模型时代,学习模式转向“自学+专业培训式学习”,主要处理“感知+认知”智能问题,教会机器推理、涌现,所学习的知识的广度和深度进一步扩大了。

  AI的变革,还使得大模型标注新兴模式出现,形成“用魔法打败魔法”的风景线。例如,通过大模型植入标注过程,逐步去做一些高效辅助,甚至是少量替代人工。

  这会造成人才与就业的焦虑么?答案是否定的。“本身是人训练了模型,模型进一步又将人不断地替代。所以将来的 势头是对人的要求不断叠高,人永远去做最顶端的最难的事情,再把这些经验转化下来。” 徐怡悦说道。

  “AI对行业的刺激,使得复合型人才更被市场所需要。”在林城看来,这也预示着数据标注下一个竞争维度——随着自动化和半自动化标注工具的快速发展,能够充分理解、熟练运用这些先进技术来提高标注效率和准确率的标注师,能将其专业知识转化成产品能力、算法能力的标注师,将更具竞争力。

  “随着大模型的深化迭代,更加专家化、垂类化的数据标注需求一定会越来越多。”一资深业内人士同样说道。正如量子位智库发布的《中国AIGC数据标注产业全景报告》显示,大模型时代,数据标注人才缺口或达百万,前景相当可观。

  对此,李荪也预测,随着大模型产业的持续增长、数据处理技术不断革新升级、行业场景专业数据需求逐步增加、全球化 人工智能 发展等原因影响,市场对 人工智能 训练师、数据标注师、提示词工程师、模型基准测试等人才岗位需求将会更加强烈,大模型产业正值爆发期,AI数据标注师后续发展前景将更加广阔。

  AI迈向大应用时代,或已到来。

手机扫码浏览该文章
 ● 相关资讯推荐
2024-7-2【英伟达】黄仁勋最新访谈 - 如果未来30天不全力以赴 英伟达确实可能破产
2024-7-2【大模型】微众银行 - 积极探索AI前沿技术应用于金融领域的多样化可能性
2024-7-2【人工智能】-西街观察-人工智能专业不是多多益善
2024-7-2【网络安全】齐向东 - 人工智能可以驱动网络安全实现质效双提升
2024-7-2【英伟达】-我们距离倒闭只有30天- 英伟达CEO黄仁勋再谈紧迫感
2024-7-2【英伟达】黄仁勋最新访谈 - 如果未来30天不全力以赴 英伟达确实可能破产
2024-7-2【人工智能】聚焦大模型时代AI前沿与金融应用 - 微众媒体学院北京开讲
2024-7-2【人工智能】人工智能,新消息密集
2024-7-2【英伟达】股价5年暴涨35倍,英伟达老员工-人均-百万富翁 部分开始-半退休- 新员工内心不平衡
2024-7-2【人工智能】新华时评 - 为人工智能造福人类贡献中国智慧
 ● 相关资讯专题
英伟达】  【黄仁勋】  【GPU】  【人工智能】  【全力以赴】  【大模型】  【微众银行】  【金融服务】  【综合标准化】  【2024】  【多多益善】  【网络安全】  【齐向东】  【网络攻击】  【我们距离倒闭只有30天】  【CEO】  【紧迫感】  【智能网联汽车】  【百万富翁】  【半退休】 
  • 网络建设业务咨询

   TEl:13626712526