文章主题:人工智能, 数据标注, 大型语言模型, 百度智能云
作者 | ZeR0
编辑 | 漠影
在8月24日的今天,我们有幸参观了位于海口的百度智能云人工智能基础数据产业基地,并亲身参与了大型模型数据标注的工作。这是我国在人工智能领域迈出的重要一步,我们期待着这样的实践能够推动更多的发展和创新。
百度智能云海口数据标注基地拥有约两三百名员工,这一数字相较于其他基地的90%具有大专学历的员工而言,显然更为突出。值得注意的是,这个基地承担着大模型标注的重任,从而使得这里100%的员工都具备本科以上学历。这种独特的情况不仅提升了整个基地的标注质量,同时也为广大本科应届毕业生提供了就业的机会,进一步推动了区域人才的保留工作。
在人工智能(AI)领域中,数据、算法和算力被视为三大核心要素。随着AI商业化的加速推进和应用场景的持续拓宽,对于海量且高质量数据的需求呈现持续上升的趋势。其中,80%的数据是以文件形式存在,属于非结构化或半结构化数据,必须经过严格的清洗和标注处理,才能够被机器所理解和吸收,从而转化为可供机器学习和使用的数据。
在人工智能大模型时代,数据标注的质量对于模型的“智能”程度起着决定性的作用。举例来说,文心一言、ChatGPT等大型语言模型所返回的回答是否精确、简洁、逻辑条理清晰,都直接取决于数据标注的效果。不同于传统的模型标注方式,大模型的数据标注需要一种全新的标注方法。
在传统的数据标注过程中,其入门门槛并不高。标注者只需对图片中的猫、狗、人、车等元素进行文字标注,或对某一段话标记为正面、负面或普通情绪,根据具体内容打上相应的标签即可。由于规则较为客观,这种标注方式对于初学者来说较为容易掌握。
在相较于其他任务而言,大型语言模型的数据标注更为复杂,因为它涉及到与文本内容和代码的互动。这项工作需要数据标注师具备丰富的判断力、理解力、逻辑思维能力、综合分析能力以及扎实的汉语言文学功底。此外,还需要根据用户提出的问题,对大模型生成的文本回答进行细致的评分。
比如,用户提问“北京哪里好玩”,数据标注师要判断大模型生成的答案是否切合问题、符合事实、逻辑正常、符合社会主义核心价值观、没有重复啰嗦的语病、结合前文信息等等。
智东西记者坐到一台电脑前亲手试了试,尽管旁边有标注规则供打分参考,要阅读分析每个答案,并给出恰当的分数,还是一件相当消耗脑细胞、需要花时间认真核对和思考的工作。
在短暂体验当AI数据标注师后,智东西等媒体与百度智能云数据标注基地业务产品负责人胡驰进行了深入交流,进一步了解百度智能云海口数据标注基地的平台能力和建设进展。
一、大模型数据标注怎么上手?差点烧干我的大脑“CPU”
走进百度智能云(海口)人工智能基础数据标注基地的办公室,一群数据标注师们正在全神贯注的工作。他们要先经过2个月的培训,通过考核后,才能正式上岗,薪酬结算方式是多劳多得。
在这里,数据标注师的日常工作,就是给大模型的答案打分。
大模型每次生成的答案都不一样,所以在回复质量的稳定性方面存疑,有时能答得很好,有时则会答非所问,甚至给出千奇百怪的错误答案。数据标注师打分的目的就是让大模型变“聪明”,越来越能生成对人类有用、好用、能够解决实际问题的高质量回复。
比如,让大模型以某个主题写一首打油诗,它可能一口气写了很多首,这时候数据标注师负责告诉它,你这首写得很烂,第二首写得还行,第三首写得特别好……它不断吸收这些反馈,渐渐地就自主领悟出什么样的打油诗是好的打油诗。
对于每个问题,大模型会生成并筛选出5个它认为最符合人类要求、最贴近人类回答的答案,然后由数据标注师根据一套完整的评分规则,来判断当前问题属于哪一种类别,紧接着给每个答案依次进行综合打分与排序。
打分为5分制,如果分值低于3分,需要在回复中划词批注问题类型。
被数据标注师打过分的答案,会交给大模型进行再训练,它通过大量学习,就能逐渐悟出来什么样的答案才是更好、更合适的。
作为一个曾跟许多国内外大型语言模型打过交道的文字工作者,在围观几位数据标注师工作后,我跃跃欲试,并对自己的标注能力非常有信心。
但显然我低估了这份工作的难度,真正开始做才发现,如果对评分规则不熟练,对于大模型生成的每个回复,都要花很多时间去核对规则,然后才能进行判断。
做判断的流程也不简单,要先判断这个回复有没有跑题、有没有事实性错误,核查错误又需要运用到搜索工具,通过检索信息反过来判断问题的合理性,再开始审核回复内容。
回复的质量除了跟是否跑题、没有事实性错误有关外,还涉及是否存在逻辑性问题、语义重复问题、无关的废话、符合之前对话语境等等。特别是当大模型回复了很多绕来绕去的文字时,理解和分析这些语句的逻辑关联会很“烧脑”。
如果是对文字缺乏敏感度,或者逻辑性很差的人,估计很难做好这个工作。
对于代码、数学、法律、医疗、经济、政务等专业领域的对话,数据标注师还需具备行业知识。出题系统的分发机制,会先对问题进行题型识别,然后自动归类,自动分发给更专业的数据标注师来完成标注工作。
等数据标注师完成标注后,后续还有审核环节,由专业人员通过多轮抽审等审核机制进行验收,以确保数据标注的准确性。
二、AI训练师人才缺口高达百万,海口基地要形成大模型时代AI数据服务矩阵
2021年,我国人力资源社会保障部联合工业和信息化部组织有关专家,制定了《人工智能训练师国家职业技能标准(2021年版)》,“数据标注师”便是该国家标准中“人工智能训练师”的工种之一。
近年来,随着AI智能音箱、自动驾驶等应用场景的商业化落地,数据标注市场规模急剧增长,预计5年内将突破150亿元。中国工程院院士邬贺铨表示,AI进入产业级大模型时代,2022年全国约需200万专业数据标注师。
大模型的典型应用场景包括对话沟通、内容创造、分析控制等。由于其应用于真实世界,离不开监督微调与强化训练机制,需要大量高质量标注数据。人类就充当了大模型的“专业辅导老师”,通过高质量的人工标注数据进行微调模型和训练奖励模型,让大模型学得越来越好,跟人类价值观、思维方式不断对齐,更加可用。
目前,百度智能云已在海口、太原标注基地组建大模型标注专业团队,共有标注人员数百人。
2022年12月,百度智能云与海口市政府正式签约,合作共建百度智能云(海口)人工智能基础数据标注基地,并于次年2月启动服务商招募和人员招聘。海口基地于2023年4月份开始投产运营,截至6月1日,海口基地已注入数据标注服务商4家,现场作业人数达211人。
海口基地仍处于建设的初期阶段,主要承接自然语言处理等大型语言模型相关业务,这也是百度第一家专攻大模型的数据标注基地。
经过成熟的人员培训和项目管理机制,海口基地的专职AI训练师们具备通识性、专业领域知识能力,可高质量承接SFT、RM、评估等多类标注任务。
目前,海口基地与政府、高校、就业驿站等合作,开展线上/线下招聘。
百度智能云正发挥自身技术与生态资源优势,在海口基地培育孵化一批AI数据服务企业,助力区域形成数据服务产业集聚。
在政策方面,海口基地通过对入驻服务商在场地、水电、网络、办公设备等方面明确的扶持政策,为产业提供全方位保障。
在培训方面,海口基地对入驻服务商进行平台、工具、流程、团队管理、生产技能等全方位培训,帮企业快速建立起数据标注业务承接能力。
在优化服务能力方面,海口基地的专职基地行政服务团队提供专业行政、后勤、网络运维等环境和生产保障服务,减少企业运营管理成本,聚焦业务能力提升。
随着基地企业规模扩大,海口基地产能将实现快速提升,并随着基地作业人员素质不断加强,未来将持续培养AI训练师、模型精调师、指令工程师等,形成大模型时代AI数据服务矩阵。
三、吸引孵化优质企业超200家,间接带动5万人就业
包括海口基地在内,当前百度智能云在全国建设了12个数据标注基地,全部是与政府共同建设。
这些基地累计为各区域提供超过11000个稳定就业岗位,基地内数据标注师大专学历超90%,间接带动50000人就业,培育数万名AI数据人才,吸引孵化优质企业超200家。
依托基础数据全栈式服务能力和国内产值规模领先的数据标注基地,百度智能云数据众包能够为客户提供安全、高效、高质量的AI数据处理服务,助力客户训练算法模型。
据百度智能云数据标注基地业务产品负责人胡驰分享,海口基地数据标注师们使用的标注工具平台引入了很多智能能力,用机器辅助降低标注门槛,能够有效提高标注效率。
胡驰认为,与其他标注厂商相比,百度智能云拥有更大的资源优势,其全职标注人员、垂类领域标注人员的质量都很高,数据专家能够跟客户沟通交流,可以帮助客户根据大模型的效果提出整体的数据咨询和标注方案,并设置了健全的数据安全防护机制,来保障标注服务的安全。
比如在技术层面,数据会存储在百度云或客户本地,且设有数据反爬机制,能够防抓取,有操作日志记录电脑行为。在产品层面,随机出题能够防止一次性获取,并有数据接口加密、标注界面加水印等措施。
基地也配有加密房间,防止外部人员进入,全职员工都会签署保密协议,还辅以视频监控、人员定期巡查、设置人脸识别门禁、限制外网、电脑USB加密等措施,全方位保护数据安全。
此外,百度智能云提供大模型能力评估体系以及评估流程与工具,通过专业人员定向募集与准入、多轮审验以及Copilot辅助评估等措施,全面评价模型应用表现,并提供可视报表与案例分析、优化提案与服务支持。
经过评估后,大模型尚有不足的能力就可以再去针对性地加强数据标注和训练,从而促进模型迭代,将模型质量不断提升。
除了数据标注基础业务依托外,数据标注基地也通过引入统一标准化专业培养体系帮助客户培育区域AI人才,并依托百度技术与生态优势提供一站式的创业扶持,助力区域数据标注企业孵化成长,吸纳区域大量劳动力,帮助地方解决就业问题,为城镇新增就业做出贡献。
结语:大模型产业为数据标注带来新机遇
作为AI基础数据服务的核心环节,数据标注服务是算法模型正常运行的重要保障,对AI产业技术层和应用层起到了牢基固本的支撑作用。
借助特定软件工具,数据标注师将未经处理的语音、图片、文本、视频等数据打上特征标签,转变成机器可识别的信息,使机器通过大量学习这些数据具备自主识别的能力,逐渐掌握特定技能,从而在实际业务场景中发挥作用。
如今,高速发展的大模型产业为数据标注带来了新的机遇,带动行业由数据标注向知识标注升级。专注于大模型的百度智能云(海口)人工智能基础数据标注基地,不仅有助于带动海口的数据服务产业集聚和数据人才培育,也能对国内大模型数据标注产业起到一个标杆示范作用。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!