编者按:本文来自微信公众号 “新周刊”(ID:new-weekly),作者:徐倩影,创业邦经授权发布。
2023年第一季度,国内多家互联网企业相继推出类ChatGPT产品。
🌟【国内首现】顶尖团队MOSS引领潮流,邱锡鹏教授携对话型巨擎震撼发布!🎉ChatGPT劲敌“文心一言”百度再发力,创新技术打破想象边界!📝秘塔科技的“对话写作猫”,悄咪咪上线,AI领域风起云涌!🔥中国AI企业,加速冲刺,未来已来,拭目以待!💥国内首个大型语言模型MOSS由复旦大学邱锡鹏教授团队倾力打造,掀起一场技术风暴,诚邀大众参与深度体验。百度紧随其后,推出类ChatGPT产品“文心一言”,以其强大的对话功能挑战行业巨头地位。秘塔科技也不甘示弱,自主研发的LLM大模型“对话写作猫”已悄然上市,引领AI技术的新篇章。这些创新举措不仅展示了中国AI企业的实力与决心,更在无声中推动了整个行业的快速发展。无论是产品体验还是技术突破,都在昭示着一个事实:中国AI正以前所未有的速度迈向世界前沿。🚀让我们共同期待,这些AI巨头的未来表现,以及它们如何继续引领行业创新,为我们的生活带来更多便捷与惊喜!👩💻👨💻
🌟随着互联网巨头纷纷押注ChatGPT,数据标注行业的杨科琪感受到了一股短暂的热潮。然而,这股增长的背后是否能持久呢?🤔目前来看,国内AI企业虽多,但真正实现商业化盈利的寥寥无几。对于他来说,业务量的增长虽明显,未来的不确定性依然存在。🚀
🏆 数据标注:AI浪潮中的关键推手 🤖早在2017年,无人驾驶与AlphaGo的辉煌,犹如一股席卷全球的AI风暴,不经意间引领了数据标注行业的崭露头角。那时起,国家政策的东风也悄然而至——同年,中国政府发布的《新一代人工智能发展规划》明确提出,将AI提升到国家战略的高度,为这一领域的发展铺设了明确的路径。🚀在这个关键节点上,数据标注不仅是AI技术发展的基石,更是连接创新与现实的桥梁。它如同默默无闻的幕后英雄,为无人驾驶、语音识别、图像分类等前沿科技提供精准的数据支持,推动着人工智能的每一个进步。🔍随着国家战略的东风,数据标注行业迎来了前所未有的发展机遇,也对专业技能和合规操作提出了更高的要求。未来的AI世界,将离不开这些标注的“眼睛”,它们不仅见证技术的成长,也将塑造我们的智能生活。🌍欲了解更多关于数据标注如何助力AI发展的精彩故事,欢迎随时探索,让我们一起在人工智能的浪潮中乘风破浪!🚀
🌟2019年前的AI热浪:杨科琪与朋友在西北小城引领AI数据服务浪潮🔍💡那年,人工智能训练师崭露头角,杨科琪和伙伴们在此前一年,以创新眼光开启了他们在西部小镇的数据黄金时代。\ufe0f”data标注,看似门槛低,实则藏着智慧火花” —— 杨透露,一周高强度学习,新人就能迅速融入。但这并不妨碍这项技能成为当地新兴职业的代表,尤其是在那些渴望变革的角落。\n\n🔍尽管工作可能枯燥,但AI数据服务生意背后,折射出的是技术与市场的双重驱动,它像一股清流,悄然改变了小城的就业格局。\n\n👩💻他们的故事,或许就是无数怀揣梦想的年轻人在数字化浪潮中奋力拼搏的缩影,用智慧和汗水书写了人工智能在当地普及的独特篇章。📚欲了解更多AI产业动态,欢迎关注我们,一起探索技术如何塑造未来小镇!🌐
🌟2020年,杨科琪毅然转身,投身于AI数据领域的领头羊,他坚信数据标注的未来必然是专业化与高度职业化的进程。在这个瞬息万变的信息时代,他的选择聚焦于专业服务,致力于引领行业朝着更高效、精准的方向迈进。🚀
以下为杨科琪的自述。
是安逸还是无趣?
🎉🚀【超大规模AI培训基地】🔥💻 – 800位专家,1000台设备,无与伦比的人工智能盛宴!🔍在这个现代化的数字殿堂里,每一块空间都被精心设计,只为人工智能的卓越成长。800位训练大师,如同画框中的调色师,每天专注于框内的每一个细节,放大画面,精准调整,严谨审核。他们的身影在清凉的空气中舞动,淹没在高速网络的洪流中,每个小小的工作区都承载着无限可能。👩💻💼这里的设施齐全,从空调的微风到电脑的闪烁,每一处都是高效与舒适的象征。2平方米的小天地,虽小却蕴含了专注和效率的力量。💡🔍让我们一起见证,这个人工智能的黄金时代,每一份努力都在为未来的科技革新铺路。👩💻🌍 #AI培训基地 #技术进步 #未来趋势
目前,我们最大的业务是无人驾驶项目,标注员根据系统给出的方框,用鼠标细化一辆车的大体轮廓,然后将图片放至最大,细心调整车辆边缘的框线,再勾选屏幕左上角的车辆属性。
所谓人工智能训练师就是让汽车在行驶过程中自动识别马路。如果只是将视频传给计算机,计算机是无法识别的,需要大量的标注员将视频中的道路框出,再交给计算机,计算机多次接收此类信息后,才能逐渐学会在视频和照片中识别出道路。
今年3月,德勤中国发布的《人工智能基础数据服务白皮书》显示,人工智能基础数据服务下游应用占比中自动驾驶占到52%。随着自动驾驶AI算法的升级迭代及模型训练数据量的指数级增长,技术迭代带来数据需求“大爆发”。 相比其他项目,自动驾驶业务的持续性更好,而且服务周期也比较长。
人工智能的三大基石是数据、算力与算法。我们数过羊、数过木头,还数过铁块,涉及的行业有医学类、安防类、现在的自动驾驶等,还接过看手相的一个项目,甲方要求我们给手掌上的各种手纹进行标注,很多员工都开始研究手相,挺好玩的。一般而言,视觉类的内容要做到机器准确识别,至少需要10万张图片。对于AI产品,数量越多、质量越高的数据,往往越能够训练出更“聪明”的模型。
标注员一天的工作内容就是画框线,根据项目的难易程度,一个框3—8分钱,工作日8小时要画2000个框以上,人均月收入在3000—4000元。
以我们公司为例,人员流动率在30%—40%,因为工作比较简单,每天8小时坐在电脑前,做着重复性工作,对于有的人而言是一份还算安逸的工作,但对另一些人而言就显得非常枯燥和无趣。
一个AI产品的诞生一般需要经历数据准备、模型训练与优化、模型管理、推理应用等4个模块,在国内已经形成了非常成熟的全产业链。目前,我所在的公司在做的就是数据准备,包括数据生产、数据清洗、数据标注三大方面。像我们这种布局在县城的数据标注公司,一般主要负责数据清洗和数据标注。清除模糊的图片、噪声太多的语音、错误的文本内容后,我们再进行画框线和数据标注,根据甲方的不同需求进行操作。
技能等级认定中的初级工
根据《人工智能训练师国家职业技能标准(2021年版)》的定义,人工智能训练师是使用智能训练软件,在人工智能产品使用过程中进行数据库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅助作业的人员。
在我看来,虽然标注员也被称为人工智能训练师,但如果按照去年发布的《关于开展新职业技能等级认定工作的通知》的内容,标注行业内的人工智能训练师在技能等级认定中应该属于初级工,在其之上还有4个更高的职业技能等级。
其实,拿证和做业务真是两回事。考取职业证书,按照职业教育的要求需要上满 60 个课时,课程中会系统学习人工智能的概念、未来的发展方向,以及相对完整的知识构架逻辑。但是在标注行业,在数据标注公司,聪明、用功的人学习一周就能上手,只要会使用标注工具就能胜任。
标注行业作为劳动密集型产业,运作模式主要有两种。一种是专业AI数据服务提供商自己雇人自己做;另一种是他们接到业务后发包出去,使用更具性价比的人员或公司。我所在的公司也属于后者,“层层发包”在标注行业比较常见。
数据标注发展初期,就是由“众包”模式而兴起,当时有很多众包平台,需求方项目要求有大量兼职人员接单,和目前的美团模式差不多。当年,我们的初创公司也是利用信息差,从数据标注平台接单,在市场上找更便宜的人力资源完成任务,但随着数据标注从野蛮生长阶段进入规范化发展阶段,市场上的兼职人员正在减少。越来越多的兼职业务正在被像我们这样的县城标注公司替代。
2019年,我刚刚创业时,知道数据标注的人不多,这行属于刚刚兴起。现在,这行的入门门槛变高了,参与的人也越来越多,市场压价现象很普遍,与刚入行时相比,价格下降了30%左右,我个人觉得数据标注市场已经有点“红海”了。
目前,大部分互联网企业都在自建基地,比如百度、阿里巴巴、京东等互联网大厂在全国都建立了基地,从而获得政策扶持、租金减免等条件。
人工智能的下一站是县城
人工智能训练师流行于县城?我觉得很正常。目前,国内标注行业的价格战愈演愈烈,在质量、效率不断提高的情况下,各大公司拼的无疑就是价格。随着行业的发展,甲方需要不断寻求价格更低的生产力区域,所以各大AI数据服务企业转战县城非常正常。
在县城办公,房租、人力成本相对较低,同时互联网企业确实可以解决一部分人的就业和收入问题。目前,百度拥有行业内最大的自建标注团队,在山东济南、山西临汾、重庆奉节、四川达州、甘肃酒泉、江西新余等10个地区有自建标注基地。
除此之外,政府补贴也是相关企业选择县城的主要原因。2023年1月,贵阳市人民政府网发布的《贵阳鼓励企业吸纳就业政策》中提到,贵阳市符合条件的小微企业、民营经济组织和社会组织吸纳高校毕业生就业的,给予800元/人的一次性吸纳就业补贴及一定额度的创业担保贷款。
数据标注作为劳动密集型产业,当企业更多地选在三四线城市落地,当地政府看重的则是产业化的基地建成后,带动当地就业、促进当地经济发展。智研咨询发布的《2022—2028年中国数据标注与审核行业投资策略探讨及市场规模预测报告》中提到,随着人工智能成为国家发展战略,其势头锐不可当,预计2028年我国数据标注与审核行业市场规模将达262.74亿元。
不久前,Meta发布了史上首个图像分割基础模型——SAM(Segment Anything Model)。有人认为,这代表着计算机视觉领域的GPT-3时刻已经到来。有人说这一模型会替代大量的标注员,我个人认为在数据处理的精度方面,人类无法被替代,至少目前不会,毕竟对于AI产品而言,数据越精准,模型才会越精准。
ChatGPT在社交媒体上引起了巨大的话题度后,国内多家互联网企业相继推出类ChatGPT产品。对我们而言,短期内AI企业对数据标注的需求量还会增加,毕竟数据标注在整个前期产品开发的过程中时间占比可能在全周期的20%—30%之间,目前这一块的数据确实需要大量的人去做。但是,随着平台标注自动化和预识别的发展,未来一部分标注员可能会被淘汰。
未来,数据标注这行一定会向着规范化和职业化发展,因为需求方的类型和要求会增多,也会涉及各个领域的专业性方面。比如医疗,如果没有医学常识很难做好标注;金融数据也是如此,看不懂财报,就没办法做标注。
(应受访者要求,文中杨科琪为化名)
本文(含图片)为合作媒体授权创业邦转载,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!