“看图说话”样样行,ChatGPT功能升阶再度引发资本市场热潮金融投资报2023-09-26 22:33金融投资报2023-09-26 22:33
北京时间周一晚间,OpenAI表示,将在ChatGPT推出新的语音和图像功能,新功能将于未来两周内面向Plus和企业用户推出。
OpenAI在官网表示,语音功能支持iOS和Android平台,图像功能支持全平台。根据演示,语音功能方面,用户可以与ChatGPT进行语音对话,让ChatGPT讲故事、读诗等;图像功能方面,用户可以用图片向ChatGPT提问,支持多轮对话和多图识别,比如拍下冰箱照片询问ChatGPT晚餐吃什么等。
“实时语音对话将为用户提供更自然的沟通方式,对虚拟助手、客服机器人等应用将会非常有用,基于图片对话则是一个巨大的技术突破,可用于更丰富和更直观的交互。”对于此次ChatGPT的更新升级,邢焕来分析称,OpenAI通过融合其训练数据中蕴含的知识,进一步丰富了模型在多模态数据的分析能力,从而提供了图片对话、实时语音对话等新功能,扩展了ChatGPT的应用场景和应用价值。
除OpenAI在多模态领域布局外,谷歌、Meta、苹果等也在相关领域发力。
与此同时,国内企业在相关领域的布局进度同样受到关注。事实上,国内公司在AI领域的进度各有优势与侧重。
邢焕来指出,百度公司的文心一言推出了基于知识增强的深度问答、图像搜索、文字识别等人工智能产品;阿里巴巴的通义千问具备多轮对话、文案创作、逻辑推理、多模态理解、多语言支持等功能;腾讯公司的混元大模型侧重于解决业务的实际需求,涉及QQ、微信、腾讯文档、腾讯会议等多场景;华为、科大讯飞、字节跳动、快手等公司也都在AI领域进展迅速。
同时,国内还有许多大学和科研机构积极布局,例如川内的电子科技大学、西南交通大学、四川大学等都在推进预训练大模型的相关研究。
国信证券此前的研报指出,AI三元素(大模型、算力、应用)呈现出螺旋式促进关系。当三者中有一个要素喷发,就是强刺激期;三者没有更新就会进入停滞期,等待下次爆发。
如今,随着ChatGPT在多模态大模型上的突破,首先受到关注的就是算力领域。
开源证券分析称,多模态大模型推动AI迈向“通感”时代,算力需求将大幅提升。由于语音和图像数据大小显著高于文本,多模态大模型训练和推理的算力需求将大幅提升。
孟晚舟近期在2023华为全球分析师大会上表示,预计到2030年,通用计算能力将增长10倍,AI计算能力将增长500倍。
在应用方面,随着ChatGPT的更新以及后续AI技术的发展,更多领域将受到深刻影响。
可以预见,人工智能技术已经开始对社会产生广泛而深刻的影响,这些影响将在未来继续扩大。
“在就业方面,语音和图像等技术的广泛应用可能会导致某些传统工作的自动化。医疗保健方面,语音和图像等技术在医疗诊断、患者管理和健康监测方面具有巨大潜力;对于一些新兴产业,语音和图像等技术将促进新兴产业的快速发展,如无人驾驶、智能城市、虚拟现实等,为社会带来新的商机和新的生活方式。”邢焕来说。
“作为人工智能领域的专家,我对这项技术的未来发展充满信心和期待。”易勇认为,未来几年语音和图像处理技术的发展将会带来许多积极的社会影响,语音和图像识别是通用人工智能的主要应用方向。然而,也需要关注并解决伴随技术发展而出现的新问题,例如数据隐私、伦理问题等。只有在这些问题得到妥善解决的前提下,人工智能才能真正地为社会进步作出贡献。
“总体来说,语音输入功能和图像处理功能侵权风险与此前单纯的文字对话相比,可能遭遇的侵权方式和相应的法律风险更为多样。需要注意的是,随着AI技术愈发成熟,后期涉及的法律问题也会越来越复杂。”龚嘉璇说。
龚嘉璇表示,“技术的快速发展与立法滞后之间的矛盾是无法避免的,这就要求立法具有一定前瞻性,防患于未然。此外,针对法律漏洞,应及时出台司法解释,尽可能改善立法的滞后问题。”
本文为|金融投资报jrtzb028(微信号)|
未经授权,禁止转载 如需转载,请联系金妹儿
转载须在正文开头显著位置
注明稿件来源及作者名,违者必究
互联网新闻信息服务许可证号:51120180008