Ai Pin明年3月开始出货；昆仑万维天工SkyAgents公测；智源开源代码生成评测基准TACO丨AIGC大事日报

天工2yrs ago (2024)update lida

144 0 0

12 / 25全球AIGC产业要闻1、夸克App上线健康大模型应用2、昆仑万维“天工SkyAgents”Beta版公测3、智源开源代码生成训练数据集与评测基准TACO4、首个汽车行业中文大模型测评基准发布5、抖音回应内测“AI搜”功能6、OpenAI CEO：2024年可能无法实现AGI7、OpenAI拟进行新一轮融资估值1000亿美元8、苹果拟5000万美元购买新闻数据训练AI9、郭明錤：苹果春季发布可能没有AI方面显著更新10、Ai Pin将于明年3月开始出货11、阿里百度腾讯360首批通过国家大模型标准评测12、中国信通院院长：AI发展将迎来关键窗口期13、印度正加强AI在天气预报中的应用1、夸克App上线健康大模型应用今日，夸克App宣布全面升级健康搜索，推出健康大模型应用“夸克健康助手”，并在部分搜索结果和功能板块中上线全新的内容交互方式。升级后，用户在夸克中搜索健康信息的正确率超过行业平均水平。经过精调和知识增强的夸克大模型，以486分的高分通过临床执业医师资格考试，同时在健康内容上的幻觉率已经降低至5%以内。 Ai Pin明年3月开始出货；昆仑万维天工SkyAgents公测；智源开源代码生成评测基准TACO丨AIGC大事日报针对AIGC等全新搜索内容形态，夸克成立了夸克健康专家团，与全国顶级公立三甲医院的专家共建大模型内容生态，确保内容层面的专业性、正确性和科学性。此外，夸克还会招募健康大模型精调师，持续地结合用户需求和热门病症，提供最新的健康知识。目前，夸克已经与200多位权威医学专家、60多家全国知名公立三甲医院和40多家医学机构合作。2、昆仑万维“天工SkyAgents”Beta版公测据昆仑万维集团微信公众号发文，今日，昆仑万维AI Agents开发平台“天工SkyAgents”Beta版正式开放测试。据介绍，天工SkyAgents开发平台基于昆仑万维“天工大模型”打造，具备从感知到决策，从决策到执行的自主学习和独立思考能力。用户可以通过自然语言构建自己的单个或多个“私人助理”，并能将不同任务模块化，通过操作系统模块的方式，实现执行包括问题预设、指定回复、知识库创建与检索、意图识别、文本提取、http请求等任务。体验地址：model-platform.tiangong.cn3、智源开源代码生成训练数据集与评测基准TACO据智源研究院微信公众号今日发文，智源开源了一个专注于算法的代码生成数据集TACO（Topics in Algorithmic COde generation dataset），旨在为代码生成模型领域提供一个更具挑战性的训练数据集与评测基准。该数据集包含难度更大、更接近真实编程场景的编程竞赛题目，强调提升或评测模型在实际应用场景中对问题的理解和推理（Reasoning）能力，而不仅仅是实现既定的函数功能。据悉，TACO包括训练集（25443道题目）和测试集（1000道题目），每个题目都尽可能匹配多样化的解题答案，答案规模高达155万条，每个题目均包含任务主题、算法、技能及难度等细粒度标签，为代码生成模型的训练与评测更精确的参考。经实验，当前流行的代码生成模型在TACO评测中与GPT-4存在显著差异，表明这一领域仍有巨大的提升空间。论文地址：arxiv.org/abs/2312.14852智源开放数据仓库：data.baai.ac.cn/details/BAAI-TACO4、首个汽车行业中文大模型测评基准发布据SuperCLUE微信公众号今日发文，SuperCLUE推出了专门针对汽车行业的大模型测评基准（SuperCLUE-Auto）。这是首个汽车行业大模型测评基准，是一个多维度的多轮开放式问题的测评基准。SuperCLUE-Auto包括智能座舱与交互、汽车营销、汽车理解与知识、车辆使用指南4大核心基础能共十余个任务，首批测评选择了国内外有代表性的12个闭源/开源的模型，结果显示，有4个中文大模型在中文的汽车场景的表现超过了GPT-3.5。榜单地址：cluebenchmarks.com/superclue_auto.html Ai Pin明年3月开始出货；昆仑万维天工SkyAgents公测；智源开源代码生成评测基准TACO丨AIGC大事日报 5、抖音回应内测“AI搜”功能据Tech星球今日报道，抖音正在主APP内测试AI搜索功能，名为“AI搜”，用户可以在该功能下获得AI提供的回答。在“AI搜”内，用户可以搜索相关的问题和信息，“AI搜”为用户通过智能搜索进行总结。对于回答不完整的信息，还可以再次补充细节后提问，或者在下方的“你可能还想了解”处，选择系统筛选的补充看到新的回答。回答的信息参考来源于抖音内的视频和第三方网站，并且提供跳转，比如用户可以直接选择视频来源，查看视频讲解。随后据中国证券报报道，抖音相关负责人对此回应，相关功能还在测试中，目前尚不成熟。行业人士称该功能可能在灰度测试中，没有全量上线。6、OpenAI CEO：2024年可能无法实现AGI12月24日，OpenAI CEO萨姆·阿尔特曼（Sam Altman）于社交平台X上发帖询问网友对于OpenAI明年应该建设或修复哪些功能的建议，随后他总结了一些常见的请求，包括AGI、GPT-5、更好的语音模式、更高的速率限制、更好的GPTs、更好的推理、控制行为的程度、视频功能、个性化、更好的浏览、使用OpenAI登录、开源等。其中，他在AGI后面标注“请耐心等待”，并称“对于AGI的请求比预期多得多，但很抱歉，我认为我们无法在2024年实现这一目标”，他还提到将“尽可能满足这些需求，以及许多其他未被网友提及、但令OpenAI团队自己感到兴奋的功能”。 Ai Pin明年3月开始出货；昆仑万维天工SkyAgents公测；智源开源代码生成评测基准TACO丨AIGC大事日报 7、OpenAI拟进行新一轮融资估值1000亿美元据彭博社23日报道，知情人士透露， OpenAI正在早期讨论以1000亿美元或以上的估值筹集新一轮融资，可能参与本轮融资的投资者已参与初步讨论。根据CBInsights的数据，如果本轮融资按计划进行，OpenAI将成为美国市值第二的初创公司，仅次于马斯克的SpaceX。据知情人士透露，OpenAI还与阿联酋阿布扎比的G42公司讨论了为一家新的芯片企业融资80亿至100亿美元的问题。8、苹果拟5000万美元购买新闻数据训练AI据《纽约时报》23日报道，几位知情人士透露，苹果公司最近几周与主要的新闻和出版机构展开谈判，希望获得许可，在该公司开发生成式AI系统时使用它们的资料。苹果已经提出了价值至少5000万美元的多年期交易，以获得新闻文章档案的使用许可，接触的新闻机构包括《时尚》（Vogue）和《纽约客》（The New Yorker）的出版商康泰纳仕（Condé Nast）、美国全国广播公司新闻（NBC News）以及拥有《人物》（People）、《野兽日报》（The Daily Beast）和《美好家园》（Better Homes and Gardens）的IAC。9、郭明錤：苹果春季发布可能没有AI方面显著更新今日，天风国际分析师郭明錤于社交平台X发布2024年消费电子产业三大关键投资趋势预测：安卓库存回补、Vision Pro、AI PC与手机。其中提到，2024年AI装置的主流硬件规格将包括内建7-10B大模型、40-50TOPS的AI算力、10-20 Tokens/s或以上的推理速度、8-16GB或以上的DRAM等。随后他转发称，认为苹果的春季发布会可能不会有AI服务方面的显著更新，所以没有明显纳入2024年可能提供AI装置催化剂的新产品发表中。 Ai Pin明年3月开始出货；昆仑万维天工SkyAgents公测；智源开源代码生成评测基准TACO丨AIGC大事日报 10、Ai Pin将于明年3月开始出货12月23日，AI硬件设备创企Humane于社交平台X上宣布，其首款AI穿戴设备Ai Pin将于2024年3月开始发货，届时将根据订单顺序依次运送所有订单。 Ai Pin明年3月开始出货；昆仑万维天工SkyAgents公测；智源开源代码生成评测基准TACO丨AIGC大事日报 11、阿里百度腾讯360首批通过国家大模型标准评测据阿里云、百度等微信公众号发文，12月22日，在全国信息技术标准化技术委员会AI分委会全体会议上，国内首个官方“大模型标准符合性评测”结果公布，阿里云通义千问、百度文心大模型、腾讯混元大模型、360智脑大模型首批通过评测，在通用性、智能性等维度均达到国家相关标准要求。据悉，该测试由中国电子技术标准化研究院发起，旨在建立大模型标准符合性名录，引领AI产业健康有序发展。该评测对外征集了学术界、产业界几十家头部单位意见，覆盖评估语言大模型通用性、智能性的38项具体评测维度，是基于官方大模型测试基准的权威评测。12、中国信通院院长：AI发展将迎来关键窗口期据财联社报道，12月24日，在2024中国信通院ICT深度观察报告会AI伙伴分论坛上，中国信息通信研究院院长余晓晖称，MaaS（模型即服务）和开源大模型加速企业智能化将成为大模型应用的主要形态，推动应用门槛急剧降低，大模型技术创新将进一步加速，多模态巨型智能等有望获得新突破，AGI的方向日渐清晰，未来几年AI发展将迎来关键窗口期。13、印度正加强AI在天气预报中的应用据路透社23日报道，印度一位高级气象官员说，随着暴雨、洪水和干旱等极端天气的增加个，印度正在测试试用AI来建立气候模型，以改善天气预报。印度气象局（IMD）使用超级计算机根据数学模型提供预报，将AI与扩大的观测网络结合使用，有助于以更低的成本生成更高质量的预报数据。