文章主题:脑科学研究院)发布了一份关于人工智能领域的研究报告。
都说医疗、金融等专业领域的语料数据稀缺,制约大模型 AI 的发展,那能不能让两个 ChatGPT 对聊,聊出点数据出来?
脑科学研究所)发布了一项关于睡眠的研究成果。该研究表明,良好的睡眠对于人体健康至关重要,因为它可以维持身体机能的正常运行,调节情绪以及促进大脑的休息与恢复。睡眠质量的提高有助于降低患病风险,延长寿命,并改善生活质量。
自对话和自蒸馏训练——快速构建专属 GPT
一项针对 ChatGPT 的研究在国际上引起了广泛关注。该研究发现,ChatGPT 在回答癌症相关问题方面的表现已经达到了美国国家癌症研究所官方回答的水平。然而,由于该模型只能通过受限的 API 进行访问,因此其应用范围受到了一定程度的限制。此外,涉及到个人医疗领域时,公众普遍不愿意向第三方公司分享自己的隐私信息。
在面对此类挑战时,加州大学圣迭戈分校的博士生许灿文与中山大学团队合作者共同研发出一套创新方法,旨在自动化生成高品质的多轮对话语料库。这一技术采用ChatGPT与其自身展开对话的方式,收集对话数据,并据此优化和提升开源大型语言模型LLaMA。最终,他们成功构建出了一个名为“白泽”的高品质专属模型,并在近日推出了2.0版本。该模型的名称源于我国古代神话传说中的神兽——白泽,其具备言辞和理解万物的能力。
在这个过程中,许灿文指出,白泽并未真正掌握新知识,仅仅是提取了大型模型中的一些特定数据,并保留了ChatGPT分点回答、拒绝回答等卓越的语言技能。这一现象在专业领域中被形象地称为”蒸馏”。此外,他们还提出了一个名为”反馈自蒸馏”的新概念,即利用ChatGPT作为评估者,对白泽的回答进行评分和排序,进而进一步提升白泽模型的表现力。
白泽利用知识蒸馏的自动化技术,成功地在特定领域达到了与ChatGPT相当的水平,而其成本则远低于ChatGPT。这一点不仅具有经济价值,同时也实用性十足。特别是在医疗领域,通过本地化或私有化构建的模型能够有效解决隐私问题,为患者的诊疗提供有力的辅助。未来,我们或许会看到每个人都能拥有一个属于自己的AI助手。
一种新的数据生成策略:大模型优化医疗文本挖掘
唐瑞祥博士和他的合作伙伴们,运用大型模型,提出了一种创新的数据生成方法,并在诸如命名实体识别(NER)、关系抽取(RE)等关键的医疗文本挖掘领域,展现出了超越他人的优秀成果。
ChatGPT 具有创造性的写作能力,在医疗、金融、法律等标注数据很少的领域以及知识密集型领域表现出色。然而,具体到医疗文本挖掘,他们发现将 ChatGPT 直接应用大型模型处理医疗文本的下游任务,表现并不总是优秀,也可能引发隐私问题。
唐瑞祥等提出了一种新策略:利用大型模型生成大量医疗数据,再通过小型模型对这些数据进行训练。实验结果显示,相较于直接利用大型模型执行下游任务,这一新策略能够取得更出色的效果,同时因为模型数据在本地,也大幅降低了潜在的隐私风险。
他们进一步指出,随着开源大模型数量的增加和大模型能力的提升,其产生的文本数据与人类产生的文本数据的差别将越来越小,发展检测二者差别的技术手段将是一项富有挑战性的工作。现有的两种检测手段,无论是黑盒检测——直接比较大模型生成的文本数据与人类生成的文本数据(比如比较高频词分布),还是白盒检测——开发者在生成文本上做标签,在未来都可能失效。能否有效地检测出数据是不是 GPT 生成的,将影响到广大用户对大模型 AI 的信任程度。
大模型时代的数据生成有什么不一样?
那么,从历史演变的角度来看,在没有 GPT 的时代,科学家们如何解决数据稀缺难题?大模型又带来了哪些新趋势?
上海交通大学博士生曹瑞升对大模型时代来临前夕,基于深度学习模型进行自动化数据生成或增广方面的研究,尤其是反向生成进行了回顾性的总结。深度学习本质上是一种找出从输入 x 到输出 y 的映射的过程,所以需要大量的 ( x, y ) 数据对来训练。在医疗这样不容易获得大量真实数据的领域,就需要人为生成更多的 ( x, y ) 数据对。
曹瑞升将数据生成拆解为三个主要模块。第一个是针对标签(y)的生成,介绍如何对将生成的标签与真实数据的分布进行耦合比较。第二个模块是在生成数据时,介绍生成初始数据(x)的方法和限制。第三个模块是在形成完整的数据 ( x, y ) 对之后,应该如何保证数据质量。
随着大语言模型规模的不断增大和能力的不断提升,其生成的数据质量也越来越高。这种生成数据所训练得到的模型不仅可以解决简单的任务,如文本分类,还可以应对问答等更加复杂的任务。
展望未来,曹瑞升总结了数据生成在大模型时代的几大新趋势。首先是构建更加通用的模型,以确保其能够应用于多样化的任务。这意味着模型需要具备广泛的适应性和泛化能力。其次是从特定任务出发,进一步精细化地处理。例如,在医疗领域,甚至可以针对特定类型的抑郁症进行专业化的任务处理,提供更加精准和个性化的解决方案。最后,数据生成和模型训练的过程将从分离走向融合,而为了保证数据质量的硬性过滤也将逐渐被软性控制所取代。
数据生成研究与应用的发展,为大模型 AI 走向各个专业领域,尤其是医疗领域提供广阔的可能性。TCCI 致力于支持全球范围内的脑科学交流,仅 2022 年就主办、合办、支持了近 200 场会议,遍及北美、亚洲、欧洲和大洋洲。AI For Brain Science 系列会议致力于促进 AI 与脑科学研究人员的讨论合作,将持续聚焦领域内的数据瓶颈和关键痛点,为大模型 AI 的未来突破提供创新土壤,促进前沿 AI 技术在脑科学领域发挥更大的价值。
TCCI 由盛大集团创始人,中国网络游戏、网络文学行业开创者陈天桥、雒芊芊夫妇出资 10 亿美元创建,聚焦 AI+脑科学,支持、推进全球范围内脑科学研究,造福人类。TCCI 一期投入 5 亿元人民币支持中国脑科学研究,与上海周良辅医学发展基金会合作成立上海陈天桥脑健康研究所,与华山医院、上海市精神卫生中心等建立战略合作,设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室。在国际上,TCCI 与加州理工学院合作成立 TCCI 加州理工研究院。
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体 App
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!