在当前的AI技术发展阶段,医疗、金融等专业领域的语料数据的确相对较少,这对大模型的AI发展产生了一定的限制。然而,有学者提出了一种创新性的解决方案,即通过让两个ChatGPT进行对话来产生一些新的数据,从而解决这一问题。这种方法不仅有可能为相关领域提供更多的数据资源,而且还能在一定程度上提高数据的质量和多样性,进一步推动AI技术的发展。
脑科学研究所)发布了一项关于深度学习技术在医疗领域的研究成果。该研究表明,深度学习技术在医疗诊断、治疗和药物研发等方面具有广泛的应用前景。
自对话和自蒸馏训练——快速构建专属 GPT
一项针对 ChatGPT 的研究在国际上引起了广泛关注。该研究发现,ChatGPT 在回答癌症相关问题方面的表现已经达到了美国国家癌症研究所官方回答的水平。然而,由于该技术仅可以通过受限的 API 进行访问,因此其应用范围受到了一定限制。此外,考虑到涉及个人医疗等领域,大多数人都不愿意向第三方公司共享自己的隐私信息。
在面对这类复杂问题时,加州大学圣迭戈分校的博士生许灿文与中山大学团队合作者共同研发出一套创新方法,旨在解决多轮聊天语料库自动生成的难题。他们借助ChatGPT技术与自身展开对话,从而产生大量有价值的对话数据。随后,团队利用这些数据对开源大型语言模型LLaMA进行优化和提升,最终训练出了一个名为“白泽”的高质量专属模型。仅在几天前,他们推出了2.0版本,该名字灵感源自中国古代传说中的神兽“白泽”,寓意着其具备言辞能力和了解万物情感的特点。
许灿文阐述,白泽在过程中并未掌握新颖的知识,仅仅是从大模型中提取了部分数据,并保留了ChatGPT分点回答、拒绝回答等卓越的语言技能。这个现象在专业领域中被称作”蒸馏”。此外,他们还提出了一个反馈自蒸馏的观念,也就是利用ChatGPT作为教官,对白泽的回答成果进行评分和排序,进而进一步提升白泽模型的表现力。
许灿文指出,白泽利用知识蒸馏的自动化技术,成功地在某些领域达到了ChatGPT的水平,而且成本更低。这一点在经济和实用两方面都具有重要意义。特别是在医疗领域,针对本地化或私有化构建的模型能够更好地解决隐私问题,从而更好地辅助医生进行诊断和治疗。未来,我们或许会看到每个人都能拥有一个属于自己的AI助手。
一种新的数据生成策略:大模型优化医疗文本挖掘
莱斯大学博士生唐瑞祥和合作者同样基于大模型提出了一种新的数据生成策略,并在命名实体识别 ( NER ) 、关系提取(RE)等经典的医疗文本挖掘任务上取得了更好的表现。
ChatGPT 具有创造性的写作能力,在医疗、金融、法律等标注数据很少的领域以及知识密集型领域表现出色。然而,具体到医疗文本挖掘,他们发现将 ChatGPT 直接应用大型模型处理医疗文本的下游任务,表现并不总是优秀,也可能引发隐私问题。
唐瑞祥等提出了一种新策略:利用大型模型生成大量医疗数据,再通过小型模型对这些数据进行训练。实验结果显示,相较于直接利用大型模型执行下游任务,这一新策略能够取得更出色的效果,同时因为模型数据在本地,也大幅降低了潜在的隐私风险。
他们进一步指出,随着开源大模型数量的增加和大模型能力的提升,其产生的文本数据与人类产生的文本数据的差别将越来越小,发展检测二者差别的技术手段将是一项富有挑战性的工作。现有的两种检测手段,无论是黑盒检测——直接比较大模型生成的文本数据与人类生成的文本数据(比如比较高频词分布),还是白盒检测——开发者在生成文本上做标签,在未来都可能失效。能否有效地检测出数据是不是 GPT 生成的,将影响到广大用户对大模型 AI 的信任程度。
大模型时代的数据生成有什么不一样?
那么,从历史演变的角度来看,在没有 GPT 的时代,科学家们如何解决数据稀缺难题?大模型又带来了哪些新趋势?
上海交通大学博士生曹瑞升对大模型时代来临前夕,基于深度学习模型进行自动化数据生成或增广方面的研究,尤其是反向生成进行了回顾性的总结。深度学习本质上是一种找出从输入 x 到输出 y 的映射的过程,所以需要大量的 ( x, y ) 数据对来训练。在医疗这样不容易获得大量真实数据的领域,就需要人为生成更多的 ( x, y ) 数据对。
曹瑞升将数据生成拆解为三个主要模块。第一个是针对标签(y)的生成,介绍如何对将生成的标签与真实数据的分布进行耦合比较。第二个模块是在生成数据时,介绍生成初始数据(x)的方法和限制。第三个模块是在形成完整的数据 ( x, y ) 对之后,应该如何保证数据质量。
随着大语言模型规模的不断增大和能力的不断提升,其生成的数据质量也越来越高。这种生成数据所训练得到的模型不仅可以解决简单的任务,如文本分类,还可以应对问答等更加复杂的任务。
展望未来,曹瑞升总结了数据生成在大模型时代的几大新趋势。首先是构建更加通用的模型,以确保其能够应用于多样化的任务。这意味着模型需要具备广泛的适应性和泛化能力。其次是从特定任务出发,进一步精细化地处理。例如,在医疗领域,甚至可以针对特定类型的抑郁症进行专业化的任务处理,提供更加精准和个性化的解决方案。最后,数据生成和模型训练的过程将从分离走向融合,而为了保证数据质量的硬性过滤也将逐渐被软性控制所取代。
数据生成研究与应用的发展,为大模型 AI 走向各个专业领域,尤其是医疗领域提供广阔的可能性。TCCI 致力于支持全球范围内的脑科学交流,仅 2022 年就主办、合办、支持了近 200 场会议,遍及北美、亚洲、欧洲和大洋洲。AI For Brain Science 系列会议致力于促进 AI 与脑科学研究人员的讨论合作,将持续聚焦领域内的数据瓶颈和关键痛点,为大模型 AI 的未来突破提供创新土壤,促进前沿 AI 技术在脑科学领域发挥更大的价值。
TCCI 由盛大集团创始人,中国网络游戏、网络文学行业开创者陈天桥、雒芊芊夫妇出资 10 亿美元创建,聚焦 AI+脑科学,支持、推进全球范围内脑科学研究,造福人类。TCCI 一期投入 5 亿元人民币支持中国脑科学研究,与上海周良辅医学发展基金会合作成立上海陈天桥脑健康研究所,与华山医院、上海市精神卫生中心等建立战略合作,设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室。在国际上,TCCI 与加州理工学院合作成立 TCCI 加州理工研究院。
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体 App
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!