阿里云通义千问模型邀测：对话理解能力初现，但仍有待提升

通义千问2yrs ago (2024)update lida

182 0 0

文章主题：阿里云, 通义千问, 大模型, 邀请测试

近日，我国知名云计算服务商阿里云在其官方公众号上发布了一则重要消息，宣布其先进的人工智能大模型“通义千问”已正式开启邀请测试阶段。作为最早获得测试资格的媒体之一，南方有幸对这一具有重大意义的技术进行了深度探讨，并针对“通义千问”提出了包括“十问”在内的多项问题，以期对其功能、性能等方面有更深入的了解。

从对“通义千问”的相关回应中我们可以看出，其已经拥有了与用户互动的能力，所提供的答案也具有较高的参考价值，尤其是在对行业话题如“阿里巴巴集团分拆”的讨论中，能够做到客观公正的分析。然而，在对一些需要结合热点事件背景来回答的问题，例如“员工因加班怒怼领导”的事件，我们的“通义千问”表现得相对模糊，无法深入热点事件进行具体反馈。另外，以“抖音与腾讯视频达成合作”为主题的新闻报道为例，其回答并未紧密围绕这一主题，基本还停留在过去内容整合的阶段，没有充分反映出当前的新闻事实。

阿里云通义千问模型邀测：对话理解能力初现，但仍有待提升

作为一款源自达摩院的大型语言模型，通义千问在诸多方面表现出卓越的优势。首先，在训练数据方面，通义千问拥有庞大的数据集，这使得它在理解和生成语言时具有更高的准确性和广泛性。其次，通义千问具备出色的对话理解能力，能够深入理解用户的需求，并作出相应的回应。此外，通义千问还具备强大的代码写作能力，可以帮助用户轻松编写复杂的程序代码。最后，通义千问支持多种语言，能够满足不同用户的需求，为全球用户提供便捷的服务。

在评估“通义千问”当前表现时，我们需要对其能力进行评分。根据其性能，我们可以给予不同的分数，以反映其优劣。首先，对于那些分数低于60分的部分，我们无法给予及格的评价，因为这意味着它在某些方面没有达到基本的标准。然而，我们也无法简单地对这些表现进行批评，因为可能存在一些外部因素影响了它的表现。接下来，对于那些获得60至70分的部分，我们可以认为它已经展示出了相对较好的能力。虽然在某些方面可能仍有提升的空间，但总体上已经达到了一个可以接受的水平。然后，对于那些获得70至80分的部分，我们可以认为它已经展现出了非常出色的能力。不仅在某些方面的表现非常突出，而且整体上表现得相对稳定。这样的表现说明它已经具备了很高的水平，可以在未来的工作中发挥出更大的价值。接着，对于那些获得80至90分的部分，我们可以认为它是卓越的。在各方面都表现得非常出色，几乎没有任何可以改进的地方。这样的表现说明它在目前的领域中已经达到了顶尖的水平，是值得称赞的。最后，对于那些获得90至100分的部分，我们可以认为它是杰出的。在所有方面都表现得非常优秀，远远超过了大多数竞争对手。这样的表现说明它不仅具备了非常高的技能水平，而且还具有很高的潜力，可以在未来的发展中取得更大的成就。综上所述，我们对“通义千问”的能力的评分如下：60分以下（不及格），70-80分，80-90分，90-100分。

【记者】叶丹

【实习生】顾超冉

重播

播放

00:00
/
00:00
直播

00:00

进入全屏

点击按住可拖动视频

【作者】叶丹

【来源】南方报业传媒集团南方+客户端