GPT-4、文心一言、通义千问白盒测评汇集-（全球AGI-AIGC-GPT测评实验室报告系列报告）

通义千问2yrs ago (2024)update lida

157 0 0

段玉聪（Yucong Duan）

TIF-DIKWP-AGI问题解决联合实验室

AGI-AIGC-GPT评测DIKWP（全球）实验室

DIKWP research group, 海南大学

duanyucong@hotmail.com

AGI/GPT白盒测评系列发布汇集全球

—-AGI-AIGC-GPT测评实验室报告系列报告

测评系列之一：

The Wisdom of Artificial General Intelligence: Experiments with GPT-4 for DIKWP

April 2023

DOI: 10.13140/RG.2.2.26360.93449

Yingbo LiYucong DuanYucong Duan

https://www.researchgate.net/publication/369921194_The_Wisdom_of_Artificial_General_Intelligence_Experiments_with_GPT-4_for_DIKWP

通用人工智能的智慧：DIKWP的GPT-4实验

The Wisdom of Artificial General Intelligence:

Experiments with GPT-4 for DIKWP

Yingbo Li Yucong Duan*

xslwen@outlook.comduanyucong@hotmail.com

Hainan University

摘要：大型语言模型（LLMs），比如GPT家族的成功应用，已经产生广泛的工业与社会影响。在空前的训练数据与计算资源的支持下，GPT-4已经拥有对于多模态数据的输入理解与输出能力。GPT-4将通用人工智能的应用与影响推向了全新的高度。GPT-4在数学、推理、视觉等领域已经展示出接近人类的理解与解决问题的能力。本文中我们将通过GPT-4的实验探讨其在在DIKWP(Data, Information, Knowledge, Wisdom, and Purpose)领域的可能应用、影响与局限。

测评系列之二：

Evaluation on AGI/GPT based on the DIKWP for ERNIE Bot

April 2023

DOI: 10.13140/RG.2.2.28038.65608

Chengxiang RenYingbo LiYucong DuanYucong Duan

https://www.researchgate.net/publication/369901182_Evaluation_on_AGIGPT_based_on_the_DIKWP_for_ERNIE_Bot

Evaluation on AGI/GPT based on the DIKWP for ERNIE Bot

基于DIKWP的AGI/GPT（文心一言）测评

Chengxiang Ren1, Yingbo Li2, Yucong Duan3*

d202220044@xs.ustb.edu.cn1, xslwen@outlook.com2, duanyucong@hotmail.com3

University of Science and Technolog Beijing1

Hainan University2,3

摘要：当前，通用人工智能（AGI）和生成式预训练Transformer（GPT）等技术的发展引起了广泛关注。然而，目前的AGI/GPT评价测试方法大多限于主观认知经验，仍然缺乏一个客观有效和统一的评价体系和评测标准。针对现有AGI/GPT评价测试技术和方法在描述智能上的功能完整性和能力体系性的客观性不足，本研究提出了一种基于DIKWP的更加完整的评价测试体系。本文所提框架解决了当前GPT和AGI测试评价体系零碎、发散和过于重视主观经验的问题，为后续对AGI和GPT技术的能力评价提供了一个相对完整和体系化的测试框架。我们针对百度公司的大模型GPT 产品“文心一言”进行了对标GPT-4的对等评测。

测评系列之三：

Evaluation on AGI/GPT based on the DIKWP for QianWen AGI/GPT (Tongyi Thousand Questions) Evaluation Based on DIKWP

April 2023

DOI: 10.13140/RG.2.2.16294.60486

https://www.researchgate.net/publication/369921112_Evaluation_on_AGIGPT_based_on_the_DIKWP_for_QianWen_AGIGPT_Tongyi_Thousand_Questions_Evaluation_Based_on_DIKWP

Evaluation on AGI/GPT based on the DIKWP for QianWen

基于DIKWP的AGI/GPT（通义千问）测评

Yingtian Mei, Yingbo Li, Yucong Duan*

myingtian@126.com, xslwen@outlook.com,duanyucong@hotmail.com

Hainan University

摘要：当前对通用人工智能（AGI）和生成式预训练Transformer（GPT）等AGI/GPT大语言模型（LLM）的评价测试大多限于测试者对AI智能理解的主观认知经验，并落实为对应的测试实例。这些测试在整体上对AGI/GPT的智能能力的反映往往是零散的和不系统的，因而是黑盒测试模式。本文基于将AI的存在性基础映射为DIKWP概念的基本元素，进而将AGI/GPT的智能行为和性能映射到基于DIKWP画像代表的模态转换与状态变化上，进而将对AGI/GPT的功能和性能评价对应到DIKWP状态空间中。通过将测试者认知的不确定性空间建模与DIKWP状态的变化空间的关联，形成对先前主观评价的客观外化与确定性分析。在这一方法下，延续我们用同样的测试集对GPT-4和百度“文心一言”大模型的评测，我们针对阿里巴巴的大模型GPT 产品“通义千问”进行了对标单独评测。

测评系列之四：

The Performance Comparison of Artificial General Intelligence models on DIKWP

April 2023

DOI: 10.13140/RG.2.2.23005.49120

Yingbo Li,Yucong Duan

https://www.researchgate.net/publication/369921113_The_Performance_Comparison_of_Artificial_General_Intelligence_models_on_DIKWP

基于DIKWP的通用人工智能测评（系列之四）

The Performance Comparison of Artificial General Intelligence models on DIKWP

Yingbo Li Yucong Duan*

xslwen@outlook.comduanyucong@hotmail.com

Hainan University

摘要：通用人工智能（AGI）和生成式预训练Transformer（GPT）等技术在近年来取得了显著进展，但如何有效地评价它们的智能水平和能力范围仍然是一个挑战。本研究旨在构建一个客观有效和统一的AGI/GPT评价测试体系，并对目前最先进的三种AGI模型GPT-4, “文心一言”和“通义千问”的表现进行横向比较。本研究基于数据、信息、知识、智慧和智能（DIKWP）模型，设计了一套评价测试指标体系，并通过实验数据和专家评分对三种AGI模型进行量化和定性分析。本研究为AGI/GPT评价测试提供了一个新的视角和方法，并为未来AGI/GPT模型的改进和发展提供了有益参考。