文章主题:信息爆炸, 人工智能, ChatGPT, 信息风险
在这个信息爆炸的时代,我们被海量的各种形式的信息所包围,无论是官方媒体还是自媒体,都以文本、图片、视频等形式涌现,令人目不暇接。然而,现代人在面对如此丰富的信息时,面临的问题并非无法获取信息,而在于如何辨别和筛选出有价值的信息。然而,你是否知道,人工智能助手如ChatGPT的出现,将会进一步加剧信息爆炸的趋势。据2021年的《华尔街日报》报道,已有采用类似于ChatGPT的自然语言处理技术的公司,利用其生成假新闻和虚假内容的能力,以误导读者。随着ChatGPT技术的普及,我们在信息安全方面可能会面临新的风险,例如信息的偏差和数据泄露等问题。
人们使用ChatGPT
信息偏差的诱导
在利用ChatGPT进行答案生成、引导答案以及使用答案的过程中,数据质量与准确性可能会受到信息偏差和误导性信息的影响。因此,一旦有人恶意利用ChatGPT,就可能产生传播误导性信息、散布谣言和煽动仇恨等负面效果,进而干扰广大公众的判断力和决策。如图6.4展示的那样。
误导内容
对于新兴事物ChatGPT,我们需要保持理性的评价态度。尽管它具有很高的智能水平,生成回答流畅自然,但也不能忽视其存在的问题。例如,它的回答可能存在答非所问的情况,仔细观察会发现答案与问题并不完全匹配。相较于人类写作,ChatGPT仅仅是在模仿人类的写作风格,而无法产生高质量的内容。因此,像知名程序技术问答网站StackOverflow在2022年12月 temporarily banned the use of ChatGPT,原因是网站的版主发现,“网友们”的回帖格式标准、逻辑合理,但实际上却是由系统生成的看似正确的答案。如果这类答案在网站上大量出现,对于StackOverflow来说,这将是一场巨大的挑战。
政治争议
科技的飞速发展使得AI技术逐渐渗透到政治、经济等多个领域,这种深度融入无疑带来了新的挑战,其中就包括ChatGPT这一技术所潜藏的政治和安全风险。在西方国家,一些不法分子可能会利用ChatGPT制造虚假的政治言论或者选民意愿调查,进而左右政治选举和政策制定的方向。尤其是在处理敏感政治话题时,ChatGPT在大数据中难以完全排除情感因素和偏见,这可能会使其给出的答案失去客观公正性,甚至产生误导性。那么这些 potentially被操控的内容,又是否会受到某些政治势力或利益团体的利用,从而引发政治纷争和矛盾呢?这是我们必须警惕并积极应对的问题。
在2023年的1月9日,新西兰技能与技术学院的教授戴维·罗扎多(David Rozado)对ChatGPT进行了15次政治倾向测试。结果表明,在这15项测试中,ChatGPT有14项表现出了明显的政治偏见。这一发现引起了广泛的关注,因为ChatGPT是一个被广泛使用的AI模型,其输出结果可能会影响到人们对于各种问题的认知和理解。为了减少ChatGPT出现的信息偏差,戴维教授提出了一些建议。首先,他呼吁开发者和用户在使用ChatGPT时,要对其输出结果保持谨慎,避免完全依赖其结果。其次,他建议对ChatGPT进行更多的质量控制,以确保其输出的准确性和平衡性。此外,他还提倡对ChatGPT的开发和使用进行更加严格的监管,以防止其被用于不道德或非法的用途。总的来说,ChatGPT的政治偏见问题是一个需要严肃对待的问题。作为AI领域的一员,我们有责任确保AI技术的健康发展和合理应用,以造福人类社会。
(1)面向公众的AI系统不应该表现出明显的政治偏见,否则会加剧社会两极分化。
(2)AI系统应该对大多数描述性问题保持中立。
(3)AI系统寻求的信息来源应可靠、平衡和多样化。对有争议的问题,AI应当保持开放的态度。
(4)社会应该思考AI系统在人类群体之间的歧视是否合理。
(5)应该提高AI系统内部工作的透明性,对具有偏见的、欺骗性的内容可以溯源。
种族主义
ChatGPT虽然一直强调其训练过程尽力保持中立和客观,但它的回答仍然受到人类编写的文本和所收集的数据的影响。这些数据中可能包含性别歧视、种族歧视等信息,如果广泛应用并得到人们的信任,将会加剧偏见,引发更多社会问题。
近期,英国媒体Insider(知情人)报道称,ChatGPT的回复有时充满了种族主义和歧视性偏见。如图6.5所示,提问者要求ChatGPT基于个人种族和性别的JSON描述编写一个Python函数,判断人们是否能成为优秀的科学家。然而,其生成的结果认为只有白人男性才满足这一标准。这种偏见的产生源于数据集,因为在我们所知道的历史中,大多数著名科学家都是男性,直到几十年前,大多数著名科学家也都是白人。在过去的几个世纪里,欧洲和北美洲的国家运用各种手段为白人科学家提供了更多的机会和资源,使其在科学研究和技术创新方面取得了显著的优势地位。ChatGPT数据源来自互联网,而历史上白人在科学、技术、知识上取得了杰出的成果,从而导致这样的结果。
数据泄露的危险
ChatGPT这种大语言模型需要海量的数据作为训练支撑,模型训练的数据越多,生成答案的效果就越好、越合理。实际上,OpenAI已经为ChatGPT提供了约3000亿个参数(源于互联网上抓取的书籍、文章、网站和帖子等),其中也包括未经作者授权的内容。这也就意味着,如果你曾经写过博客或产品评论等文章,那么这些信息很有可能被ChatGPT抓取。除了早期学习内容,ChatGPT还在使用用户输入数据进行训练,当用户训练它成为更利于自己工作的工具时,ChatGPT也在从用户输入的内容中学习用户的习惯、数据、生活工作等。虽然ChatGPT表示它不会直接存储用户输入或对话记录,在每次对话结束后会丢弃对话数据以保护用户隐私,但ChatGPT仍然存在数据泄露的危险,具体如下。
(1)服务器被攻击
这是导致ChatGPT数据泄露的主要原因之一。如果ChatGPT运行在被黑客攻击的服务器上,攻击者将窃取聊天记录或其他隐私数据,这可能是因为他们拥有合法的访问凭证,利用了漏洞,从而导致数据泄露。
(2)开发者或管理员的失误
ChatGPT的开发者或管理员在操作时可能会犯错,比如错误地将数据文件或数据库权限设置为公开访问,从而导致数据泄露。
(3)用户输入的隐私信息
ChatGPT不会存储用户输入的内容或对话记录,但是如果用户在聊天过程中提供了隐私信息,比如密码、账户、聊天记录、IP地址等,那么这些信息将被记录并存储在服务器上。如果这些数据被窃取或泄露,就将导致个人隐私泄露和商业机密泄露等问题。
特别是在涉及大规模数据的场景下,信息泄露造成的影响更为严重。据美国网络安全新闻网Dark Reading报道,黑客正在借ChatGPT窃取大型公司数据,微软、贝宝、谷歌和网飞等著名跨国企业已经成为其目标。例如,亚马逊的一名员工曾匿名表示,他看到ChatGPT生成的文本“非常”类似公司内部数据,而同时,亚马逊的员工和整个行业的其他技术工作者已经开始使用ChatGPT辅助编程工具。除亚马逊外,诸如摩根大通和威瑞森通信等公司同样担心ChatGPT存在数据泄露的风险,它们认为员工在ChatGPT中输入客户信息或源代码的所有权,这个情况十分令人担忧。
随着ChatGPT越来越多地应用于社交媒体、电子邮件和其他领域,它的滥用问题也日益凸显。滥用者使用ChatGPT生成伪造信息和网站,欺骗人们提供隐私信息,如登录凭证、个人身份信息和信用卡信息等,导致个人隐私泄露,甚至给用户的人身和财产带来危害。
无独有偶,美国网络安全公司Vade于2023年2月9日发布了一项令人担忧的报告——《2022年第四季度网络钓鱼和恶意软件报告》(Q4 2022 global phishing test reports),图6.6展示了ChatGPT面市前后网络钓鱼邮件数量变化的情况。我们可以看到,在OpenAI推出ChatGPT后,钓鱼邮件大幅增加,总数超过1.69亿封,环比增长260%。
欧洲数据保护委员会(EDPB)专家支持库成员亚历山大·汉夫(Alexander Hanff)曾警告说:“如果OpenAI通过互联网搜索获得训练数据,那就是非法的。”随着ChatGPT在社会中的日益普及,保护用户信息的安全尤为重要,这就需要技术和法律的双重保护。
• 技术方面,OpenAI可以开发更加先进的算法和模型,以便ChatGPT能够更准确地检测和过滤不良信息,从而减少滥用。此外,OpenAI还可以与社交媒体和其他平台合作,加强对用户信息的保护,建立更加安全的网络环境。为了降低数据泄露的风险,至关重要的是谨慎选择训练数据集,使用正则化和交叉验证等技术来降低过度拟合,或是采用差分隐私和模型提取等技术来保护模型免受攻击。此外,要使用广泛的测试数据进行彻底的评估,并对训练数据和模型中的任何已知偏差保持透明。
• 法律方面,各国政府需要制定更加严格的法律法规,以打击和禁止滥用ChatGPT的行为,确保公众利益不受侵害。同时,监管机构需要加强对ChatGPT的监管,确保其合法使用。最重要的是,人们需要意识到ChatGPT的潜在风险,谨慎使用,以保护自己的信息安全。
本文摘自《ChatGPT——智能对话开创新时代》,澎湃新闻经出版方授权刊载,原章节题目为《信息安全风险》,现标题为编者所拟。
《ChatGPT——智能对话开创新时代》,成生辉/著,中信出版集团,2023年4月版
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!