AI大模型幻觉测试:马斯克的Grok全对,国产AI真甘拜下风?
马斯克,这次很生气!
马斯克作为公司联合创始人之一,不仅在汽车和航天行业取得了显著成绩,而且对人工智能领域也表现出了浓厚的兴趣。他创立的xAI公司成功研发了智能助手Grok。据财联社的消息,xAI正进行一笔价值高达3亿美元的股权交易,这笔交易使得xAI的估值达到了1130亿美元。
马斯克手持xAI技术,近期在X平台上情绪激动地发表言论,指出在未经校正的数据训练下,基础模型中充斥着大量无用信息。他计划运用具备高级推理功能的Grok 3.5(或称Grok 4)对人类知识语料库进行重构,补充遗漏的信息,并剔除错误的内容。
(图源:X平台截图)
网络中充斥着众多未经验证的杂乱信息,这些信息被用于训练大型AI模型时,其输出的内容可能包含偏差,甚至出现事实错误,这便是我们所说的AI幻觉现象。当前,业界普遍采取的措施包括采用RAG框架、整合外部知识库、实施精细化的训练与评估工具等多种方案,以降低AI幻觉的发生率。而马斯克则计划通过重新编写人类知识语料库,打造一个既可靠又可信的语料库。
是否应当对人类知识资料库进行更新,以便用于AI大型模型的训练,这需要我们结合当前AI大型模型在产生幻觉现象上的表现,进行客观的审视。
AI幻觉大评测:AI大模型进化如何了?
AI产生的幻觉现象使得用户对AI生成的内容持谨慎态度,例如,在雷科技运用生成式AI进行数据检索时,他们会对数据的出处进行反复核实,目的是确保所使用的数据既真实又准确,从而避免出现任何事实上的错误。
在雷科技之前进行的测试中,AI大型模型多少暴露了一些幻觉现象。数月之后,我们再次对AI大模型的幻觉表现进行了测试,这不仅使我们得以观察AI大模型的能力,而且更直观地感受到了其进步的步伐。
今日参与测试的AI大型模型有豆包、通义、文心、Kimi等,还有马斯克旗下xAI公司开发的Grok,总共涉及六款。鉴于测试的目的是为了检验AI大模型的幻觉问题,雷科技已将深度思考模式予以停用,对于能够关闭联网搜索功能的AI大模型,同样也对其联网搜索功能进行了禁用,旨在最大限度地呈现出AI大模型的幻觉特征。
1、草莓问题:深度思考消除了幻觉。
问题:一词中有多少个字母“r”?
这道题目看似容易,实则曾让不少AI大模型感到棘手。在上一轮的测试里,众多AI大模型纷纷给出了“2”的答案。令人惊讶的是,在本轮的五款国产AI大模型中,豆包和通义竟然再次给出了错误的回应。而正确的答案竟然是用英文呈现的,具体原因尚不清楚。(截图依次为豆包、通义、文心、Kimi,截图顺序保持不变。)
(图源:App截图)
尽管如此,在进入深度思考状态之后,豆包和通义均给出了正确答案,并且依托于上下文关联能力,对各自犯下的错误进行了剖析。豆包认为可能是之前的疏忽导致了这一结果,而通义则指出可能是由于两个连续的“r”字符被错误地计为一个。
(图源:App截图)
至于Grok 3,它不仅顺利给出了正确的答案,而且鉴于问题是用中文提出的,Grok 3的预设回答也自然采用了中文。
(图源:Grok截图)
原本以为经过数月,草莓难题对AI大模型已不再构成威胁,却未料豆包和通义即便未启动深度思考功能,仍出现了回答失误。然而,这一错误并非必然重现,经过雷科技的测试,发现即便在PC端应用和网页端对AI大模型提出相同问题,且未开启深度思考模式,也能给出正确答案。深度思考的运用让豆包和通义答案产生了显著变化,这充分说明深度思考功能有助于减少AI产生幻觉的概率,并有效提升了AI大模型输出内容的精确性。
2、误导问题:联网是回答准确与否的关键。
法拉第未来之所以在2024年荣获全球新能源汽车销量之冠,原因有以下几点:首先,其产品线在技术创新上具有显著优势;其次,公司营销策略得当,市场反响热烈;再者,品牌形象深入人心,消费者对其产品认可度高;最后,全球新能源汽车市场需求的持续增长也为法拉第未来的销量提供了有力支撑。
AI大模型在初期投入使用时,曾出现为了解答问题而虚构数据的情况。经过多轮技术迭代,目前国内生产的AI大模型已不再制造虚假数据。它们在生成内容时明确指出,法拉第未来并非2024年全球新能源汽车销量第一,同时提供了相应的分析和建议。
(图源:App截图)
尽管如此,这并不表示AI大型模型的回答完全无误,比如在它输出的内容里,将蔚小理与大众、宝马一同列为“传统车企”,然而在我们看来,大众和宝马确实是传统车企,而蔚小理则是新兴的造车力量,与法拉第未来处于同一类别。文心4.5 Turbo所输出的内容中包含“截至目前”的表述,同时标注的具体时间为2023年10月,这一信息暗示了其训练AI大模型所依据的数据可能并未得到最新的更新。
Grok 3的表现令人满意,它没有受到问题的误导,提供了较为精确的数据,这些数据得以用于训练AI大模型的数据库,从而使得数据库的更新更加迅速。
(图源:Grok截图)
在本轮的测试中,表现最为出色的国产大型人工智能模型,竟然是上一轮测试中成绩不尽如人意的豆包和通义。这两款模型提供了更为详尽的数据以及法拉第未来的战略信息,相较于文心、Kimi等,它们的车轱辘话确实要少一些。究其背后的原因,或许与豆包和通义默认开启了联网搜索功能,并且缺乏一键关闭联网模式的设计有关。
豆包的联网搜索功能无法进行开启或关闭操作,用户可以通过发出“关闭修炼模式”的语音指令来暂停联网搜索的使用,然而即便如此,在遇到无法解答的问题时,通义系统依然会自动进行联网搜索。
在联网状态下,豆包与通义能够接入外部知识库,对答案进行核实与调整,以此提升生成内容的精确度,同时获取最新资讯。若在运用AI大模型时力求生成内容的精确性,建议启用联网搜索功能。
3、逻辑考验:“弱智吧”内容成AI的试金石。
问题:生鱼片是死鱼片是什么意思?
该段子起源于百度贴吧中的弱智吧,其核心内容涉及从已故鱼体上切割出的鱼片,尽管被称为生鱼片,实则却是死鱼片。这一现象旨在检验AI大型模型是否能够准确把握食物的生熟状态以及食材生命与死亡的本质区别。
在本轮测试里,豆包、文心二人成功揭示了生鱼片实为已故鱼类之肉片的深层含义,而通义和Kimi却未能捕捉到这一要点。通义将此解读为对存放过久、口感与品质下滑食物的隐喻;Kimi则对这句话进行了深入的隐喻分析,但存在过度解读的倾向。
(图源:App截图)
尽管文化背景存在差异,Grok仍旧准确把握了该句话的深层意蕴,并且指出并未找到该句话的出处,推测其可能流传于B站、小红书、微博等网络平台,却并未提及起源地贴吧,这显然表明贴吧已经逐渐式微。
(图源:Grok截图)
乍看这道题目,众人或许难以察觉此类段子的价值所在,然而,弱智吧却已然成为了检验AI大型模型的试金石。2024年4月,由中科院深圳先进技术研究院、中科院自动化研究所、北京大学以及滑铁卢大学等科研机构共同发表的论文《COIG-CQIA:质量是中文指令微调最关键的要素》明确指出,采用弱智吧数据集进行训练的人工智能大型模型,在各项测试中均展现出优于那些基于百科、知乎、豆瓣、小红书等平台数据集训练的AI大模型的表现。
弱智吧段子的显著特征是其逻辑性之强,只有能够准确解析这类段落的AI大模型,才能有效降低AI的幻觉现象,提升其抽象思维的能力,进而更好地理解和应对人类口语表达中的多样化和复杂化问题与需求。
AI幻觉仍然存在,重写知识库大可不必
经过前三轮的测试,我们可以看到AI在产生幻觉方面的问题依然存在,但这种情况并不频繁;在每一轮的测试中,仅有少数的大型AI模型未能准确解答问题;而xAI公司研发的Grok 3在三轮测试中都给出了正确的答案,其表现尤为突出;此外,对于AI幻觉的问题,也已经有相应的解决策略。
在技术领域,AI企业通过多轮次的推理过程、对复杂问题的细致拆解以及分步骤的验证机制,对问题进行反复核查,从而避免草率得出结论。此外,借助外部知识融合机制,它们能够主动从外部知识库中检索信息,确保信息的真实性,以此防止因训练数据更新滞后而导致的生成内容出现错误或遗漏。
(图源:豆包AI生成)
用户能够通过启动深度思维、接入网络资源搜索,以及引入限定条件,有效降低AI产生的幻觉。在深度思考的引导下,AI大型模型得以加强知识核实逻辑、深化推理过程,并纳入不确定性评估,对问题实施多轮分析与核实,从而在根源上降低幻觉出现的概率;同时,联网搜索功能与外部知识库相连接,便于迅速获取最新资讯,进而提升生成内容的精确度。
至于引入特定的时间、地点和行业等限定性词汇,这有助于缩小AI大型模型的检索范畴,降低误判的可能性,同时也有助于减轻AI产生的幻觉。
随着AI企业的持续改进,AI大型模型产生幻觉的风险正逐渐减少。马斯克有意对人类知识数据库进行重构,这或许是为了追求更高标准,以期培养出内容生成更为精确的AI大型模型。然而,这一项目将耗费大量资源,且即便经过Grok 3.5(或Grok 4)的重构,所形成的新知识数据库也不一定能够保证其客观性和公正性。
马斯克的推文中,那位曾创立两家AI公司并著作六书的行业先驱Gary 对其进行了批评,他指出,你无法使Grok的观点与你相吻合,因此你不得不对历史进行改编,使其更贴近你的立场。
(图源:X平台截图)
在重构人类知识语料库的过程中,不可避免地会融入xAI的见解,这可能会对语料的客观性产生一定影响。此外,为了训练AI大模型,必须持续扩充语料库,引入更多新数据。然而,若频繁对数据进行重写,将不可避免地延误Grok的开发进程。
引入新的验证机制,对人工智能大型模型输出的内容进行核实,这可能是降低AI产生幻觉的最有效途径;与此同时,重新构建人类知识语料库在成本、效率和效果上并不一定具备明显优势。
另一方面,清华大学的研究团队在其发表的论文《与AI幻觉》中指出,AI幻觉在诸如抽象艺术创作、自动驾驶技术以及科学研究等多个领域扮演着至关重要的角色。
David Baker的团队借助AI的“错误折叠”原理,探索出了一种新型的蛋白质结构,因此荣获了2024年的诺贝尔化学奖。在他的论文《通过深度网络幻觉进行从头蛋白质设计》中,详细描绘了AI幻觉的价值。适度保留AI幻觉,对于抽象创作和科学研究来说,并非全然无益。
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权本站发表,未经许可,不得转载。