“笑话之王”模型靠讲笑话登上CVPR | 中山大学
聚焦前沿技术 提交至中山大学HCP实验室
量子比特 | 官方账号
谁能想到,仅仅让大模型讲笑话,论文就入选了顶级会议CVPR!
开玩笑地说,这实际上是一项严肃的研究。
比如,看下面的图片,如果让你讲一个笑话或者一个梗,你会想到什么?
看完当前的大模型,你会说:
我的大脑短路了。
再看一下蜘蛛侠的海报,大模型上会配上这样一句话“刚擦干净的玻璃是不能脏的”。
李云龙和奥本海默也一起出场:
我的导师读了我的论文后……
真正的男人不会回头看爆炸。
还有一些是这样的:
不得不说,大模型还是挺有想象力的。
该项研究来自中山大学HCP实验室、哈佛大学Sea AI实验室等机构的林静教授团队,其主要关注点在于打破常规思维(Think the Box),探索大型多模态模型的创造力。
要知道,如果把同一张图片“喂”给(GPT-4)等主流大模型,并要求它讲笑话或者说梗,图片的画风可不会是这样的:
这么严重!
那么中山大学等机构是如何打造出这一“表情包之王模型”的呢?
让大模型先看到有趣的数据
在数据选取方面,团队选取了来自日本的“大希里”创新应答游戏。
“”原本是指一系列日本传统的戏剧游戏,随着时代的快速发展,现代的“”一般是指一种叫做()的游戏,通常以游戏节目或智力竞赛节目的形式呈现。
向玩家呈现各种多模式内容,可以是简单的问题、随机的图像等,然后提示玩家想出幽默和有创意的回答,以达到令人惊讶的喜剧效果。
例如以下“图像转文本”示例:
要求选手阅读上方的图片和对应的文字,并试着想出一段文字填入对应的问号“?”的位置,使整个图文并茂,呈现出幽默诙谐、富有创意的效果。
第一个例子是老人向年轻人求助,从正常角度来说,可能填写答案的方式可能是“请问,xxx路怎么走?”或者“你能送我回家吗?我迷路了。”
不过,“你……能帮我把手铐打开吗?”这个问题的写法很有冲击力,很幽默,而且好像是真的,让人忍俊不禁。
我们来看“图片转文字”的例子:
玩家需要将图片和文字搭配在一起,营造出幽默的效果。
这张图片看上去就像是一张很普通的预告片的画面(需要注意的是,在《大西里》游戏中,绝大多数画面都是很普通的日常画面)。
文字“让开!我弟弟受了重伤”,让这辆向上倾斜45度的车看起来像是一辆奄奄一息的汽车;路面上飞快的速度也显示出下面的车很着急,急于送弟弟去医院。
还有“文本到文本”的第三个例子:
玩家需要根据给出的文字进行回答,使得回答和问题结合起来变得幽默风趣。
这个例子中的回复似乎在讽刺程序员的日常工作主要由“复制粘贴”代码组成(注:CV 不仅可以表示 还可以表示 ctrl+c/ctrl+v )。
本作品主要针对这三类“大戏里”游戏进行研究,相关数据-GO如下表所示,包括中文、英文和日文:
至于为什么选择《大西里》这款游戏,团队认为,这是一个探索多模态大模型创新能力的理想平台。具体原因如下:
“大切”游戏是一项自然创新的反应任务。如前所述,现代“大切”又被称为(頓智)。“頓”在日语和中文中都是“突然”的意思,“智”是“智慧、洞察力或直觉”的意思。游戏自然要求选手给出引人注目、精彩绝伦的创新反应;
“大西里”的数据格式非常适合,无论是“图转文”、“图转文”还是“文转文”,这些类型都天然匹配当下多模型大模型的输入输出格式,即输入是“图和文”,输出只有“文”。
《大西里》的数据质量很高。创新是一件很难的事情,即使对于人类来说也是如此,因此与“创新”相关的数据集并不多。鉴于该游戏在网络上长期非常活跃(在中文社区一般称之为日文神吐槽/冷吐槽),并且拥有大量的评论数据,例如点赞数等,恰好积累了大量可用于研究的高质量人类创新幽默回应。
让大模型打破常规思维
传统的思维链(CoT)方法是一种顺序思维过程,它引导大模型通过逐步推理进行逻辑推理,每个后续思维都建立在前一个思维的基础上:
这种思维过程保证了一定的精确性和严谨性,但是对于创造性问题表现不佳。
因此,团队探索了一种新的非连续的创造性思维范式——思维飞跃(LoT)。
这种思维模式涉及对联系和知识跳跃的思考。远距离思考也称为联想思维。
与CoT强调逻辑严密的思维链不同,LoT强调在常规思维之外思考问题,激发模型的创造力。
在此基础上,团队进一步提出了一套训练方法CLoT,以激发基于-GO数据集的多模态大模型的创造力。
具体来说,CLoT 由两个阶段组成。
第一步是微调联想指令。
在此阶段,本文设计生成性和判别性模板,将-GO数据集转化为用于训练多模态大模型的指令微调训练数据,使模型具备初步的创新响应能力。
二是探索性自我调整。
在这个阶段,我们首先设计远相关的条件词来鼓励(1)中的模型对输入生成多样化且远相关的答案,并设计一个筛选过程来获得可靠的新 LoT 数据。随后,将新数据转换为指令微调的训练数据,用于进一步微调模型。
此阶段又可分为两个步骤:
探索性长距离联想:这一步鼓励 LLM 在弱关联的情况下产生创新反应。通过这种方式,LLM 学会在看似不相关的概念之间建立联系,从而产生多样化的创意内容。
自我精炼:基于探索性远程联想,通过设计一系列筛选流程,将收集到的创意反应用于进一步训练LLM,提升LLM在创意任务中的表现,使其能够生成更高质量、更多样化的内容。
绩效评估
为了尽可能全面地评估CLoT,本研究基于-GO数据集设计了多项选择题和排序题作为定量评估方法。
实验结果表明,CLoT 可以显著提升 Qwen 、 等大型多模态模型的性能,并大幅超越包括 GPT4v 在内的先进模型。
此外,与CoT等其他先进推理框架相比,其在各项量化指标上也具有显著优势。
此外,研究团队还通过用户调查证实,CLoT 帮助模型生成更好的幽默内容。
研究团队还考虑到了CLoT的泛化能力,并使用另外两个任务“猜云CGG”和“发散思维测试DAT”对CLoT的性能进行了评估。实验结果表明,CLoT的准确率优于基线模型,表明CLoT具有良好的泛化能力。
DAT 是一种用于评估人类联想创造能力的测试。
团队介绍
中山大学人机物融合实验室(HCP Lab)由林静教授于2010年创立,近年来在多模态内容理解、因果与认知推理、具身学习等方面取得了丰富的学术成果,多次获得国内外科技奖及最佳论文奖,致力于打造产品级人工智能技术与平台。
纸:
:
代码:
- 超过-
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权本站发表,未经许可,不得转载。