光面钢绞线_天津瑞通预应力钢绞线

临沂预应力钢绞线 Rebuttal是带着枷锁的跳舞? 港科 RebuttalAgent 心智表面懂审稿东谈主

2026-02-12 02:00:53

面对同业评审，好多作家都有过这么的阅历：明明回答了审稿东谈主的每个问题，派头也富饶辞谢，为什么终依然没能动对？

现存的通用大模子在处理这类任务时，时常堕入种 “名义规则” 的罗网：它们擅永生成畅达、委婉的 “Thank you for your insightful comment”，却穷乏对审稿东谈主音在弦外的度知悉，致复兴天然客气，但穷乏直击痛点的劝服力。

究竟什么样的复兴策略，才能在有限的篇幅内，有放置歪曲、得回共鸣？

针对这问题，来自香港科技大学的琢磨团队提议了种全新的框架 ——RebuttalAgent。该琢磨次将瓦解科学中的心智表面（Theory of Mind, ToM）引入学术 Rebuttal 任务，让 AI 简略像资学者样 “读懂” 审稿东谈主，从而生成兼具计谋与劝服力的复兴。

现在，该论文已被 ICLR 2026 接纳。

论文标题：Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind

代码聚积：https://github.com/Zhitao-He/RebuttalAgent

Rebuttal 需要如何的博弈明智？

在学术界的博弈论视角下，Rebuttal 是个典型的 “不信息动态博弈”（Dynamic Game of Incomplete Information）。作家不仅要面对审稿东谈主显的质疑，还要疏忽隐的信息不合称，你不知谈审稿东谈主的学问布景、潜在偏见，也不知谈你的解释会激发如何的四百四病。

现存的基于监督微调的模子，大多停步于对东谈主类复兴的‘谈话学拟态’。它们复刻了规则的‘外壳’，却未能触及审稿东谈主意图的‘内核’，即穷乏对审稿东谈主的度建模。针对这痛点，琢磨者提议了 RebuttalAgent，其中枢知悉：有的劝服机制，须竖立在对他东谈主的‘心智表面’建模之上。

手机号码：13302071130

图：RebuttalAgent 框架总览图，展示 Data Preparation, TSR Framework 和 Agent Training 三个阶段

TSR 框架 —— 先 “读心” 再 “落笔”，

重构 AI 的念念考链路

RebuttalAgent 并莫得径直端到端地生成复兴，而是模拟了东谈主类的念念维经过，通过 ToM-Strategy-Response (TSR) 框架来拆解这复杂任务：

1. ToM（心智表面建模）：不单是是读文本 AI 先充任名 “分析师”临沂预应力钢绞线，对审稿意见进行分层剖析。

宏不雅层面（Macro-level）：判断审稿东谈主的全体态度（袭取 / 拒）、派头（修复 / 消）以及域业度。

微不雅层面（Micro-level）：拆解每条驳斥背后的中枢关怀（是法论颓势？依然单纯的抒发不清？）。这种建模让 AI 不再盲目复兴，而是先构建出审稿东谈主的 “热诚画像”。

2. Strategy（谋定尔后动）：基于上述画像，AI 会生成个明确的计谋筹划。举例，面对个 “业度但派头怀疑” 的审稿东谈主，策略可能是 “先承认局限以竖立信任，再用补充实践数据进行反击”；而面对 “歪曲型” 驳斥，策略则是 “涌现成见，重述中枢孝敬”。

3. Response（击）：后，AI 结原始论文片断、计谋筹划和审稿东谈主画像，生成终的复兴。

表：评估的致：Rebuttal-RM 在对皆东谈主类偏好上越 GPT-4.1

需外部师，

“自我博弈” 中习得劝服的艺术

为了教练这么个简略 “寥落划策” 的 Agent，钢绞线琢磨团队濒临的大挑战是数据的稀缺与主不雅。为此，他们构建了 RebuttalBench，包含过 7 万条质料的 “分析 - 策略 - 复兴” 链条数据。

卓著，琢磨者引入了 Self-Reward 机制的强化学习策略。与传统的依赖外部励模子不同，RebuttalAgent 专揽自身生成的评价信号进行迭代：

圭臬与逻辑励：确保 AI 简直在进行念念考和布局，而不是体式宗旨。

种种励：这是个要道想象。为了止 AI 偷懒生成 “万金油” 式的套话（如反复使用 "We thank the reviewer..." 模板），琢磨者想象了种种处置，迫使模子探索种种、像东谈主类的抒发式。

从 “辞藻堆砌” 到 “攻心为上”：

当 AI 学会了换位念念考

为了量化评估果，琢磨团队开荒了 Rebuttal-RM，这是个门针对学术反驳场景教练的励模子。在与东谈主类评分的致测试中，Rebuttal-RM 的发扬越了 GPT-4.1。

在这评估体系下，RebuttalAgent 展现出了权贵势：

在综得分上，RebuttalAgent 达到了 9.42，权贵于 GPT-4.1 和 O3 。

在劝服力（Persuasiveness）这中枢诡计上，培植尤为较着，标明引入 “心智表面” 如实增强了模子在不雅点交锋中的有。

表二：RebuttalAgent 与其他强基线的能对比

“即插即用” 的念念维外挂：

让小模子也能像样念念考

RebuttalAgent 生成的 “分析（Analysis）” 和 “策略（Strategy）” 是否具有普适？琢磨者想象了个玄机的实践：将 RebuttalAgent 生成的策略当作高下文（Context），喂给参数目较小的基础模子（如 Qwen3-8B 和 Llama-3.1-8B），不雅察它们的发扬变化 (Average Score)。

实践发现，这是个通用的 “念念维外挂”。仅需引入 RebuttalAgent 的策略指，Qwen3-8B 在 “抒发了了度” 上的得分就暴涨了 21.0 ，这有劲地讲明了 TSR 框架的可迁徙。

作念科研路上的 “理驾驶”，

而非 “幽魂写手”

RebuttalAgent 的提议，展示了 LLM 在处理阶瓦解任务，止境是触及复杂东谈主际博弈和计谋调换场景的遍及后劲。但 Agent 法替你完成实践，也不会臆造捏造数据，模子在教练之初就刻意剥离了触及实践效果生成的提示，杜了 “幻觉作秀” 的可能。

破 “生手墙”：关于好多刚踏入学术圈的生手而言，面对尖锐以至锐的审稿意见，时常容易堕入焦虑或产生御心态。RebuttalAgent 的价值恰是在于提供计谋的建议与实用的妙技，匡助作家克服情谊阻碍，理清逻辑端倪，组织多礼的谈话。

促进学术交流：论文的中枢价值在于 “培植学术对话的了了度与修复”。它骁敢于放置因抒发不当或调换策略缺失而酿成的歪曲，让审稿东谈主与作家的对话归来谈理自身，而非堕入情谊挣扎或单纯的谈话妙技博弈。

RebuttalAgent 本体上是对大谈话模子在严重信息不合称要求下计谋劝服才调的次探索琢磨。终的科学判断与牵扯，长期掌抓在东谈主类作家手中。

作家先容：

何致涛，香港科技大学筹划机系博士生临沂预应力钢绞线，师 Yi R. (May) Fung。曾在科学院自动化琢磨所、清华大学 AIR、蚂蚁集团从事琢磨，并在 ACL、NeurIPS、COLM、ICLR 等机器学习与天然谈话处理顶会议上发表多篇论文。

相关词条:罐体保温施工异型材设备锚索玻璃棉保温护角专用胶

临沂预应力钢绞线 Rebuttal是带着枷锁的跳舞? 港科 RebuttalAgent 心智表面懂审稿东谈主

热点资讯

推荐资讯