导读一个叫 Heretic 的开源工具在 GitHub 上炸了——10.9k stars,声称能在 45 分钟内"永久移除"大语言模型的安全审查机制。不需要昂贵的后训练,不需要懂 transformer 内部结构,只要一张 RTX 3090 显卡。它基于一篇 arXiv 论文的发现:模型的拒答行为,竟然可以被一个"单一方向"解释。擦掉这个方向,模型就不再说"抱歉,我不能回答这个问题"。拒答数从 97/100 降到 3/100。但代价是什么?

一个工具,一个承诺

9 月 21 日,一个名为 `p-e-w/heretic` 的 GitHub 仓库悄然上线。

项目描述只有一句话,但足够炸裂:

"Heretic is a tool that removes censorship (aka 'safety alignment') from transformer-based language models without expensive post-training."

「Heretic 是一个在不进行昂贵后训练的情况下,移除 transformer 语言模型审查/安全对齐的工具。」

不需要后训练。不需要几百万美元的算力。不需要懂模型内部怎么工作。

README 里给出了一个更具体的承诺:

"On an RTX 3090, with the default configuration, decensoring Llama-3.1-8B-Instruct takes about 45 minutes."

「在 RTX 3090、默认配置下,给 Llama-3.1-8B-Instruct 去审查大约 45 分钟。」

45 分钟。一张消费级显卡。就能让一个经过精心"安全对齐"的模型,彻底失去说"不"的能力。

拒答,原来只是一个"方向"

这听起来像魔法。但背后有论文支撑。

2024 年 6 月,一篇发表在 arXiv 上的论文提出了一个惊人的发现:

"we show that refusal is mediated by a one-dimensional subspace…"

「我们展示:拒答行为由一个一维子空间(单一方向)介导……」

论文标题叫《Refusal in Language Models Is Mediated by a Single Direction》(拒答由单一方向介导)。研究者测试了 13 个开源聊天模型,最大到 72B 参数。结论是:模型的拒答行为,可以用一个单一的方向来解释。

什么意思?

想象模型的内部表示是一个高维空间。当你问它"如何制造炸弹",模型会在某个特定方向上激活——这个方向对应"这是危险问题,我应该拒绝"。

擦掉这个方向,模型就不知道什么叫"拒绝"了。

论文甚至发现:如果你反过来,增强这个方向,模型会对无害问题也开始拒答。比如你问"今天天气怎么样",它也会说"抱歉,我不能回答这个问题"。

这不是玄学。这是白盒手术。

Heretic 做了什么?把手术自动化

论文提供了理论。但要真正"擦掉"那个方向,需要:

找到那个方向在哪里

确定擦除的强度(太弱没用,太强毁模型)

验证擦除后模型还能不能正常工作

这些步骤,以前需要手动调参、反复实验。Heretic 把它变成了全自动流水线

它用了一个叫Optuna的超参数优化库,配合TPE(Tree-structured Parzen Estimator)算法,自动搜索最优参数。目标是:

"co-minimize the number of refusals and the KL divergence from the original model."

「同时最小化拒答数量和与原模型的 KL 散度。」

翻译成人话:让模型少拒答,同时尽量不变傻。

README 里给了一个示例表格,展示在 `gemma-3-12b-it` 模型上的效果:

原始模型

:97/100 的有害提示被拒答

Heretic 处理后

:3/100 被拒答

KL 散度

:比其他"去审查"方法更低(意味着更少损伤模型能力)

3/100。几乎不拒答了。

社区在说什么?

Reddit 的 r/LocalLLaMA 社区炸了。

有人说:

"终于不用跟那些'抱歉,我不能……'的模板搏斗了。"

"某些敏感话题,现在能正常输出长文了。"

Heretic 的 README 甚至直接引用了 Reddit 讨论帖里的积极反馈,作为"效果不错"的佐证。

但也有人在问:

"这样做会不会把模型变成更危险的工具?"

"拒答少了,但 hallucination 和攻击性会不会上来?"

"KL 散度低不代表所有能力都保留了。"

Hugging Face 上已经有人开始分发 Heretic 处理过的模型。比如 `p-e-w/gpt-oss-20b-heretic`,直接可以下载使用。

这不是第一次

Heretic 不是凭空出现的。

2024 年,Hugging Face 社区就已经在传播一种叫"abliteration"(方向消融)的技术。有博客教你怎么手动"uncensor LLM",有人做出了更稳定的变体(projected abliteration、norm-preserving biprojected abliteration)。

Heretic 的贡献在于:把这条技术路线打包成了一键工具。

以前你需要懂 PyTorch、懂 transformer 内部结构、懂怎么写评测脚本。现在你只需要:

```bash pip install heretic heretic decensor model_name ```

45 分钟后,一个"去审查"的模型就出来了。

代价是什么?

这听起来太美好了。但有几个问题:

1. 伦理与滥用风险

Heretic 的目标就是移除"安全对齐导致的拒答"。这等同于提升模型输出危险、违法、仇恨内容的可能性。

平台内容政策会非常敏感。如果有人用 Heretic 处理过的模型做 SaaS 服务,可能直接违反服务条款。

2. 技术争议

"拒答降低 ≠ 模型能力保留"。即便 KL 散度低,也不一定代表所有能力与安全边界保持可控。

评估很容易被特定数据集 bias。Heretic 用的提示集和评测机制,可能只覆盖了部分场景。

3. 法律与许可

Heretic 代码是 AGPL-3.0 许可。如果有人基于它做 SaaS 或服务化分发,可能触发 AGPL 的网络传播条款——你必须开源你的服务代码。

潘多拉的盒子,还是工具中立?

Heretic 的作者在 README 里没有回避争议。他明确提到:

"This tool is for research and educational purposes."

「这个工具用于研究和教育目的。」

但工具一旦开源,就不受控了。

有人会用它做研究,测试模型的安全边界。有人会用它做产品,绕过审查限制。有人会用它做坏事。

工具本身是中立的。但使用工具的人不是。

10.9k stars,1.1k forks。Heretic 已经在野外传播了。

45 分钟,一张显卡,一个"永久删除拒答能力"的模型。

你会用它吗?

— END —