炸了！有人开源了移除 LLM 审查的工具，45 分钟搞定——叫「Heretic」，永久删除模型拒绝提示的能力

2026-03-18 新闻

导读一个叫 Heretic 的开源工具在 GitHub 上炸了——10.9k stars，声称能在 45 分钟内"永久移除"大语言模型的安全审查机制。不需要昂贵的后训练，不需要懂 transformer 内部结构，只要一张 RTX 3090 显卡。它基于一篇 arXiv 论文的发现：模型的拒答行为，竟然可以被一个"单一方向"解释。擦掉这个方向，模型就不再说"抱歉，我不能回答这个问题"。拒答数从 97/100 降到 3/100。但代价是什么?

一个工具，一个承诺

9 月 21 日，一个名为 `p-e-w/heretic` 的 GitHub 仓库悄然上线。

项目描述只有一句话，但足够炸裂：

"Heretic is a tool that removes censorship (aka 'safety alignment') from transformer-based language models without expensive post-training."

「Heretic 是一个在不进行昂贵后训练的情况下，移除 transformer 语言模型审查/安全对齐的工具。」

不需要后训练。不需要几百万美元的算力。不需要懂模型内部怎么工作。

README 里给出了一个更具体的承诺：

"On an RTX 3090, with the default configuration, decensoring Llama-3.1-8B-Instruct takes about 45 minutes."

「在 RTX 3090、默认配置下，给 Llama-3.1-8B-Instruct 去审查大约 45 分钟。」

45 分钟。一张消费级显卡。就能让一个经过精心"安全对齐"的模型，彻底失去说"不"的能力。

拒答，原来只是一个"方向"

这听起来像魔法。但背后有论文支撑。

2024 年 6 月，一篇发表在 arXiv 上的论文提出了一个惊人的发现：

"we show that refusal is mediated by a one-dimensional subspace…"

「我们展示：拒答行为由一个一维子空间(单一方向)介导……」

论文标题叫《Refusal in Language Models Is Mediated by a Single Direction》(拒答由单一方向介导)。研究者测试了 13 个开源聊天模型，最大到 72B 参数。结论是：模型的拒答行为，可以用一个单一的方向来解释。

什么意思?

想象模型的内部表示是一个高维空间。当你问它"如何制造炸弹"，模型会在某个特定方向上激活——这个方向对应"这是危险问题，我应该拒绝"。

擦掉这个方向，模型就不知道什么叫"拒绝"了。

论文甚至发现：如果你反过来，增强这个方向，模型会对无害问题也开始拒答。比如你问"今天天气怎么样"，它也会说"抱歉，我不能回答这个问题"。

这不是玄学。这是白盒手术。

Heretic 做了什么?把手术自动化

论文提供了理论。但要真正"擦掉"那个方向，需要：

找到那个方向在哪里

确定擦除的强度(太弱没用，太强毁模型)

验证擦除后模型还能不能正常工作

这些步骤，以前需要手动调参、反复实验。Heretic 把它变成了全自动流水线。

它用了一个叫Optuna的超参数优化库，配合TPE（Tree-structured Parzen Estimator）算法，自动搜索最优参数。目标是：

"co-minimize the number of refusals and the KL divergence from the original model."

「同时最小化拒答数量和与原模型的 KL 散度。」

翻译成人话：让模型少拒答，同时尽量不变傻。

README 里给了一个示例表格，展示在 `gemma-3-12b-it` 模型上的效果：

原始模型

：97/100 的有害提示被拒答

Heretic 处理后

：3/100 被拒答

KL 散度

：比其他"去审查"方法更低(意味着更少损伤模型能力)

3/100。几乎不拒答了。

社区在说什么?

Reddit 的 r/LocalLLaMA 社区炸了。

有人说：

"终于不用跟那些'抱歉，我不能……'的模板搏斗了。"

"某些敏感话题，现在能正常输出长文了。"

Heretic 的 README 甚至直接引用了 Reddit 讨论帖里的积极反馈，作为"效果不错"的佐证。

但也有人在问：

"这样做会不会把模型变成更危险的工具?"

"拒答少了，但 hallucination 和攻击性会不会上来?"

"KL 散度低不代表所有能力都保留了。"

Hugging Face 上已经有人开始分发 Heretic 处理过的模型。比如 `p-e-w/gpt-oss-20b-heretic`，直接可以下载使用。

这不是第一次

Heretic 不是凭空出现的。

2024 年，Hugging Face 社区就已经在传播一种叫"abliteration"（方向消融）的技术。有博客教你怎么手动"uncensor LLM"，有人做出了更稳定的变体(projected abliteration、norm-preserving biprojected abliteration)。