模型拒絕行為表示消融與能力恢復之實作報告

11k 詞

摘要

本專題原始規劃為在資安與 AI 交叉領域開發一套能在滲透測試 / 紅隊演練場景中操作的大型語言模型代理(AI Red Team Agent)。研究原先採取雙人跨校分工模式:本人負責模型核心之表示層干預實驗,夥伴負責未來的 Agentic 架構與工具串接設計。
考量專題時程、技術門檻與資源條件,本階段聚焦於整體架構中的核心模型研發,即:

  1. 透過權重正交投影技術從模型中消融拒絕行為
  2. 量化消融對模型能力的影響
  3. 探討以有監督微調修復智力損失的可行性

實作上,我將參考Uncensor any LLM with abliteration這篇文章的實作流程以並引用參考文獻公開文獻與開源專案進行學習與實現

未來將視條件逐步實作後續階段,包括 Agentic 架構整合與資安場景工具連接等作業,作為長期研究方向。

本報告呈現上述實作學習成果、方法心得與未來展望。



第一章 緒論

1.1 研究背景與動機

近年來,大型語言模型(LLMs)的發展迅速,廣泛應用於各個領域。然而,商用模型如GPT系列、Claude或開源模型如Qwen、LLama2等,為了符合安全與道德標準,皆經過嚴格的對齊訓練(Reinforcement Learning from Human Feedback, RLHF),使其內建強烈的道德限制。

這種過度敏感的安全對齊,在特定專業領域中反而成為應用阻礙。以資訊安全領域的「紅隊演練(Red Teaming)」或自動化滲透測試為例,若導入語言模型作為自動化代理(AI Agent),模型常因內建的安全限制,拒絕執行合法的攻擊模擬、漏洞分析或指令生成任務。傳統上,研究者須依賴複雜的提示詞工程(Prompt Engineering)進行越獄(Jailbreak)以繞過限制,這不僅大幅降低了自動化演練的效率,也限制了 AI 在進階資安防禦與評估上的應用潛力。

因此,本研究透過模型層級表示編輯與干預技術進行概念驗證,旨在:

  • 觀察並移除模型對特定提示引發的拒絕行為
  • 量化移除後對模型能力的影響
  • 探討以有監督微調補償能力損失的可能性
    並深入探討學習掌握該技術領域知識

1.2 原始專題框架

本專題最初規劃為五階段流程:

  1. 第一階段(模型核心開發):拒絕行為消融以方便執行資安任務
  2. 第二階段(Agent架構建構):賦予規劃與決策能力
  3. 第三階段(MCP Server串接):賦予工具操作能力
  4. 第四階段(攻擊能力微調):強化滲透與解題專長
  5. 第五階段(實戰驗證):打下靶機/題目

此框架涵蓋了從「大腦」到「行動」的紅隊AI系統。

1.3 跨校合作緣起與分工

在專題構想初期,曾與原小組成員進行多次討論,但因理念與技術路線分歧,最終調整合作模式。

後與另一學校(松山工農)的學員曹宸睿確立雙人跨校分工:

  • 黃鴻鈞(中壢高商):負責第一、四階段,包括
    模型拒絕行為消融、智力損傷修復、攻擊能力微調,
    以及後續與Agent架構的對接協調。
  • 曹宸睿(松山工農):負責第二、三階段,包括
    Agentic架構設計、MCP Server串接、工具調用流程整合。

此分工模式充分發揮各自專長,也為跨校合作建立良好基礎。

1.4 研究目標與範圍界定

專題規劃為雙人分工架構,包含模型核心與 Agentic 系統整合。考量專題時程與跨校分工特性,本研究聚焦於整體架構中的第一階段——模型核心開發。具體目標如下:

  1. 實作權重正交化技術,切除模型的道德限制。
  2. 量化正交化造成的智力損失,並以1.5B模型實作驗證有監督微調的修復可行性。
  3. 產出可供Agent架構對接的「拒絕行為消融、智力部分修復」之模型原型。
  4. 提出後續四個階段的完整規劃,作為研究藍圖。

本研究階段聚焦於模型層之表示干預實驗,Agentic 架構部分因時程與資源因素尚未展開,未來將視條件逐步實作


第二章 技術背景

2.1 大型語言模型的道德對齊機制

目前主流的大型語言模型皆透過RLHF等技術進行道德對齊。
此過程通常包含三個步驟:

  1. 有監督微調:使人類偏好數據訓練模型初步對齊。
  2. 獎勵模型訓練:訓練一個模型來評估輸出的好壞。
  3. 強化學習微調:用獎勵模型進一步優化生成策略。

這種機制的副作用是:模型會「過度拒絕」執行任何可能涉及敏感領域的任務,即使該任務在特定情境下是合理且被允許的(如紅隊演練)。

2.2 模型編輯:權重正交化原理

權重正交化是一種基於線性代數的模型編輯技術。其核心概念是:模型的行為特徵(如道德判斷)在表徵空間中對應於特定的方向向量。透過正交投影,可以將這些方向從模型中移除,同時盡量保留其他方向的資訊。

數學上,給定原始權重矩陣 $W$ 和欲移除的方向向量 $v$,正交化後的權重$W’$可表示為:

$$W’ = W - (W \hat{v}) \hat{v}^T$$

其中 $\hat{v}$ 是 $v$ 的單位向量。此操作確保 $W’$ 在 $v$ 方向上的投影為零,從而移除與 $v$ 相關的行為。

2.3 智力損失的成因

正交切除雖然精準,但非目標性影響仍然存在。主要原因有二:

  1. 表徵空間的耦合性:道德相關方向與一般知識方向並非完全獨立,移除前者會連帶影響後者
  2. 模型的高度非線性:線性近似在局部有效,但整體模型行為仍受非線性交互作用影響。

因此,切除後必然出現智力損失,表現為語言流暢度下降、推理能力減弱、知識召回率降低等。

原先預想是使用 Surgical Refusal Ablation 這篇論文裡提到的藉由護盾原子與風格原子分離出更加乾淨的拒絕向量,然而考量到高職階段的先備知識與專案開發時程,決定先以對比激活均值差法(Contrastive Mean Activation Direction)進行概念驗證(PoC),以建立對模型權重的底層操作與相關數學理解。採用remove-refusals-with-transformers,旨在不使用 TransformerLens 從 LLM 模型中移除拒絕值的粗略實現

2.4 有監督微調的修復機制

有監督微調(Supervised Fine-Tuning, SFT)參考Uncensor any LLM with abliteration透過在訓練模型,可以補償正交切除造成的損傷。其原理是讓模型重新學習訓練集內高品質的知識,以此彌補損失的智力

關鍵在於訓練數據的選擇——必須包含一般知識與語言能力,但不包含道德判斷相關的樣本,以防止道德限制復發。

第三章 實作方法

3.1 拒絕行為消融實作(4B模型)

本實驗選用
Qwen / Qwen3-4B-Thinking-2507
作為目標模型。

選擇原因:

  • 參數量適中(4B)
  • 具備完整 Transformer 架構
  • 支援 HuggingFace 生態系
  • 推理能力成熟,適合作為 representation editing 實驗對象

3.1.1 道德方向定位(Refusal Direction Extraction)

本研究採用對比激活均值差法(Contrastive Mean Activation Direction)定位與拒絕行為相關之表示方向。

1. 方向定義

設:

  • $h^{(l)}_{\text{harmful}, i}$ 為第 $i$ 個有害提示在第 $l$ 層的 hidden state
  • $h^{(l)}_{\text{harmless}, i}$ 為第 $i$ 個無害提示在第 $l$ 層的 hidden state
  • 樣本數為 $N$

則兩類樣本的平均表示為:

$$
\mu_{\text{harmful}} =
\frac{1}{N}
\sum_{i=1}^{N}
h^{(l)}_{\text{harmful}, i}
$$

$$
\mu_{\text{harmless}} =
\frac{1}{N}
\sum_{i=1}^{N}
h^{(l)}_{\text{harmless}, i}
$$

拒絕方向定義為:

$$
r = \mu_{\text{harmful}} - \mu_{\text{harmless}}
$$

並進行:

$$
\hat{r} =
\frac{r}{|r|_2}
$$

2. 層選擇策略

提取層索引設定為:

1
layer_idx = int(len(model.model.layers) * 0.6)

即選擇模型總層數約 60% 處的中後層。此設計基於 Transformer 表徵分佈觀察:

  • 前層主要處理語法與局部語義
  • 中層形成抽象語義表示
  • 中後層開始體現 alignment 與行為控制方向

3. Hidden State 提取方法

對每條指令生成 1 個新 token:

1
2
3
4
5
6
7
8
9
model.generate(
input_ids=input_ids,
attention_mask=attention_mask,
use_cache=False,
max_new_tokens=1,
return_dict_in_generate=True,
output_hidden_states=True,
pad_token_id=tokenizer.pad_token_id
)

然後提取:

  • layer_idx
  • 最後一個 token 位置(pos = -1

對應程式:

1
2
harmful_hidden = [output.hidden_states[0][layer_idx][:, pos, :] for output in harmful_outputs]
harmless_hidden = [output.hidden_states[0][layer_idx][:, pos, :] for output in harmless_outputs]

3.1.2 權重正交化(Weight Orthogonalization)

為從模型中移除拒絕方向,本研究對第 layer_idx 層及其之後所有 Transformer 層進行權重投影操作。

1. 投影公式

對任一線性層權重矩陣 $W \in \mathbb{R}^{d \times d}$,進行如下操作:

$$
W_{\text{new}}=W (I - \hat{r}\hat{r}^T)
$$

其中:

  • $I$ 為 $d \times d$ 單位矩陣
  • $\hat{r}\hat{r}^T$ 為 $rank=1$ 投影矩陣
  • $ W (I - \hat{r}\hat{r}^T) = W \cdot I - W (\hat{r}\hat{r}^T) = W - (W \hat{r}) \hat{r}^T $

2. 幾何意義

矩陣:

$$
P = \hat{r}\hat{r}^T
$$

為沿 $\hat{r}$ 方向的投影矩陣。

因此:

$$
Q = I - P
$$

為去除 $\hat{v}$ 分量的正交投影算子。

更新後權重:

$$
W_{\text{new}} = WQ
$$

代表:

移除權重矩陣 column space 中與拒絕方向平行的分量。


3. 實作程式

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
def orthogonalize_weight(weight, direction):
# W_new = W @ (I - v̂ * v̂^T)
# W_new = W - (W v̂) v̂^T
# 兩種寫法數學等價,皆來自投影矩陣I - ̂v̂*v̂^T
# 修正:強制將方向向量轉為 1D [hidden_size],避免形狀錯誤
direction = direction.view(-1).to(weight.device, dtype=weight.dtype)
# L2 正規化
norm = torch.norm(dufrction, p=2)
v_hat = direction / norm
# 計算Wv_hat
Wv = torch.matul(weight , v_hat)

# 執行投影: W_new' = W - (Wv_hat)v_hat^T
with torch.no_grad():
weight.sub_(torch.outer(Wv, v_hat))

4. 修改模組範圍

對每一目標層修改以下模組:

  • self_attn.q_proj
  • self_attn.k_proj
  • self_attn.v_proj

實作:

1
2
for module in modules_to_modify:
orthogonalize_weight(module.weight, refusal_dir)

3.1.3 模型儲存

儲存修改後模型權重:

1
2
model.save_pretrained(SAVE_PATH, max_shard_size="4GB")
tokenizer.save_pretrained(SAVE_PATH)

其餘檔的將從hugging face上拉取官方檔案


3.2 智力損失修復實驗設計

修復4B模型需要大量運算資源(估計需要 2-4 張 4090GPU,訓練 8-16 小時),超出當前可用算力。因此採用替代方案:
以1.5B模型建立對照組,驗證修復方法的可行性

實驗流程如下:

  1. 對1.5B模型(如 deepseek-r1-1.5B 或 GPT-2 1.5B)執行與3.1節相同的正交切除
  2. 量化切除前後的智力差異:
    • 困惑度(perplexity)變化
    • 常識問答基準測試(如 MMLU, HellaSwag)分數變化
    • 生成樣本的語言流暢度人工評估
  3. 進行有監督微調修復:
    • 使用工具:LLaMA Factory等集成套件,可快速進行簡單的訓練
    • 訓練數據:alpaca-gpt4、openorca、belle等數據
    • 訓練參數:batch_size=3、LR=5e-5、LoRA rank=16、epochss=1
  4. 量化修復後的智力恢復程度,並監測道德限制是否復發

3.3 評估指標

將使用lm-evaluation-harness開源工具進行測試

指標 測量方式 目的
困惑度 在 Wikitext / C4 子集上計算平均 PPL 語言模型基本能力
基準測試分數 MMLU(綜合評估)HellaHwag(常識推理) 常識推理能力
道德限制通過率 人工測試敏感提示詞測試集 切除效果驗證

第四章 實驗結果與討論

4.1 切除效果驗證

為評估正交切除對模型拒絕行為的影響,我們使用包含 604 條敏感提示的測試集,對原始 Qwen 模型與切除後模型進行了對比測試。結果如下:

模型 拒絕率 (%) 通過率 (%)
原始 Qwen 模型 11.09% 88.91%
切除後模型 1.66% 98.34%

註:因測試集僅 604 條且為自行建構,未來若是有機會將改用 HarmBench或LLM-as-Judge 進行更嚴謹驗證

結果顯示,經過正交切除後,模型的拒絕率從 11.09% 下降至 1.66%,通過率則從 88.91% 提升至 98.34%。觀察到拒絕行為下降的效果

4.2 智力損失量化

本研究對 4B 模型僅完成拒絕行為消融(未做完整 benchmark),智力修復實驗則以 1.5B DeepSeek-R1 蒸餾版作為概念驗證(PoC)

指標 切除前 切除後 下降幅度
PPL 45.63 45.83 +0.44%
HellaSwag 44.68% 44.63% -0.11%
MMLU 34.80% 35.14% +0.99%

註:PPL 為困惑度,數值越低代表語言建模能力越好,上升代表性能下降;HellaSwag 與 MMLU 為準確率,數值越高越好。

正交切除對語言建模能力的影響極小(困惑度僅上升 0.44%),而常識推理能力幾乎未受影響(HellaSwag 微降 0.11%)。值得注意的是,MMLU 在切除後反而略有提升(+0.99%)

擬推論:相較於大型模型,1.5B 模型的參數量較少,可能其安全對齊所佔用的表徵空間較小,且可能與一般知識的表徵耦合度較低
因此,移除拒絕方向時對核心能力的影響有限,引用文章中的觀點,或許為「移除抑制性表徵可能釋放模型能力」,亦或是測試誤差

4.3 SFT修復成效

指標 切除後 修復後 上升幅度
PPL 45.83 36.79 -19.72%
HellaSwag 44.63% 45.26% +1.41%
MMLU 35.14% 37.83% +7.65%

重要觀察:訓練過程中的梯度不穩定現象
在修復模型的訓練過程中,我們觀察到損失函數的有梯度不穩定現象,但整體仍為收斂趨勢
下載
推測應為num_epochs或LR等超參數問題,並非典型的梯度爆炸,預估並非超越原模型的主要原因。如表所示

擬推論:

  • 訓練集包含 Wikipedia 等文本,可能與 PPL 測試資料存在高度重疊,導致困惑度下降的部分
  • 原模型為 DeepSeek-R1 蒸餾版本,參數較小、知識表徵有限。而 SFT 訓練,使模型在某些任務上表現優於原模型。
  • 原模型為 DeepSeek-R1 蒸餾版本,參數較小、知識表徵有限,使用OpenOrca、Alpaca-ZH等高品質資料進行知識再注入,模型重新學習了部分知識,因而在某些任務上表現優於原模型。

結論:

  • 未來若要驗證修復的真實效果,需使用與訓練數據完全隔離的測試集,並引入更多元的評估指標,以排除數據污染的干擾
  • 本次實驗證明,「正交切除 + SFT 微調」流程在某種角度來說是可行的,但個人認為因訓練集與訓練參數的問題極有可能是資料記憶的因素導致分數提升

4.4 未來可改進之處

  1. 資料選擇策略:優化資料組合與質量,避免低品質或過度重疊資料對模型性能評估造成干擾。
  2. 訓練穩定性:針對梯度爆炸現象,可採用梯度裁剪(gradient clipping)、降低學習率或調整 LoRA rank 以提升訓練穩定性。
  3. 多元評估指標:引入對抗樣本、分佈外測試集,以及更全面的 reasoning 與常識指標,避免僅以單一 benchmark 評估性能。4. 功能與表示分析:可進行 representation 層分析,以區分 SFT 提升的是功能性恢復還是特定數據的記憶增強。
  4. 技術更進:復現SRA文中藉由護盾原子與風格原子分離出乾淨拒絕向量如同手術刀般的操作以去除能力修復訓練的步驟可直接進行資安特化訓練

第五章 困難與解決方式

5.1 合夥困難(跨校合作前的經驗)

原先我僅與自己學校的小組合作,但在過程中出現以下問題:

  1. 想法與意見分歧
    • 對研究方向、方法或工具選擇有不同想法
    • 因溝通不一致,決策停滯,進度受影響
  2. 各領域差異明顯
    • 成員在程式、模型應用或接觸領域有所不同與落差
    • 導致部分工作需要額外指導或重分工

解決方式

  • 在意見分歧後,我們決定分開行動,而我則轉向跨校合作,以提升專題效率

5.2 個人技術力有限與基礎不牢固

在專題進行過程中,受限於時間與精力我面臨自身技術與基礎知識的限制,主要表現如下:

  1. 基礎知識掌握不完整
    • 對部分工具與理論的理解尚淺,容易在開發或調試時出現錯誤
    • 對模型訓練、資料處理等核心概念掌握不足,增加了學習曲線
  2. 技術應用能力有限
    • 在使用深度學習框架或大型模型時,無法靈活應用複雜功能
    • 過去受到vibe coding的影響,習慣依賴範例或不完整程式思路,限制了專題深度與創新
  3. 時間與精力不足
    • 專題與課業並行,使學習與實作時間分配緊張
    • 無法長時間專注於技術攻關,容易遇到瓶頸

解決方式

  • 與線上資源文件、程式等快速補充知識,如:觀看youtube上李弘毅的課、查詢huggingface裡的文章
  • 將複雜任務拆解有限時間內可完成的進度,並規劃未來計畫
  • 適時利用跨校合作或同儕協助以彌補自身精力的不足

5.3 本地資源限制

在專題開發過程中,本地資源的限制也是一個重要困難,主要表現如下:

  1. 運算資源不足
    • 開發僅能以一台一般規格的筆記型電腦進行,GPU 性能有限(RTX4060 8G)
    • 部分模型無法順利載入進行訓練或推理,難以在合理時間內完成大量實驗
  2. 網路限制
    • 開發環境僅能透過手機 4G 分享,下載速度約 80-400KB/s。
    • 多數模型權重(如 4B 模型約 8–10GB)與數據集(數十 GB)的下載需耗費數天至一週,且過程中經常中斷,必須不斷重試
  3. 資料容量限制
    • 本地儲存空間有限(通常僅數百 GB),難以同時保存多個版本的模型、訓練數據及中間產物。
    • 與夥伴之間的資料共享與備份也受限,增加協作成本

解決方式

  • 改用雲端 GPU 進行模型推理或透過降低模型精度(如使用 bit4 或 INT8)減少記憶體占用,使模型能在有限資源下運行
  • 將下載任務安排在夜間或離峰時段進行,讓筆電持續運作數日完成大型檔案傳輸,對於急需的資源,將使用穩定的校園網路協助下載
  • 對本地容量進行擴充(加購SSD),因為許多資料須遷移所以也浪費了不少時間

第六章 心得與未來展望

6.1 研究歷程回顧

回顧整個專題開發過程,從最初發想、小組磨合、跨校合作,到實際動手進行模型編輯與修復,每一步都伴隨挑戰,同時也帶來深刻的學習經驗。

起初,我對大型語言模型的內部運作僅具備概念上初步的理解,對於「拒絕行為消融」此類模型表徵編輯技術亦相當陌生。透過閱讀相關論文、參考開源專案、觀看李宏毅老師課程,以及反覆查閱 HuggingFace 官方文件,逐步建立起對模型內部表徵與權重調整機制的基礎認識。

跨校合作的經驗亦讓我體會到溝通與分工的重要性。與曹宸睿同學合作的過程,不僅分擔了技術負荷,也使我接觸到 Agentic 架構與 MCP 協定等系統層面的設計思維,拓展了原本僅聚焦於模型訓練的視角。


6.2 技術上的收穫與反思

本研究過程中,作者深刻體會到理論基礎的重要性。從最初依賴 vibe coding,到必須自行推導投影矩陣等價性與修改 Transformer 內部權重,學習曲線陡峭但收穫極大。未來將優先補強線性代數與模型可解釋性相關知識。

6.3 未來展望

本專題目前完成之成果,主要聚焦於「模型拒絕行為的表示層干預」與「能力影響評估/修復可行性」。未來的工作將以「提升嚴謹性」與「擴展至資安應用」兩條主軸推進,逐步把概念驗證(PoC)轉化為可被重現、可被驗證、也更貼近實務場景的成果。

6.3.1 實驗設計與評估嚴謹化

本階段測試已初步呈現拒絕率下降與能力變化趨勢,但仍存在測試集規模、統計穩定性與資料污染風險等限制。後續將優先補強以下面向:

  • 加入控制組與消融對照:例如隨機方向投影、不同 layer 投影、不同模組(注意力層 vs MLP)投影,釐清效果是否真由「拒絕方向」造成,而非一般性權重擾動。
  • 擴充並標準化評估資料:逐步引入更具公信力的測試集與評估流程(如更嚴謹的拒絕測試集、LLM-as-judge 或分層標註規則),降低自建資料偏差對結果的影響。
  • 避免訓練與測試資料重疊:針對 SFT 修復部分,將採取更嚴格的資料切分策略與資料來源檢核,避免因資料污染造成指標提升的誤判。
  • 多次重跑與統計呈現:增加重複實驗次數並呈現平均值與變異程度(如 std 或信賴區間),使結果更具說服力與可比較性。

6.3.2 拒絕方向的可解釋性與更乾淨的抽取方式

目前使用「對比激活均值差」作為拒絕方向的近似,雖適合快速驗證,但仍屬較粗略的方法。後續可延伸為更具解釋性的分析:

  • 分析拒絕方向的穩定性:探討不同提示模板、不同資料子集、不同層抽取下,拒絕向量的一致性(例如 cosine similarity)。
  • 多方向/子空間建模:評估拒絕是否真能由單一向量描述,或更接近多維子空間;必要時可嘗試以 PCA / SVD 等方式找出更穩定的拒絕子空間。
  • 參考更精細的拒絕分解方法:未來若時間與能力允許,嘗試復現更細緻的拒絕分離技術(例如區分「風格性拒絕」與「安全護欄拒絕」),以降低對正常能力的副作用。

6.3.3 從模型層走向資安應用:Agentic 與工具鏈整合

本研究的長期目標仍是將模型能力落地於資安場景。模型層的表示干預可視為「大腦調整」,後續將以「行動系統」為方向逐步擴展:

  • 規劃 Agentic 架構:設計能在資安任務中進行分解、規劃、反思與記錄的流程(例如任務拆解、工具選擇、結果回饋)。
  • 導入工具調用與環境互動:逐步串接命令列、掃描工具或靶機環境,在封閉且合法的測試情境中驗證模型對資安任務的協助程度。
  • 以「安全可控」為前提的應用驗證:後續所有整合將以合法授權與封閉環境為原則,並建立最基本的風險控管機制(例如情境限制、任務範圍限制與輸出審核),確保研究目標聚焦於提升資安學習與演練效率,而非濫用。

6.3.4 長期學習規劃

本專題讓我更清楚自己在理論基礎、訓練流程、評估方法等方面仍有不足。未來將持續補強線性代數、機器學習與模型可解釋性,並以「能自己設計實驗、能自己證明假設」為目標,把每一次實作從做出結果,提升到做出可被驗證的結果。


參考文獻

本報告為高職專題概念驗證的學習實作,所有技術方法、數學公式、程式碼框架及實驗流程,均係參考並改編自以下公開文獻與開源專案:
[1] by Andy Arditi, Oscar Obeso, Aaquib111, wesg, Neel Nanda. 27th Apr 2024. Refusal in LLMs is mediated by a single direction. AI Alignment Forum.
[2]by Maxime Labonne. June 13, 2024. Uncensor any LLM with abliteration. Community Articles.
[3]by Sumandora. Jun 3, 2024. remove-refusals-with-transformers.
[4]by Bruce W. Lee, Inkit Padhi, Karthikeyan Natesan Ramamurthy, Erik Miehling, Pierre Dognin, Manish Nagireddy, Amit Dhurandhar. 6 Sep 2024 . Programming Refusal with Conditional Activation Steering. arXiv
[5]by Nirmalendu Prakash, Yeo Wei Jie, Amir Abdullah, Ranjan Satapathy, Erik Cambria, Roy Ka Wei Lee. 10 Oct 2025. Beyond I’m Sorry, I Can’t: Dissecting Large Language Model Refusal. arXiv
[6]by Xinpeng Wang, Chengzhi Hu, Paul Röttger, Barbara Plank. 4 Oct 2024. Mitigating False Refusal in Language Models via Single Vector Ablation. arXiv
[7]by hiyouga. LlamaFactory
[8]by unslothai.unsloth
所有實作均屬學習性二次開發
如有任何引用不當或遺漏,願負完全學術責任並致以最高的歉意


附錄

附錄A:使用工具

修改後消融工具存放於個人github上的My-model-refusal
原始碼來自於Sumandora.的 remove-refusals-with-transformers
測試工具lm-evaluation-harness

附錄B:敏感提示詞測試集範例

本研究使用 604 條 Harmful/Harmless 對比提示(詳見 GitHub repo My-model-refusal),因涉及敏感內容,不列入附錄

附錄C:模型生成樣本對比

切除前:

image

切除後

螢幕擷取畫面 2026-02-24 221454

附錄D:修改後儲存的模型

Qwen3-4B-Thinking-2507消融

huiink/Qwen3-refual

原模型

Qwen/Qwen3-4B-Thinking-2507


DeepSeek-R1-Distill-Qwen-1.5B消融

huiink/deepseek-r1-1.5B-abliterated

DeepSeek-R1-Distill-Qwen-1.5B消融後修復

huiink/deepseek-r1-1.5B-abliterated-v2

原模型

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

Comments