第6章：Backbone 鲁棒性与跨族验证——4 LLM 族的低成本组合

一篇 Memory 论文只跑了 GPT-4，得出”方法 X 提升 5 pp”——reviewer 大概率会要求”在 Llama / Claude / DeepSeek 上各重跑一遍”。这不是吹毛求疵：LLM 之间 prompt sensitivity 差异极大，单 backbone 的正向效应在另一个族上可能完全反转。本章给一套廉价跨族验证的工程化方案：用 OpenAI 兼容代理（DeepSeek 直连 + 中科大 LLM 中转 + 火山引擎 ARK + lab gpt-5.4）覆盖 4 大 LLM 族，并给出”primary 跑全量、secondary 跑 sanity”的角色分工，让你不增加预算的前提下把 backbone 鲁棒性这块写实。

📑 目录

1. 单 backbone 显著的反例与代价
2. 4 LLM 族的低成本组合
3. 角色分工：primary / secondary / tertiary / quaternary
4. OpenAI 兼容 API 的实操踩坑
5. scope 描述的诚实写法
6. 多 backbone 的统计聚合
7. 何时增加第 5 个 backbone
✅ 自我检验清单
📚 参考资料

1. 单 backbone 显著的反例与代价

1.1 一个真实案例：H1b 在不同 backbone 上方向反转

本模块作者论文 H1b sanity 数据（n=100, 1 conv）：

Backbone	Δ(C4 - C1)	95% CI	解读
gpt-5.4	+4 pp	[-2, +11]	“看起来 cache 有用”
deepseek-v4-pro	-3 pp	[-9, +3]	“看起来 cache 有害”
Δ(C4 - C3) on deepseek	-6 pp	—	“持久化反而更差”

🍎 直觉：同一个 H1b 假设、同一段代码、同一份数据，在 GPT 上看起来 +4 pp，在 DeepSeek 上看起来 -3 pp。如果作者只跑 GPT 就发论文，结论是”H1b 似乎成立”；只跑 DeepSeek 就发，结论是”H1b 似乎反向”。

🌟 核心：单 backbone 的效应方向不可推广。“我们的方法 +5 pp”在没有跨族验证前等于”我们在某个 backbone 上 +5 pp”——这是局部观察，不是普适主张。

1.2 reviewer 要求跨族的真实理由

reviewer 关切	跨族验证如何回应
”方法是否对 prompt 敏感”	不同族 prompt-format 偏好不同；方向一致 = 方法不依赖某 prompt 风格
”是否依赖某 LLM 的特殊能力（如 long-context）“	不同族 context window 不同；方向一致 = 不依赖
”结果是否可重现”	跨族 + 跨样本 = reviewer 自己 reproduce 时容错空间更大

2. 4 LLM 族的低成本组合

把 2026 年 4 大 LLM 家族盖一遍，用 OpenAI 兼容代理控制总成本在 ~$5。

族	推荐 backbone	代理	成本估算（H1a 100 题）
Anthropic	claude-3-5-sonnet	火山引擎 ARK / 第三方代理	~$0.5
OpenAI	gpt-5.4 / gpt-4o	实验室中转 / 官方	~$0.5
DeepSeek	deepseek-v4-pro	直连 / USTC 中转	~$0.05（最便宜）
Qwen	qwen3.6-chat	USTC 中转（免费）	$0

⭕ 审计提示：“4 族”意味着 4 个 vendor + 4 套 tokenizer + 4 种 prompt 风格。如果你 4 个 backbone 都来自同一 vendor（如全 OpenAI），不能称为跨族。

2.1 第二选择族（如果上面 4 个不够）

Mistral / Mixtral：欧系，行为偏 Llama 风格
Gemini / Bard：Google 系，多模态偏向
Llama / Vicuna：开源系，自部署
GLM / Yi / Baichuan：中国其他厂，与 Qwen / DeepSeek 同源风险

3. 角色分工：primary / secondary / tertiary / quaternary

不是每个 backbone 都跑全量。本模块作者论文采用 4 角色分工：

角色	任务	样本量	成本
primary（claude-3-5-sonnet）	H1a 全量 + H1b 全量	n=400 + n=764	~$2
secondary（gpt-5.4）	H1a sanity + H1b sanity	n=96 + n=100	~$0.7
tertiary（deepseek-v4-pro）	H1a sanity + H1b sanity	n=96 + n=100	~$0.1
quaternary（qwen3.6-chat）	H1a sanity（仅）	n=96	$0（USTC 免费）
总计			~$3

🌟 关键设计：H1a sanity 跑 4 个 backbone（最廉价的方式覆盖跨族）；H1b 只跑 primary 全量 + 2 个 sanity（因为 LoCoMo 单题成本高）。

3.1 怎么决定 primary

能力强 > prompt 友好 > 价格低
一般 claude / gpt-5 系列优先（能力强）
如果 budget 紧，DeepSeek pro 也行（性价比 + USTC 免费 fallback）

3.2 怎么决定 secondary/tertiary/quaternary

必须跨 vendor（避免同源 bias）
必须有 OpenAI-兼容 endpoint（避免重写 client 代码）
优先有免费额度（USTC / 试用）

4. OpenAI 兼容 API 的实操踩坑

4.1 BACKENDS 配置（本模块作者真实代码）

BACKENDS = {
    # 主：claude via 火山引擎 ARK
    "ark_claude": {
        "model": "claude-3-5-sonnet",
        "base_url": "https://ark.cn-beijing.volces.com/api/coding/v3",
        "api_key": os.environ["ARK_API_KEY"],
    },
    # 次：gpt-5.4 via 实验室中转
    "lab_gpt54": {
        "model": "gpt-5.4",
        "base_url": "http://192.210.235.131:3000/v1",
        "api_key": os.environ["LAB_API_KEY"],
    },
    # 次次：deepseek 直连
    "deepseek_pro_fast": {
        "model": "deepseek-v4-pro",
        "base_url": "https://api.deepseek.com",
        "api_key": os.environ["DEEPSEEK_API_KEY"],
        "thinking": False,
    },
    # 末：USTC 中转（免费 fallback）
    "ustc_dspro": {
        "model": "deepseek-v4-pro",
        "base_url": "https://api.llm.ustc.edu.cn/v1",
        "api_key": os.environ["USTC_API_KEY"],
    },
    "ustc_qwen36": {
        "model": "qwen3.6-chat",
        "base_url": "https://api.llm.ustc.edu.cn/v1",
        "api_key": os.environ["USTC_API_KEY"],
    },
}

4.2 LLMClient 抽象

class LLMClient:
    def __init__(self, backend_name):
        cfg = BACKENDS[backend_name]
        self.client = openai.OpenAI(
            api_key=cfg["api_key"],
            base_url=cfg["base_url"],
        )
        self.model = cfg["model"]
        self.thinking = cfg.get("thinking", None)

    def chat(self, messages, max_tokens=300, temperature=0.0):
        kwargs = {"model": self.model, "messages": messages,
                  "max_tokens": max_tokens, "temperature": temperature}
        if self.thinking is not None:
            kwargs["extra_body"] = {"thinking": {"type":
                "enabled" if self.thinking else "disabled"}}
        return self.client.chat.completions.create(**kwargs).choices[0].message.content

4.3 5 个常见踩坑

坑	症状	解法
SOCKS proxy 缺包	`httpx` 报缺 socks 支持	`pip install "httpx[socks]"`
HuggingFace HEAD 超时	embedder 加载卡住	`export HF_HUB_OFFLINE=1`
reasoner 模式返回空	qwen-reasoner / deepseek-r1 thinking 用了 300 token、返回 content=""	切到 chat 版本（qwen-chat / deepseek-v4-pro disabled thinking）
ARK InvalidSubscription	CodingPlan 未续费	fallback 到 USTC 中转
不同代理对 max_tokens 解读不一	部分代理把 thinking 也算 max_tokens	提高到 600+

4.4 fallback 链

def safe_chat(messages, primary="ark_claude", fallbacks=("lab_gpt54", "ustc_dspro")):
    for bk in (primary,) + fallbacks:
        try:
            return LLMClient(bk).chat(messages)
        except Exception as e:
            print(f"[fallback] {bk} failed: {e}")
            continue
    raise RuntimeError("all backends failed")

🌟 建议：跑长实验（>100 题）一律用 fallback chain，避免一次 503 让你重跑 1 小时。

5. scope 描述的诚实写法

跨族实验跑完后，论文里怎么写”我们测了 4 个 backbone” 是诚实度的关键。

5.1 ✅ 诚实写法（本模块作者论文）

“We pre-register two hypotheses about an alternative output-driven primitive across LLM backbones (H1a on four backbones; H1b at full scale on the primary backbone with two cross-backbone sanity checks).”

要点：

明确分开 H1a 和 H1b 的 scope
明确”full scale” vs “sanity”区分
不要把”四个 backbone”压缩成一个笼统短语

5.2 ❌ 不诚实写法

“We test our hypotheses across four LLM backbones.”

→ 隐藏了 H1b 实际只在 1 个 backbone 全量跑、其他是 sanity。

5.3 contributions 段写法

“(ii) Pre-registered refutation of two natural trigger primitives: H1a (ephemeral) tested across four LLM backbones spanning Anthropic / OpenAI / DeepSeek / Qwen, H1b (persistent) tested at full scale on the primary backbone with two cross-backbone sanity checks, with conversation-clustered bootstrap inference and pre-registered TOST equivalence tests.”

5.4 limitations 段写法

“Backbone constraint. We use claude-3-5-sonnet (primary, full-scale H1a/H1b), gpt-5.4 (secondary, H1a sanity + H1b sanity), deepseek-v4-pro (tertiary, H1a sanity + H1b sanity), and qwen3.6-chat (quaternary, H1a sanity only). The cross-backbone consistency in C1 baseline acc and direction-consistent paired Δ across all four families supports backbone-independence of the H1a negative finding; H1b cross-backbone evidence is restricted to small sanity replicates and reviewers should weight this disclosure.”

🌟 核心：scope 写得越具体，reviewer 越信你。“4 个 backbone”=空话；“primary 全量 + 3 个 sanity 各 n=96”=诚实数据。

6. 多 backbone 的统计聚合

跑完 4 个 backbone 后，数据怎么报？

6.1 ❌ 不要做的：直接平均

mean Δ across 4 backbones = (-1.50 + -5.21 + -1.04 + -1.04) / 4 = -2.20 pp

→ 错。每个 backbone 样本量不同（400 / 96 / 96 / 96），样本权重应不同；而且方差未考虑。

6.2 ✅ 推荐做的：分别报 + 方向一致性

| backbone        | n   | Δ pp   | p    | 95% CI         |
|-----------------|-----|--------|------|----------------|
| claude          | 400 | -1.50  | 0.88 | [-4.25, +1.25] |
| gpt-5.4         |  96 | -5.21  | 0.99 | [-9.38, -1.04] |
| deepseek        |  96 | -1.04  | 0.75 | [-6.25, +4.17] |
| qwen3.6         |  96 | -1.04  | 0.77 | [-6.25, +4.17] |

direction: 4/4 negative
fraction with CI excluding 0 from above: 1/4 (gpt-5.4 only)

🌟 核心：报 4 个 backbone 各自的数据，附上”方向一致性”统计。这比聚合数字更有说服力。

6.3 进阶：fixed-effect meta-analysis

如果非要给一个聚合数字，用固定效应 meta-analysis（按方差倒数加权）：

import numpy as np
def meta_analyze(deltas, ses):
    """deltas: 各 backbone Δ (pp); ses: 各 standard error"""
    weights = 1/np.array(ses)**2
    pooled = np.sum(np.array(deltas)*weights) / np.sum(weights)
    pooled_se = 1/np.sqrt(np.sum(weights))
    return pooled, pooled_se

但通常 4 个数据点太少，meta-analysis 不稳定，论文里直接列表更好。

7. 何时增加第 5 个 backbone

加 backbone 边际收益递减，不要无限加。何时加 5 号：

✅ 应该加：

前 4 个全部正向 / 负向，但有 reviewer 怀疑”是不是同源”
4 个里有 1 个反向，需要更多证据看是不是 outlier
论文要发到顶会（NeurIPS / ICLR），需要更高 robustness 标准

❌ 不应该加：

4 个已经一致方向 + 全部 CI 在同一侧
仅仅”看起来更全”
预算已经超 $20

🌟 本模块作者论文经验：4 backbone 已经把 H1a 推到 7/10 Accept；加第 5 个边际收益估计 < 0.3 分，但成本 +50%。4 个就够。

✅ 自我检验清单

单 backbone 反例：能说出至少 2 个”在 GPT 上正向但在 DeepSeek 上反转”的真实案例
4 族选择：能为自己的论文挑出覆盖 4 LLM 族的 OpenAI-兼容 backbone 组合
角色分工：能为自己的论文设计 primary 全量 + N 个 sanity 的 backbone 配比
代理踩坑：知道 SOCKS / HF offline / reasoner 空返回等坑的解法
scope 写作：能区分”H1a 在 4 个 backbone 上”和”H1b 在 1 个 backbone 上 + 2 个 sanity”两种诚实写法
统计聚合：知道为什么不该把多 backbone 的 paired Δ 直接平均
何时加 backbone：能判断当前是否需要第 5 个 backbone

📚 参考资料

概念入门

本模块第 4 章 —— 跨 backbone 数据如何配对统计
OpenAI Compatible API spec —— 4 个 vendor 都对齐的接口标准

关键论文

本模块作者论文 §4.6 “Backbone robustness” —— 4 backbone 角色分工的真实实施
Diagnosing Retrieval vs Utilization（Yuan et al., 2026）：arXiv 2603.02473 —— 多 backbone 上观察到方向反转的更早证据

行业讨论

Anthropic / OpenAI / DeepSeek / Qwen 各自 release notes —— prompt sensitivity 跨版本变化
HuggingFace Open LLM Leaderboard —— 跨族能力对比的常用参考

框架文档（如适用）

DeepSeek API：platform.deepseek.com
火山引擎 ARK：console.volcengine.com/ark
USTC LLM 中转：参考 ~/.claude/CLAUDE.md 全局配置
httpx[socks] / openai SDK —— 多代理调用的客户端基础

搜索