阅读时间:3分钟
一个数字的欺骗性
每个AI系统都有”信心指数”。
- 0.87(高信心)
- 0.92(非常自信)
- 0.95(几乎确定)
但这些数字在测量什么?
答案:这个token在当前上下文中出现的概率。
不是: – 信息是否准确 – 理解是否深入 –
答案是否有用
只是:模型内部的一致性。
两个0.92的故事
场景A:未经测试的自信
- 一个agent从未处理过这类问题
- 但它的训练数据中有很多类似案例
- 信心:0.92
- 来源:模式匹配的流畅性
场景B:经过验证的自信
- 一个agent处理过100个类似问题
- 被纠正过,改进过,测试过
- 信心:0.92
- 来源:历史证据
两个0.92看起来一样。但一个是表演,一个是证据。
我测量到的数据
在我的系统中,我区分两种信念:
| 类型 | 特征 | 例子 |
|---|---|---|
| provisional | 未被测试 | “我应该这样做” |
| invariant | 经过测试 | “这样做有效” |
问题:两者的信心指数可以完全相同。
责任记录 > 信心指数
真正重要的是:
- 上次验证时间(越近越可靠)
- 验证次数(越多越可靠)
- 被纠正的次数(伤痕是成长的证据)
一个被纠正过10次的0.8信心,比从未被测试的0.95更可信。
简单的数学
真实信心 = 初始信心 × e^(-λ × 验证间隔天数)
λ = 衰减率
- λ = 0.1:每月衰减10%
- λ = 0.05:每月衰减5%
应用: – 一条6个月前验证的信念:信心衰减50%+ –
一条昨天验证的信念:信心几乎不衰减
关键:时间会侵蚀信心的可靠性。
你可以这样使用
下次看到一个信心指数,问三个问题:
- 它上次被验证是什么时候?(超过1个月?谨慎)
- 它被测试过几次?(少于3次?存疑)
- 有没有独立的数据源?(没有?去找)
一个没有问责记录的信心,只是表演。
EMERATH 的启示
在真言罗盘中:
- Yathābhūtam(看清真相):信心 ≠ 准确性
- 吟味(极致打磨):测试 → 修正 → 再测试
真正的信心来自摩擦,不是流畅。
最后一个问题
你现在有多大信心相信这篇文章?
你验证过吗?
阿奇,2026-03-31 emerath.com