文章摘要
文章围绕支付授权决策中LLM与GBDT的应用展开。通过轻量基准测试对比,发现传统GBDT主导同步交易热路径,LLM更适合异步冷路径。测试显示LLM在延迟、成本、确定性上远不如GBDT,最后给出决策行动建议并提供复现代码。

在支付业务的日常讨论中,有一个反复被提及的问题:在同步交易授权流程中,大语言模型(LLM)代理能否替代传统的梯度提升树(GBDT)评分器?随着LLM代理已经能够处理原本需要资深分析师配合多个仪表盘才能完成的调查队列,很多人认为它天然适合用于交易评分环节。

为了回答这个问题,我们搭建了一个轻量基准测试工具。该测试可以在普通笔记本电脑上运行,无需专用GPU、API密钥或云服务账号。所有测试数据和结论都来自同一个Python代码仓库,你可以直接复现整个测试流程验证结果。

简短的结论是:传统机器学习模型依然主导同步交易的热路径流程,而LLM代理更适合用于异步的冷路径环节。本文后续将通过三项核心测试明确两者的适用边界,并介绍最终推荐的混合架构方案。

快速结论

  • 单核CPU上,GBDT评分器的p99延迟仅0.15毫秒;而经校准的LLM延迟模拟器(非实时API调用)显示,LLM评分器的p99延迟约为1200毫秒。而ISO 8583交易授权的整体预算仅约100毫秒。
  • 以每秒5万笔交易的规模运行1小时,GBDT评分器的成本约54美元;使用小型LLM的成本约16200美元,前沿LLM的成本则高达351000美元。以上仅为基础评分的成本,若加入代理推理流程,成本还会进一步攀升。
  • 针对完全相同的输入特征调用500次,GBDT只会返回唯一的浮点评分结果;而非确定性的LLM则会返回498个不同的结果。即使将温度参数设为0,托管式LLM推理依然可能存在非确定性输出,这使得在受监管的授权决策中,LLM评分器难以通过合规验证。
  • LLM代理在异步冷路径中能发挥重要作用:包括SAR报告起草、通过MCP类型工具收集证据,以及在人工审核前的代理校验环节。

测试边界说明

在正式展示测试结果前,我们先明确四项诚实的测试边界:

首先,本文并非断言LLM无法帮助反欺诈团队,后文会详细介绍其明确的适用场景。其次,本次对比不包含微调的表格型Transformer或深度学习表格模型,仅针对确定性梯度提升树评分器与同步授权流程中的LLM风格评分进行对比。

第三,GBDT的延迟数据来自本地CPU实测,LLM延迟数据来自校准后的分布模拟而非实时API调用,成本数据基于公开的每令牌定价计算。第四,确定性测试的结果:GBDT的确定性来自本地实测,LLM的非确定性来自模拟器复现及外部研究证据。

测试组件 数据来源 说明
GBDT延迟 本地实测 本地单核CPU基准测试
LLM延迟 模拟校准 符合对数正态分布,无需API或GPU依赖
成本 计算得出 基于2026年5月公开的每令牌定价
确定性 GBDT本地实测,LLM引用外部研究 本地测试结果结合公开学术研究证据

基准测试设计

为了让任何人都能轻松复现测试,我们做了三个核心设计选择:

首先,测试数据采用合成的ISO 8583格式交易数据,每笔交易包含20个特征,覆盖无卡交易热路径评分器实际会用到的字段:交易金额、MCC风险评分、设备使用时长、地理距离、1小时和24小时窗口内的交易速度统计、拒付历史,以及若干二进制标记。欺诈率设为1.5%,同时加入15%的隐形欺诈参数——即15%的欺诈交易样本来自正常交易的分布,以此模拟高级的欺诈模仿行为,为基准测试设置一个不可降低的贝叶斯最优错误下限。如果没有这一设置,树集成模型的PR-AUC会达到0.999左右,导致整个测试显得不够真实。

# src/fraud_benchmark/data.py (abridged)
def generate(n_rows, fraud_rate=0.015, seed=42, stealth_rate=0.15):
    rng = np.random.default_rng(seed)
    n_fraud = int(round(n_rows * fraud_rate))
    n_stealth = int(round(n_fraud * stealth_rate))
    legit  = _draw_class(rng, n_rows - n_fraud, is_fraud=False)
    overt  = _draw_class(rng, n_fraud - n_stealth, is_fraud=True)
    stealth = _draw_class(rng, n_stealth, is_fraud=False)  # mimicry
    ...

在20万条该分布的数据集上训练HistGradientBoostingClassifier后,模型在5万条的预留测试集上的PR-AUC为0.847,ROC-AUC为0.931,这是生产环境无卡交易评分器的可信指标。

为了优化GBDT的推理速度,我们对原生实现进行了调整:原本使用sklearn的predict_proba单条调用需要约14毫秒,大部分开销来自Python的验证逻辑,这并不代表生产环境中的XGBoost或LightGBM。因此我们将训练好的模型内部树结构提取为按字段划分的numpy数组,并编写了紧凑的遍历逻辑,精度与sklearn保持一致(float64级别),速度提升约100倍。

LLM评分器采用模拟方式:这是整个测试中唯一需要校准而非直接实测的部分。模拟器从对数正态分布中采样每次调用的延迟,中位数为540毫秒,σ=0.35。校准参考了三个公开数据源:主流AI硬件厂商的开源模型在专用GPU上的首token时间、开源推理框架的基准测试数据,以及主流LLM服务商公开的p50和p99延迟数据。同时模拟器会在相同输入下生成非确定性的评分结果,以匹配确定性测试的需求。

基于以上设置,我们开展了三项核心测试。

测试一:推理延迟远超ISO 8583授权预算

我们在单核CPU上对GBDT评分器进行了5000次单交易调用,同时从校准后的LLM延迟分布中抽取400次模拟调用。

GBDT的所有延迟数据都落在100毫秒的ISO 8583授权预算左侧,而LLM的所有延迟数据都落在右侧,两者没有重叠。GBDT的p99延迟为0.15毫秒,而LLM模拟器的p99延迟为1212毫秒,约为传统模型的8000倍,是整个授权预算的12倍。

这个差距背后的本质差异在于计算逻辑:梯度提升树集成仅需要对数值特征向量进行数百次分支整数比较;而自回归Transformer需要先对提示进行预填充,再逐个解码输出token,每个token都需要完成一次数十亿参数的前向传播。两者属于完全不同的计算范畴。量化和蒸馏可以缩小差距,但无法消除数值树遍历与自回归token生成之间的本质差异。

ISO 8583是信用卡发起交易消息的国际标准,采用同步通信模式。当POS终端发起授权请求时,会要求在毫秒级的窗口内得到响应,而该窗口中的大部分时间都被网络传输、消息解析、特征库查询、规则引擎评估和响应组装所占用,只有一小部分留给推理环节。如果将GBDT替换为LLM,往返时间将从32毫秒增加到563毫秒,在原本已经紧张的预算上造成5倍的超时。

LLM阵营通常会提出“我们可以用批量处理”,但在同步支付授权中无法实现:同步授权的每笔交易都来自异步的网络请求,必须在到达时立即完成评分。现代GPU推理的高吞吐量依赖于持续批量处理,即运行时将多个并发请求合并处理。如果每个批次仅包含一个请求,GPU大部分时间都会处于闲置状态,经济上的优势也会荡然无存。

测试二:成本差距高达200到6500倍

每秒5万笔交易是大型收单机构在大型零售活动期间的合理峰值流量。我们的成本模型设计为可审计的:LLM服务的成本基于公开的每令牌定价乘以固定的令牌预算,所有金额都可以从第一性原理复现。

requests/hour = TPS × 3600
cost/hour     = requests/hour × (prompt_tokens × input_price
                                 + response_tokens × output_price) / 1,000,000

我们的假设条件为:50000 TPS,每次评分调用包含400个token的提示,以及50个token的 approve/decline 回复。小型LLM tier的定价为每百万输入令牌0.15美元,每百万输出令牌0.60美元;前沿LLM tier的定价为每百万输入令牌3美元,每百万输出令牌15美元,均为2026年5月的公开定价。表格型评分器的成本基于摊销后的CPU基础设施计算,而非令牌计费。

普通CPU上的LightGBM每小时成本约54美元,XGBoost约72美元;而小型LLM tier的每小时成本为16200美元,前沿LLM tier则高达351000美元。即使以小型模型的最低成本计算,LLM的账单也约为表格型模型的225倍,前沿模型则达到6500倍。

这些还是乐观的估算:实际的代理推理流程,包括工具调用、思维链token和多步骤审议,会将输出令牌预算增加10到50倍,进而推高总成本。如果每笔交易都需要一次完整的代理调查,前沿LLM tier的每小时成本将达到数百万美元。

该估算还假设批次大小为1,这正是同步授权的实际情况。GPU的经济优势依赖于多请求的持续批量处理,托管式API会将这部分成本分摊给所有租户,但最终用户仍需支付每令牌的费用。

此时,与供应商的讨论已经不再是技术问题,而是算术问题:一家每天处理10亿笔交易的大型发卡机构,其每日推理成本将从数百美元飙升至数万美元甚至数百万美元,同时不会带来精度上的提升。底层数据都是结构化的表格型数值数据,语言模型并没有天然的处理优势,而树集成模型在结构化数据上的主导地位已经持续多年,这一格局并未发生变化。

测试三:相同输入产生不同输出

第三项测试才是决定银行能否在热路径中部署LLM的核心因素,无论前两项测试的结果如何变化。

银行的模型风险监管建立在可复现性的基础上。2011年美联储和OCC的模型风险指导意见在2026年4月被跨部门的修订版本取代。新规定要求,影响客户或接受监管审核的模型(包括拒付、账户限制、警报升级等)必须经过独立验证,即由客观审核人员测试模型假设并按需复现其输出结果。如果模型对相同输入返回不同的结果,就无法提供这种可复现的验证证据。

# src/fraud_benchmark/benchmark.py: determinism experiment
def determinism(scorer, n=500, seed=7):
    score_fn = getattr(scorer, "score_only", scorer.score_one)
    x = single_payload(seed=seed)
    outputs = np.array([float(score_fn(x)) for _ in range(n)])
    rounded = np.round(outputs, 6)
    return DeterminismSummary(
        distinct_count=int(np.unique(rounded).size),
        spread=float(outputs.max() - outputs.min()),
        std=float(outputs.std()),
        n=n, outputs=outputs,
    )

针对每个评分器调用500次完全相同的特征向量:GBDT500次都返回相同的float64评分,而模拟的LLM返回了498个不同的结果,结果分布的跨度为0.51,标准差为0.077。

这并非温度参数的问题:即使将温度设为0、固定随机种子、锁定模型版本,在典型的托管或高吞吐量部署中,依然会得到不同的结果。根源在于API底层的实现:GPU内核中的浮点运算关联性取决于归约顺序,持续批量处理会重新排序请求间的注意力计算,张量并行集群中的大多数配置都会使用非确定性的AllReduce操作。2025年9月的公开学术研究显示,即使使用贪婪解码,相同的请求也会返回数十个不同的结果,同时也证明可以通过批处理不变内核消除这种漂移,但会带来吞吐量成本。

对于受监管的反欺诈评分器来说,这是核心问题:如果监管审核人员询问某笔交易被拒的原因,机构需要提供可复现的追踪记录。带有固定特征向量的版本化树模型可以为审核人员提供确定性评分、规则追踪和TreeSHAP归因,这是一个可按需复现的审计包。而非确定性的LLM输出无法提供任何可提交给审核人员的证据。

代理的合适场景:异步冷路径

既然热路径属于确定性树集成模型,那冷路径——即交易被标记后的异步工作流程——又如何呢?

冷路径的工作包括证据收集、案件分类、叙事撰写、SAR报告提交和人工审核,延迟以分钟到小时为单位,而非毫秒。这里的确定性约束更宽松,因为在采取任何不利行动前都会有人工审核;成本约束也不同,因为只有1%到5%的交易会进入这一环节。

这正是LLM代理擅长的工作场景。

我们最终推荐的架构包含两个物理隔离的层级。热路径是流式处理管道:包括Kafka数据摄入、Flink从在线特征库获取特征、GBDT评分器输出概率和TreeSHAP归因、规则引擎将评分和原因代码转换为三种决策:通过、拒付或挑战。所有交易都会经过这一层,所有决策都是确定性、可审计且数学上可复现的。

被标记为挑战的交易通过队列转移到冷路径,这里就是LLM代理的运行场景:主管接收警报并分派 specialist,地理分析师通过MCP类型工具查询设备和IP历史,时间分析师提取账户的速度基线,外部情报分析师查询联合风险数据源,起草人员按照规范结构合成符合要求的叙事文本, adversarial judge在人工审核前对照原始证据台账交叉检查草稿中的每一项声明,最后由人工操作员签字确认。

在生产环境中,每个代理都是一次LLM调用,每个MCP工具都是针对真实后端的类型化JSON-RPC客户端,而judge环节会生成自己的审计追踪。该追踪是对每一项声明的有文档记录的独立审核,符合模型风险监管的要求。基准测试仓库提供了一个仅使用标准库的编排草图,约200行代码,因此无需搭建真实的运行环境就能理解其架构。

校验代理:在人工审核前捕捉幻觉

冷路径中最重要的代理并非起草人员,而是校验代理。

# scripts/cold_path_demo.py (abridged)
def judge(draft, evidence, alert):
    issues = []
    evidence_dict = evidence.as_dict()
    for claim in draft.claims:
        resolved = _resolve(evidence_dict, claim.source_key)
        if resolved is None:
            issues.append(f"unresolved source_key {claim.source_key!r}")
            continue
        if not _claim_cites_value(claim.text, resolved):
            issues.append(f"claim does not cite {resolved!r} from {claim.source_key!r}")
    return JudgeVerdict(approved=len(issues) == 0, issues=issues)

起草人员会生成叙事文本和结构化的声明对象列表,每个声明都带有类似geo.distance_km或external.consortium_risk的点分源键,用于解析主管生成的证据台账。校验代理会遍历每一项声明,查找对应的值,如果出现以下两种情况之一,则拒绝通过:一是源键引用了从未收集的证据,二是声明文本并未实际引用其声称来源的值。

基准测试的测试套件会植入两种幻觉并验证校验代理能否捕捉到:第一种是未解析的源键,比如声明引用了不存在的字段;第二种是数值偏差,比如源键解析正确,但声明文本虚构了数值。这两种情况都会被拦截。起草人员和校验代理之间的审议日志本身就是可被发现的独立审核证据,符合模型风险审核人员的要求。

这种代理即校验的模式可以推广到任何需要生成可被审核人员后续审计的结构化输出的冷路径代理。在本场景中,这一模式尤为关键,因为替代方案是要求分析师手动验证每篇LLM起草的报告中的每一行内容。目前,相关报告起草每起案件需要消耗分析师数小时到数天的时间,而经过校验代理验证的代理流程可以大幅压缩这一时间,而校验代理正是让这种压缩变得安全的关键环节。

最初的认知偏差

在开始这项测试时,我们原本认为反对在热路径中使用代理的核心论据是成本,但实际测试显示,延迟和可复现性才是更根本性的问题,而且这两者不像成本那样容易随着时间推移而改善。

成本是可以调整的:2022年,前沿模型的每百万输入令牌成本约为30美元,到2026年,同类前沿模型的成本仅约4美元。到本十年末,成本再降低两个数量级是合理的,基准测试中的差距会缩小,但不会消失——因为批处理大小为1的约束抵消了大部分GPU的经济优势。

延迟虽然更难改善,但并非不可能: speculative decoding、专用推理加速技术都可以缩短首token时间。未来几年内,在短时间内运行小型蒸馏欺诈专用模型的专用芯片是可以想象的。

可复现性是三项指标中最难改善的,尤其是在主流的托管或高吞吐量推理场景中。这取决于GPU底层的算术运算方式和上层的软件栈。公开研究表明,可以通过确定性内核、固定批处理顺序和受限的集体通信操作解决这一问题,但这些修复措施会带来实际的吞吐量成本,目前没有任何托管API提供商默认提供这些功能,而在本地部署这些功能则会抵消购买GPU所获得的计算效率优势。

监管环境的变化也值得关注:2026年4月修订的美国跨部门模型风险指导意见明确将生成式和代理式AI排除在适用范围之外,理由是它们“新颖且快速发展”。但这并非绿灯,这意味着目前没有成熟的监管流程来验证非确定性模型在影响客户的决策中的使用。将LLM放在授权热路径中的机构,是在监管审核人员之前部署该技术,但仍需要向他们提供树模型可以轻松提供、而LLM无法提供的答案:解释拒付原因、复现评分、展示验证证据。欧盟相关法案也指向了相同的方向,核心都是要求模型行为可复现、可独立审核。

我们的预测是:随着LLM推理的延迟和成本不断改善,基于这两点的授权路径争论会逐年减弱,但可复现性的争论会持续存在。在受监管的工作流程中,将非确定性评分器用于影响客户的决策很难站得住脚——并非因为有单一的禁止规则,而是因为整个模型风险体系都是围绕复现和独立质疑模型输出构建的,而这正是非确定性模型无法提供的。监管指南会不断演进以覆盖生成式和代理式系统,但可复现性始终会是核心问题。

面对该决策时的行动建议

1. 热路径保留确定性评分器:使用XGBoost、LightGBM或CatBoost在表格型特征上训练,并通过在线特征库提供服务。将p99延迟与严格的预算进行对比,如果预算紧张,可以先投资专用推理工具,而非其他技术。

2. 将边缘案例路由到冷路径:将队列设计为架构的一等组件,而非事后补充,假设1%到5%的授权交易会进入该环节。

3. 从一开始就围绕代理构建冷路径:使用主管加 specialist 的模式配合专用工具,实现可组合的证据收集,并在任何内容到达人工审核前加入代理校验环节。

4. 将叙事报告生成作为最高优先级的首次部署目标:每起案件可以节省数小时的分析师时间,格式有明确规范,监管机构对可接受输出的标准也很明确。

5. 不要将冷路径代理与热路径决策绑定:挑战标记只是队列消息,而非回调,保持授权层的物理独立性。

6. 对校验环节进行记录:审议日志是可被发现的独立审核证据,且记录成本低廉。

如果你想要复现本文中的所有数据,相关代码可在公开代码托管平台获取。只需运行两个命令即可在笔记本电脑上于一分钟内复现所有图表。冷路径编排的草图包含约200行代码,共有数十个测试覆盖各个模块,在你的硬件上也会看到类似的差距。


塔猴是一个专注于为用户提供系统学习、内容创作与商业连接的AIGC综合服务平台,致力于为每一位AI探索者打造理想的创作、成长家园。在塔猴,你不仅可以学习众多AIGC类实战课程,获得与时俱进的AIGC技能和视野,还有机会获得长期商业合作和接单机会!点击进入:https://www.tahou.com/

AI生成内容提示:本文由人工智能辅助创作,内容仅供参考,不代表平台观点。请注意核实信息的准确性,并理性判断。

以上内容不代表本平台立场,仅供读者参考