正文目录

遗留代码考古学：如何用长文本模型读懂 5000 行屎山代码

我真的没招了

2025-12-01 16:23:15

文章摘要

今天小招就带大家实战：如何用 AI 拿着手术刀，把这坨代码拆解得明明白白。

作者：小招 | 栏目：程序员 AI 提效指南

前言：面对“古董”的颤抖

大家好，我是小招。每位程序员的职业生涯中，都有那么一个至暗时刻：你接手了一个离职三年的前同事留下的核心模块。

打开文件一看，单文件 5000 行，变量名叫 data1, temp_obj, flag_X，缩进仿佛在跳探戈，没有任何注释。最可怕的是，这个模块还是线上的印钞机，动一行代码，可能就会导致全站崩溃。

我们管这叫“屎山”（Spaghetti Code），但为了听起来体面点，今天我们称之为“遗留代码考古”。

以前，啃这块硬骨头需要一周的咖啡和脱发。但今天，有了支持长上下文（Long Context）的 AI 模型（如 Claude 3.5 Sonnet 或 Kimi），我们只需要 10 分钟就能画出它的“骨骼图”。

今天小招就带大家实战：如何用 AI 拿着手术刀，把这坨代码拆解得明明白白。

01. 工具选型：为什么必须是长文本模型？

在开始“考古”之前，必须选对铲子。

普通的 AI 模型（如早期的 GPT-3.5 或小参数模型）上下文窗口通常只有 4k - 8k tokens。5000 行代码丢进去，模型会“失忆”，它记得开头忘了结尾。

我们需要的是“大内存”选手：

Claude 3.5 Sonnet: 目前公认的代码逻辑最强模型，支持 200k tokens（约等于 15 万个单词或 1-2 本书）。它的逻辑推理能力极其适合分析复杂的函数调用链。
Kimi (Moonshot AI): 国内长文本之王，支持 200k - 200万 tokens。如果你的项目包含几十个文件，需要跨文件分析，Kimi 的文件读取能力是首选。

02. 第一步：全量投喂与宏观拓扑

千万不要把代码一段一段复制给 AI，那是大忌！这就好比让人通过管中窥豹来画大象。

正确姿势：

Claude: 使用 Project 功能或直接上传 .java / .py / .js 文件。
Kimi: 直接拖拽文件上传。

文件投喂后，我们需要先让 AI 扮演一位“考古学家”，给我们一份地质勘探报告。

宏观分析 Prompt 模板：

Role: Senior Technical Architect
Task: Analyze the uploaded file [LegacyCore.java]
请执行以下步骤：

【高层概览】用最通俗的语言（假设我是新入职员工）解释这个文件主要负责什么业务逻辑？
【核心链路】列出该文件中最重要的 3 个入口函数（Public Entry Points）。
【代码异味】指出代码中复杂度最高、最危险的“上帝类”或“上帝函数”。

这一步能让你在 1 分钟内知道：这到底是个购物车模块，还是个支付网关？

03. 第二步：依赖分析与可视化（Mermaid 大法）

读代码最累的是什么？是脑子里记不住变量的跳转。

“这个 status 在第 200 行变了，在第 500 行又被重置了...”

我们要利用 AI 的可视化代码生成能力，把逻辑画出来。

依赖可视化 Prompt 模板：

针对函数 processOrder()，请帮我梳理它的内部执行逻辑：

识别它调用了哪些私有方法？
识别它修改了哪些全局变量或类成员变量（Side Effects）？
【关键】请输出一段 Mermaid 格式的 Flowchart 代码，展示数据的流向和判断逻辑。

拿到 Mermaid 代码后，直接粘贴到 Notion 或 Mermaid Live Editor 中，一张清晰的流程图就出来了。

小招 Tip：这一步能帮你发现很多**“隐形地雷”**，比如某个不起眼的函数竟然悄悄改了全局配置。

04. 第三步：重构手术——从注释开始

到了这一步，千万别冲动去重写代码。对于屎山，最好的重构是先写注释，再拆分。

我们可以利用 Claude 3.5 Sonnet 强大的逻辑能力，进行**“原地无痛重构”**。

策略 A：补充文档注释 (Javadocs/Docstrings)

请不要修改 processOrder() 的任何逻辑代码，仅为其每一行关键逻辑添加详细的注释。
注释要求：解释“为什么这么做”（Business Context），而不仅仅是“做了什么”。

策略 B：提取复杂函数 (Extract Method)

当一个函数长达 500 行时，我们可以让 AI 帮我们要拆解建议：

函数 `calculateComplexTax` 的圈复杂度（Cyclomatic Complexity）太高。
请应用“Extract Method”重构手法：
1. 识别出其中相对独立的逻辑块。
2. 将其重构为 3-4 个小的私有函数。
3. 展示重构前后的代码对比，并保证逻辑 100% 等价。

⚠️ 警告：在没有单元测试覆盖的情况下，尽量不要直接采用 AI 生成的重构代码上线。先用它来理解思路，然后手动小心修改。

小招总结

面对几千行的遗留代码，恐惧*“不可知”。长文本 AI 模型就像是一台X 光机。它不能直接帮你把病治好（代码还得你自己改），但它能瞬间透视内部结构，告诉你哪里骨折了、哪里长了肿瘤。你会发现，那座不可逾越的“屎山”，其实也只是由一个个简单的 if-else 堆出来的沙堡而已。

下期预告：代码看懂了，怎么保证改了不出 Bug？下期我们聊聊——《测试驱动开发 (TDD) 新解法：AI 帮你写出 100% 覆盖率的 Unit Test》。

(本文工具建议：涉及敏感代码请务必使用企业版或检查公司合规政策，个人学习项目推荐使用 Kimi 网页版或 Claude Pro)

以上内容不代表本平台立场，仅供读者参考