正文目录

不愧是国内首个视觉编程模型，一张草稿图直接做了一个电子版City Walk

2025-12-18 09:26:14

AI 决策支持

代码生成

文章摘要

Doubao-Seed-Code 的革命性，不在于它“能写代码”，而在于它终于看懂了人类的意图。过去，我们写需求文档，像给外星人写说明书： “请在页面左上角放一个地图，右下角放一个按钮，点击后触发随机算法，返回3个兴趣点，用蓝色字体，字体大小16px，悬停有阴影……” 而今天，我们只需画一张草图，说一句：“帮我做出来。” 它知道： - 哪里是按钮，哪里是地图； - 哪里该有动画，哪里该有真实

“City Walk”太费腿？那就让AI替你走一遍。

本文记录我如何用 Doubao-Seed-Code —— 国内首个具备原生视觉理解能力的AI编程模型，把一张手绘草图变成一个可交互的“电子城市漫步”应用。全程零代码基础，仅靠对话完成编程。

一.背景

“City Walk”——城市漫步，曾是年轻人逃离内卷的诗意解药：绿灯直行、红灯拐弯、路口掷骰子、遇见小店就进去坐坐，拍一百张照片，只为记录一条无人知晓的小巷。它不为打卡，只为“瞎溜达”。

但对我这种能坐绝不站、能躺绝不坐的懒人来说：

“走1公里，拍100张照，找3家店，最后发现没带充电宝。”

于是，我灵机一动：为什么不做一个“电子版City Walk”？如果有合适的，我在出门。

不用出门，打开网页，点击“开始漫步”，AI就带着我在城市里“瞎溜达”——绿灯直行、红灯拐弯、路口掷骰子，还能推荐路边的宝藏咖啡馆和涂鸦墙。

左侧为草稿图，右侧为使用 Doubao-Seed-Code 编程的效果。

二.相关介绍

工具选择：为什么是 Doubao-Seed-Code？

Doubao-Seed-Code 是一款专为 "Agentic Coding"任务深度优化的全新代码模型。它为真实的、复杂的编程任务而设计，在长上下文理解、任务规划、代码生成与调试方面均有卓越表现。

我试过多个主流AI编程模型（Claude 3.5、GPT-4o、GLM-4、DeepSeek-Coder），但它们要么：

❌ 无法理解图片（只能靠文字描述）
❌ 生成的界面五花八门，完全偏离草图
❌ 需要手动拆解“地图+随机路线+骰子+POI推荐”等复杂逻辑，效率极低

直到我发现了 火山引擎的 Doubao-Seed-Code。

✅ 它的三大杀手锏，直接击中我的痛点：

能力	普通模型	Doubao-Seed-Code
视觉理解	❌ 依赖OCR/文本转述（信息丢失）	✅ 原生VLM，直接看图写代码，0损失
长上下文	通常≤32K	✅ 256K，整项目代码+图片+需求全塞进去
成本	业内均价高	✅ 综合成本低62.7%，首月9.9元起

关键点： 它不是“能看图”，而是真正理解图中的布局、交互、语义关系——比如我草图里左下角的“骰子”和“向右喝咖啡”，它知道那是两个独立的交互模块，不是随便画的装饰。

三.全程“对话式开发”

前置准备

虽然使用的是Doubao-Seed-Code这个国内首个具备视觉理解能力的编程模型，但是这在他的人家官方公司，我们没办法直接用，所以可以通过 Claude Code去调用 Doubao-Seed-Code ，另外，在火山方舟平台也是提供API调用。

仅需 5s 在Claude Code 丝滑接入 Doubao-Seed-Code

在启动 Claude Code 前输入环境变量（以Windows为例）：

setx ANTHROPIC_AUTH_TOKEN ARK_API_KEY

setx ANTHROPIC_BASE_URL https://ark.cn-beijing.volces.com/api/coding

setx ANTHROPIC_MODEL doubao-seed-code-preview-latest

📌注意：<ARK-API-KEY>换为你自己的，来这里获取 -> https://console.volcengine.com/ark/region:ark+cn-beijing/apikey

📚如果有不会的地方可以看官方教程来配置：https://www.volcengine.com/docs/82379/1928262

真消费才敢说真话。

使用指令导航到指定目录，并启动claude:

C:\Users\18432> D:

D:\> cd 目标

D:\目标>claude

可以看到如图所示成功启动并使用Doubao-Seed-Code模型，兼容了原本的 Anthropic API，对于使用Claude Code的开发者，几乎零成本将 API 切换到 Doubao-Seed-Code，完全无缝，像换了“引擎”，但方向盘还是原来的。

🖼️ 图片理解测评

听说 Doubao-Seed-Code 是国内首个具备视觉理解能力的编程模型，我直接把我本次的草稿图直接给了他，看他理解的怎么样？

草稿图原图（其中有多个地名为干扰选项）

💡 不是“猜”出来的，是“看懂”了。

VLM训练需要专业团队和数据积累，有一定技术壁垒，doubao 系列模型一直以来视觉理解能力非常强，Seed-Code 模型保持了这个优势，在国内，要么模型不具备视觉理解能力，要么需要依赖MCP实现，将图片转化成语义描述供模型理解，过程中消耗token，效果远不及原生VLM能力，项目开发，只有真正的理解，才能大幅提升前端开发效率。

📌 实战 AI 开发

直接把下面的提示词扔给他

请帮我设计并生成一个“电子版City Walk”项目方案。规则如下：

1.项目简介：

电子版City Walk基于“瞎溜达”理念，模拟城市漫无目的漫步。

遵循“绿灯直行，红灯拐弯，遇路口随机选择方向”的逻辑生成步行路线。

路线生成结合兴趣点推荐，重点推介小众有趣的咖啡馆、小店、街头艺术等。

用户可以线上“电子走一遍”这条路线，查看地图和沿途店铺景点卡片。

支持路线保存、复盘和分享。

2.主要功能需求：

地图展示与交互（基于高德基础地图API，直接使用我的API： fdda8428fc94）：显示地图、起点、动态路线与兴趣点标记。

起点选取与定位功能：自动定位或手动选择起点城市和具体位置。

路线生成规则：结合步行路径规划API和随机决策算法，实现仿真“红绿灯”及“猜拳”路口选择。

沿途兴趣点推荐模块，智能筛查高评分非连锁商店和特色地点。

电子City Walk模拟导航，用户可点击“下一步”体验虚拟行走过程。

路线生成后自动生成图文路线作品，支持用户收藏和分享。

后续拓展包括路线评价、个性化推荐和自然语言描述。

3.技术架构

采用前后端分离的方式去写代码，后端用Python代码，地图展示与交互（基于高德基础地图API，直接使用我的API： fdda8428fc9485f355b24b1c76f6f147）

4.草稿图如附件（（仅为例子，全部具体实现））

背景是当前的位置，会根据高德自动找到前方路口，选择路线会出现的兴趣点推荐

左下角展示（仅为例子，你具体实现）：

本次随机的结果

向右可以喝咖啡(咖啡的特色）

向左可以吃烧烤（这家烧烤..…..网上的具体评价等）

右下角展示

一个随机展示筛子

绿灯直行，红灯拐弯（筛子左右）

第一次生成的效果如下：

虽然没有具体使用高德，但是在这个的布局上和我的草稿没有什么区别。

迭代：多轮对话，越聊越准

为让效果更好，我们多尝试、跟模型多轮对话，效果好于一次性对话

接下来就是漫长的迭代~

第一次生成的版本，骰子是静态图片。我说：“让它能转起来，像真骰子一样。”

它立刻改成了CSS动画 + JS随机数控制。

我说：“咖啡馆的推荐文案太假了，要真实评价。”

它从网络抓取了真实用户对“北京胡同咖啡馆”的点评，自动生成了3条风格迥异的文案。

我说：“能不能加个‘暂停’按钮？”

它加了，还顺手做了个“进度条”和“已走距离”。

全程无代码干预，纯对话。

看看最终效果吧~

左侧为草稿图，右侧为使用 Doubao-Seed-Code 编程的效果。

下面是生成的README.md的文件，准确的识别了图片，以及分析图片所描述的功能等。

# 电子城市盲盒 - 随机城市漫步导航应用

## 项目简介

电子城市盲盒是一款创新的城市漫步导航应用，通过随机路线生成和交互式导航，让用户体验充满惊喜的城市探索之旅。用户只需选择起点，系统将随机生成一条充满未知的路线，并在旅途中提供实时导航、兴趣点推荐和随机事件（如红绿灯决策），使每次漫步都充满新鲜感。

## 核心功能

### 🎲 随机路线生成

- 基于起点位置智能生成1-5公里的随机探索路线

- 结合高德地图API实现真实道路导航

- 支持路径随机化，每次生成不同的探索体验

### 🚦 交互式决策系统

- 基于骰子结果的红绿灯决策机制

- 提供多种可能的行进方向选择

- 增强游戏化体验和探索趣味性

### 📍 智能兴趣点推荐

- 沿途兴趣点自动发现和推荐

- 支持多种POI类型（咖啡厅、书店、公园、艺术馆等）

- 丰富用户探索体验和文化发现

### 🧭 沉浸式导航体验

- 实时地图显示和路线追踪

- 步骤式导航指引和进度显示

- 暂停/继续功能，灵活控制探索节奏

### 📸 路线作品生成与分享

- 一键保存完整路线信息和探索轨迹

- 自定义路线标题和描述

- 生成分享链接和二维码，分享您的探索故事

## 技术架构

### 前端

- **框架**: React 18 + Vite

- **地图集成**: 高德地图JavaScript API

- **状态管理**: React Hooks

- **样式方案**: styled-components

- **UI组件**: 自定义React组件

### 后端

- **框架**: FastAPI

- **地图服务**: 高德地图REST API

- **业务逻辑**: 路线生成算法、红绿灯决策系统、POI搜索服务

- **部署**: Uvicorn ASGI服务器

## 快速开始

### 前置条件

- Python 3.8+

- Node.js 16+

- npm 8+

### 安装与运行

#### 1. 克隆项目

```bash

git clone [仓库地址]

cd 电子城市盲盒

```

#### 2. 配置环境变量

##### 后端配置

在 `backend/.env` 文件中添加以下内容（可选）：

```

AMAP_KEY=your_amap_api_key

```

> 注意：项目已配置模拟模式，无需API Key也可运行基本功能

##### 前端配置

在 `frontend/public/index.html` 中配置高德地图API：

```html

```

#### 3. 启动后端服务

```bash

cd backend

pip install -r requirements.txt

python main.py

```

后端服务将运行在 http://localhost:8000

#### 4. 启动前端服务

```bash

cd ../frontend

npm install

npm run dev

```

前端服务将运行在 http://localhost:3000

## 使用指南

1. **选择起点**: 在地图上点击选择您的出发位置

2. **生成路线**: 点击"生成路线"按钮，系统将创建一条随机探索路线

3. **开始漫步**: 查看路线详情，点击"开始漫步"进入导航模式

4. **决策互动**: 遇到路口时，掷骰子决定行进方向

5. **探索兴趣点**: 沿途发现感兴趣的地点，可暂停导航进行探索

6. **完成旅程**: 到达终点后，查看完整的探索记录

7. **保存路线作品**: 填写路线标题和描述，保存您的探索轨迹

8. **分享探索故事**: 获取分享链接或扫描二维码，与朋友分享您的城市漫步体验

## 项目结构

```

电子城市盲盒/

├── backend/ # 后端服务

│ ├── app/

│ │ ├── api/ # API路由

│ │ ├── services/ # 业务逻辑服务

│ │ └── config/ # 配置文件

│ ├── main.py # 应用入口

│ └── requirements.txt # 依赖列表

├── frontend/ # 前端应用

│ ├── src/

│ │ ├── components/ # React组件

│ │ ├── services/ # API服务

│ │ ├── App.jsx # 主应用组件

│ │ └── main.jsx # 应用入口

│ ├── public/ # 静态资源

│ └── package.json # 依赖配置

└── README.md # 项目说明文档

```

## 特色功能

- **模拟模式**: 无需真实API Key也能体验完整功能

- **随机算法**: 基于真实道路的智能随机路线生成

- **游戏化设计**: 骰子决策机制增强探索趣味性

- **响应式UI**: 适配不同屏幕尺寸的设备

- **实时交互**: 流畅的地图操作和导航体验

## 开发说明

### 后端开发

- API文档: http://localhost:8000/docs

- 主要模块:

- `RouteGenerator`: 路线生成服务

- `TrafficLightManager`: 红绿灯决策服务

- `POISearcher`: 兴趣点搜索服务

### 前端开发

- 组件结构:

- `MapComponent`: 地图显示和交互

- `ControlPanel`: 控制面板和交互

- `DiceComponent`: 骰子组件

- `NavigationComponent`: 导航指引

- `POICard`: 兴趣点卡片

- `RouteWorkComponent`: 路线作品生成和分享

## 许可证

MIT License

## 致谢

- 高德地图API提供地图数据支持

- React、FastAPI等开源技术栈

- 所有为项目贡献代码的开发者

---

*让城市探索充满惊喜，开启您的随机漫步之旅！* 🌆🎲✨

项目架构如下：

四.对比：为什么它赢了？

除了Doubao-Seed-Code，我用2个国外的模型进行了对比，做了相同任务：。

Doubao-Seed-Code生成的效果：

模型一：

仅简单的界面，其余功能都未实现。

模型二：

无法理解图片，仅生成了记得的前端，用的AI常用的紫色配色。

对比表如下：

模型	是否理解图片	是否生成完整项目	是否还原布局	成本（估算）
Doubao-Seed-Code	✅ 原生VLM，精准还原	✅ 前后端齐全，功能完整	✅ 100%还原草图	¥0.34（0-32K区间）
模型一	❌ 仅靠文字描述	⚠️ 只生成前端UI，无后端逻辑	❌ 配色乱、布局错	¥4.05
模型二	❌ 无视图片	❌ 生成“标准模板”，紫色主题，无交互	❌ 完全跑偏	¥2.10

📌 Doubao-Seed-Code的输入价格：1.20元/百万Token，输出8.00元/百万Token

在相同任务下，成本不到Claude的1/10，且效果碾压。

五.总结：它不是工具，是“懂你”的伙伴

Doubao-Seed-Code 的革命性，不在于它“能写代码”，而在于它终于看懂了人类的意图。

过去，我们写需求文档，像给外星人写说明书：

“请在页面左上角放一个地图，右下角放一个按钮，点击后触发随机算法，返回3个兴趣点，用蓝色字体，字体大小16px，悬停有阴影……”

而今天，我们只需画一张草图，说一句：“帮我做出来。”

它知道：

哪里是按钮，哪里是地图；
哪里该有动画，哪里该有真实评价；
哪个“咖啡杯”不是装饰，而是故事的起点。

它不靠你“说清楚”，它靠你“画出来”。

这不是AI编程的进化，这是人机协作范式的跃迁。

“以前是人教AI怎么干活，现在是AI看懂人想干嘛。” —— 这才是真正的“原生智能”。

为什么这很重要？

降低技术门槛：设计师、产品经理、普通用户，都能直接“画出产品”。
提升创作效率：从“写5000字需求”到“画5分钟草图”，效率提升10倍。
释放创造力：不再被语法、框架、API文档束缚，专注“我想做什么”。
重塑开发流程：未来，产品经理画原型 → AI生成代码 → 测试上线，三步完成。

这不是未来，这是现在正在发生的现实。

我用9.9元，让AI替我走了一条从未走过的城市小巷。我没有出门，但我“走”过了整座城。

当AI能读懂你的草图，它就不再是工具，而是你思维的延伸。

🌆 真正的City Walk，不是用脚走，而是用心看。 而现在，AI，替你看了。

以上内容不代表本平台立场，仅供读者参考