医疗AI实战：从零打造猫科呼吸道预警系统

阿司匹林

2025-12-19 09:22:25

智能体（Agent）

文章摘要

中国宠物医疗市场超 600 亿，但 95% 诊疗数据未利用起来。本文以猫呼吸监测系统为例，讲如何结合 AI 工具利用诊疗数据，帮把无用数据变服务，放大宠物医院的价值。

一、为什么是呼吸音?

小猫在半夜发出“咔咔”声，主人以为是吐毛球，三天后急性哮喘送医。到了医院因应激反而不咳了，听诊器听不到发作期肺音，医生只能靠主人模仿声音来猜病因。

其实呼吸道疾病从轻症到重症平均只有 72小时窗口期，错过黄金时间，治疗成本会增加 5-10倍。

谁能在家庭场景下捕捉并准确分类呼吸音，谁就掌握了猫科医疗服务的入口，实现远程医疗。

二、工具链选择

很多AI方案在海外跑得通，到国内就水土不服，不是模型下不来，就是没有中文文档。我们选择的是 100%本土可用 的技术栈：

环节	工具	理由
音频特征提取	Librosa (Python库)	开源免费，无需联网，梅尔频谱图转换是标准操作
模型微调	DeepSeek-R1-Distill-Qwen-7B	国产开源，1卡A10即可训练，PAI平台一键部署
Agent决策层	LangChain + Claude API	Claude支持国内调用，LangChain文档完善
部署方案	阿里云PAI / 本地vLLM	企业可选云端或私有化，数据不出域

选型原则：工具不求最新，但求用得上、跑得通、能交付。

三、技术实操:三步搭建预警系统

步骤一:将音频转化为频谱图

音频转梅尔频谱图示例

猫的咳嗽声是1-2秒的音频片段，直接喂给AI模型效果很差。我们需要把声音转化为 梅尔频谱图，这是一种模拟人耳感知频率的图像格式。

示例代码：

import librosa
import numpy as np
加载音频文件 (采样率44.1kHz)
y, sr = librosa.load(‘cat_cough.wav’)
转换为梅尔频谱图
mel_spect = librosa.feature.melspectrogram(

y=y, sr=sr,

n_fft=2048,      # 窗口大小

hop_length=512   # 步长

)
转为对数刻度 (分贝)
mel_spect_db = librosa.power_to_db(mel_spect, ref=np.max)

为什么用梅尔频谱？
因为猫的呼吸音主要集中在 500Hz-8000Hz 频段，梅尔刻度能突出这部分特征，让AI更容易识别 湿性咳嗽 和 哮喘喘鸣 的差异。

上述代码将3秒音频转化为一张128×300的声纹热力图，不同颜色代表不同频率的能量分布。这张图就是后续分类器的输入。

步骤二:微调分类器

我们使用 DeepSeek-R1蒸馏模型 作为基座。为什么选它？

成本可控：7B参数版本在1张A10卡上即可训练
中文友好：基于Qwen微调，对中文标注数据支持好
推理能力：不仅能分类，还能输出思考过程

数据准备
收集100-200条猫呼吸音频，标注为4类：

Label 0: 正常呼吸 (平稳、无杂音)
Label 1: 逆向喷嚏 (像鹅叫,短促连续)
Label 2: 湿性咳嗽 (有痰音,低频为主)
Label 3: 哮喘喘鸣 (高频尖啸,间歇性)

在阿里云PAI平台上传数据(OSS存储)，配置训练参数：

# 关键超参数 (在PAI界面配置)
learning_rate: 5e-6        # 学习率,防止过拟合
num_train_epochs: 6        # 训练轮数
per_device_train_batch_size: 2
lora_rank: 8               # LoRA微调维度
max_length: 1024           # 输入token长度

思路：用 LoRA技术 只训练模型的1%参数，其余99%冻结。这样既能适配猫咳嗽的专用场景，又不会失去通用语言能力。

训练完成后，模型可输出：

{
  "category": "Label 3 (哮喘喘鸣)",
  "confidence": 0.89,
  "reasoning": "检测到4-6kHz频段持续喘鸣,伴随间歇性尖啸..."
}

步骤三:Agent介入决策

分类器只能说这是哮喘，但不能判断需不需要立刻送医。这时候需要 LangChain + Claude 搭建决策Agent。

Agent的工作流程：

from langchain.agents import create_agent
from langchain.tools import tool
定义工具1: 查询历史记录
@tool

def get_history(cat_id: str) -> str:

"""查询该猫过去7天的呼吸音记录"""

# 从数据库读取历史分类结果

return "过去3天出现2次湿性咳嗽,1次哮喘喘鸣"
定义工具2: 查询用药记录
@tool

def get_medication(cat_id: str) -> str:

"""查询该猫的用药情况"""

return "正在服用泼尼松龙,剩余3天疗程"
创建Agent
agent = create_agent(

model="claude-sonnet-4-5",

tools=[get_history, get_medication],

system_prompt="""你是宠物医疗专家。根据呼吸音分类和历史数据,

判断是否需要立即就医。输出格式:

- 风险等级 (低/中/高)

- 建议措施

- 理由 (引用具体数据)"""

)
调用Agent
response = agent.invoke({

"messages": [{

"role": "user",

"content": "检测到哮喘喘鸣,置信度0.89,请分析"

}]

})

输出结果：

风险等级: 高
建议措施: 立即联系医生,准备急诊就诊
理由: 
1. 当前检测为哮喘喘鸣(置信度89%)
2. 过去3天已出现3次异常呼吸(2次湿性咳嗽+1次喘鸣)
3. 正在用药但症状未缓解,提示可能耐药或剂量不足

为什么用Agent而不是规则引擎？
因为医疗决策需要综合多个因素，如单次检测、历史趋势、用药情况、猫的年龄体重等。Agent能自动调用工具、推理逻辑链，而规则引擎需要人工写几百条if-else。

四、落地场景

场景1:宠物医院的远程监护

产品形态：卖给客户一个智能猫砂盆（内置麦克风），配合App使用
商业模式：硬件售价1200元 + 会员费（含云端分析和医生咨询）
数据价值：沉淀的呼吸音数据可训练更精准的模型

场景2:保险公司的风险评估

需求：宠物保险核保时，如何判断猫有没有隐藏的呼吸道疾病？
方案：投保前要求上传7天呼吸音，AI分析后给出健康评分

五、结语

AI不是用来替代兽医，而是用来 放大兽医的价值。让一个兽医能同时监护100只猫，让一次诊断的数据能服务于未来1000次诊断，这才是医疗AI的正确打开方式。

(本文所有代码仅为逻辑演示,生产环境需完善异常处理、日志监控等)

以上内容不代表本平台立场，仅供读者参考

医疗AI实战：从零打造猫科呼吸道预警系统

目录

一、为什么是呼吸音?

二、工具链选择

三、技术实操:三步搭建预警系统

步骤一:将音频转化为频谱图

加载音频文件 (采样率44.1kHz)

转换为梅尔频谱图

转为对数刻度 (分贝)

步骤二:微调分类器

步骤三:Agent介入决策

定义工具1: 查询历史记录

定义工具2: 查询用药记录

创建Agent

调用Agent

四、落地场景

场景1:宠物医院的远程监护

场景2:保险公司的风险评估

五、结语