估值上百亿却只融3亿,从不缺钱的DeepSeek为什么突然松口了?
这两天的科技圈被一则消息刷屏了。那个常年把各类投资机构拒之门外、一直说自己靠内部输血就能活得很好的DeepSeek,居然开始见投资人了。
传闻说,他们打算按超过100亿美元的估值,向外面募集个3亿美元左右的资金。
很多人听到这个消息,第一反应是纳闷。DeepSeek背后的金主是幻方量化,这是一家在国内私募圈子里非常赚钱的量化对冲基金。看公开的数据,幻方去年的平均收益率超过了56%,手里管着七八百亿的资金。有人给幻方的老板梁文锋算过一笔账,光是去年一年,他的各项收入加起来差不多有七八亿美元。
既然老板自己一年就能赚这么多钱,这3亿美元的融资额就显得挺尴尬的。要知道,现在大厂搞人工智能,买算力设备都是几十上百亿美元起步的。这3亿美元扔进现在的算力军备竞赛里,其实买不了几台高端服务器。
既然不是单纯为了凑钱买设备,那梁文锋为什么要在公司成立第一天就定下的不拿外部投资这条规矩上松口?
其实,只要你看看最近这几个月大厂是怎么跑到DeepSeek楼下挖人的,再看看他们下一代模型遇到的硬件麻烦,这事儿就很好理解了。
这笔钱,最主要的任务是用来稳住团队人心的。


没个准数,拿什么留住被大厂疯抢的人才?
咱们先聊聊人事变动。最近这小半年,DeepSeek流失了好几位能打硬仗的技术骨干。
随便数几个公开的名字。原来负责V2架构的罗福莉,去年底去了小米带大模型团队;多模态方向的核心研究员阮翀去了搞自动驾驶的元戎启行;还有做文字识别的魏浩然也跳槽去了其他大厂。
里面最受大家关注的,是核心研究员郭达雅。有消息说他入职了字节跳动的相关团队。虽然后来字节的高管出来否认了网上传的接近一亿年薪的夸张说法,但也交了底:如果业务发展得好,核心技术人员干满四年,算上工资奖金和两边的期权,拿到几千万的收益是完全有可能的。
这就扯出了DeepSeek在人事管理上的一个大麻烦。
在DeepSeek上班,工资确实不低,老板也很大方地给核心员工发了期权。但问题出在这个期权的定价上。因为公司从来没有拿过外面风险投资的钱,这些期权的价值全是按内部自己定的估值来算的。
对顶尖的工程师来说,如果你去字节或者腾讯,人家给的股票或者期权是有明确行权价的。大厂有完整的内部回购机制,甚至有明确的上市预期,那是看得见摸得着的真金白银,随时可以变现买房买车。
但在DeepSeek,在没有外部机构拿真金白银来投钱、给公司贴上一个大家都认可的“100亿美元”标签之前,你手里的期权到底值多少钱,根本说不准,大家心里都没底。
现在这个行业抢人抢疯了。面对外面大厂直接拍在桌子上的几千万现金加可变现股票,老员工很难不动心。老板的愿景画得再大,也不能当饭吃。
所以,这3亿美元的融资,最大的作用就是给DeepSeek的员工期权定个市场价。有了顶级投资机构的背书和真金白银的投入,手里的期权才算是流通资产,团队的心才能真正定下来。业内有投资人甚至觉得,这步棋走得都有点晚了。
新模型一推再推:把代码全搬到国产芯片上,真没那么容易
除了要花心思留人,DeepSeek在技术推进上也碰到了实实在在的阻力。
大家都在等他们的下一代模型V4。按理说今年春节前后就该发了,结果推到了2月,又推到了3月,现在的消息是大概要等到4月下旬。上个月,DeepSeek的网页端和手机端还出现了一次长达十几个小时的瘫痪,业内都在猜是因为新模型在做灰度测试没扛住。
模型发布一直往后拖,最大的原因是在换底层硬件。
以前他们做模型,基本都是在英伟达的芯片和配套的软件环境里跑。那套东西大家用了好多年,各种坑早就踩过了,优化起来很顺手。但现在各种原因交织在一起,DeepSeek V4打算全面改用华为的昇腾芯片,并且要适配华为的系统框架。
稍微懂点软件开发的人都知道,把这么庞大复杂的程序从一套熟悉的系统搬到另一套完全陌生的系统里,工作量有多大。这不仅是把代码重写一遍那么简单,底层的数据调度、内存分配全都要重新测试。遇到报错了,排查起来也特别费劲。这不仅要花大量的时间,还特别占研发人员的精力。
这事如果干成了,战略意义确实很大。但代价也是明摆着的。
老板梁文锋自己也很实在:现在国内的芯片在训练效率和数据处理上,跟国外最好的水平还是有差距的。为了达到同样的效果,可能要多消耗好几倍的算力。
这就回到了钱和资源的问题上。自从他们之前的模型爆火之后,每天涌进来的用户请求成倍往上涨,服务器每天都在满负荷运转。另一边,研发团队还要花平时好几倍的算力去新平台上调试V4模型。
就算母公司再有钱,面对这种无底洞一样的开销,多拿一笔外部资金来分担一下硬件折旧的风险,是一个再正常不过的商业决策。

算力开销是个无底洞:光靠老东家掏腰包,早晚会吃力
咱们可以看看同行们都在花多少钱。
现在训练大模型,早就不是几个人在车库里写写代码就能颠覆世界的时候了,它变成了一个极其消耗资源的重工业。
今年初,阿里巴巴宣布未来三年要投入3800亿元建设云和AI硬件基础设施;字节跳动2025年的资本开支计划也高达1500亿元,同比涨了快一倍。大家都在买地建机房、买显卡、交天价的电费。
面对这种国家电网级别的算力消耗,幻方量化一年七八亿美元的利润虽然看着多,但在这种百亿级别的军备竞赛里,确实有点力不从心。
而且,量化基金本身的收益也是有波动的,遇到行情不好的年份,利润大幅缩水也是常有的事。把一家前沿科技公司的生死存亡,全部绑定在一家基金公司的年景上,这在商业运作上本身就存在隐患。趁着现在行情好、名气大,赶紧从外面拿一笔钱屯在账上,应对接下来的消耗战,是非常稳妥的做法。
拿到钱以后干嘛:自己当老板说了算,多接点企业大单子
有不少人担心,DeepSeek拿了风险投资的钱,会不会就被背后的投资人指挥着干活了?以后会不会就不搞开源了,变成一个只看财务报表的赚钱机器?
其实真不用那么悲观。梁文锋在公司里有超过84%的股份,拥有绝对的控制权和表决权。就算这次按100亿美元的估值让出个百分之几的股份,他依然是说一不二的大老板。投资机构想靠这点股份去干预公司的研发方向,基本不太现实。这笔钱更多的作用是给公司上个保险。
但拿了钱,商业化的步伐肯定得加快。总不能一直靠免费开源给大家发福利。
其实DeepSeek在服务企业客户这块,已经默默做了不少事了。
比如广汽集团就把自家的车载系统和DeepSeek的模型做了深度融合,用来提升车机语音助手的反应速度;重庆农商行在企业微信里接了他们的智能助手,用来帮业务员做风险评估和防欺诈监测;还有网易有道的答疑系统、智云健康的医疗数据分析,都在接入他们的能力。
这说明什么?说明各行各业的企业客户,是愿意为这种性价比高、推理能力强的模型买单的。
拿到这笔融资后,DeepSeek完全可以多招一些懂行业、懂销售的人,去拓宽金融、医疗、教育、制造业的客户群。帮这些大企业做私有化部署,或者卖大批量的API调用额度。这是一条非常清晰的赚钱路径。
另外,大家也都在等即将发布的V4模型。据说这次V4放弃了以前单纯拼参数大小的打法,搞了一些像条件记忆机制之类的新技术,打算把训练和运行的成本再往下降一半。如果4月下旬V4真的能带着这些新技术平稳落地,并且在国产芯片上顺畅跑通,那这3亿美元的融资,估计很快就会迎来下一轮更高估值的追加。
回头看这件事,不管是为了给员工期权定个价、应对换国产芯片的麻烦,还是为了拓展企业客户,这都是一家创业公司发展到这个体量后,必须要面对的柴米油盐。




