AI学会“读心术”,让广告图片点击率飙升
你是否曾对电商平台上那些精美却千篇一律的产品广告感到无动于衷?你是否想过,为什么有些产品图片让你忍不住想点,而有些则直接被划过?
这背后,隐藏着一场关于“吸引力”的精密计算。如今,一场由多模态大模型(MLLMs)驱动的变革正在发生:AI不再仅仅追求把广告图片做得更“美”,而是开始学习人类的点击偏好,直接为“效果”而生成。
一项发表在顶级学术会议上的研究《点击率驱动的广告图像生成(CAIG)》 ,为行业带来了突破性进展。该方法通过让AI深度理解产品并预测用户喜好,生成的广告图像在真实线上环境中实现了平均点击率提升7.4% 的显著效果,在美妆等核心品类提升接近10%。这标志着广告创意生成从“艺术导向”迈入了“效果导向”的新纪元。

论文地址:https://arxiv.org/html/2502.06823v1
传统方法的“美感陷阱”:为何好看的广告没人点?
长期以来,广告图像生成技术主要追求的是美学质量和视觉逼真度,致力于生成的背景更协调、光影更自然、画面更具艺术感。
然而,线下评测中的“高分美图”,并不等于线上的“高点击率广告”。 研究指出,现有方法大多关注离线指标,如图像质量或语义一致性,却忽视了与点击率等关键业务指标的直接关联。这就导致了一个“美感陷阱”,生成的图片或许赢得了评委,却输掉了用户。
问题的核心在于复杂性,一张广告的点击率是多模态信息共同作用的结果。
- 视觉层面:同一个水瓶,放在办公桌和放在雪山背景下,吸引力天差地别。
- 文本层面:产品的标题、类别、属性(如“无线蓝牙耳机”、“4.5星好评”)深刻影响着用户的决策心智。
- 产品本质:水瓶和高端化妆品,因其属性与消费者行为模式的根本不同,基准点击率本身就存在巨大差异。
传统点击率预测模型往往依赖于卷积神经网络等,在复杂的图像理解上能力有限,需要引入目标检测、文字识别等繁琐的辅助任务,且难以优雅地融合文本、视觉等多维度特征。这就好比一个只懂看画的评论家,却要他预测一幅画在市场的售价。

多模态大模型“入场”:让AI既懂产品,又懂人心
为了破解这一难题,研究者们将目光投向了多模态大语言模型。这类模型具备强大的图文联合理解与生成能力,仿佛为AI装上了“双眼”和“大脑”,使其能同时处理图像和文本信息,并进行逻辑推理。
CAIG方法的核心思路,正是以多模态大模型为“中枢大脑”,构建一个完整的“学习-反馈-优化”闭环。整个过程犹如一位顶尖广告设计师的成长之路,分为三步:
🎯注入电商基因
研究者首先让大模型在包含120万样本的大型电商数据集上进行“预训练”。通过专门设计的任务,如“根据这张产品图描述其卖点”或“根据这个标题和类别,构想一个吸引人的背景”,让模型深入理解电商领域的独特语言、产品属性和场景逻辑,打下坚实的领域知识基础。
🎯训练精准的奖励模型
这是技术突破的关键,团队创新地训练了一个双分支奖励模型。它不仅能像传统模型一样预测点击率的绝对值,更擅长完成一项核心任务:比较同一产品两张不同广告图片,哪一张会更受用户欢迎。
这个模型巧妙地避开了不同品类点击率绝对值差异的干扰(比如化妆品点击率天生可能比螺丝刀高),专注于学习“相对吸引力”。它像一位经验丰富的市场分析师,通过分析海量的历史点击数据,精准地学会了哪些视觉元素与产品文本特征结合后,更能撩动用户的心弦。
🎯以产品为中心的强化学习
有了这位“分析师”的指导,AI开始了真正的创作优化。系统会为一个产品生成多个背景方案,经扩散模型制成广告图后,交由奖励模型打分。通过强化学习技术,不断鼓励AI生成得分更高的方案。
但这里有一个风险,如果AI只盲目追求高分,可能会“走火入魔”。例如,它可能发现“动态运动背景”能极大提升运动鞋的点击率,于是也给口红配上球场背景,导致图片不伦不类,损害品牌形象。
为此,研究者提出了革命性的 “以产品为中心的偏好优化”策略 。简单说,就是在训练中故意给AI“捣乱”,例如将口红的图片和运动鞋的标题混搭,然后要求AI识别并坚持生成与产品本身匹配的背景。这迫使AI必须牢牢抓住产品本身的多模态信息(是什么产品、有什么特点),将其作为创意不可动摇的“锚点”,从而在提升吸引力的同时,保证背景的相关性与协调性,杜绝“运动口红”式的荒谬生成。

效果验证:从数据到实战的全面胜利
这套方法的有效性,在严格的实验中得到了全面验证。
在“预言”能力上,其奖励模型在预测图片对点击率胜负的任务中,准确率显著超越包括GPT-4V、Claude在内的通用大模型,也优于以往专业的点击率预测模型,证明了其精准洞察用户偏好的能力。
在“审美”与“相关性”平衡上,引入PCPO策略后,模型在经历多轮效果优化后,其生成图片的产品-背景匹配率仍能保持在接近80%的高水平,而标准方法则会暴跌至60%以下,有效防止了为博眼球而“跑偏”。
最令人信服的,是线上真金白银的考验。 在一家主流电商平台为期一周、覆盖超千万次曝光的A/B测试中,CAIG方法生成的广告图片,实现了全品类平均点击率提升7.4% 的优异成绩。在美妆、时尚等关键品类,提升幅度更大。这意味着,在庞大的电商流量面前,每一个百分点的提升,都代表着巨大的商业价值。
结语
这项研究不仅仅是一项技术突破,更预示着广告创意生产与优化模式的根本性变革。
它实现了从“人工经验”到“数据智能” 的跃迁。传统广告创意依赖设计师的经验和直觉,而CAIG系统将用户的海量行为数据转化为可量化、可优化的模型参数,使创意生成成为一个可持续学习、迭代的科学过程。
它开辟了 “端到端效果优化” 的新路径。未来,广告主或许只需输入产品的基本信息和白底图,AI就能自动生成一系列经过点击率预验证的广告创意,并直接投入效果最好的渠道进行投放,大幅降低测试成本,提升营销效率。
随着多模态大模型能力的持续进化,这类“效果导向”的生成式AI将不仅限于静态图片,更可能扩展至短视频广告、互动广告等形式。它还将更好地理解不同平台、不同人群的细分偏好,实现真正的“千人千面”创意生成。


