企业宣传,产品推广,广告招商,广告投放联系seowdb

创新实践 百度商业多模态理解及 AIGC

首先来介绍一下我们对多模态内容的感知。

1、多模态理解

提升内容理解能力,让广告系统在细分场景下更懂内容。

在提升内容理解能力时,会遇到很多现实的问题:

什么是好的多模态基础表征。

什么是一个好的多模态表征?

从广度上要扩大数据应用的范围,从深度上要提升视觉效果,同时保证场景的数据微调。

之前,常规的思路是,训练一个模型去学习图片的模态,一个自回归的任务,然后做文本的任务,再套用一些双塔的模式,去拉近二者的模态关系。那时的文本建模比较简单,大家更多的是在研究视觉怎么建模。最开始是CNN,后面包括一些基于目标检测的方式去提升视觉的表征,比如bbox方式,但这种方式的检测能力有限,并且太重了,并不利于大规模的数据训练。

到了2020年和2021年前后, VIT方式成为了主流。这里不得不提的一个比较有名的模型就是 OpenAI在20年发布的一个模型CLIP,基于双塔的架构分别去做文本和视觉的表征。再用cosine去拉进二者的距离。该模型在检索上面非常优秀,但在VQA任务等一些需要逻辑推理的任务上,就稍显能力不足了。

学表征: 提升自然语言对视觉的基础感知能力。

我们的目标就是要提升自然语言对视觉的基础感知能力。数据方面,我们的商业域有着亿级的数据,但仍然不够,我们需要进一步扩展,引入商业域以往的数据,并进行清洗和梳理。构建了百亿级别的训练集。

我们构建了VICAN-12B多模态表征+生成模型,利用生成任务让视觉对文本的还原,进一步确保视觉表征对文本的融合效果,提升自然语言对视觉的基础感知能力。上图中展示了模型的整体结构,可以看到它还是一个双塔+单塔的复合结构。因为首先要解决的是一个大规模图片检索的任务。左边的框中的部分我们称之为视觉的感知器,是一个20亿参数规模的ViT结构。右边可以分两层看,下面为了做检索,是一个文本的transformer的堆叠,上面为了做生成。模型分为了三个任务,一个是生成任务,一个是分类任务,一个是图片对比任务,基于这三个不同目标去训练模型,所以达到了比较好的效果,但我们还会进一步去优化。

一套高效、统一、可迁移的多场景全域表征方案。

结合商业场景数据,引入了LLM模型提升模型理解能力。CV模型是感知器,LLM模型是理解器。我们的做法就是需要把视觉特征进行相应的迁移,因为刚才提到,表征是多模态的,大模型是基于文本的。我们只需要让它去适配我们的文心LLM的大模型就可以了,所以我们需要利用Combo attention的方式,去做相应的特征融合。我们需要保留大模型的逻辑推理能力,所以尽量不动大模型,只是加入商业场景反馈数据,去促进视觉特征到大模型的融合。我们可以用few shot的方式去支撑下任务。主要任务包括:

下面,重点分享下场景化精调。

2、场景化精调

视觉检索场景,基于基础表征的双塔微调。

以基础表征为基础,结合文本大模型,利用商业各场景的图片点击反馈信号为Labelers,精细化刻画不同场景图文偏序关系。我们在7大数据集上进行了评测,均能达到SOTA的效果。

排序场景,受文本切词启发,将多模态特征语义量化。

表征以外,另一个问题是如何提升排序场景中视觉的效果。先来看一下领域背景,大规模离散DNN为业内排序模型主流发展方向,离散特征也是排序模型优化的核心。文本入模型,基于切词将其token化,与其他离散特征组合,效果好。而对于视觉,我们希望也能将其进行token化。

ID类特征其实是一个极具个性化的特征,但是泛化特征通用性好了,其刻画精度可能就变差了。我们需要通过数据和任务去动态调节这个平衡点在哪。也就是希望找到一个和数据最相关的尺度,去把特征进行相应的”切词”变成一个ID,像文本一样去切分多模态特征。所以我们提出了一个多尺度、多层级的内容量化学习方法,去解决这一问题。

排序场景,多模态特征与模型的融合 MmDict。

主要分两步,第一步是学离散,第二步是学融合。

Step1:学离散

① 利用稀疏激活将连续信号用多个离散化信号表达;也就是通过稀疏激活的方式把稠密特征进行切分,然后去激活对应多模态codebook里面的ID,但这里面其实只有argmax操作,会引来不可导的问题,同时为了去防止特征空间的坍塌,加入了激活神经元与未激活神经元信息交互。

② 引入 STE 策略,解决网络不可导问题, rebuild原始特征,保证偏序关系不变。

通过encoder-decoder的方式,把稠密特征进行序列量化,再通过正确的方式把量化出来的特征进行还原。还原前后要保证它的偏序关系不变,几乎可以控制特征在具体任务上的量化损失小于1%,这样的ID具备了当下数据分布个性化的同时,还具有泛化特性。

Step2:学融合

① 与排序模型大规模离散在 Sparse层融合。

那么刚才提到的隐层复用直接放在上面去,其实效果一般。如果把它ID化,量化之后,到sparse特征层和其他类的特征进行融合,有着比较好的效果。

② 通过中心 -> 残差2层级, S-M-L 3种尺度,降低损失。

当然我们也采用了一些残差,以及多尺度的方式。从2020年开始,我们把量化的损失逐步压低,去年达到了一个点以下,这样就可以在大模型抽出来特征之后,我们用这种可学习量化的方式对视觉内容进行刻画,具备语义关联ID的特征其实非常适配我们现在的商业系统,包括推荐系统的ID的这样一个探索的研究方式。

二、擎舵

1、商业AIGC 深度结合营销,提升内容生产力,效率效果联动优化

百度营销AIGC创意平台从灵感到创作,再到投放形成了一个完美的闭环。从解构、生成、反馈都在推进优化我们的AIGC。

2、营销文案生成 = 商业 Prompt 体系+ 文心大模型

一个好的商业Prompt,具备以下一些要素:

3、复合模态的营销数字人视频生成, 3 分钟创造 1 个数字人

视频生成目前已经比较成熟。但它其实依然存在着一些问题:

前期通过prompt来输入,想生成一个什么样的视频,希望选择一个什么样的人,让他去说什么,都通过prompt来输入,然后我们根据其诉求,能够准确控制我们的大模型去生成相应的脚本。

接下来我们可以通过我们的数字人库去召回相应的数字人,但是可能利用AI技术进一步提升数字人的多样性,比如人脸替换、背景替换、口音语音替换去适配我们的prompt,最后脚本、数字人唇形替换、背景替换、人脸替换,视频压制之后,就可以得到一个口播视频。客户得以利用数字人的方式去介绍产品对应的一些营销卖点。这样3分钟即可做好一个数字人,极大地提升了广告主做数字人的能力。

4、营销海报图生成,结合多模态表征的营销图片生成

大模型还可以帮助商业实现营销海报的生成和商品背景的替换。我们已有一个百亿规模的多模态表征,中间这一层是我们学的一个扩散,我们基于好的动态表征去学unet。通过大数据的训练之后,客户还希望有一些特别个性化的东西,所以我们还需要加入一些微调的方式。

我们提供了一个帮助客户微调的方案,一个大模型动态加载小参数的方案,这也是目前业界的一个通用的解决方案。

首先我们为客户提供一个生图能力,客户可以通过编辑或者Prompt去改变这个图片背后的背景。

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender