企业宣传,产品推广,广告招商,广告投放联系seowdb

去哪儿国际酒店AI生成视频实践

嘉宾 |郑吉敏

编辑 |李美涵

出品 | 技术栈(微信号:blog51cto)

本文整理自去哪儿旅行技术总监郑吉敏在WOT2024大会上的主题分享,更多精彩内容及现场PPT,请关注技术栈公众号,发送【WOT】即可直接领取。

日前,在主办的WOT全球技术创新大会上,去哪儿旅行技术总监郑吉敏带来了主题演讲《国际酒店AI生成视频实践》,围绕着国际酒店的业务架构,详细介绍了生成视频如何进行流程AI化以及相关实践和思考,带给观众全新的视野和独家的经验分享。

本文将摘选其中精彩内容,统一整理,希望为诸君带来启发。

本文将从以下四个部分展开:

1.视频生成挑战与机遇

我们首先来看看,国际酒店视频生成所遇到的挑战。

随着AIGC技术的发展,我们关注其在实际业务中的应用。我们认识到AIGC已具备生成视频的能力,且我们的业务对此有相应的需求。

因此,我们首先确定了使用AIGC生成视频的场景。

接下来,我们考虑如何将视频制作工程化,并确保视频质量。回到视频本身,目前其核心元素有两点:文案和图片。我们需要审视现有的文案和图片资源,通过组织这些内容生成视频,并以赋能现有业务作为终点。

在制作视频时,我们面临的第一个问题是素材选择。我们手头的素材已经明确,包括基础的文案、图片信息和用户点评,这些素材需要精心挑选并有效利用以生成视频。

素材选择的难点在于信息的筛选和利用。例如,酒店图片质量参差不齐,高星酒店的图片通常更清晰,成为视频的亮点,但并非所有酒店的图片都具备这一特性。此外,用户点评中包含多种语言,翻译后的信息可能无法直接使用。

面对这些挑战,我们需要找到解决方案,以确保视频内容的质量和准确性。

接下来谈谈挑战背后我们看到一些机遇。

围绕着国际酒店业务的异国风情特征,我们沉淀了高度多样化的信息。

对于观众观看体验来说,视频不仅仅是展示酒店,更重要的是通过视频传达酒店所在区域的多样性,以及与本地酒店不同的特色和定位。

我们面临的问题是国际酒店视频的制作是否能够成功,以下是我列出一些可行性的数据支撑:

1. 国际酒店视频覆盖率低。在开始之前,我们发现国际酒店视频的覆盖率大约为19.6%,显示了巨大的提升空间。

2. 视频对转化有明显提升。去年,我们对高星酒店视频进行了测试,结果显示视频显著提高了用户的转化率。

3. 国内酒店有视频生成经验。国内酒店已经针对低星酒店生成了视频,这验证了我们已经具备基础的视频制作能力。

基于这些基础,我们确定了国际酒店视频制作需要具备的三个基本特征:风格多样性、内容多样性和元素多样性。

2.专业影视生成流程AI化

我们将专业影视生产流程简化为四个关键步骤:

第一,策划创意。

第二,分镜创作。

第三,现场拍摄。

第四,后期剪辑。

围绕这四个过程,我们用上图简单介绍一下。

以上图的片段为例,每个分镜会有文案描述她的动作,并配有女生说的话或者内心独白来展现剧情。

通过这些元素的组合,我们能够制作出一个连贯的影视片段。每个分镜都由图片或视频、文案和语音组成,经过后期剪辑,形成一个完整的小视频。这是影视制作中的基本流程。

基于上述内容,我们来看看,视频制作流程的AI化。

视频本质上由多个分镜构成的,每个分镜都包含图片、文案、配乐等核心元素。在AI的帮助下对素材进行加工,从而生成每个分镜的内容。

随后,通过转场动画和特效,将各个分镜流畅地拼接成一个完整的视频。

3.AI生成视频实践

具体到AI生成视频的实践中,我们还会面临一个问题,就是判断视频质量高低的标准——如何生成一个用户愿意观看的内容?

我们总结优质视频有以下关键因素:

首先,我们强调价值趣味,这涉及到剧情设计和分镜的构思。我们需要考虑如何设计分镜,以及是否有合适的模板来更好地连接每个分镜。

紧接着是清晰画质,我们追求1080p甚至4K的高清标准,确保用户在观看时不会因为画质问题而感到不适。

最重要的,视频的主题应该是优质的。我们的目标不仅是画质和设计方面的精良,更要传达出酒店的亮点和特色,让用户通过视频就能直观感受到酒店的魅力。

最终,我们希望用户在观看视频后,愿意分享视频。

基于优质视频的基础元素,我们规划了视频生成的业务流程。

第一步,素材选取。我们首先提取图片和文字素材,并进行去重和高清处理,确保基础素材的质量。对于文字,特别是小语种,我们会进行翻译和亮点抽取,以适应不同语言环境的需求,达到实际可用的水平。

这个阶段的目标是让图片和文字满足用户的基本要求。我们还会根据需要,将文字输入到大语言模型中,图片则输入到多模态大模型中,进行再加工。

我们会大量运用运镜和特效技术,模拟用户实际观察酒店的视角和动态效果。例如,对于酒店外景,我们会模拟用户走近酒店的动作,使用拉近效果;对于房型图片,则模拟用户在房间内的视线移动,通过左右迁移来增强现场感,让用户感觉身临其境。此外,我们还会根据场景添加特效,如海岛场景的叠化和模糊效果,夜晚场景的星星特效,营造更丰富的意境。

最后一步,模板剪辑合成。 在这个阶段,我们将每个分镜与旁白结合,将完成的每个分镜,利用多套模板进行合成,通过特效和音乐确保视频的丝滑过渡,避免生硬感,最终生成一个完整的视频。

接下来我们看一下从业务层面,来看整个视频的生成。通常来讲我们还是以每个分镜作为我们的基础单元,构建以业务为核心的生产流程。

在构建业务模型时,底层的是AI技术的能力。这些能力包括文本预处理、图片预处理、大语言模型、多模态模型以及分镜制作和模板合成等,它们各自独立,为自研提供通用能力。

这种设计的优势在于,一旦上层思路确定,我们可以自由决定使用适合的AI能力,个性化的适配不同酒店需求。

业务模型的上层,是业务规则。前面也提到过,国际酒店的地域文化差异显著,我们采用定制化策略,使得视频与酒店的定位相匹配,避免视频的千篇一律。

接下来重点讲下模板,模版让我们以不同的方式组装分镜,业务的多样性决定了我们模版的多样性。

目前核心模版分这几类,商业简约风格、豪华&奢华风格、海岛风情、日式风格等等。

我们与公司的UI团队展开合作,由他们设计相应的模板,确保视频展示方式与酒店的特色相匹配,从而提升视频的整体效果。

通过这种方式,我们的平台AI能力在多方面得到了有效沉淀。

去哪儿网的业务线、算法和AI技术架构是分开的,通常采用合作的方式来完成工作,因此我们会实现各AI能力的单独扩展,由业务方自主选择并以插件形式复用所需能力。

这里包含文案处理、图片处理等多种AI能力的插件。

接下来简单讲下,AI对于多语种翻译的增强。

我们的翻译实践表明,在处理27种语言时,传统神经网络+深度学习虽然能实现基本的"信"(准确传达原意),但往往缺乏"达"(通顺)和"雅"(情感和风格)。

通过使用GPT-3.5,我们能够提升翻译质量至7到8分,效果与使用谷歌翻译差不多,如果使用GPT-4,效果还会更好。

小语种翻译尤其受益于大型语言模型,但也要注意在成本上获得平衡。

接下来说一下AI对多模态生成的加强。

在生成视频方面,我们主要尝试过Pika和Runway平台。基于Runway的Gen-2模型,通过精细调整参数并确保内容符合物理逻辑,我们能够创造出逼真的图像,例如模拟真实的海浪动态。我们注意到,如果不进行特殊控制,生成的海浪可能不符合自然现象(上图)。因此,我们在多模态生成中特别强调物理逻辑的准确性。

目前,Runway在生成效果方面表现最强,尽管它的API接口尚未完全开放。一旦开放,预计将极大促进我们的多模态生成工作。

不过,即使有了强大的工具,参数的调整仍然非常关键。

4.视频生成成果展示与思考

我们来看一下视频生成的成果展示。

下面这个视频是典型的简约商务酒店风格,通过左右移动,模拟用户进入房间的观看效果。(为方便展示,视频经过压缩,原视频清晰度为1080p)。

接下来同样是一个简约商务酒店,这个酒店的特点是周围的地标建筑。

在做简约商务酒店的视频时,还会进行元素定制,突出酒店的亮点、对用户度假时特别关注的问题进行强调,例如位于普吉岛的酒店是否有免费的无边泳池等。

接下来是一个日式和风酒店。

接下来,是在AI能力基础上,进行过简单的人工加工的海岛视频。

这里边有了很多特效以及动态,让观看者能感受到轻松、浪漫的气氛。

最后讲一下视频的数据结果,这是我们APP里的展现形式,默认是在目前打开详情页的位置进行播放,上线后效果相对提升6%。

5.总结

在AI生成视频的过程中,我们也踩过坑、积累了不少经验。比如,最开始我们会强调支持4K以提供高清体验,但考虑到实际手机端的加载情况,最终选择了1080p作为标准。

再比如,刚开始实践时,我们执着于使用旁白朗读文案。但在实际测试中发现,优美的背景音乐配合高清图片更适合高端酒店。

在动画和动态图片的运用上,图片的动态化会为吸引力加成,但是物理规律的准确性特别重要。

展望未来,我们计划在提供视频生成能力的同时,实现对高端酒店的定制化覆盖。我们将根据不同酒店的风格定制视频内容,包括风格、场景和亮点,并针对不同客群展示相应酒店视频,同时为运营团队提供快速响应市场的能力,为他们顺利与酒店达成合作助力。

目前,生成一个视频的成本大约是1.25元,时间大约在半分钟到一分钟左右,这是一个高效具备高成本效益的解决方案。

想了解更多AIGC的内容,请访问:

AI.x社区

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender