智能大屏峰会|故事接龙宋东桓:AIGC在营销与影视领域的实践及应用

| 勾正科技流媒体网| 2024-04-12

【流媒体网】摘要：特别快的变化、特别大的影响和特别小的圈子。

点击查看专题：

第五届中国智能大屏行业发展峰会

　　2024年4月11日，由勾正科技、流媒体网联合举办的“第五届中国智能大屏行业发展峰会”在北京隆重举行。

　　此次峰会以“智赢今朝见未曾见”为主题，邀请智能大屏行业的专家、学者，媒体领域先锋和广告行业领军人物，聚焦智能大屏发展趋势、跨屏营销的“助推剂”和AGI实践应用三大话题，共同探寻行业的高质量增长之道。

　　会上，故事接龙StoryStorm Al内容社区发起人宋东桓做了题为《AIGC在营销与影视领域的实践及应用》的演讲。

　　以下为演讲全文：

　　今天想给大家介绍一下我们在AIGC领域内容端的一些实践。AIGC出现之后，出现了特别快的变化、特别大的影响和特别小的圈子。

　　变化、影响与圈子

　　常见的AIGC能力有五种：文本、画图、视频、声音和3D，还有一些交互能力，比如数字人、AR/VR、交互等。

　　AIGC在专业端的应用方面，比如runway，视频转视频的功能已经比较完善、比较成熟了，但是它还有一个问题就是角色单一。

　　stability.ai是做开源的，包括抖音里面也有把视频转变成别的风格，其实也是利用了同样的技术。

　　还有一些应用起来比较有意思的，比如看起来它也是视频导视频，但是它是利用单镜头视觉动作捕捉技术去把人的一个动作，包括表情捕捉出来。以前我们需要穿戴非常沉重的设备，或者需要在光学动捕的影棚当中，单天租赁的费用很贵。但是现在我们只需要去用一个普通的视频，甚至是以前的视频素材就可以把人的所有动态都捕捉下来，再去匹配一个3D资产放回到原来的视频当中。所以wonder Studio从事的是从角色抓取到资产匹配，再到放回原视频当中做合成，一步一步完成这个事情，它的成本跟原来的成本比，其实已经不只是百倍之差了。

　　还有一个非常值得关注的东西，像AI 3D，去年比较火的Nerf、高斯喷射、单镜头视觉动捕、文问生3D、图生3D、AR这些技术，都是在AI领域当中应用比较广泛的，不仅仅局限于大家看到的文生图，图再生视频这么一个流程，流程现在其实已经很多了。

　　举个例子来说，以前我们要想去做一个高精度的3D场景，成本是偏高的，现在只要一台相机，甚至是一个手机，就已经可以轻松地的去复制我们现在所在的这个会场了。

　　为什么说“特别快的变化”呢？比如左边这个图是用Midjourney V3模型，这个模型大概是2022年7月-11月的时候，当时生图的能力和极限；右边这个图是从去年12月份到现在V6的一个模型，我们能看到它的进步速度是非常快的。

　　“特别大的影响”是什么呢？有数据统计说，像小红书和B站这种比较垂类的平台，上面已经有了10%以上的AIGC内容，甚至这个数据还在快速提升，包括AIGC教学、AIGC图片、AIGC短片等。

　　Suno V3出来之后，端到端直接生成音乐已经变得非常方便了。我们不知道Suno V3每天音乐生成的数据量，但是天工AI的数据量我们是知道的，每天生成的数据量是200万首AI音乐。如果对比另外一个数据，就是中国音著协所有音乐创作者、版权创作者的音乐版权库只有1500万首音乐作品。如果这么去对比，就能够判断出来，内容产量和最终版权之间的衔接会有很大的变化。

　　不知道大家有没有看过一些AI短片，包括央视《中国神话》系列AI短片，称之为AI短剧集。但是我们自己看来一直是有点心虚的，我们一直觉得它实际上是一个创作端的事情，就是我们和创作者之间互相交流用的东西，我们认为它离普通用户去直接消费的制作端还有一定的距离。

　　那这个创作端是怎么样的呢？我们常见的架构叫Diffusion+Unet，它是用Diffusion这个模型，用生图能力，里面会有动作驱动，比如我先进行识别，识别之后再去赋予它的驱动，它是一个动态的。

　　Sora出来之后，从图片到实拍再到视频接续，在DiT架构下面让我们看到了制作的可能性。虽然说Sora的制作成本我们盲算下来大概是每分钟2500美元，还不是一个完全民用的设计，再加上素材成片比，如果要拍一个3分钟的片子，最终可能要准备20万人民币左右的算力成本。