【企服干货】人工智能时代的视频广告还能这么玩儿?|Video++魏传勇

7月27日,由3W企服和企服头条主办的Open Forum活动——  “AI+”行业应用如何落地在杭州举办,来自Video++极链科技AI中心运营总监、上海交通大学工商管理硕士魏传勇为大家分享《人工智能在消费级视频中的应用》。以下内容整理自魏传勇分享,内容略有删减。

魏传勇.jpeg

Video++极链科技AI中心运营总监、上海交通大学工商管理硕士魏传勇

什么是消费级视频?比如说抖音等,都属于我们的消费级视频。现在视频占有了越来越多的用户时间,拿淘宝或者一些网上电商以及平时阅读的内容来看,基本上现在图文内容占整个用户时间的百分比已经到了5%以下,而视频占整个用户时间的百分比是超过22%。

这样的信息提示,我们就需要深度挖掘视频中更多的内容,一是让视频有趣、更有价值;二是视频的拆分、检索与聚合。

什么叫做让视频更有趣、更有价值?更有趣就是平时大家在看一些互联网的视频,能够在里面获得更多的趣味。更有价值是挖掘视频里的更多广告、电商的机会点,让视频有更好的营销价值。

为了做到这一点?第一我们要更好地理解视频。从数据深度这样的角度去理解视频,基本上可以把视频切成三个不同的层级:

第一个层级是一般视频层,它所有的视频都是非结构化的。比如说过去一个电影,我们大概知道他讲了一个什么样的故事,但是我们其实并不知道第几分第几秒钢铁侠出现了,它是以什么样的形式出现的,它开了什么车,什么LOGO,占屏幕的百分比,这些的数据我们都是不知道的。

1.png

所以说,视频的大部分数据都是处于非结构化的状态,这就是视频层,就是非结构化层。

我们对它进行处理的第一步就是对非结构化的数据做结构化,那么结构化的维度其实比较多的,比较常用的维度包括人脸,也就是说他是什么明星,他是谁,他在影片里扮演什么样的角色。

第二层是结构化的信息层。在这层通常是不会直接应用的,它需要数据的进一步整合和升级。

比如说我们想在视频里投一个比较好的广告,我们通常不会说看到了一个可口可乐的瓶子就上一个可口可乐的广告,因为可口可乐面积可能比较小,没有在用户心里留下较好的印记,这时候投可口可乐的广告,用户是感受不到的。

这时候就需要对大量的结构化数据进行进一步的整合和包装,比如说在现有的这样一个场合下,在这个会议室里有三四十个人,我眼下分析出是商用的情境,那么我们可以投一些商用的广告。

在这里我也介绍一下,我们在本身结构化的过程中,拿到标签信息、时间信息,我们也要拿到本身的视频轨迹流数据。

拿到这个数据有两个好处:一是更好地辨识视频的内容,在这里面有两个,给大家做一个举例,我们知道辨识的时候是采用离散采样识别,而我们采用的是方法,比如说我们把每一个镜头全都跟踪下来,形成一串的图片集,在里面优选出最好的图片,从而达到比较好的效果。

2.png

我们需要理解视频的内容,然后增加一些版本。比如说现在有5分钟的内容,我们怎么让人物在看视频的时候,知道这5分钟表达出什么样的文化,我们就需要从几个角度对它进行分析。

我们小时候都写过作文,人物推动故事情节的发展,所以说一段消费级视频里,第一要素一定是人脸。比如说,人脸的辨识,那么在这个过程中大家或多或少地了解过,上下班的时候,就是人脸打卡的机器。比如说我们掏出手机支付宝解锁手机也是人脸的辨识。

现在我们越来越多接触到人脸识别的技术,实际上在消费级视频的环境有所不同,我们都知道我们在打卡的时候,人在打卡机前,整个脸正对着屏幕,而在视频里不是这样的,它通常是脸可能会比较小,也不是正向对着屏幕的,可能是侧脸或者说有一定的遮挡。

还有一个很有趣的现象,整个剧通常会描写人物的一生,从壮年到中年到老年,在这个过程中是有非常明显的年龄和妆容的变化,我们在打卡或者人脸解锁的时候,不可能一瞬间变老,但是我们本身在应用的时候,其实就要考虑到化装、年龄、侧面遮挡等等一系列变化,并且在这样的变化当中去稳定我们的人脸抓取率,让它达到非常好的效果。

3.png

讲完人脸,我们想描绘一个故事,我们知道一个场景定位了整个故事的基调,比如说我们现在是一个会议室,一看视频就是一个商务的情境,所以说场景非常重要。

我们对场景的辨识也会分的很细,电视剧里的场景和生活中不太一样,因为在电视里有现代剧、古装剧、武侠、玄幻,不同的剧场景有不同的面貌,那么我们需要对它进行辨识。在这里面也看到我们做的一些特别的工作。

场景定位整个故事的基调,那么物体的重要点是,本身一个屏内都存在大量的物体,物体的数量是屏里信息最多的维度,我们可以看到,图片中都是我们本身AI的服务,上面的红框框出了衣服、墨镜、植物等等不同的物体,比如说下面的这个有手机、背包、车辆等等。

4.png

在这些里面,对技术的要求就是物体出现这么多,你需要同时追踪这些物体,把他们的数据给出来。我们现在是可以同时追踪32个物体,以及把它们辨识出来。

我们都知道,每个物体都有自己的生产商,对企业来说会把它的LOGO放在自己的商品上,也就是说从物体进一步就是品牌的辨识,我们抓到品牌,就可以更好地理解视频里出现的是什么品牌,比如说LV、耐克等等,这都可以很好地帮我们理解视频的内容。

比如说这里辨识出是一个苹果的手机,上面有苹果的LOGO。比如说下面是一辆汽车,是宝马的LOGO。

5.png

我们想辨识LOGO,其实它也有自己的特点,它的屏幕占比通常是非常小的,很少在电视剧或者电影里出现某一个LOGO的巨大特写,除非是它的赞助商,大量的LOGO在视频里出现的是非常小的。

还有一个特点是物体会带着LOGO一起动,LOGO也比较小,在屏幕里会剧烈的晃动,这时候辨识环境非常的恶劣。在这里面我们对于遮挡、运动、小面积的品牌需要做到比较好的辨识效果。

刚才我们讲了辨识人物、场景、物体、品牌,我们做了这么多的事情,最终的落地点是在哪里?我们如何通过这些结构化的数据去创造一些价值呢?

比如打开优酷或者打开手机,视频播到一半的时候看到一个广告插进来,这时候有可能是欧阳峰在这里,这时候奥迪进来就是不合时宜,我们知道如果我们去做产品设计,要考虑到用户本身当前的思路,我的思路不在你的车上,我看到奥迪仍然是没有用的。

那么我们做的事情是什么?比如说你的奥迪是SUV,我们就在视频里寻找全家人开着SUV去郊外游的时候,给你上奥迪SUV的广告。

比如说你这次推的是丰田推的一款车,是社交类的,那么我们会在男女主人公开车约会的时候打上这个广告。

我们去建立起来视频内容和公众情感以及品牌文化三者之间的交集,去做广告的优化。

6.png

这也是我们通过去辨识一些国外的场景,可能是国外的建筑,也可能是国外的景区,在这个环境之下,我们去做我们境外游的广告投放。我们其实也通过辨识一些水族馆或者通过一些郊游的场景,为国内的长途旅游去服务它的广告,这些都是我们过去的一些服务案例。

既然讲到我们是来优化这样广告体验的,其实每个广告的核心指标就是要看它的点击率有多少,有一千个人看到广告有多少个人点击它。在这里面我们可以看一下,我们基本上CTR能做到3%。

如果大家不在广告行业的话,可能对3%的数字不是特别有概念,3%到底是好还是不好?

通常来讲,一般性的广告CTR只有1%,常常可能是0.5%上下,那么这个3%对于0.5%之间的差别大家都可以感觉到。

如果你想让别人来参与你的广告互动,比如说过去你花600元做这个事情,今天花100元就可以达到同样的效果,这就是广告CTR带来的一个品牌营销上的升级。

下面,我讲一下视频的拆分、检索与聚合。名字听起来好像有点比较产品化或者说不是一个应用方向,但是还真的是一个比较好玩的应用。

在这一条,我们是通过增加对视频的理解,为视频赋能,增加它的营销价值或者说互动价值。

我们会想,既然我们已经非常理解这个视频,是否可以通过AI来创造这个视频,用AI创造一个内容。

我们刚接触这个概念的时候觉得不太容易,但实际上大家其实对这个应用本身不仅不陌生,而且实际上你们已经是它的常态用户。

举个例子,我们都知道标题党,现在的标题党和过去的标题党正在发生着本质上的变化,以前的标题党是一些媒体人自己的创意想出来的东西,什么是标题党?就是说《一个哈尔滨的老太太从地上捡起一个石头,结果竟然是—》,现在很多的标题党是机器来做的,我们可以看到很多在头条上或者在其他网站上的AI创造。

既然AI可以写作文,那我们相信我们也有能够让AI做导演拍一些小故事。

世界杯刚刚结束,我们在看世界杯的时候总可以看到这样的想法,比如说两个人在聊天,说这次世界杯没有中国队,太弱不让上,不是有姚明么,你去打游戏吧,这类的笑话其实在过去一段时间看到非常多,而且这个笑话是有轮回的,是一个老笑话,四年一周期不断的循环。

大家看过这么多次的文字版,很少有人看到视频版,但是实际上这可以是非常好的一个视频的小故事,我们也可以通过技术用AI大量生成这样的小故事。

7.png

刚才讲的是AI自动生成视频,在里面我们对人物属性、IP属性、人脸属性、元素信息进行拆分,然后是人物、场景、物体、地标直接的交叉检索,检索参数是权重、时间、屏幕位置、屏幕占比等,之后基于拆分和检索信息在特定故事框架内聚合成新的视频内容。

8.png

这是一张鸟的图片,我可以把鸟完全抓出来,把它和背景区分出来,把背景换成其他的视频等等,换到另外一个应用里。这是我们可以通过AI去做的事情,在这个过程中让视频更加有价值,同时用AI的方式形成新的内容,创造一些新的市场价值和利润。

分享到

点赞(3)

说点什么

全部评论