当前位置:首页 > 科技资讯 > 正文

Vidi2模型:革命性视频内容解读与搜索技术

身为计算机博士生,同时经营着自己的科技公司并担任产品经理,我发现自己对技术论文产生了浓厚兴趣。

论文不仅呈现技术,更包含领先的算法与系统框架,这些都能快速集成到现有系统中,有效解决用户问题,提升效率和用户体验,最终形成商业化闭环。

例如,上周字节跳动发布了最新模型Vidi2,其核心能力是对视频进行快速解读,无需人工观看,即可解析每一帧画面,并输出相应结果数据。

这个模型就是VIDI2

Vidi2模型:革命性视频内容解读与搜索技术 Vidi2  视频解读 信息检索 视频编辑 第1张

作为产品经理,我持续关注革命性技术,尤其在博士阶段,希望这些研究成果能成为工程化产品的技术壁垒。

技术几乎革命性的:改变了人们获取信息的方式

当前,微信公众号转图片消息或生成视频已成为主流内容创建形式,而将视频反向转化为文本,将极大提升内容信息流的生产效率,并使人类信息检索能力倍增。

过去我们常说“一个人去了哪里”,如今信息获取与检索能力将决定每个人的世界观。

这一模型对新媒体创作者和自媒体而言,堪称革命性突破。

以我自己为例,获取信息的方式已转向视频主流。在短视频与长视频占据主导的今天,文字阅读者越来越少,人类天然倾向于快速、高频的“懒人模式”消费内容。

支持视频关键词搜索

在Vidi2中,它可以充当新媒体工具的翻译者,甚至用于教学视频或机器人学习的匹配。通过将视频中的故事与步骤以文字形式输出,再让大模型比对和记忆相应动作,可以加速模型收敛。

Vidi2模型:革命性视频内容解读与搜索技术 Vidi2  视频解读 信息检索 视频编辑 第2张

例如,在官方演示视频中,搜索包含龙的画面,即可列出所有相关帧;输入手的视频,也能输出所有包含手的片段。

用户可以接受的效率:从文字搜索到搜索视频

有了Vidi2这一底层技术,视频搜索将取代标题搜索,所有标题党将失去意义,封面与内容不符的视频也将无所遁形。

一切以视频内容为核心,而视频中的文字内容可被解读。试想互联网上海量内容,若需人工检索,耗时巨大;尤其在监控场景下,该技术可快速定位所需视频,大幅节省时间。

支持编辑视频元素

Vidi2不仅支持搜索,还能编辑视频。用户可对搜索到的对象进行替换,从而改变视频画面。

这让人联想到科幻电影《喋血战士》中,科技公司利用视频编辑技术修改记忆中的空间视频,包括物体、人物甚至对话,从而篡改主角记忆,使其成为杀人机器。

Vidi2模型:革命性视频内容解读与搜索技术 Vidi2  视频解读 信息检索 视频编辑 第3张

如上所示,电影中的记忆编辑类似于空间智能。尽管Vidi2目前仅支持平面视频而非空间视频,但已足以让信息获取效率再翻倍。其检索速度已达到实用水平,远超观看单个短视频的效果,更不用说完整观看长视频了。

以上就是Vidi2的新技术,值得产品经理们关注。

今天的分享就到这里。