专利成果展示

一种基于特征变化的端到端视频文本生成方法

发布时间:2023-08-13浏览次数:22文章来源:清华大学深圳国际研究生院


专利示意图

一、技术领域

视频文本生成技术领域


二、专利介绍

1.专利信息

专利类型:发明

专利权人:清华大学深圳国际研究生院

申请号:202310349230.8

发明人:袁春、朱彦儒

2.专利说明书摘要

一种基于特征变化的端到端视频文本生成方法,包括如下步骤:S1、原始视频先通过预处理抽帧,形成帧序列;S2、然后通过编码器得到视觉特征;S3、通过特征变化模块FVE对所述视觉特征进行增加模型的特征变化的操作,得到经过变化的特征;S4、将所述经过变化的特征通过解码器得到最终生成的文本。本发明在视频文本生成任务中通过引入特征变化从而提高模型表现和泛化能力。

3.创新点

(1)针对视频文本生成任务通过引入视觉特征的变化,提高了模型对视觉特征的理解能力并提高了模型的泛化能力;

(2)针对视频文本生成任务优化了现有模型结构,介绍了标签平滑在视频文本任务中的重要作用;

(3)通过视觉特征变化,进一步提高了模型的学习能力,让模型能够从更大数据集中收益并提高了模型的zero-shoting能力,同时本技术方法即插即用,非常好部署。

4.痛点问题

(1)之前方法都没有系统研究视频文本生成任务的核心问题;

(2)之前方法的泛化性能不够;

(3)之前方法都没有考虑到对于视频来说歧义性理解的价值,没有做到更好的理解视频内容。

5.技术优势

(1)本方法即插即用,非常方便部署在基于编码器-解码器结构的模型中;

(2)本方法具有更好的泛化性能,同时也能够生成更加多样的样本;

(3)本方法真正从本质上尝试解决视频文本生成所遇到的问题,现有技术方案往往将视频文本生成作为一个大任务的子任务来考虑。


三、产业化信息

1.应用场景

(1)能够用在常规的视频的内容生成,作为视频的简介,便于大规模视频数据的管理;

(2)用于视频的创作,通过将小段视频翻译为文本,文本形成故事,相匹配的视频也能够形成长视频,形成了视频创作;

(3)学术上,能够生成无表情视频数据的表情并对标签视频的标签进行清洗。

2.商业价值

(1)在视频内容生成上,对于所有需要涉及大规模视频数据管理的公司,都能够使用本技术,因此估计市场规模可能在亿元以上;

(1)本装置可以快速制备及分离大量微米级微塑料,同现有微塑料制备装置比较,本发明装置将微塑料制备与分离过程一体化,生产效率高、产量大;

(2)在视频创作中,主要可以应用在广告的AI创作中,估计市场规模在千万元以上。

3.发展规划

通过更大的数据集训练得到泛化能力更强的模型,然后利用其即插即用的特性大规模的应用在现有模型中。

4.合作方式

面议



注:所有成果未经授权,请勿转载

联系方式:ttc@sz.tsinghua.edu.cn