快手的短视频制作 AI秒懂短视频，快手大模型Keye-VL理解力爆表！技术细节全开源

用户投稿 2025年08月28日 16:35:02 58 0

AI秒懂短视频，快手大模型Keye-VL理解力爆表！技术细节全开源

编辑：编辑部

【新智元导读】今天，全新多模态大语言模型Kwai Keye-VL震撼上线，展现了无与伦比的视频理解力！它能将视频内容转化为高能方案，还会智能选择思考模式，效率与创意兼得。目前，模型已正式开源。

如果有人突然问你：「这张图片中有几颗草莓」？ 你会如何快速回复？

面对五彩缤纷的果盘，我们往往需要反复端详，放大图片再逐一清点，耗费不少时间才能得到答案。

然而，AI大模型正让这种复杂视觉识别变得简单——在快手最新发布的Kwai Keye-VL-8B的试用体验中，它自动解析图像细节，执行图像区域裁剪，放大相关的计算代码以增强感知效果，在短短几秒内给出精准答案，一共20颗。

快手的短视频制作 AI秒懂短视频，快手大模型Keye-VL理解力爆表！技术细节全开源

Kwai Keye-VL是快手自主研发的多模态大语言模型。

该模型能深度融合和处理文本、图像、视频等多模态信息，凭借创新的自适应交互机制与动态推理能力，致力于为用户打造更智能、更全面的多模态交互新范式。

其中，依托快手在短视频的深厚技术积累，Keye-VL在视频理解方面具备得天独厚的优势。

实践出真知！现在就把一个介绍简易移动房子的视频丢给Keye-VL，考考它能不能利用强大的视频理解和推理能力，当场做出一份销售方案来。

问题： 请你为视频中的商品写一份推销方案。

「看」完11秒的视频后，Kwai Keye-VL很快便生成了一份推销方案，覆盖了方方面面，足以堪称商品推销的「优秀模板」。

上下滑动查看

除在复杂视觉感知、视频理解 上的优异表现外，Kwai Keye-VL在逻辑推理 上也同样令人惊喜，在最新的2025高考全国数学卷中，Kwai Keye-VL狂砍140分。

目前，Kwai Keye-VL已正式开源！

Homepage: https://kwai-keye.github.io/

Github Repo: https://github.com/Kwai-Keye/Keye

Model Weight: https://huggingface.co/Kwai-Keye/Keye-VL-8B-Preview

KC-MMBench: https://huggingface.co/datasets/Kwai-Keye/KC-MMbench

接下来，让我们一起探索支撑其强大多模态能力的关键技术突破。

核心技术架构公开

Kwai Keye-VL基于Qwen3-8B 语言模型，并整合了SigLIP初始化的视觉编码器。

它支持动态分辨率输入，按原始比例将图像切分为14x14分块，由一个MLP层整合这些视觉特征。

模型采用3D RoPE（旋转位置编码）统一处理文本、图像和视频，并通过位置编码与时间戳对齐，精准捕捉视频时序变化。

Pre-Train：构建多模态基座能力

Kwai Keye-VL的预训练阶段核心目标是，构建强大的图文和视频理解能力（即视觉-语言对齐）。

为支撑这一目标，模型使用了总量高达600B的大规模多模态预训练数据集，包含图文、视频及纯文本数据。

此外，Kwai Keye-VL通过自建高质量中文OCR系统和精细化描述数据，有效突破了开源数据的局限，专门服务于模型图文/视频理解能力的训练。

训练流程采用四阶段渐进式优化策略：

视觉预训练： 持续预训练视觉编码器，使其适配内部数据分布并支持动态分辨率输入。跨模态对齐： 冻结主干模型，仅训练轻量级MLP适配器，以极低成本高效建立鲁棒的图文/视频-文本对齐关系。多任务预训练： 解锁全部模型参数，进行多任务联合训练，全面提升模型的综合视觉理解能力。退火训练： 使用精选高质量数据进行精调，进一步提升模型的精细理解和判别能力。

最后，Kwai Keye-VL探索了同构异质融合技术 ，通过参数平均融合不同数据配比的退火训练模型，在保留多维度能力的同时，减小模型偏差，增强了模型的鲁棒性。

Post-Train：两阶段精细微调，突破性强化推理能力

Kwai Keye-VL的后训练阶段经过精心设计，旨在全面提升模型的性能，尤其是其在复杂任务中的推理能力 ，这一部分是模型实现高级认知功能的关键突破。

Stage I. 非推理训练（No-Reasoning Training）：夯实基础性能

Kwai Keye-VL首先进行监督微调（SFT），使用500万条高质量多模态VQA数据，数据多样性由自研TaskGalaxy方案建立的任务体系（包含7W种任务）保证，数据质量经AI筛选困难样本及人工标注保障；

随后进行混合偏好优化（MPO），结合开源数据与自建的偏好数据，后者通过收集SFT错误样本作提问素材、Qwen2.5VL 72B与SFT模型生成答案对、人工排序获得。

Stage II. 推理训练（Reasoning Training）：核心突破，赋能复杂认知

此阶段是Kwai Keye-VL训练流程的最大亮点与贡献 ，通过引入Mix-mode的思维链（CoT）和多思考模式强化学习（RL）机制，显著提升模型的多模态感知、推理和think with image能力，使其能够处理更复杂、需要多步思考的任务。

思维链冷启动阶段（CoT Cold-Start） 通过混合四种推理模式的训练数据，实现对模型思维链能力的零基础激活，使其初步掌握人类分步思考的推理范式。

混合强化学习阶段（CoT-Mix RL） 在冷启动基础上，采用GRPO算法进行混合模式强化学习，通过创新的双轨奖励机制（同步评估结果正确性与过程一致性）深度优化多模态感知、数学推理、短视频理解及智能体协同等综合能力，显著提升模型的推理能力。

多轮迭代对齐阶段（Iterative Alignment） 利用MPO算法对优劣数据对进行多轮迭代，根治内容重复崩溃与逻辑断层问题，最终赋予模型根据问题复杂度智能选择深度推理模式的自适应能力，实现性能与稳定性的双重突破。

Kwai Keye-VL通过分阶段、精细化的预训练与后训练策略，特别是对推理能力的深度强化与创新性突破 ，确保了模型在多种复杂场景下都能提供高质量、逻辑严谨且稳定的输出。

训练架构优化：高效稳定的百亿参数模型训练

为实现百亿参数模型的高效稳定训练，Kwai Keye-VL通过混合并行策略（整合数据并行/序列并行/ZeRO技术）显著提升训练吞吐量，既利用显存分片降低压力，又通过计算通信重叠隐藏延迟。

不同于纯文本模型训练，多模态输入分辨率差异很大，不同显卡计算负载不均会导致整体利用率降低，Kwai Keye-VL在训练框架中实现了全局负载均衡策略，依据样本FLOPS动态分发样本，尽可能消除硬件闲置，显著提高了多模态训练的MFU。同时构建了样本级自动容错机制，依托联合检查点技术使训练意外中断后可自动精准续训，保证了模型迭代的稳定性。

后训练阶段通过升级vLLM框架加速采样，并部署多奖励模型随机分发策略，大幅压缩强化学习的计算耗时，系统性保障了大规模训练的稳定性与效率。

模型评估

· 视觉理解/逻辑推理Benchmark

Kwai Keye-VL在综合感知能力比肩同规模顶尖模型的同时，在复杂推理任务中展现出显著领先优势。

评测数据显示：其基础感知达行业一流水准；而在MMMU、MMStar等通用Benchmark及MathVista、OlympiadBench等推理Benchmark上，该模型性能曲线大幅领跑业界，尤其在需要高阶逻辑推理与数学解题的挑战性任务中，凸显出卓越的复杂问题解决能力。

· 视频理解Benchmark

Kwai Keye-VL通过公开与自建评测双验证，在学术标准与真实短视频场景中均展现出全面领先优势。

为突破公开数据集的数据污染、语言覆盖局限及任务单一性等问题，快手构建了内部评测集KC-MMBench。

结果显示，该模型在VideoMME等权威公开Benchmark中以67.4分超越Qwen2.5-VL-7B（62.7）与InternVL-3-8B（65.5）；

在内部短视频场景评测中优势进一步扩大，综合得分领先SOTA模型超10%，尤其在热点聚合、内容合集、广告价值等核心场景表现卓越，实证其学术与产业双维竞争力。

当大模型的风暴席卷交互的疆界，重塑我们认知与交互的方式，Kwai Keye-VL ——这颗由快手精心锻造的视觉-语言「智能火种」，正在视频理解的沃土上，燃起一场颠覆性的燎原之火！

这亦是Keye注入时代的核心动能，一场始于理解、终于交互的智能觉醒！

此刻，就让我们以一首诗，为这段探索的华章作结，跟随Keye的视角，感受智能之眼所洞见的壮阔未来……

提问：结合如下这张图片，写一首诗

参考资料：

https://kwai-keye.github.io/

如何制作优质短视频的5大步骤

制作优质短视频需要创意技术和策略的结合，以下是一些关键步骤和技巧帮助你制作出吸引人的短视频。

·1.明确目标，确定主题。短视频的内容要围绕一个明确的主题展开，避免信息过于分散。目标受众了解你的目标观众是谁，他们的兴趣和需求是什么？目标效果是娱乐教育推广产品还是传递某种情感？

·2.策划内容，脚本撰写。提前写好脚本确保内容逻辑清晰、节奏紧凑。故事性即使是短视频也要有起承转合，吸引观众从头看到尾。时长控制，短视频通常在15秒到1分钟之间，内容要精炼。

·3.拍摄技巧，画面质量。使用高清设备，如手机或相机拍摄，确保画面清晰。光线，自然光或补光灯的使用可以让画面更明亮，更有质感。构图遵循三分法对称构图等基本规则，提升画面美感。稳定性使用三脚架或稳定器避免画面抖动。

·4.剪辑与后期。剪辑软件使用专业的剪辑工具(如剪映、Premiere、Final Cut Pro等)进行剪辑。节奏感通过快剪、转场、特效等手段让视频节奏明快。字幕与配音，添加字幕方便观众理解。配音或背景音乐可以增强氛围。调色通过调色让画面更具视觉冲击力。

·5.音乐与音效。背景音乐选择与视频主题契合的音乐，注意版权问题。音效适当添加音效(如点击声、环境音等)，增强沉浸感。

·6.封面与标题。封面设计制作吸引眼球的封面，突出视频主题。标题优化，标题要简洁有力，能引发观众的好奇心。

·7.发布与推广。平台选择，根据目标受众选择合适的平台(如抖音、快手、B站、YouTube等)。发布时间选择用户活跃的时间段发布，增加曝光率。互动，积极回复评论与观众互动，提升用户粘性。

·8.数据分析与优化。观看数据，分析播放量、完播率、点赞数等数据，了解观众喜好，持续改进。根据反馈调整内容方向，优化视频质量。

·9.创意与独特性。差异化：尝试与众不同的创意，避免内容同质化。热点结合：结合时事热点或流行趋势，增加视频的时效性和吸引力。

·10.团队协作。如果是团队制作，明确分工(如策划、拍摄、剪辑、推广等)，提高效率。

通过以上步骤可以制作出高质量的短视频，吸引更多观众并实现目标。

【干货】如何制作快手短视频能够快速吸粉变现?

第一,找准自己的精准定位,你的帐号要有自己核心的吸引力,想要清楚自己跟别的帐号区别是什么。第二,内容上,全道文化认为也可以借鉴了平台的内容特色,如年...

谁知道怎么制作快手视频。他们的视频都剪辑了。还..._网络编...

7秒的视频都是用快手直接拍摄的,其他的视频是制作好以后,再上传到快手的。比如我可能先用美册视频制作软件剪辑完成以后,保存到手机相册里面,这个时...

快手短视频怎么发?

在快手上发布短视频的步骤如下:打开快手app,点击正下方的“加号”按钮,进入拍摄界面。在拍摄界面中,点击左下角的“相册”图标,选择需要上传的本地视频。...

快手上传视频的方法步骤详解-ZOL问答

快手视频上传指南在快手平台上,你可以制作并分享自己的视频,通过分享可能会让你的视频变得火爆。下面是一些关于如何上传视频到快手的方法。1.下载和安装:首...

快手里肿么给自己拍小视频-ZOL问答

在快手里给自己拍小视频非常简单。以下是详细步骤:1.打开快手APP并登录账号。2.点击“+”号按钮,选择“拍摄”选项。3.在弹出的相机界面中,可以选择不同...

快手抖音上的小视频都是这么做的，用什么软件拍摄的?

一、手机端手机上的视频剪辑软件可真的是太多了:AndroVidpro、Videoshop、FilmoraGo、VlogNow、大片、乐秀、Quik、接招、猫饼、一闪、HANI、ALIVE、inSh...

快手科普看世界视频怎么制作?

2.找出好看的角度,很多朋友在外面吃饭的时候,都喜欢拍点短视频在脉友圈发一下,尤其是喜欢在深夜放毒。可是我们有没有发现,无论是什么菜,他们拍出来都是路...

快手上的电影短视频是怎么来的?

影视号的电影短视频,其实就是围绕一个明确的主题,从相关影视剧中截取合适的片段,然后基于自己的理解和想法,把视频片段与音频、字幕、图片等素材整合到一起,...

做个快手难不难?

像我们一般的人,在快手上制作短视频是不容易的,像有些专业制作视频的人是很容易的,一般我们在快手制作短视频,需要发作品时,不知道放什么特效好,以及加什...

为什么自己做快手短视频做不起来?

不是自己做快手做不起来,是自己的能力有限,想做一个快手号,达到一定粉丝量,还有一定的活跃度,相当难的,除非自己每时每刻都有时间去思考,如何做好他,做好...

本文地址： http://www.sxfangfu.com/article/1c999f36.html

文章来源：用户投稿