昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1,重塑AI短剧行业格局

2025-04-11 07:00:50 围观 : 247 次 0 评论
2月18日,昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1、中国首个SOTA级别基于视频基座模型的表情动作可控算法SkyReels-A1。

  • 开源地址:

    • SkyReels-V1

      https://github.com/SkyworkAI/SkyReels-V1

    • SkyReels-A1

      https://github.com/SkyworkAI/SkyReels-A1

  • 技术报告:

    https://skyworkai.github.io/skyreels-a1.github.io/report.pdf

  • SkyReels官方地址:

    skyreels.ai

针对当前全球AI视频生成模型和产品不开源、用不到、费用高、不好用等痛点,昆仑万维SkyReels一次性开源SkyReels-V1和SkyReels-A1两个SOTA级别的模型和算法,将面向AI短剧创作的技术成果回馈开源社区和AIGC用户。而这只是我们在AI视频方向开源道路上的起点,未来将陆续开源更多面向AI短剧的优秀研究成果。

AI视频和短剧的生产形式已经得到了市场的验证,拥有巨大的商业想象空间。2024年8月上线的AI短剧创作平台SkyReels的目标是让用户以更低成本体验线上拍剧,利用 AI 能力解决传统短剧内容供给的难题。SkyReels能够助力解决传统短剧制作流程中面临的挑战,如线下拍剧流程复杂,包括剧本创作、选演员、场景布景、分镜创作、拍摄、后期处理等环节,耗费人力多,制作成本贵,周期长等。


01

SkyReels-V1:Human-Centric Video Foundation Model,中国首个面向AI短剧创作的开源视频生成模型

AI短剧极其需要同时对大脑和肢体完成精细的控制功能,这就需要同时把口型生成、表情生成、肢体生成等多个生成组合在一起。当前大家体验比较好的是口型生成,因为口型生成其实和音频信息之间具备更好的映射关系,因此它的精准度可以实现的更好,用户体验会更好。

而人物表演的细节和能力更是AI短剧生成效果优质与否的核心所在,为了大幅提升表情生成、肢体生成的可控表演效果,SkyReels-V1不仅针对表演细节做了打标,还对情绪、场景、表演诉求等进行处理,利用千万级别、高质量的好莱坞级别数据进行训练微调。

团队针对人物微表情、人物表演细节、场景描述、光影、画面构图等做了更精细的技术升级,可以看到当前由SkyReels生成的视频中的人物已经存在更精准的表演细节,初步具备影帝级人物表演实力。

SkyReels-V1可实现影视级人物微表情表演生成,支持33种细腻人物表情与400+种自然动作组合,高度还原真人情感表达。正如以下视频所示,SkyReels-V1支持生成大笑、怒吼、惊讶、哭泣等微表情,展现出人物情感丰沛的表演细节。

即使有大幅度肢体动作,例如下面视频中,正在大口食用汉堡包的男士,SkyReels-V1生成的微表情也完美贴合人物肢体表演。

同时,SkyReels-V1为AI视频生成带来了电影级光影美学,基于好莱坞级的高质量影视数据训练,当前SkyReels生成的每一帧画面,在构图、演员站位、相机角度等都具备电影级的质感。

无论是单人镜头表演细节,还是多人构图,当前已具备精准的表情控制和高质感画面。在下面视频中,SkyReels-V1生成的「灾难」片段,具有好莱坞大片即视感,场景宏大且有震撼感,其中聚焦到单个人物的脸部表情刻画也可圈可点,以极细致的程度展示出了身临其境的恐惧感。

在一场两个人的「告白时刻」场景中,构图与光影的完美融合,使整个画面既充满了梦幻般的浪漫氛围,又具备了强烈的视觉冲击力。灵动的表情、飞舞的发丝、女子飞扬的衣袖、一道道柔和的光带,两人之间的浪漫爱情故事跃然眼前。

更重要的是,SkyReels-V1不仅支持文生视频、还能支持图生视频,是开源视频生成模型中参数最大的支持图生视频的模型,在同等分辨率下各项指标实现开源SOTA

图1丨SkyReels-V1文生视频指标对比(来源:昆仑万维SkyReels)

能够实现这样的SOTA级别,不仅依赖于昆仑万维SkyReels团队基于自研的高质量数据清洗和人工标注管线,构建了千万级的高质量电影&电视剧&纪录片数据。更依托团队自研「Human-Centric」的视频理解多模态大模型,大幅提升视频中人物相关的理解能力,尤其是自研人物智能解析系统。

综上所述,得益于扎实的数据工作和先进的人物智能解析系统,SkyReels-V1可以实现:





影视化表情识别体系:11种针对影视戏剧中的人物表情理解,如不屑、不耐烦、无助、厌恶等表情的理解;

人物空间位置感知:基于人体三维重建技术,实现对视频中多人的空间相对关系理解,助力模型生成影视级人物站位;

行为意图理解:构建超过400种行为语义单元,实现对人物行为的精准理解;

表演场景理解:实现人物-服装-场景-剧情的关联分析。

SkyReels-V1不仅是全球极少数开源的视频生成模型,还是围绕人物表演、开源视频生成模型中性能最强的

在自研推理优化框架「SkyReels-Infer」的加持下,大幅提升推理效率,实现544p分辨率,推理基于单台4090只需80s,还支持分布式多卡并行,支持Context ParallelCFG Parallel和 VAE Parallel。此外,采取fp8 quantization以及parameter-level offload,满足低显存用户级显卡运行需求;支持flash attention、SageAttention,模型编译优化等,进一步优化延迟;基于开源diffuser库,提升易用性。

正如下图2所示,在同等RTX4090资源情况下对比(4卡),SkyReels-Infer版本比HunyuanVideo官方版本端到端延迟减少58.3%(293.3s vs 464.3s);SkyReels-Infer版本具备更鲁棒的部署策略,支持用户级别显卡1卡-8卡的推理部署。

图2丨推理生成544p视频,使用相同卡数的RTX 4090,SkyReels-Infer版本端到端延迟优于HunyuanVideo官方(xdit) 58.3%

在同等A800资源情况下对比,SkyReels-Infer版本比HunyuanVideo官方版本端到端延迟减少14.7%~28.2%(如图3所示),SkyReels-Infer版本具备更鲁棒的多卡部署策略。

图3丨推理生成544p视频,SkyReels-Infer版本具备更鲁棒的多卡部署策略,支持8卡部署



02

SkyReels-A1:首个SOTA级别的基于视频基座模型的表情动作可控算法

为了实现更加精准可控的人物视频生成,昆仑万维还开源了SOTA级别的基于视频基座模型的表情动作可控算法SkyReels-A1,对标Runway的Act-One,SkyReels-A1支持视频驱动的电影级表情捕捉,实现高保真微表情还原

SkyReels-A1能够基于任意人体比例(包括肖像、半身及全身构图)生成高度逼真的人物动态视频,其真实感源自对人物表情变化和情绪的精准模拟、皮肤肌理、身体动作跟随等多维度细节的深度还原。

如下述视频所示,将参考人物图片(上图)和驱动视频(左下)同时作为输入,在SkyReels-A1的能力加持下,生成了新的视频——将驱动视频中的面部表情和表演细节“移植”到给定参考图片的人物身上。SkyReels-A1支持生成的视频(下中)没有失真,且还原了驱动视频的微表情和肢体表演,效果优于Runway Act-One生成的视频(右下)。

SkyReels-A1不仅支持侧脸的表情控制生成、还能实现更加逼真的眉眼微表情生成和更大幅度的头部与自然身体动作。

例如同一句台词表演,从下面视频可以看出,最右边的人物有明显变样失真,和原始人物形象不一致,而SkyReels-A1支持和驱动下的人物表演,不仅人物不失真,且表演细节更真实,还可以实现神情与身体动作的自然完美融合。

SkyReels-A1能够实现更大幅度的人物表情驱动。在下面视频中可以看到,相比Runway的Act-One(无法生成),SkyReels-A1可以迁移更复杂的表情动作,生成的人物面部神情可以配合肢体及画面内容实现更栩栩如生的表演。




03


以开源之姿,以破局之势,昆仑万维致力于推动全球AI短剧创作生态繁荣发展

昆仑万维一直坚持开源,推动技术平权。自2023年8月23日,昆仑万维发布国内第一款AI搜索产品「天工AI搜索」以来,持续开源大模型回馈开发者和行业。

早在2023年10月,昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列,并配套开源了600GB、150B Tokens的超大高质量开源中文数据集。2024年开始,公司陆续开源了数字智能体全流程研发工具包AgentStudio、「天工大模型3.0」4000亿参数MoE超级模型、 2 千亿稀疏大模型 Skywork-MoE、Skywork-o1-Open等模型。

视频生成模型是整个AI短剧创作当中最难的一个环节,尽管过去一年行业内的模型生成能力已有大幅提升,但还远远不够,同时还面临视频生成成本高的问题。

昆仑万维同时将SOTA级别的SkyReels-V1和SkyReels-A1进行开源,是AI短剧行业首例,也是昆仑万维SkyReels回馈行业迈出的一小步,更是促进AI短剧创作和视频生成行业枝繁叶茂的一大步

我们相信在进行推理优化的升级和可控算法的开源后,它们将为用户带来低成本、可控性更强的AIGC能力。昆仑万维希望通过更多优秀视频生成模型的开源和极致的AI短剧产品能力,为用户带来低成本实现AI短剧创作的可能性、突破行业目前视频生成一致性差的问题,让大众通过自己的电脑生成精细且可控的人物表演。

昆仑万维董事长兼CEO方汉表示,“AIGC能力的出现,包括我们现在做的视频生成能力的出现,一定会将一部好莱坞大片质量的电影制作成本,从现在的一亿美金,让其迅速下降到几十万美金甚至几千美金,几年之后几百美金都是有可能的。这样会让所有语言的人都会用AI来创作属于本民族的内容产品。这样的结果将会实现文化的平权,而这个红利,很有可能是中国企业去吃到”。

此次开源的视频大模型,不仅是一次技术突破,有助于缩小全球内容产业的数字鸿沟,更是文化产业生产力的一次革命。未来,短剧与游戏、虚拟现实等领域的跨界发展,将会加速产业融合。AI短剧也有希望从“技术实验”迈向“主流创作”,成为全球文化输出的新载体。

“实现通用人工智能,让每个人更好地塑造和表达自我”是公司的使命,未来,昆仑万维及SkyReels还将开源更多视频生成模型和算法、通用模型,通过开源实现AGI平权,推动AI短剧生态的持续建设和繁荣,促进开源社区、开发生态以及AI行业的发展。




往期推荐
01
 昆仑万维发布Matrix-Zero世界模型


02
 天工AI正式上线DeepSeek R1+联网搜索
03
 天工大模型4.0 o1版和4o版正式上线
04
 天工大模型4.0 o1版启动邀请测试
05
 昆仑万维推出天工大模型4.0 4o版

相关文章

  • 技术 | 当背包侠邂逅3D高斯,数字孪生迎来“瞬时”革命
    技术 | 当背包侠邂逅3D高斯,数字孪生迎来“瞬时”革命

    在数字化的浪潮中,我们渴望在数字虚拟的世界中复刻出现实的每一个细节。然而,对于仓库、地下工事、码头等结构复杂且无GNSS信号的“信息孤岛”,传统的三维重建技术往往面临效率低下、模型笨重、真实感不足的困境。其生成的数字孪生模型,常常只是空有点...

    2025-07-28 13:01:06 立得空间
  • 携手越南BW Industrial集团,共建高标准TPO屋面系统
    携手越南BW Industrial集团,共建高标准TPO屋面系统

    近年来,东方雨虹以产业基础、科创平台、资源优势及实践探索经验为支撑,积极抢抓国际发展新机遇、探索全球发展新路径、加速全球化布局,陆续在美国、加拿大、马来西亚、越南、菲律宾等多国开设海外分公司及办事处,为夯实海外发展基础、拓展海外发展空间奠定...

    2025-07-28 11:09:19 东方雨虹
  • SNEC2025开展首日| 利珀科技在2.1H-D110展位等你
    SNEC2025开展首日| 利珀科技在2.1H-D110展位等你

    6月11日,SNEC第十八届国际太阳能光伏与智慧能源(上海)大会暨展览会在上海盛大开幕,利珀科技携光伏电池端通用解决方案,BC电池与组件端视觉解决方案亮相。利珀展位 2.1H-D110 leapers合影展会现场,利珀科技的技术团...

    2025-07-27 21:02:52 新能源杭州利珀科技
  • 用友BIP:打造企业数智化的战略级“操作系统”
    用友BIP:打造企业数智化的战略级“操作系统”

    来源:新华网客户端yonyou在新一代信息技术持续突破、人工智能加速应用落地、产业体系深度重构的时代背景下,软件已从传统的“辅助工具”跃升为“新型生产力”。国家持续推进《“十四五”数字经济发展规划》《数字中国建设整体布局规划》等顶层设计落地...

    2025-07-23 10:31:02 用友
  • 捷昌驱动:以科技重构适老化生活,赋能银发经济新未来
    捷昌驱动:以科技重构适老化生活,赋能银发经济新未来

    在人口老龄化趋势加速的当下,如何让老年群体享有更有尊严、更具品质的生活,已成为社会发展的重要命题。2025年6月11日至13日,上海国际养老、辅具及康复医疗博览会(AID)上,线性驱动领域领军企业捷昌驱动(展位号:W5F32)以"从零部件供...

    2025-07-22 22:16:10 捷昌驱动
  • 数智服务·智慧运营——用友四川用户企业报表赋能培训圆满结束!
    数智服务·智慧运营——用友四川用户企业报表赋能培训圆满结束!

    yonyou为助力客户企业加速财务数字化转型,深化数智应用能力,用友网络科技股份有限公司四川分公司于6月13日在蓉成功举办“数智服务·智慧运营——四川用户系统操作与价值提升培训会”。本次培训聚焦企业报表核心场景,通过系统化赋能,助力客户高效...

    2025-07-22 11:48:19 软件用友四川
  • 正式介绍美团闪购,欢迎10亿消费者来购物!
    正式介绍美团闪购,欢迎10亿消费者来购物!

    正式向大家介绍新一代购物平台——美团闪购!我们把“等快递”升级为“30分钟送达”海量商品,吃的用的,应有尽有24小时随时随地陪伴大家更有每日神价,就是便宜就是快为大家打造下一代购物体验诚邀全国10亿消费者,随时来美团闪购逛逛我们特地准备了开...

    2025-07-20 18:16:00 美团Meituan
  • 数智焕新进行时,用友BIP助力企业跨越周期、迈向高质量发展
    数智焕新进行时,用友BIP助力企业跨越周期、迈向高质量发展

    用友BIP全球经济波动加剧、技术迭代加速,当关税战如迷雾般笼罩全球贸易航道、AI 大模型开始重塑整个行业生态,全球范围内的企业都面临着关税壁垒、政策合规、AI技术落地难以及全球化运营复杂性等多重挑战。加速推进数智化转型成为企业突破困境、实现...

    2025-07-19 15:46:37 用友
  • 国际权威认证!凌云光通过CMMI四级评估
    国际权威认证!凌云光通过CMMI四级评估

    近期,凌云光成功通过国际公认最权威的软件研发管理体系认证——CMMI(软件能力成熟度模型集成)DEV四级评估,这标志着公司在软件研发过程管理能力、项目交付质量等方面持续进阶,目前已具备高成熟度的量化管理能力,将为客户提供更高确定性的交付保障...

    2025-07-19 07:17:55 软件凌云光技术
  • 北京市科委报道双鹤创新平台:AI驱动药物研发全链条  塑造医药创新“国家队”新范式
    北京市科委报道双鹤创新平台:AI驱动药物研发全链条 塑造医药创新“国家队”新范式

          在创新药物研发领域,面对漫长的周期、高昂的成本以及巨大的风险,北京双鹤润创科技有限公司(以下简称“双鹤润创”),作为华润双鹤旗下的科技创新平台,提出了一种创新的解决方案。该平台以“人工智能...

    2025-07-18 21:33:57 药品华润双鹤药业
发表评论