记者体验HeyGen 制作视频“像打字一样简单” 40多种语言“脱口而出”开云体育官方网站
发布时间:2023-11-04
 近年来,视觉内容在各类平台上的创作与展示数量呈爆炸式增长。昨日,记者体验了近期“爆火”的AI视频翻译工具HeyGen,整个操作过程十分便捷。  记者用电脑登录HeyGen官方网站,使用邮箱注册一个账号,便能轻松进入HeyGen主页面。该页面全英文显示,操作要求简洁明了。只需要上传想要讲话的人像图片,点击“create video”之后,通过指示上传音频,便能获得一段翻译视频。每个账号都有2分钟

  近年来,视觉内容在各类平台上的创作与展示数量呈爆炸式增长。昨日,记者体验了近期“爆火”的AI视频翻译工具HeyGen,整个操作过程十分便捷。

  记者用电脑登录HeyGen官方网站,使用邮箱注册一个账号,便能轻松进入HeyGen主页面。该页面全英文显示,操作要求简洁明了。只需要上传想要讲话的人像图片,点击“create video”之后,通过指示上传音频,便能获得一段翻译视频。每个账号都有2分钟的免费试用时长,但是生成视频需要排队等待。记者注意到,在小红书等社交平台上,甚至出现了教网友正确使用该软件的付费教程,并获得了一定销量。

  有网友表示,自己在排队等待了7000个视频之后,终于完成了视频翻译。“口型完美,卡点和嘴型都对得上,声音克隆稍有缺陷,情感还原度稍有欠缺。毕竟只通过40秒的原视频来克隆音频,已经十分优秀了!”该网友称赞。

  也有网友表示,自己仅用一张人物照片便生成了一个口播视频,有包括中文在内的40多种语言可供选择,其中,英文的口型支持最为理想。“成品效果相当出色,与此前体验过的国内同类产品相比,HeyGen在各方面都有较大的优势和突破。”

  据了解,HeyGen背后的公司“诗云(surreal)科技”成立于2020年底,总部在深圳。“诗云”的取名灵感来源于刘慈欣的科幻小说《诗云》。诗云科技联合创始人兼CEO徐卓曾表示,他们认同小说中所表达的“人类的艺术创造力无法被机器和算法取代”,但也同时认为,创作的过程和效率可以被机器极大优化,让人类更专注于创意本身。诗云科技9月7日推出视频翻译功能后,在网上迅速走红,目前拥有数百万用户。

  HeyGen的前身,是一款名为“Movio”的AI视频翻译平台,背后所依靠的模型是其自家的多模态内容生成引擎“Surreal Engine”。2022年7月,诗云科技推出多模态内容生成引擎Surreal Engine,将内容生产分为Understanding(理解)、Framing(视框化)、Rendering(渲染)三个步骤。

  得益开云体育官方网站于此,HeyGen的最新版本Joshua Avatar 2.0在实时生成人物视频方面逼真度方面表现出色。不仅如此,HeyGen的产品正式上线后的一年不到,徐卓就发表博文表示,HeyGen在7个月内实现了100万美元的ARR(年度经常性收入),并保持连续9个月50%的月环比增长率。

  目前,HeyGen可以支持50多种语言和300多种不同的音色,用户可以上传自己的照片进行个性化形象定制,HeyGen也贴心地为用户提供了上百款数字人素材和模板。

  盈利模式方面,HeyGen主要依靠C端客户付费,视频生成付费模式分为“创作者(Creator)和商务(Business)”两种,最低24美元/月。也支持“声音克隆、人像精调”单独付费,未来将逐步开放API接口、团队协作和企业功能。HeyGen可以基本保证1080P的分辨率,满足广告、电商、新闻等行业的需求,还能帮助用户制作PPT。此外,HeyGen还提供了文本转视频、音频上传、视频分享和多种场景视频等功能。

  早在创立诗云科技之前,徐卓便在该领域打下深厚基础。本科毕业于同济大学自动化专业的徐卓,后前往卡内基梅隆大学攻读计算机硕士学位。作为明星应用Snapchat前100号员工 ,徐卓从0到1搭建了Snapchat广告平台、推荐算法系统以及机器学习平台Barista,并负责AI camera的技术及产品研发,经验十分丰富。他表示,其目标是“消除语言障碍”,设想未来用不同语言制作视频内容和传播信息,将变得像打字一样简单。

  徐卓认为,今天的互联网巨头做的都是基于相机的成本优化。虽然会有很多新的内容形式与相机特效出现,但“拍摄”行为本身成本极高,而诗云科技希望通过内容生成来代替拍摄。

  在徐卓看来,诗云科技所做的是“构建一个新的内容基础设施”,分为三个阶段:围绕“人脸”的生成、围绕“人体”的生成、围绕“环境”的生成。其背后的思路是:从生成一个具有表达力的形象开始,到拓展这个角色的全貌,再将其放置于一个合适的上下文中,以丰满内容表达层次,最终形成一个全面的内容基础设施。诗云科技正处于第一阶段:研发角色形象生成相关技术,并进行产品化落地,把广告和电商行业作为首个落地场景,为跨境电商客户提供“视频版的Google translate”——不仅可以翻译广告内容的文字与语音,并进行嘴型适配,还可以“翻译”广告模特的长相,以全方位适配全球各地文化与审美方式,帮助广告主和商家实现更高转化率。

  基于良性商业模式,目前,诗云科技已完成两轮数百万美元融资。其中2021年3月,诗云科技宣布获得红杉中国种子基金和真格基金的天使轮投资;同年8月30日,诗云科技宣布获得数百万美元Pre-A轮融资,由IDG资本领投、红杉中国种子基开云体育官方网站金和真格基金跟投。