中国 AIGC 产业峰会 | 科大讯飞 AIGC“上新”时!
2023 年,AIGC 爆发出前所未有的发展潜力,其中不断完善的深度学习模型、开源模式的推动,以及大模型探索商业化的可能,成为了 AIGC 发展的“加速度”。AIGC 或将会改变内容领域的生产方式,带来整个行业的变革。
3 月 29 日,量子位主办的中国 AIGC 产业峰会在北京举行。大会以「Hello New World」为主题,AIGC 领域学界、产业界的专家学者齐聚一堂,从产学研等多维度,覆盖大公司玩家、创新创业公司、学研和创投代表,全方位探讨和分享中国 AIGC 产业的现状、机遇和未来。科大讯飞 AI 研究院常务副院长高建清受邀参加并作主题演讲。
在《AIGC 技术探索与应用创新》的演讲中,高建清分享了基于文本预训练、多模态预训练、多元异构基础资源构建、异构集群构建及大模型训练套件,讯飞在音频创作、视觉创作、文本创作等方面的研究和应用。
高建清表示,科大讯飞的 AIGC 整体布局可以总结为三层架构:“底座 + 能力 + 应用”,是,形成了音频创作、视觉创作、文本创作三大 AIGC 能力,进而衍生出在教育、医疗、人机交互等领域的丰富应用。
关于“底座”,科大讯飞以文本预训练、多模态预训练、多元异构基础资源构建、异构集群构建及大模型训练套件为技术底座,充分培养出强大的 AIGC 能力,并能结合实际应用。此前,科大讯飞拥有的扎实技术积累就已经铸就了其语音 AI 龙头地位,凭借其在语音合成、语音识别、机器翻译以及自然语言理解等核心技术上的深厚的积累,在 AIGC 火热的背景下,自然拥有着乘风而起的底气。
关于“能力”,科大讯飞由底层技术延伸出的三大 AIGC 能力分别为音频创作、视觉创作和文本创作。
在音频创作方面,多风格多情感语音合成系统 SMART-TTS 是讯飞研究院此次的重磅技术突破之一。高建清分享了科大讯飞研究院在虚拟声音自动创造和多风格多情感语音合成系统 SMART-TTS 上的技术进展和成果,抛弃生硬的机器人“口音”,语音合成将变得更加具有“喜怒哀乐”。在此创新下,语音合成从依据真人生成走向语义可控生成,音色、韵律、口音等还可根据自己需要进行控制和调整。
在视觉创作方面,你对 AIGC 的印象还停留在“AI 作画”吗?现在,制作独一无二的虚拟人才是最“潮”玩法!
作为国内较早开展虚拟人技术研究的人工智能公司,早在 2018 年,科大讯飞就发布了多语种虚拟人口唇驱动,2021 年发布 2D 真人捏脸系统;目前已形成了从 3D 虚拟形象口唇表情和动作的 AI 驱动到 AI 贯穿 3D 形象构建的全流程。目前,科大讯飞 AI 虚拟人已广泛应用于媒体、金融、文旅、教育、政企等多场景。。随着 AIGC 的发展,其 AI 生成的应用场景将更加广阔。
基于在 AIGC 各方面的技术积累与行业应用经验,讯飞推出了 AIGC 内容创作平台 —— 讯飞智作和讯飞音乐的词曲家平台。讯飞智作平台为用户提供 AI 配音、虚拟人音视频播报、声音定制、形象定制等服务,一键生成定制化音视频,其平台界面清晰,操作简单,使用门槛低,真正实现让 AIGC 的技术飞入寻常百姓家造福社会。作为面向广大词曲作者和采买方的词曲创作交易平台,词曲家平台不仅提供了辅助作词、辅助作曲和歌曲试音、质量分析等 AI 辅助工具,还能够帮助广大音乐人有效缩短交易路径,获得更多收益与安全交易保障,助力词曲创作交易良性发展。
高建清在大会上表示,讯飞将在认知智能大模型核心技术的研发基础上,重点结合教育、医疗、人机交互、办公等若干领域方向进行应用落地探索,并将持续赋能行业,促进数字经济发展与产业进步。
科大讯飞此次 AIGC 布局的分享,展现了其在技术层面的强大底气,致力于用 AI 技术赋能行业及个人,其在具体应用场景上所体现出的企业社会责任感只增不减。
随便看看:
相关推荐:
网友评论:
推荐使用友言、多说、畅言(需备案后使用)等社会化评论插件