#交大科技声
2024-03-26 795

今年二月,OpenAI发布了Sora,这是一个能够根据用户提示生成长达一分钟,并保持高视觉质量视频的人工智能模型。当全球对Sora如何推动人工智能应用充满期待之时,我们邀请了上海交通大学的邹君妮教授,为大家简要介绍Sora的技术原理,并提供未来研究方向的指导。

 

1.     可以简要为我们介绍一下Sora的技术原理吗?

从技术原理上,我们估计Sora可以被分为三个主要模块:DALLE-3[1]+GPT4[2];时空编解码器(Spacetime Encoder & Decoder);Diffusion Transformer (DiT) [3]。具体而言:

1) DALLE-3+GPT4使视频数据描述重标注(re-captioning

2) Spacetime Encoder & Decoder构建时序一致的图像视频联合编解码

3) Diffusion Transformer实现可伸缩(scalable)长序列训练和推理

 

2.     目前我们国内的研究和Sora的差距有多少?

在上述三个模块中,就国内目前已知的模型工具和公开的资料分析,我们距离Sora的能力相差还较远。目前来看,国内的研究还是在初步阶段,停留在单图像、单模态、小规模数据、短序列的生成。

除此之外,训练用数据源的规模和质量,以及AI系统(AI框架、AI编译器、AI芯片、大模型)的工程化能力,同样制约着国内相关研究的发展。

 

3.     以您的建议,作为学生,未来我们在生成式AI方面应该关注些什么?能做些什么以更好地适应适应和促进该领域的发展?

随着GeminiGPT4-VSora等多模态大模型的兴起,生成式AI逐渐向大规模,多模态,强交互,高真实性的方向发展。同时,考虑到现有生成模型的底座:深度神经网络,从原理上是一种强力的函数拟合器,这使得生成式AI依然面临着如何建模概率密度这一基础问题的困扰。Sora本身也面临对物理世界理解存在严重的幻觉问题。

因此,未来可以致力于三个方向的研究:

1) 基础生成理论的研究,研究更深入的更强力的基础理论依然是生成式AI的关键。

2) 多模态3D图像生成以及4D视频生成。Sora的成功标志着大模型在物理逻辑上的涌现能力。这为基于多模态大模型的3D图像生成以及进一步的4D视频生成提供了研究基础。

3) AI for CG以及基于物理引擎的生成。Sora展现了生成式AI构建虚拟的物理世界的可能。因此,如何系统地理解物理世界,并在此之上生成数据是大模型以及人工智能未来发展的重要方向。

 

【参考资料】

[1]. Openai,com/sora

2. Openai.com/dall-e-3

3. Achiam J, Adler S, Agarwal S, et al. Gpt-4 technical report[J]. arXiv preprint asXiv:2303. 08774, 2023.

4. Peebles W, Xie S. Scalable diffusion models with transformers[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. 2023: 4195-4205.

 

【作者简介】

邹君妮,教授,博士生导师,国家杰出青年科学基金获得者(2021),国家优秀青年科学基金获得者(2016)。2008年在美国卡内基梅隆大学(CMU)从事研究;2011-2012年,在美国加州大学圣地亚哥分校(UCSD)担任全职访问教授。2017年起,在上海交通大学计算机科学与工程系担任教授。先后获得上海市科技奖励一等奖3项;2018年,获中国电子学会技术发明奖二等奖;2020年,获吴文俊人工智能科技进步奖二等奖。

在上海交通大学“媒体信息网络研究所”(http://min.sjtu.edu.cn/),负责媒体信息的网络通信与智能技术研究和研究生培养。

主要研究领域:多媒体通信、分布式网络与优化、沉浸式视觉处理与传输、强化学习人工智能等。

 

 

龙可馨 (kexinlong@sjtu.edu.cn),交大国际处全球传播办公室编辑。服务于交大师生的全球推广诉求,为SJTU的国际形象塑造和声誉提升进行内容生产。