#交大科技声

上海交通大学国际合作与交流处 2024-03-26 5321

今年二月，OpenAI发布了Sora，这是一个能够根据用户提示生成长达一分钟，并保持高视觉质量视频的人工智能模型。当全球对Sora如何推动人工智能应用充满期待之时，我们邀请了上海交通大学的邹君妮教授，为大家简要介绍Sora的技术原理，并提供未来研究方向的指导。

1. 可以简要为我们介绍一下Sora的技术原理吗？

从技术原理上，我们估计Sora可以被分为三个主要模块：DALLE-3[1]+GPT4[2]；时空编解码器（Spacetime Encoder & Decoder）；Diffusion Transformer (DiT) [3]。具体而言：

1） DALLE-3+GPT4使视频数据描述重标注（re-captioning）

2） Spacetime Encoder & Decoder构建时序一致的图像视频联合编解码

3） Diffusion Transformer实现可伸缩（scalable）长序列训练和推理

2. 目前我们国内的研究和Sora的差距有多少？

在上述三个模块中，就国内目前已知的模型工具和公开的资料分析，我们距离Sora的能力相差还较远。目前来看，国内的研究还是在初步阶段，停留在单图像、单模态、小规模数据、短序列的生成。

除此之外，训练用数据源的规模和质量，以及AI系统（AI框架、AI编译器、AI芯片、大模型）的工程化能力，同样制约着国内相关研究的发展。

3. 以您的建议，作为学生，未来我们在生成式AI方面应该关注些什么？能做些什么以更好地适应适应和促进该领域的发展？

随着Gemini，GPT4-V，Sora等多模态大模型的兴起，生成式AI逐渐向大规模，多模态，强交互，高真实性的方向发展。同时，考虑到现有生成模型的底座：深度神经网络，从原理上是一种强力的函数拟合器，这使得生成式AI依然面临着如何建模概率密度这一基础问题的困扰。Sora本身也面临对物理世界理解存在严重的幻觉问题。

因此，未来可以致力于三个方向的研究：

1）基础生成理论的研究，研究更深入的更强力的基础理论依然是生成式AI的关键。

2）多模态3D图像生成以及4D视频生成。Sora的成功标志着大模型在物理逻辑上的涌现能力。这为基于多模态大模型的3D图像生成以及进一步的4D视频生成提供了研究基础。

3） AI for CG以及基于物理引擎的生成。Sora展现了生成式AI构建虚拟的物理世界的可能。因此，如何系统地理解物理世界，并在此之上生成数据是大模型以及人工智能未来发展的重要方向。

【参考资料】

[1]. Openai,com/sora

2. Openai.com/dall-e-3

3. Achiam J, Adler S, Agarwal S, et al. Gpt-4 technical report[J]. arXiv preprint asXiv:2303. 08774, 2023.

4. Peebles W, Xie S. Scalable diffusion models with transformers[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. 2023: 4195-4205.

【作者简介】

邹君妮，教授，博士生导师，国家杰出青年科学基金获得者（2021），国家优秀青年科学基金获得者（2016）。2008年在美国卡内基梅隆大学（CMU）从事研究；2011年-2012年，在美国加州大学圣地亚哥分校（UCSD）担任全职访问教授。2017年起，在上海交通大学计算机科学与工程系担任教授。先后获得上海市科技奖励一等奖3项；2018年，获中国电子学会“技术发明奖”二等奖；2020年，获吴文俊人工智能“科技进步奖”二等奖。

在上海交通大学“媒体信息网络研究所”（http://min.sjtu.edu.cn/），负责媒体信息的网络通信与智能技术研究和研究生培养。

主要研究领域：多媒体通信、分布式网络与优化、沉浸式视觉处理与传输、强化学习人工智能等。

龙可馨 (kexinlong@sjtu.edu.cn)，交大国际处全球传播办公室编辑。服务于交大师生的全球推广诉求，为SJTU的国际形象塑造和声誉提升进行内容生产。

#交大科技声

相关新闻