制造业大模型的构建与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.1 什么是大模型

大模型成为家喻户晓的概念始于2022年底到2023年初。彼时,由OpenAI推出的ChatGPT以其令人惊艳的交互性和实用性在全球范围内引发了广泛关注与热议。ChatGPT基于GPT-3这一大规模预训练语言模型实现,具有强大的自然语言理解和生成能力,能够与用户进行多轮对话、解答问题、撰写代码、创作文本等。随着ChatGPT热度的持续发酵,大模型技术受到了前所未有的重视,各大科技公司和研究机构纷纷入局,由此开启了大模型“群雄割据”的时代。

事实上,大模型更准确的叫法应当是大语言模型(Large Language Model,LLM),是一种能够对自然语言进行处理和生成的神经网络模型。该模型基于Transformer架构,具有大规模参数和复杂计算结构。例如,GPT-3(Generative Pretrained Transformer 3)就是一个著名的大语言模型,它拥有1750亿个参数,是ChatGPT应用的基础模型,能够完成智能文本生成、自然语言理解、多轮对话等多种复杂任务。

Transformer架构在自然语言处理(NLP)领域取得巨大成功后,被广泛应用在计算机视觉、视频、音频等其他模态的人工智能任务中,成为人工智能技术的基础模型架构。在此基础之上,研究者通过构建不同模态之间的连接,如采用对比学习模型CLIP(Contrastive Language-Image Pre-training,对比语言-图像预训练),填补了各个模态之间的鸿沟。由此,人工智能实现了文生图、文生视频、理解图片、理解视频等跨模态应用,具备了强大的跨模态能力。例如,OpenAI在2024年推出Sora这样的文生视频大模型,意味着大模型技术正在从文本扩展到多媒体内容生成,对影视等相关行业带来革命性影响。

因此,文本之外的其他模态以及跨模态的各个模型,也具有了大规模参数和复杂计算结构,也被称为大模型。如此一来,大模型的概念从大语言模型扩展到了其他模态。大模型的概念更泛化、更模糊化了。在没有明确说明大模型是大语言模型还是大视频模型或者跨模态大模型时,需要结合上下文来理解大模型这个词所指的含义。

目前,在人工智能发展的浪潮中,大模型技术是该领域最先进的技术。科技是第一生产力,大模型代表了最先进的生产力,也是衡量一个国家或地区在人工智能核心竞争力方面的重要指标。