大模型垂直领域低算力迁移:微调、部署与优化
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1.5 从头预训练

从头预训练垂直领域的大模型是一种成本非常高的垂直领域迁移方法。这种策略适用于两种情况:一是当目标任务的数据与预训练模型使用的数据在领域、风格或格式上有显著差异时;二是当任务需求对模型的架构有特殊要求时,例如需要特定类型的神经网络层或连接方式。在这种全新的训练过程中,模型需要大量的数据,这不仅包括通用语料库以捕捉语言的基础结构,还包括大量的领域特定数据集,以确保模型能够学习到特定领域的细节和术语。

从头预训练的自定义性是其最大的优势,这允许模型完全根据特定任务的需求进行构建和优化。然而,这种方法的成本不仅包括在数据采集和处理环节的成本,还包括训练过程中所需的大量计算资源和时间。这种成本是中小规模领域企业难以承担的。