,外媒 semianalysis 近日对 openai 今年 3 月发布的 gpt-4 大模型进行了揭秘,其中包括 gpt-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型等具体的参数和信息。
外媒表示,gpt-4 在 120 层中总共包含了 1.8 万亿参数,而 gpt-3 只有约 1750 亿个参数。而为了保持合理的成本,openai 采用混合专家模型来进行构建。
it之家注:混合专家模型是一种神经网络,该系统根据数据进行分离训练多个模型,在各模型输出后,系统将这些模型整合输出为一个单独的任务。
据悉,gpt-4 使用了 16 个混合专家模型 ,每个有 1110 亿个参数,每次前向传递路由经过两个专家模型。
此外,它有 550 亿个共享注意力参数,使用了包含 13 万亿 tokens 的数据集训练,tokens 不是唯一的,根据迭代次数计算为更多的 tokens。
gpt-4 预训练阶段的上下文长度为 8k,32k 版本是对 8k 微调的结果,训练成本相当高,外媒表示,8x h100 也无法以每秒 33.33 个 token 的速度提供所需的密集参数模型,因此训练该模型需要导致极高的推理成本,以 h100 物理机每小时 1 美元计算,那么一次的训练成本就高达 6300 万美元。
对此,openai 选择使用云端的 a100 gpu 训练模型,将最终训练成本降至 2150 万美元左右,用稍微更长的时间,降低了训练成本。
广告声明:文内含有的对外跳转链接,用于传递更多信息,节省甄选时间,结果仅供参考,it之家所有文章均包含本声明。