,ai 创业公司 mosaicml 近日发布了其 70 亿参数模型 mpt-7b-8k,据悉,该模型一次可以处理 8000 字文本,相当擅长处理长文重点摘要和问答,还能在 mosaicml 平台上根据特定任务,进一步微调相关配置。

图源huggingface

据悉,系列模型采用了 150 万个 token,并以 256 块 h100 gpu 花 3 天完成模型训练而成。mosaicml 本次发布了 3 个版本模型,包括 mpt-7b-8k、mpt-7b-8k-instruct 和 mpt-7b-8k-chat。

图源huggingface

其中,第一个版本 mpt-7b-8k、是以 transformer 解码器为基础,并以 flashattention 和 fastertransformer 机制来加速训练与推论,能一次处理 8000 字文本,mosaicml 公司表示,该模型开源、允许商用。

第二个版本 mpt-7b-8k-instruct 是以第一个版本 mpt-7b-8k 微调而成,mosaicml 公司表示,mpt-7b-8k-instruct 模型可处理长篇指令,特别注重于生成“摘要和问答”,该模型一样开源且可商用。

第三个版本 mpt-7b-8k-chat 则是机器人对话式的 ai 模型,mosaicml 公司宣称,该模型额外多用了 15 亿个聊天数据 token,在第一版模型 mpt-7b-8k 之上继续训练而成,该模型开源,但不允许商用。

it之家此前报道,mosaicml 公司也推出了一款号称训练成本仅为竞品零头的 mpt-30b 开源模型,该公司日前已将所有开源模型发布于 huggingface 平台,感兴趣的小伙伴们可以前往进行相关了解,还可以在本地硬件上使用自己的数据,在下载后,对模型进行各种微调。

广告声明:文内含有的对外跳转链接,用于传递更多信息,节省甄选时间,结果仅供参考,it之家所有文章均包含本声明。