Qwen整体介绍


文档摘要

Qwen整体介绍 Qwen模型架构讲解直播:直播链接 Qwen的整体架构与Llama2类似,如下图所示: 框架图 其中: 将文本转为词表里面的数值。 数值经过 得到一一对应的向量。 是用来看见左边、右边,双向等等来设定。 各类下游任务, , 等,基本都是基础模型 后面接对应的 层,还有损失函数不一样。 1 Qwen2Config Qwen2Config中包含一些自定义的超参数,例如 , , , 等。类似于 可以调用里面的超参数: 。 1.1 Qwen2Model 1.1.1 初始化 设置了模型的两个属性: (用于指定填充标记的索引), (词汇表的大小) 初始化了模型的嵌入层、解码器层、归一化层 嵌入层( ):模型使用嵌入层将输入的标记映射成密集的向量表示。


发布者: 作者: 转发
评论区 (0)
U