预训练BERT


文档摘要

预训练BERT :label: 利用 :numref: 中实现的BERT模型和 :numref: 中从WikiText-2数据集生成的预训练样本,我们将在本节中在WikiText-2数据集上对BERT进行预训练。 首先,我们加载WikiText-2数据集作为小批量的预训练样本,用于遮蔽语言模型和下一句预测。批量大小是512,BERT输入序列的最大长度是64。注意,在原始BERT模型中,最大长度是512。 预训练BERT 原始BERT :cite: 有两个不同模型尺寸的版本。基本模型($\text{BERT}{\text{BASE}}$)使用12层(Transformer编码器块),768个隐藏单元(隐藏大小)和12个自注意头。


发布者: 作者: 转发
评论区 (0)
U