2.5-篇章小测


文档摘要

篇章小测 问题1: Transformer中的softmax计算为什么需要除以$dk$? 问题2: Transformer中attention score计算时候如何mask掉padding位置? 问题3: 为什么Transformer中加入了positional embedding? 问题4: BERT预训练时mask的比例,可以mask更大的比例吗? 问题5: BERT如何进行tokenize操作?有什么好处? 问题6: GPT如何进行tokenize操作?和BERT的区别是什么? 问题7: BERT模型特别大,单张GPU训练仅仅只能放入1个batch的时候,怎么训练? 问题8: Transformer为什么需要一个position embedding?

篇章小测

  • 问题1: Transformer中的softmax计算为什么需要除以d_k?
  • 问题2: Transformer中attention score计算时候如何mask掉padding位置?
  • 问题3: 为什么Transformer中加入了positional embedding?
  • 问题4: BERT预训练时mask的比例,可以mask更大的比例吗?
  • 问题5: BERT如何进行tokenize操作?有什么好处?
  • 问题6: GPT如何进行tokenize操作?和BERT的区别是什么?
  • 问题7: BERT模型特别大,单张GPU训练仅仅只能放入1个batch的时候,怎么训练?
  • 问题8: Transformer为什么需要一个position embedding?
  • 问题9: Transformer中的残差网络结构作用是什么?
  • 问题10: BERT训练的时候mask单词的比例可以特别大(大于80%)吗?
  • 问题11: BERT预训练是如何做mask的?
  • 问题11: word2vec到BERT改进了什么?

发布者: 作者: 转发
评论区 (0)
U