2.5-篇章小测

文档摘要

篇章小测问题1: Transformer中的softmax计算为什么需要除以$dk$? 问题2: Transformer中attention score计算时候如何mask掉padding位置？问题3: 为什么Transformer中加入了positional embedding？问题4: BERT预训练时mask的比例，可以mask更大的比例吗？问题5: BERT如何进行tokenize操作？有什么好处？问题6: GPT如何进行tokenize操作？和BERT的区别是什么？问题7: BERT模型特别大，单张GPU训练仅仅只能放入1个batch的时候，怎么训练？问题8: Transformer为什么需要一个position embedding？

篇章小测

问题1: Transformer中的softmax计算为什么需要除以d_k?
问题2: Transformer中attention score计算时候如何mask掉padding位置？
问题3: 为什么Transformer中加入了positional embedding？
问题4: BERT预训练时mask的比例，可以mask更大的比例吗？
问题5: BERT如何进行tokenize操作？有什么好处？
问题6: GPT如何进行tokenize操作？和BERT的区别是什么？
问题7: BERT模型特别大，单张GPU训练仅仅只能放入1个batch的时候，怎么训练？
问题8: Transformer为什么需要一个position embedding？
问题9: Transformer中的残差网络结构作用是什么？
问题10: BERT训练的时候mask单词的比例可以特别大（大于80%）吗？
问题11: BERT预训练是如何做mask的？
问题11: word2vec到BERT改进了什么？