Tiny-LLMDay1


文档摘要

Tiny-LLM Day 1 配环境稍微折腾了一会儿,因为我新的 mac 发现要配合 mlx 需要安装 XCode,搞了半天绕不过去,遂安装。然后只能用 python 3.10 到 3.12 的版本。 整体体验感觉文档写的比较 fly bitch,不知是不是迟先生助教做多了的缘故 这里实现两个功能,一共就三个函数,简单梳理下: Scaled Dot-Product Attention 这个函数自然是比较简单的,快速过一下: 我们一般使用的 attn 公式是 $$ \text{attn} = \text{softmax}(\frac{QK^T}{\sqrt{dk}}) V $$。其中,维度信息值得格外注意。


发布者: 作者: 转发
评论区 (0)
U