文集文档索引

LLMForEverybody


  • 文集信息
  • 目录大纲
  • 最新文档
  • 知识宇宙

文集详情

文集导读

目录 序-AGI之路 第一章-大模型之Pre-Training 架构 Optimizer 激活函数 Attention 位置编码 Tokenizer 并行策略 第二章-大模型之部署与推理 第三章-大模型微调 第四章-大模型量化 第五章-显卡与大模型并行 第六章-Prompt-Engineering 第七章-Agent RAG 第八章-大模型企业落地 第九章-大模型评估指标 第十章-热点 序-AGI之路 ⬆ 一键返回目录 大家都在谈的ScalingLaw是什么 智能涌现和AGI的起源 什么是perplexity Pre-Training预训练Llama-3.1 405B超大杯,需要多少算力资源? 第一章-大模型之Pre-Training ⬆ 一键返回目录 架构 10分钟搞清楚为什么Transformer中使用LayerNorm而不是BatchNorm 混合专家模型MoE详解节选 最简单的方式理解Mamba(中文翻译) 10分钟了解什么是多模态大模型 Optimizer 全网最全的神经网络优化器optimizer总结 神经网络的优化器(一)综述 神经网络的优化器(二)SGD 神经网络的优化器(三)Momentum 神经网络的优化器(四)ASGD 神经网络的优化器(五)Rprop 神经网络的优化器(六)AdaGrad 神经网络的优化器(七)AdaDeleta

目录大纲

    最新文档

    知识宇宙

    正在加载知识图谱...


    转发