LLMForEverybody

文集信息
目录大纲
最新文档
知识宇宙

文集详情

文集导读

目录序-AGI之路第一章-大模型之Pre-Training 架构 Optimizer 激活函数 Attention 位置编码 Tokenizer 并行策略第二章-大模型之部署与推理第三章-大模型微调第四章-大模型量化第五章-显卡与大模型并行第六章-Prompt-Engineering 第七章-Agent RAG 第八章-大模型企业落地第九章-大模型评估指标第十章-热点序-AGI之路 ⬆ 一键返回目录大家都在谈的ScalingLaw是什么智能涌现和AGI的起源什么是perplexity Pre-Training预训练Llama-3.1 405B超大杯，需要多少算力资源？第一章-大模型之Pre-Training ⬆ 一键返回目录架构 10分钟搞清楚为什么Transformer中使用LayerNorm而不是BatchNorm 混合专家模型MoE详解节选最简单的方式理解Mamba（中文翻译） 10分钟了解什么是多模态大模型 Optimizer 全网最全的神经网络优化器optimizer总结神经网络的优化器（一）综述神经网络的优化器（二）SGD 神经网络的优化器（三）Momentum 神经网络的优化器（四）ASGD 神经网络的优化器（五）Rprop 神经网络的优化器（六）AdaGrad 神经网络的优化器（七）AdaDeleta

目录大纲

知识宇宙

正在加载知识图谱...

文集文档索引

LLMForEverybody

文集详情

文集导读

目录大纲

最新文档

知识宇宙

相关文集