《从零构建大模型》 [美]塞巴斯蒂安·拉施卡 书中资料 https://github.com/rasbt/LLMs-from-scratch 第七章 指令微调 在开发用于聊天机器人应用程序、个人助理和其他对话任务的大语言模型时,指令微调是主要技术之一 指令微调的三阶段:第一阶段准备数据集,第二阶段 ...
从零构建大模型-针对分类微调
《从零构建大模型》 [美]塞巴斯蒂安·拉施卡 书中资料 https://github.com/rasbt/LLMs-from-scratch 第六章 针对分类微调6.1 微调分类微调语言模型最常见的方法是指令微调和分类微调 指令微调涉及使用特定的指令数据对一组任务进行训练,以提高语言模型理解和执行 ...
从零构建大模型-训练模型
《从零构建大模型》 [美]塞巴斯蒂安·拉施卡 书中资料 https://github.com/rasbt/LLMs-from-scratch 第五章 训练模型(无标签数据)模型训练过程就是调整模型中的权重参数,大语言模型以及其他深度学习模型的背景下,权重一般指的是学习过程调整的可训练参数。这些权重 ...
从零构建大模型-模型架构
《从零构建大模型》 [美]塞巴斯蒂安·拉施卡 书中资料 https://github.com/rasbt/LLMs-from-scratch 第四章 模型架构4.1 构建一个大语言模型架构 大语言模型,比如GPT(生成式预训练Transformer),是旨在一次生成一个词(或词元)的大型深度神经网 ...
从零构建大模型-注意力机制
《从零构建大模型》 [美]塞巴斯蒂安·拉施卡 书中资料 https://github.com/rasbt/LLMs-from-scratch 第三章 注意力机制3.1 长序列建模中的问题 Transformer出现之前,循环神经网络(recurrent neural network, RNN)是语言 ...
从零构建大模型读书笔记 1-2
《从零构建大模型》 [美]塞巴斯蒂安·拉施卡 书中资料 https://github.com/rasbt/LLMs-from-scratch 第1章 理解大语言模型 深度学习(deep learning)是机器学习(machine learning)和人工智能(artificial intell ...
Widnows10中WSL使用Ubuntu
Windows10 使用WSL2运行Ubuntu系统配置安装流程 安装WSL,打开系统设置-应用与功能-Windows 功能,勾选其中的Virtual Machine Platform和Windows Subsystem for Linux,重启电脑 到install-manual 下载WSL2 ...
使用rust创建MCP Server
rust创建MCP Server参考文档: https://www.shuttle.dev/blog/2025/07/18/how-to-build-a-stdio-mcp-server-in-rust https://mcpcat.io/guides/building-mcp-server-rus ...
FastAPI简单使用
FastAPI简单使用https://fastapi.tiangolo.com/ 十几年前上学时候用过Flask,了解了python的WSGI,觉得用它开发web服务很方便。最近了解MCP时发现现在很多python应用都在用FastAPI开发,大概了解了一下,FastAPI是基于python新的AS ...
VS Code 工具
VS Code工具Language Server Protocolhttps://microsoft.github.io/language-server-protocol/overviews/lsp/overview/ 代码编辑器中常用的自动补全,转到定义,浮动相关显示文档的功能,每个编辑工具对每种 ...