从零构建大模型-针对分类微调

发表于 2025-09-06 | 更新于 2026-04-12 | 分类于 AI

《从零构建大模型》 [美]塞巴斯蒂安·拉施卡书中资料 https://github.com/rasbt/LLMs-from-scratch 第七章指令微调在开发用于聊天机器人应用程序、个人助理和其他对话任务的大语言模型时，指令微调是主要技术之一指令微调的三阶段：第一阶段准备数据集，第二阶段 ...

阅读全文 »

从零构建大模型-针对分类微调

发表于 2025-09-04 | 更新于 2026-04-12 | 分类于 AI

《从零构建大模型》 [美]塞巴斯蒂安·拉施卡书中资料 https://github.com/rasbt/LLMs-from-scratch 第六章针对分类微调6.1 微调分类微调语言模型最常见的方法是指令微调和分类微调指令微调涉及使用特定的指令数据对一组任务进行训练，以提高语言模型理解和执行 ...

阅读全文 »

从零构建大模型-训练模型

发表于 2025-08-31 | 更新于 2026-04-12 | 分类于 AI

《从零构建大模型》 [美]塞巴斯蒂安·拉施卡书中资料 https://github.com/rasbt/LLMs-from-scratch 第五章训练模型(无标签数据)模型训练过程就是调整模型中的权重参数，大语言模型以及其他深度学习模型的背景下，权重一般指的是学习过程调整的可训练参数。这些权重 ...

阅读全文 »

从零构建大模型-模型架构

发表于 2025-08-30 | 更新于 2026-04-12 | 分类于 AI

《从零构建大模型》 [美]塞巴斯蒂安·拉施卡书中资料 https://github.com/rasbt/LLMs-from-scratch 第四章模型架构4.1 构建一个大语言模型架构大语言模型，比如GPT（生成式预训练Transformer），是旨在一次生成一个词（或词元）的大型深度神经网 ...

阅读全文 »

从零构建大模型-注意力机制

发表于 2025-08-24 | 更新于 2026-04-12 | 分类于 AI

《从零构建大模型》 [美]塞巴斯蒂安·拉施卡书中资料 https://github.com/rasbt/LLMs-from-scratch 第三章注意力机制3.1 长序列建模中的问题 Transformer出现之前，循环神经网络(recurrent neural network, RNN)是语言 ...

阅读全文 »

从零构建大模型读书笔记 1-2

发表于 2025-08-23 | 更新于 2026-04-12 | 分类于 AI

《从零构建大模型》 [美]塞巴斯蒂安·拉施卡书中资料 https://github.com/rasbt/LLMs-from-scratch 第1章理解大语言模型深度学习(deep learning)是机器学习(machine learning)和人工智能(artificial intell ...

阅读全文 »

Widnows10中WSL使用Ubuntu

发表于 2025-08-07 | 更新于 2026-04-12 | 分类于 linux

Windows10 使用WSL2运行Ubuntu系统配置安装流程安装WSL，打开系统设置-应用与功能-Windows 功能，勾选其中的Virtual Machine Platform和Windows Subsystem for Linux，重启电脑到install-manual 下载WSL2 ...

阅读全文 »

使用rust创建MCP Server

发表于 2025-08-04 | 更新于 2026-04-12 | 分类于 AI

rust创建MCP Server参考文档： https://www.shuttle.dev/blog/2025/07/18/how-to-build-a-stdio-mcp-server-in-rust https://mcpcat.io/guides/building-mcp-server-rus ...

阅读全文 »

FastAPI简单使用

发表于 2025-08-03 | 更新于 2026-04-12 | 分类于 python

FastAPI简单使用https://fastapi.tiangolo.com/ 十几年前上学时候用过Flask，了解了python的WSGI，觉得用它开发web服务很方便。最近了解MCP时发现现在很多python应用都在用FastAPI开发，大概了解了一下，FastAPI是基于python新的AS ...

阅读全文 »

VS Code 工具

发表于 2025-07-30 | 更新于 2026-04-12 | 分类于 program

VS Code工具Language Server Protocolhttps://microsoft.github.io/language-server-protocol/overviews/lsp/overview/ 代码编辑器中常用的自动补全，转到定义，浮动相关显示文档的功能，每个编辑工具对每种 ...

阅读全文 »