cc_rag_tutorial

基于 CC 的外挂 RAG 中文教程(目录与导航)

本教程默认约定:CC = Claude Code(Claude 的命令行/代码智能体)
说明:在中文语境里 CC 也常被用来指 Common Crawl(公开网页抓取语料)。如果你说的“CC 数据”指的是 Common Crawl,请直接走本目录中的 「可选路线:Common Crawl 作为外挂语料源」 章节(会把 Common Crawl 的数据结构与下载/解析细节讲全)。


你将得到什么(最终产出)

读完并按章节完成实操后,你将拥有:

  1. 一个可运行的 “外挂 RAG 服务”(本地优先),能把检索到的片段按可控格式喂给 CC 使用
  2. 一套从 原始语料 → 清洗/切分 → 向量化/索引 → 检索/重排 → 组装上下文 的完整流水线
  3. 一份 “CC 数据(上下文/工具调用/扩展点)完整拆解”:包括你在集成时会遇到的字段、边界与坑
  4. 一套可复用的 Prompt/用格式/证据约束模板,降低幻觉与“胡编引用”
  5. 一套 评估与调优方法:可量化对比不同切分、召回、重排与上下文拼装策略

适合谁看


阅读路线建议


全目录(Table of Contents)

第 1 章:总览——什么是“基于 CC 的外挂 RAG”,以及我们要做的系统长什么样

文件:chapter1.md


第 2 章:CC 的工作方式与扩展面概览(你可以“挂”在哪里)

文件:chapter2.md


第 3 章:CC 数据完整拆解(重点章节)

文件:chapter3.md

本章专门回应你的要求:“要包含 CC 数据的完整细节”。 目标是让你在做集成时,清楚“哪些数据在哪里出现、长什么样、该如何保存/裁剪/脱敏/缓存”。


第 4 章:外挂 RAG 的架构设计——模块划分、接口契约与时序

文件:chapter4.md


第 5 章:数据摄取——从代码/文档到可检索语料(不止“读文件”)

文件:chapter5.md


第 6 章:切分(Chunking)与索引策略——RAG 好坏的分水岭

文件:chapter6.md


第 7 章:向量化与向量库——Embedding 选择、存储结构与成本控制

文件:chapter7.md


第 8 章:检索与重排——从“能搜到”到“搜得准”

文件:chapter8.md


第 9 章:与 CC 的集成实践——把外挂 RAG 变成 CC“可用的能力”

文件:chapter9.md


第 10 章:参考实现(端到端)——从 0 写一个最小可用外挂 RAG

文件:chapter10.md


第 11 章:质量评估与回归测试——让 RAG 可量化、可迭代

文件:chapter11.md


第 12 章:安全、权限与合规——外挂 RAG 最容易踩雷的地方

文件:chapter12.md


可选路线:当你说的“CC 数据”指 Common Crawl(公开网页语料)

第 13 章:Common Crawl 数据全解——格式、索引与下载策略(细节拉满)

文件:chapter13.md


第 14 章:用 Common Crawl 做外挂语料——从海量网页到可检索知识库

文件:chapter14.md


附录

第 15 章:速查表与模板合集(CC 数据字段清单 / 返回结构 / Prompt 模板)

文件:chapter15.md


约定(写在最后,避免踩坑)