RAG系统文档切块究竟是先切还是后切，影响性能关键。•𝗽𝗿𝗲-𝗰𝗵?

爱生活爱珂珂 2025-09-20 08:47:40

RAG系统文档切块究竟是先切还是后切，影响性能关键。

• 𝗽𝗿𝗲-𝗰𝗵𝘂𝗻𝗸𝗶𝗻𝗴（预切块）：先将文档拆分成小块，再做embedding并存入向量库。优点是查询时速度快，因所有切块已预计算和索引，但需提前确定切块大小和边界。

• 𝗽𝗼𝘀𝘁-𝗰𝗵𝘂𝗻𝗸𝗶𝗻𝗴（后切块）：先embedding整篇文档，查询时仅对检索到的文档再切块，且支持缓存切块结果，访问频繁时速度提升。优点是避免无用文档切块，切块更灵活且上下文感知，但首次访问有延迟，且需要更复杂的基础设施。

切块策略同样至关重要，从简单到高级，常见包括：

• 固定大小切块：按固定token或字符数切分，简单快速但可能破坏语义。

• 递归切块：先按段落，再按句子逐层拆分，保留文档结构。

• 基于文档结构切块：依据Markdown标题、HTML标签等格式元素切分，保持逻辑单元完整。

• 语义切块：基于语义相似度和话题边界拆分，适合密集复杂文本。

• 智能体切块（Agentic）：由AI智能体综合文档结构和内容动态决策切块方案。

• 延迟切块（Late Chunking）：先对全文做embedding，后利用上下文丰富的embedding生成切块，适合需要跨段关联的技术或法律文档。

• 分层切块：为超长复杂文档构建多级切块，支持从宏观到微观的多层次查询。

• 自适应切块：根据文本密度和结构动态调整切块大小和重叠，兼顾细节和上下文。

心得：

1. 选择预切还是后切，需权衡查询速度、系统复杂度和文档访问频率，后切块适合大规模稀疏访问场景。

2. 合适的切块大小和边界设计，是提升检索准确率和生成质量的基础，切块过大或过小都会降低性能。

3. 高级切块技术（如Agentic和Late Chunking）虽成本高，但对关键领域和复杂文档意义重大。

详见博客🔗weaviate.io/blog/chunking-strategies-for-rag

RAG 文档切块向量数据库大语言模型检索增强生成

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

Eigent 打造首个多代理 AI 劳动力平台，重新定义高效协同与自动化执行：•

2

RAG系统文档切块究竟是先切还是后切，影响性能关键。• 𝗽𝗿𝗲-𝗰𝗵?

3

经典深度学习入门书新版免费在线读！深度学习入门权威再升级，第三版《Deep Le

4

[人人能懂] 本质洞察、内在罗盘与认知多样性我们都希望学得更聪明，但到底怎样才算

5

[LG]《Optimal Learning from Label Proport

6

[LG]《FlowRL: Matching Reward Distributio

7

[LG]《Pre-training under infinite compute

8

[LG]《Self-Improving Embodied Foundation

9

[CL]《LLM-JEPA: Large Language Models Mee

10

早！[太阳] 早安

热门分类

科技TOP

1

【华为MateXTs非凡大师及全场景新品发布会官宣9月4日举办，将

2

四选一怎么选？旗舰新机一款比一款炸裂打算今年换机的朋友爽了，看了下今年的旗舰是

3

史上最薄iPhoneiPhoneAir现场真机实拍这外观给几分？

4

重磅！华为公布多颗新昇腾芯片9月18日，在华为全连接大会2025上，华为轮值

5

追觅汽车首款车型官图发布这次会是PPT造车吗？此前追觅就官宣要造车，并且工厂

6

买手机不要着急，买新不买旧。9月10月份将有大量新机发布，配置提升，续航也提升

7

美团退款看了一下最近两笔账单，都退回来了，这种退款还是要确认一遍，有时候还真会忘

8

小米澎湃OS3官宣8月28日发布了，而且值得一提的是这次是OS3单开一场，可

9

感受一下1999的真我15Pro，这确实太薄了，7.79mm，187g，

10

还没下单iphone17Pro的劝你先等等~因为iPhone18Pro已完

科技最新文章

1

荣耀Magic8系列真机这就曝光了？有人居然提前曝光了荣耀Magic8pr

2

今年的雷军年度演讲注定不平凡。汽车与芯片，这两大公认的“硬骨头”，小米不仅同时啃

3

荣耀不讲武德[捂脸哭]荣耀500系列这是要卷死友商，不仅全系标配2亿大底主摄，电池

4

好家伙，大早上的突然宣布了！2025雷军年度演讲定在9月25日晚7点，所以小

5

雷军年度演讲这一次，雷总的主题是《改变》。玄戒O1+小米汽车，5年的时间犹如白驹

6

一加15真机曝光，外观延续一加13T的风格，后置三摄，deco有点大。骁龙8

7

鸿蒙NEXTMate80最强配置，据博主爆料，十大黑科技，每一项都是吊炸天，

8

iPhone17Pro到手用了两天，不吹不黑聊聊真实用机感受，先说优点：[灵光

9

好家伙，荣耀是得管管保密了，500系列都给曝光完了？发布会公布个价格算了不过有

10

作为多年ProMax用户，今年真的要说一句——它彻底让我失望了。没有突破