🔥万字详解：RAG的5种文档切分策略

骞信布道者的 2025-03-15 15:15:29

✨RAG 应用中遇到的外部文档可能会非常大。因此，需要通过分块（chunking）将大型文档划分为更小且可管理的部分。这样可以确保文本适配嵌入模型的输入大小，同时还能够提高检索质量。 . 👇以下是适用于 RAG 的五种分块策略： 1️⃣ 固定大小分块 🔸按预定义的字符数、单词数或 Token 数量对文本进行切分，同时保留一定的重叠部分这种方法实现简单，但可能会将句子截断，从而导致信息分散在不同的块中 . 2️⃣ 语义分块 🔸根据有意义的单元对文档进行分段。 🔸持续将单元添加到现有块中，直到余弦相似度显著下降。 🔸一旦下降明显，就开始新的分块。与固定大小分块不同，这种方法能够保持语言的自然流畅性。 . 3️⃣ 递归分块 🔸基于内在分隔符（如段落或章节）进行分块。 🔸如果某个块的大小超过限制，则将其进一步分割为更小的块。这种方法能够保持语言的自然流畅性。 . 4️⃣ 基于文档结构的分块 🔸利用文档的内在结构（如标题、章节或段落）进行分块。这种方法能够保持文档的自然结构，但前提是文档具有清晰的结构。 . 5️⃣ 基于 LLM 的分块 🔸使用提示引导 LLM 生成有意义的分块这种方法能够保留语义准确性，因为 LLM 可以理解上下文和含义。然而，它的计算成本较高，并受限于 LLM 的上下文长度。 . 🚗每种分块技术都有其自身的优点和权衡。选择哪种策略取决于数据的特性、嵌入模型的能力、计算资源等因素。

0 阅读：0

骞信布道者的

感谢大家的关注

作者最新文章

1

AI项目拆解：大厂RAG知识库智能问答系统

2

瞬间对Transformer兴趣达100000000000%

3

🔥万字详解：RAG的5种文档切分策略

4

这本册子真是机器学习的天花板！！！

5

10个可以写进简历的真实AI产品项目

6

昨晚加班面试完了一个00后AI产品，太卷了

7

AI产品经理深度转型指南🔥

8

大厂面试能通过的，都有一种“气场”

9

✨这个网站对于产品经理堪称伟大

10

你一定没看过的大厂产品经理PRD需求文档

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

安卓闭源了，中国手机厂商末日来临？华为鸿蒙崛起？突发大新闻，谷歌终于对安卓下

2

雷军小米YU7樱花照人家拍车自己买的，雷总拍车自己造的[捂脸哭]太全面了，这么早起

3

有没有注意到海尔老板的领带上都是空调、洗衣机，双开门冰箱，细节满满。

4

2025年最值得买的手机，你选哪个

5

某搜索已经很久不用了，还有好几个几乎就胎死腹中了。李开复说的可能是对的！

6

MarkGurman：苹果目前没有计划再次推出小屏机型。自从23年9月停产iP

7

2025目前最强的六款旗舰手机，就差即将发布的蓝厂的X200Ultra了，会否

8

【#OpenAI称DeepSeek是另一个华为#：受“国家补贴”、“国家控制”】

9

这玩意AI也能生成？[捂脸哭]

10

孔龙自美归国苹果的首席工程师都回国了！这个孔大佬可是牛啊，在苹果搞出了三款芯片，

科技最新文章

1

提前曝光vivo新机涉事方已担责这是vivo法务部发的第一条微博。虽然我们都很期

2

提前曝光vivo新机涉事方已担责哪款爆水管了还真没看到啊，保密协议还是罚得少，直

3

一觉醒来，雷军倒是没慌，女驾驶员的家属却慌了。小米SU7事件被网友扒了个底朝天。

4

小米15全系降价300元

5

哇靠，一加13T安兔兔跑分竟然超过300万分，还是16G+512GB版本，这性能

6

小米15降价了诶，国补到手价才3699这可是小屏旗舰，这个价格香的，我都想买一部

7

不同手机使用寿命，到底哪个品牌最耐用：1.苹果手机：3年起步，多则10年2.

8

手机信号哪家强？这四款旗舰闭眼入！要说近期最值得入手的真香机，荣耀Magic

9

终于知道为什么su7事故司机家属要紧逼小米回应了因为我们的法律规

10

对比16Pro，iPhone17Pro真的香爆！最近iPhone17系