[CL]《Efficient Code Embeddings from Code Generation Models》D Kryvosheieva, S Sturua, M Günther, S Martens... [MIT & Jina AI GmbH] (2025)
精简高效的代码嵌入模型新标杆:jina-code-embeddings系列
• 基于预训练的自回归解码器架构,参数规模分别为0.5B和1.5B,继承Qwen2.5-Coder骨干,轻量且高效。
• 采用任务指令前缀区分五大代码检索任务(NL2Code、TechQA、Code2Code、Code2NL、Code2Completion),实现针对性优化。
• 嵌入向量通过最后一个token的池化方式生成,优于均值池化和潜在注意力池化,确保表达精准。
• 利用大规模异构训练数据,包括多种公开数据集、论坛问答及GPT-4o合成数据,覆盖多语言、多任务场景。
• 训练采用对比学习InfoNCE损失,结合Matryoshka多层嵌入结构,灵活平衡精度与资源消耗。
• 在MTEB代码检索基准及多项细分测试集表现卓越,超越同规模通用嵌入模型及部分更大规模竞品,综合性能领先。
心得:
1. 预训练自回归模型不止是生成利器,恰当调优后也能产出高质量嵌入,挑战了传统编码器优先的认知。
2. 任务指令设计是提升多功能嵌入模型泛化能力的关键,细粒度区分任务语境显著增强适应性。
3. 融合真实与合成数据,充分利用未对齐文本和代码的潜力,填补了传统监督数据语义不充分的缺口。
深入了解👉 arxiv.org/abs/2508.21290
代码嵌入自回归模型对比学习自然语言处理代码检索