[CL]《EfficientCodeEmbeddingsfromCode - 科技资讯(藏书网)

[CL]《Efficient Code Embeddings from Code Generation Models》D Kryvosheieva, S Sturua, M Günther, S Martens... [MIT & Jina AI GmbH] (2025)

精简高效的代码嵌入模型新标杆：jina-code-embeddings系列

• 基于预训练的自回归解码器架构，参数规模分别为0.5B和1.5B，继承Qwen2.5-Coder骨干，轻量且高效。

• 采用任务指令前缀区分五大代码检索任务（NL2Code、TechQA、Code2Code、Code2NL、Code2Completion），实现针对性优化。

• 嵌入向量通过最后一个token的池化方式生成，优于均值池化和潜在注意力池化，确保表达精准。

• 利用大规模异构训练数据，包括多种公开数据集、论坛问答及GPT-4o合成数据，覆盖多语言、多任务场景。

• 训练采用对比学习InfoNCE损失，结合Matryoshka多层嵌入结构，灵活平衡精度与资源消耗。

• 在MTEB代码检索基准及多项细分测试集表现卓越，超越同规模通用嵌入模型及部分更大规模竞品，综合性能领先。

心得：

1. 预训练自回归模型不止是生成利器，恰当调优后也能产出高质量嵌入，挑战了传统编码器优先的认知。

2. 任务指令设计是提升多功能嵌入模型泛化能力的关键，细粒度区分任务语境显著增强适应性。

3. 融合真实与合成数据，充分利用未对齐文本和代码的潜力，填补了传统监督数据语义不充分的缺口。

深入了解👉 arxiv.org/abs/2508.21290

代码嵌入自回归模型对比学习自然语言处理代码检索