[CL]《EfficientCodeEmbeddingsfromCode

爱生活爱珂珂 2025-09-02 07:30:32

[CL]《Efficient Code Embeddings from Code Generation Models》D Kryvosheieva, S Sturua, M Günther, S Martens... [MIT & Jina AI GmbH] (2025)

精简高效的代码嵌入模型新标杆:jina-code-embeddings系列

• 基于预训练的自回归解码器架构,参数规模分别为0.5B和1.5B,继承Qwen2.5-Coder骨干,轻量且高效。

• 采用任务指令前缀区分五大代码检索任务(NL2Code、TechQA、Code2Code、Code2NL、Code2Completion),实现针对性优化。

• 嵌入向量通过最后一个token的池化方式生成,优于均值池化和潜在注意力池化,确保表达精准。

• 利用大规模异构训练数据,包括多种公开数据集、论坛问答及GPT-4o合成数据,覆盖多语言、多任务场景。

• 训练采用对比学习InfoNCE损失,结合Matryoshka多层嵌入结构,灵活平衡精度与资源消耗。

• 在MTEB代码检索基准及多项细分测试集表现卓越,超越同规模通用嵌入模型及部分更大规模竞品,综合性能领先。

心得:

1. 预训练自回归模型不止是生成利器,恰当调优后也能产出高质量嵌入,挑战了传统编码器优先的认知。

2. 任务指令设计是提升多功能嵌入模型泛化能力的关键,细粒度区分任务语境显著增强适应性。

3. 融合真实与合成数据,充分利用未对齐文本和代码的潜力,填补了传统监督数据语义不充分的缺口。

深入了解👉 arxiv.org/abs/2508.21290

代码嵌入自回归模型对比学习自然语言处理代码检索

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注