JupyterAgentDataset:针对数据分析与代码智能的标杆训练集,

爱生活爱珂珂 2025-09-04 08:31:52

Jupyter Agent Dataset:针对数据分析与代码智能的标杆训练集,基于真实Kaggle笔记本深度加工,助力训练能够理解上下文、执行Python代码并生成逐步推理的智能代理。

• 覆盖51,389个合成笔记本,约20亿训练token,分“thinking”和“non-thinking”两大子集,兼顾不同模型需求。

• 自动去重、多阶段清洗,筛选高教育质量片段,剔除无关代码,确保数据分析相关性与实用性。

• 每条样本包含自然语言问答对、执行轨迹、原笔记本和数据集引用,支持多种Python数据处理库(pandas、numpy、matplotlib)执行。

• 结合Qwen-32B评分与Qwen-Coder-480B代码生成,使用E2B沙盒环境保障代码安全可复现,提升模型20% DABstep易用性得分。

• 适合微调面向数据分析、探索性数据分析(EDA)和代码生成的LLM,显著增强复杂问题解决能力。

• 明确授权框架,遵守Kaggle原始数据集与笔记本的许可协议,专注派生QA和执行轨迹,避免数据版权风险。

三点启发🔍

1. 数据质量高于数量,精选代码片段胜过海量无关数据,显著提升模型训练效果。

2. 结构化问答与执行轨迹结合,推动模型理解推理链条而非单纯代码生成。

3. 真实环境执行验证是提升模型鲁棒性和实用性的关键,沙盒执行成为标配。

了解详情👉 huggingface.co/datasets/data-agents/jupyter-agent-dataset

机器学习 数据集 代码智能 人工智能 Python Kaggle

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注