JupyterAgentDataset：针对数据分析与代码智能的标杆训练集，

爱生活爱珂珂 2025-09-04 08:31:52

Jupyter Agent Dataset：针对数据分析与代码智能的标杆训练集，基于真实Kaggle笔记本深度加工，助力训练能够理解上下文、执行Python代码并生成逐步推理的智能代理。

• 覆盖51,389个合成笔记本，约20亿训练token，分“thinking”和“non-thinking”两大子集，兼顾不同模型需求。

• 自动去重、多阶段清洗，筛选高教育质量片段，剔除无关代码，确保数据分析相关性与实用性。

• 每条样本包含自然语言问答对、执行轨迹、原笔记本和数据集引用，支持多种Python数据处理库（pandas、numpy、matplotlib）执行。

• 结合Qwen-32B评分与Qwen-Coder-480B代码生成，使用E2B沙盒环境保障代码安全可复现，提升模型20% DABstep易用性得分。

• 适合微调面向数据分析、探索性数据分析（EDA）和代码生成的LLM，显著增强复杂问题解决能力。

• 明确授权框架，遵守Kaggle原始数据集与笔记本的许可协议，专注派生QA和执行轨迹，避免数据版权风险。

三点启发🔍

1. 数据质量高于数量，精选代码片段胜过海量无关数据，显著提升模型训练效果。

2. 结构化问答与执行轨迹结合，推动模型理解推理链条而非单纯代码生成。

3. 真实环境执行验证是提升模型鲁棒性和实用性的关键，沙盒执行成为标配。

了解详情👉 huggingface.co/datasets/data-agents/jupyter-agent-dataset

机器学习数据集代码智能人工智能 Python Kaggle

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

深度解析为何不推荐 Ollama，推荐多 GPU 服务器使用 vLLM 或 Ex

2

Jupyter Agent Dataset：针对数据分析与代码智能的标杆训练集，

3

新书《Agentic Design Patterns》由谷歌专家 Antonio

4

[人人能懂] 从社交脑到自我精炼（扫码收听）

5

[LG]《Distilled Pretraining: A modern len

6

[LG]《When Agents go Astray: Course-Corre

7

[LG]《Learning to Refine: Self-Refinement

8

[CL]《Jointly Reinforcing Diversity and Q

9

[LG]《Social World Models》X Zhou, J Liu,

10

早！[太阳] 早安

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

【华为MateXTs非凡大师及全场景新品发布会官宣9月4日举办，将

2

四选一怎么选？旗舰新机一款比一款炸裂打算今年换机的朋友爽了，看了下今年的旗舰是

3

这是iPhone17只看正面时你立马能区分升级的地方：灵动岛变小了

4

华为又放大招啦！8月15号，华为Pura80手机处理器，kirin9020惊艳

5

美团退款看了一下最近两笔账单，都退回来了，这种退款还是要确认一遍，有时候还真会忘

6

小米澎湃OS3官宣8月28日发布了，而且值得一提的是这次是OS3单开一场，可

7

真我15000mAh新机曝光，从系统UI来看，这款手机似乎就叫“15000mAh

8

小米澎湃OS3眼看小米澎湃的发布会要开了，这次升级最核心的就是手机系统，改动确实

9

2025年，中国大陆制造的成熟芯片，占比全球产量28%，预计到2027年，占比将

10

台积电创始人张忠谋在接受纽约时报专访时说：美国、荷兰、日本、韩国与台湾牢牢控制着

科技最新文章

1

荣耀GT2配置提前看，应该就是今年最强中高端性价比手机大体的参数已经确定，

2

这是谁同意的？荣耀500Pro改设计了？这果里果气的确定好看？相对于外观设计

3

历代iPhone对比，17Pro真的很丑吗？我们是终于等到了iPhone改外观

4

荣耀GT2配置提前看，应该就是今年最强中高端性价比手机大体的参数已经确定，内

5

中国留给美国只有5-8年时间。深圳新凯来公司主动曝光成为爆炸性新闻，意味中国基本

6

朋友问我这几款手机怎么选，计划长期用下去，不想折腾来回换手机简单对比下来，荣

7

iPhone的A处理器永远比不上M处理器哪怕是A20pro也比不上M1

8

小米终于想通了下一代旗舰全系标配100W快充，还有7000mAh电池，再次领先

9

小米手机16系列全系参数曝光！米粉速瞅小米16系列发布时间确定9月25日左右，

10

一加这是不打算给友商留活路了啊。刚看到一加Ace6Pro的爆料，我下巴都快