DeepScrape:基于 GPT-4o 与 Playwright 的智能网页爬取与结构化提取解决方案,专为现代数据工作流和 RAG 应用设计。
• 🤖 利用大语言模型(LLM)将网页内容智能转为结构化 JSON,支持自定义 JSON Schema 提取
• 📦 支持批量 URL 处理,具备并发控制、自动重试及多样下载(ZIP、合并 JSON、单文件)
• 🧩 API 优先设计,REST接口配合 Swagger 文档,安全的 API Key 访问管理
• 🎭 采用 Playwright 浏览器自动化,支持隐身(stealth)模式,动态内容交互灵活(点击、滚动、等待)
• 📝 支持输出 HTML、Markdown、纯文本多格式,方便不同场景数据利用
• ⚡ 内置文件缓存和 Redis 队列,保障高效稳定的任务调度与执行
• 🕷️ 多页爬取策略(BFS、DFS、优先级),自动导出带元数据的 Markdown 文件,支持单文件合并与 JSON 汇总
• 🐳 Docker 一键部署,适配云原生环境,方便快速上线
• 🚀 丰富示例与详细文档,快速上手,支持技术文档分析、学术论文对比、复杂文章结构提取等多样应用
智能化网页数据采集与处理新标杆,助力科研、开发、内容聚合与数据分析高效升级。
了解详情🔗 github.com/stretchcloud/deepscrape
数据采集 大语言模型 网页爬虫 自动化 开源工具