DevDocs:一款专为程序员打造的开源文档爬取和处理工具

DevDocs是什么?

DevDocs 是一款由 CyberAGI Inc专为程序员设计的开源技术文档管理工具。它支持智能爬取技术文档,可自定义爬取深度,自动发现并分类相关内容,提取纯净信息并支持导出为 MD 或 JSON 格式,将以往需要花数周理解文档的时间缩短至几个小时。除此之外,DevDocs还内置 MCP 服务器,支持集成到 Claude、Cursor、Cline 等 ai 应用,实现聊天对话查询文档。

DevDocs:一款专为程序员打造的开源文档爬取和处理工具.webp

DevDocs功能特征

智能爬取:

  • 支持选择爬取深度(1-5 级)。

  • 自动发现并分类所有相关页面。

  • 可选择性爬取,精确提取所需内容。

  • 自动检测并映射网站结构中的子 URL。

性能与速度:

  • 支持并行处理,可同时爬取多个页面。

  • 智能缓存,避免重复爬取内容。

  • 支持懒加载,可处理现代 Web 应用。

  • 尊重服务器,设置了爬取速率限制。

内容处理:

  • 提取纯净内容,去除无关信息。

  • 支持导出为 MD 或 JSON 格式,方便用于 LLM 微调。

  • 逻辑化组织内容,便于理解和使用。

  • 与 MCP 服务器集成,可直接用于 AI 处理。

企业级功能:

  • 爬取失败时自动重试。

  • 全面记录操作日志。

  • 提供 API 接口,方便与其他工具集成。

  • 支持团队管理,可设置多个席位和角色。

DevDocs:一款专为程序员打造的开源文档爬取和处理工具.webp

DevDocs使用教程方法

启动服务:

  • 使用 Docker(推荐):

  • 克隆项目仓库:git clone https://github.com/cyberagiinc/DevDocs.git

  • 进入项目目录:cd DevDocs

  • 根据操作系统运行启动脚本:

  • Mac/Linux:./docker-start.sh

  • Windows:docker-start.bat

  • 手动设置权限(Windows 用户可能需要):

  • 通过 Windows 资源管理器:

  1. 右键单击 logs、storage、crawl_results 目录。

  2. 选择“属性”。

  3. 切换到“安全”选项卡。

  4. 点击“编辑”以更改权限。

  5. 点击“添加”以添加用户或组。

  6. 输入“Everyone”,并点击“检查名称”。

  7. 点击“确定”。

  8. 在列表中选择“Everyone”。

  9. 勾选“允许”下的“完全控制”。

  10. 点击“应用”和“确定”。

通过命令提示符(以管理员身份运行):

icacls logs /grant Everyone:F /T
icacls storage /grant Everyone:F /T
icacls crawl_results /grant Everyone:F /T

访问 DevDocs:

  • 前端 UI:http://localhost:3001

  • 后端 API:http://localhost:24125

  • Crawl4AI 服务:http://localhost:11235

查看日志:

  • 使用 Docker 时,可以通过以下命令查看容器日志:

  • 查看特定容器的日志:docker logs devdocs-frontend、docker logs devdocs-backend、docker logs devdocs-mcp、docker logs devdocs-crawl4ai

  • 实时跟踪日志:docker logs -f devdocs-backend

停止服务:

在运行 docker-start 的终端中按下 Ctrl+C。

如何集成Cline/Roo

1. 创建模式:

  • 在Roo Code中打开“模式”界面,点击+号创建一个新的模式特定提示。

2. 命名模式(例如,Research_MCP)。

3. 定义角色:

  • 专业知识:开发者文档检索、技术综合和文档搜索。

  • 个性:系统化、注重细节、精确。

  • 行为指令:始终使用目录和章节访问工具来回答关于MCP文档的查询。

4. 自定义指令:

  • 目录工具:返回完整的或过滤后的文档主题列表。

  • 章节访问工具:检索特定文档章节的详细内容。

5. 工作流程:

  • 解析用户查询以提取关键主题、关键词和上下文。

  • 使用目录工具搜索文档索引以找到相关章节。

  • 对于每个识别出的相关文档或章节,使用章节访问工具检索其内容。

  • 合并检索到的内容,确保包含所有必要的细节,并清晰引用。

Github:https://github.com/cyberagiinc/DevDocs

官网:https://www.cyberagi.ai/

收藏
最新工具
XiaomiROM
XiaomiROM

一个能下载小米手机、平板等设备官方系统固件的网站,收集了国行、全...

CPS check
CPS check

一人测试用户点击速度(CPS,即每秒点击次数) 的在线网站,可在...

中国庭审公开网
中国庭审公开网

全国法院的庭审直播平台,能看各类案件庭审直播和回放,还能按不同条...

GradientHunt
GradientHunt

一个免费的色彩灵感平台,提供大量手工制作的时尚渐变色,目标是成为...

特工宇宙
特工宇宙

国内首个专注于Agent的科技媒体,由杭州电子科技大学00后毕业...

面灵AI
面灵AI

一款面试辅助工具,能实时分析面试问题并给出专业建议,支持多语言面...

Teleprompter Online
Teleprompter Online

一款免费的在线提词器网页应用,能在PC或Mac的现代网页浏览器上...

Gallerix
Gallerix

也叫“巨人网上博物馆”,是个专注艺术的互联网博物馆,Galler...

快手Kwali
快手Kwali

磁力引擎旗下磁力开创平台推出的AI视频I创作工具,输入自然语言指...

磁力开创
磁力开创

快手磁力引擎推出的一站式视频创意生产平台,结合智能化功能和简化流...