DevDocs:一款专为程序员打造的开源文档爬取和处理工具

DevDocs是什么?

DevDocs 是一款由 CyberAGI Inc专为程序员设计的开源技术文档管理工具。它支持智能爬取技术文档,可自定义爬取深度,自动发现并分类相关内容,提取纯净信息并支持导出为 MD 或 JSON 格式,将以往需要花数周理解文档的时间缩短至几个小时。除此之外,DevDocs还内置 MCP 服务器,支持集成到 Claude、Cursor、Cline 等 ai 应用,实现聊天对话查询文档。

DevDocs:一款专为程序员打造的开源文档爬取和处理工具.webp

DevDocs功能特征

智能爬取:

  • 支持选择爬取深度(1-5 级)。

  • 自动发现并分类所有相关页面。

  • 可选择性爬取,精确提取所需内容。

  • 自动检测并映射网站结构中的子 URL。

性能与速度:

  • 支持并行处理,可同时爬取多个页面。

  • 智能缓存,避免重复爬取内容。

  • 支持懒加载,可处理现代 Web 应用。

  • 尊重服务器,设置了爬取速率限制。

内容处理:

  • 提取纯净内容,去除无关信息。

  • 支持导出为 MD 或 JSON 格式,方便用于 LLM 微调。

  • 逻辑化组织内容,便于理解和使用。

  • 与 MCP 服务器集成,可直接用于 AI 处理。

企业级功能:

  • 爬取失败时自动重试。

  • 全面记录操作日志。

  • 提供 API 接口,方便与其他工具集成。

  • 支持团队管理,可设置多个席位和角色。

DevDocs:一款专为程序员打造的开源文档爬取和处理工具.webp

DevDocs使用教程方法

启动服务:

  • 使用 Docker(推荐):

  • 克隆项目仓库:git clone https://github.com/cyberagiinc/DevDocs.git

  • 进入项目目录:cd DevDocs

  • 根据操作系统运行启动脚本:

  • Mac/Linux:./docker-start.sh

  • Windows:docker-start.bat

  • 手动设置权限(Windows 用户可能需要):

  • 通过 Windows 资源管理器:

  1. 右键单击 logs、storage、crawl_results 目录。

  2. 选择“属性”。

  3. 切换到“安全”选项卡。

  4. 点击“编辑”以更改权限。

  5. 点击“添加”以添加用户或组。

  6. 输入“Everyone”,并点击“检查名称”。

  7. 点击“确定”。

  8. 在列表中选择“Everyone”。

  9. 勾选“允许”下的“完全控制”。

  10. 点击“应用”和“确定”。

通过命令提示符(以管理员身份运行):

icacls logs /grant Everyone:F /T
icacls storage /grant Everyone:F /T
icacls crawl_results /grant Everyone:F /T

访问 DevDocs:

  • 前端 UI:http://localhost:3001

  • 后端 API:http://localhost:24125

  • Crawl4AI 服务:http://localhost:11235

查看日志:

  • 使用 Docker 时,可以通过以下命令查看容器日志:

  • 查看特定容器的日志:docker logs devdocs-frontend、docker logs devdocs-backend、docker logs devdocs-mcp、docker logs devdocs-crawl4ai

  • 实时跟踪日志:docker logs -f devdocs-backend

停止服务:

在运行 docker-start 的终端中按下 Ctrl+C。

如何集成Cline/Roo

1. 创建模式:

  • 在Roo Code中打开“模式”界面,点击+号创建一个新的模式特定提示。

2. 命名模式(例如,Research_MCP)。

3. 定义角色:

  • 专业知识:开发者文档检索、技术综合和文档搜索。

  • 个性:系统化、注重细节、精确。

  • 行为指令:始终使用目录和章节访问工具来回答关于MCP文档的查询。

4. 自定义指令:

  • 目录工具:返回完整的或过滤后的文档主题列表。

  • 章节访问工具:检索特定文档章节的详细内容。

5. 工作流程:

  • 解析用户查询以提取关键主题、关键词和上下文。

  • 使用目录工具搜索文档索引以找到相关章节。

  • 对于每个识别出的相关文档或章节,使用章节访问工具检索其内容。

  • 合并检索到的内容,确保包含所有必要的细节,并清晰引用。

Github:https://github.com/cyberagiinc/DevDocs

官网:https://www.cyberagi.ai/

收藏
最新工具
ChinaTextbook
ChinaTextbook

一个专门收集和分享中国大陆从小学到大学的教材资源的开源项目,特别...

暗壳AI
暗壳AI

家居AIGC营销与导购工具,它号称“一人即团队”,能够快速生成渲...

UntitledPen
UntitledPen

一个可以生成真实人声旁白的工具,也就是能够在一个平台上编写、编辑...

PageAI
PageAI

一款AI网站生成工具,就像一个小型创意工作室一样,能在短时间内根...

Seedance AI
Seedance AI

字节跳动推出的一款强大的视频生成工具,借助 Seedance 1...

ChatPs
ChatPs

ChatPs 是一款为 Photoshop 设计的插件,它背后是...

趣丸千音
趣丸千音

一个AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转...

太极神器 TAICHI-flet
太极神器 TAICHI-flet

基于flet的一款多功能娱乐软件,实现了浏览图片、音乐、小说、各...

YIKM
YIKM

一个能在线玩小霸王、红白机、街机、FC 等经典游戏的地方,像《魂...

Bridgely
Bridgely

基于AI的实时通用翻译浏览器扩展,支持 60 多种语言,包括 W...