DevDocs:一款专为程序员打造的开源文档爬取和处理工具

DevDocs是什么?

DevDocs 是一款由 CyberAGI Inc专为程序员设计的开源技术文档管理工具。它支持智能爬取技术文档,可自定义爬取深度,自动发现并分类相关内容,提取纯净信息并支持导出为 MD 或 JSON 格式,将以往需要花数周理解文档的时间缩短至几个小时。除此之外,DevDocs还内置 MCP 服务器,支持集成到 Claude、Cursor、Cline 等 ai 应用,实现聊天对话查询文档。

DevDocs:一款专为程序员打造的开源文档爬取和处理工具.webp

DevDocs功能特征

智能爬取:

  • 支持选择爬取深度(1-5 级)。

  • 自动发现并分类所有相关页面。

  • 可选择性爬取,精确提取所需内容。

  • 自动检测并映射网站结构中的子 URL。

性能与速度:

  • 支持并行处理,可同时爬取多个页面。

  • 智能缓存,避免重复爬取内容。

  • 支持懒加载,可处理现代 Web 应用。

  • 尊重服务器,设置了爬取速率限制。

内容处理:

  • 提取纯净内容,去除无关信息。

  • 支持导出为 MD 或 JSON 格式,方便用于 LLM 微调。

  • 逻辑化组织内容,便于理解和使用。

  • 与 MCP 服务器集成,可直接用于 AI 处理。

企业级功能:

  • 爬取失败时自动重试。

  • 全面记录操作日志。

  • 提供 API 接口,方便与其他工具集成。

  • 支持团队管理,可设置多个席位和角色。

DevDocs:一款专为程序员打造的开源文档爬取和处理工具.webp

DevDocs使用教程方法

启动服务:

  • 使用 Docker(推荐):

  • 克隆项目仓库:git clone https://github.com/cyberagiinc/DevDocs.git

  • 进入项目目录:cd DevDocs

  • 根据操作系统运行启动脚本:

  • Mac/Linux:./docker-start.sh

  • Windows:docker-start.bat

  • 手动设置权限(Windows 用户可能需要):

  • 通过 Windows 资源管理器:

  1. 右键单击 logs、storage、crawl_results 目录。

  2. 选择“属性”。

  3. 切换到“安全”选项卡。

  4. 点击“编辑”以更改权限。

  5. 点击“添加”以添加用户或组。

  6. 输入“Everyone”,并点击“检查名称”。

  7. 点击“确定”。

  8. 在列表中选择“Everyone”。

  9. 勾选“允许”下的“完全控制”。

  10. 点击“应用”和“确定”。

通过命令提示符(以管理员身份运行):

icacls logs /grant Everyone:F /T
icacls storage /grant Everyone:F /T
icacls crawl_results /grant Everyone:F /T

访问 DevDocs:

  • 前端 UI:http://localhost:3001

  • 后端 API:http://localhost:24125

  • Crawl4AI 服务:http://localhost:11235

查看日志:

  • 使用 Docker 时,可以通过以下命令查看容器日志:

  • 查看特定容器的日志:docker logs devdocs-frontend、docker logs devdocs-backend、docker logs devdocs-mcp、docker logs devdocs-crawl4ai

  • 实时跟踪日志:docker logs -f devdocs-backend

停止服务:

在运行 docker-start 的终端中按下 Ctrl+C。

如何集成Cline/Roo

1. 创建模式:

  • 在Roo Code中打开“模式”界面,点击+号创建一个新的模式特定提示。

2. 命名模式(例如,Research_MCP)。

3. 定义角色:

  • 专业知识:开发者文档检索、技术综合和文档搜索。

  • 个性:系统化、注重细节、精确。

  • 行为指令:始终使用目录和章节访问工具来回答关于MCP文档的查询。

4. 自定义指令:

  • 目录工具:返回完整的或过滤后的文档主题列表。

  • 章节访问工具:检索特定文档章节的详细内容。

5. 工作流程:

  • 解析用户查询以提取关键主题、关键词和上下文。

  • 使用目录工具搜索文档索引以找到相关章节。

  • 对于每个识别出的相关文档或章节,使用章节访问工具检索其内容。

  • 合并检索到的内容,确保包含所有必要的细节,并清晰引用。

Github:https://github.com/cyberagiinc/DevDocs

官网:https://www.cyberagi.ai/

收藏
最新工具
NB Map
NB Map

灰色执照做的免费在线三维地图生成工具。它能根据真实地形数据,做出...

Oldswf
Oldswf

专门提供经典Flash小游戏的网站,收录了超过5万多不同类型的游...

AutoClip
AutoClip

一款AI智能视频切片工具,能自动下载B站视频、剪辑精彩片段并生成...

EdClub
EdClub

一个提供高品质课程的学习平台,EdClub主要提供打字学习、词汇...

Resource Boy
Resource Boy

一个提供高质量免费样机等设计资源的网站,有很多素材,像材质、笔刷...

AlternativeTo
AlternativeTo

一个众包软件推荐平台,可以帮用户找到更好的应用和服务。你可以搜各...

DaYin.page
DaYin.page

一个强大、免费、易用的在线习题打印生成器网站,可以一键生成数学题...

Mobile Phone Museum
Mobile Phone Museum

一个非营利组织的手机博物馆,目的是存档和保存移动技术,并扩大对移...

BlackACE黑桃A
BlackACE黑桃A

一款可以将网站转换为安卓APP的工具,它可以够帮助个人开发者、创...

Aluo AI
Aluo AI

电商AI图片编辑平台,30 秒就能做出专业的商品图片,它能自动扣...