playwright-mcp:能够使大语言模型直接操控浏览器完成复杂任务

laywright-MCP是什么?

laywright-MCP 是一个结合了 Playwright 的跨浏览器能力和模型上下文协议(MCP)的开源工具,它能够使大语言模型(LLM)能够直接操控浏览器完成复杂任务,核心是让LLM通过结构化的可访问性快照与网页交互,而无需依赖屏幕截图或视觉模型,可以用来自动填写网页表单、自动收集网页信息、自动进行网页测试等

playwright-mcp:能够使大语言模型直接操控浏览器完成复杂任务.jpg

laywright-MCP功能特点

  • 浏览器自动化:支持打开网页、点击元素、填写表单、截屏、执行 JavaScript 等操作。

  • 结构化数据交互:基于 Playwright 的可访问性树生成结构化数据,无需视觉模型,适合基于文本的 LLM。

  • 两种模式:提供默认的“快照模式”(Snapshot Mode)和“视觉模式”(Vision Mode),后者可通过截图实现视觉交互。

  • 无头模式支持:可以在后台运行浏览器,不显示界面。

  • 快速轻量:基于 Playwright 的轻量级架构,响应速度快。

laywright-MCP使用场景

  • 自动化测试:创建 ai 驱动的测试场景,模拟真实用户行为。

  • 数据提取:从复杂结构的网站中提取特定数据。

  • 智能 Web 代理:构建能够自动执行复杂任务的代理,如预订旅行、比较价格等。

  • API 测试:支持发送 HTTP 请求并检查响应内容。

  • 网页导航和表单填写

  • 从结构化内容中提取数据

  • 代理的通用浏览器交互

laywright-MCP安装与配置

1. 安装:通过 npm 全局安装 Playwright-MCP 服务器:

npm install -g @executeautomation/playwright-mcp-server


2. 配置:在 Claude Desktop 或其他支持 MCP 的客户端中配置 Playwright-MCP:

{
  "mcpServers": {
    "playwright": {
      "command": "npx",
      "args": ["-y", "@executeautomation/playwright-mcp-server"]
    }
  }
}

laywright-MCP优势

  • 降低门槛:允许用户通过自然语言指令控制浏览器操作,无需编写复杂代码。

  • 高效性:基于结构化数据的交互方式比传统基于视觉的方法更高效。

  • 灵活性:支持实时生成指令,适应动态变化的页面。

github项目:https://github.com/microsoft/playwright-mcp

收藏
最新工具
Davia
Davia

一款开源网页生成工具,目标是提供类似大厂那种“所见即所得”的网页...

达探星
达探星

一款TikTok达人邀约工具,特别适合TikTok小店用来爆单。...

ChinaTextbook
ChinaTextbook

一个专门收集和分享中国大陆从小学到大学的教材资源的开源项目,特别...

暗壳AI
暗壳AI

家居AIGC营销与导购工具,它号称“一人即团队”,能够快速生成渲...

UntitledPen
UntitledPen

一个可以生成真实人声旁白的工具,也就是能够在一个平台上编写、编辑...

PageAI
PageAI

一款AI网站生成工具,就像一个小型创意工作室一样,能在短时间内根...

Seedance AI
Seedance AI

字节跳动推出的一款强大的视频生成工具,借助 Seedance 1...

ChatPs
ChatPs

ChatPs 是一款为 Photoshop 设计的插件,它背后是...

趣丸千音
趣丸千音

一个AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转...

太极神器 TAICHI-flet
太极神器 TAICHI-flet

基于flet的一款多功能娱乐软件,实现了浏览图片、音乐、小说、各...