playwright-mcp:能够使大语言模型直接操控浏览器完成复杂任务

laywright-MCP是什么?

laywright-MCP 是一个结合了 Playwright 的跨浏览器能力和模型上下文协议(MCP)的开源工具,它能够使大语言模型(LLM)能够直接操控浏览器完成复杂任务,核心是让LLM通过结构化的可访问性快照与网页交互,而无需依赖屏幕截图或视觉模型,可以用来自动填写网页表单、自动收集网页信息、自动进行网页测试等

playwright-mcp:能够使大语言模型直接操控浏览器完成复杂任务.jpg

laywright-MCP功能特点

  • 浏览器自动化:支持打开网页、点击元素、填写表单、截屏、执行 JavaScript 等操作。

  • 结构化数据交互:基于 Playwright 的可访问性树生成结构化数据,无需视觉模型,适合基于文本的 LLM。

  • 两种模式:提供默认的“快照模式”(Snapshot Mode)和“视觉模式”(Vision Mode),后者可通过截图实现视觉交互。

  • 无头模式支持:可以在后台运行浏览器,不显示界面。

  • 快速轻量:基于 Playwright 的轻量级架构,响应速度快。

laywright-MCP使用场景

  • 自动化测试:创建 ai 驱动的测试场景,模拟真实用户行为。

  • 数据提取:从复杂结构的网站中提取特定数据。

  • 智能 Web 代理:构建能够自动执行复杂任务的代理,如预订旅行、比较价格等。

  • API 测试:支持发送 HTTP 请求并检查响应内容。

  • 网页导航和表单填写

  • 从结构化内容中提取数据

  • 代理的通用浏览器交互

laywright-MCP安装与配置

1. 安装:通过 npm 全局安装 Playwright-MCP 服务器:

npm install -g @executeautomation/playwright-mcp-server


2. 配置:在 Claude Desktop 或其他支持 MCP 的客户端中配置 Playwright-MCP:

{
  "mcpServers": {
    "playwright": {
      "command": "npx",
      "args": ["-y", "@executeautomation/playwright-mcp-server"]
    }
  }
}

laywright-MCP优势

  • 降低门槛:允许用户通过自然语言指令控制浏览器操作,无需编写复杂代码。

  • 高效性:基于结构化数据的交互方式比传统基于视觉的方法更高效。

  • 灵活性:支持实时生成指令,适应动态变化的页面。

github项目:https://github.com/microsoft/playwright-mcp

收藏
最新工具
DrFonts
DrFonts

一个AI字体生成工具,它能把手写的PNG图片,比如纸上的字稿,自...

Coding Adventure
Coding Adventure

一个面向小学三年级到初中学生的游戏化编程学习平台。学生用真实编程...

Vert.sh
Vert.sh

一款完全免费、开源的文件转换工具,支持图片、音频、文档的本地处理...

Windrecorder
Windrecorder

捕风记录仪,一款开源的屏幕录制与检索工具,它记录屏幕内容来实现记...

Custom Cursor
Custom Cursor

一个能让你拥有个性化光标的网站。Custom Cursor网站有...

橙子8设计
橙子8设计

一站式AI电商图片制作平台,专为电商和跨境卖家服务。不用专业设计...

Sandspiel
Sandspiel

一款基于细胞自动机和实时物理的开源像素沙盘游戏,玩家可以在虚拟沙...

印象地图
印象地图

这是个可以帮你记住全国省市位置的测试工具。打开网站就能用,选个模...

Sandtris
Sandtris

一款把经典俄罗斯方块和流沙物理效果结合的休闲游戏。玩家需要利用沙...

Maze Toys
Maze Toys

一个以迷宫游戏为主的网站,提供多种类型的迷宫玩法,包括Mini、...