playwright-mcp:能够使大语言模型直接操控浏览器完成复杂任务

laywright-MCP是什么?

laywright-MCP 是一个结合了 Playwright 的跨浏览器能力和模型上下文协议(MCP)的开源工具,它能够使大语言模型(LLM)能够直接操控浏览器完成复杂任务,核心是让LLM通过结构化的可访问性快照与网页交互,而无需依赖屏幕截图或视觉模型,可以用来自动填写网页表单、自动收集网页信息、自动进行网页测试等

playwright-mcp:能够使大语言模型直接操控浏览器完成复杂任务.jpg

laywright-MCP功能特点

  • 浏览器自动化:支持打开网页、点击元素、填写表单、截屏、执行 JavaScript 等操作。

  • 结构化数据交互:基于 Playwright 的可访问性树生成结构化数据,无需视觉模型,适合基于文本的 LLM。

  • 两种模式:提供默认的“快照模式”(Snapshot Mode)和“视觉模式”(Vision Mode),后者可通过截图实现视觉交互。

  • 无头模式支持:可以在后台运行浏览器,不显示界面。

  • 快速轻量:基于 Playwright 的轻量级架构,响应速度快。

laywright-MCP使用场景

  • 自动化测试:创建 ai 驱动的测试场景,模拟真实用户行为。

  • 数据提取:从复杂结构的网站中提取特定数据。

  • 智能 Web 代理:构建能够自动执行复杂任务的代理,如预订旅行、比较价格等。

  • API 测试:支持发送 HTTP 请求并检查响应内容。

  • 网页导航和表单填写

  • 从结构化内容中提取数据

  • 代理的通用浏览器交互

laywright-MCP安装与配置

1. 安装:通过 npm 全局安装 Playwright-MCP 服务器:

npm install -g @executeautomation/playwright-mcp-server


2. 配置:在 Claude Desktop 或其他支持 MCP 的客户端中配置 Playwright-MCP:

{
  "mcpServers": {
    "playwright": {
      "command": "npx",
      "args": ["-y", "@executeautomation/playwright-mcp-server"]
    }
  }
}

laywright-MCP优势

  • 降低门槛:允许用户通过自然语言指令控制浏览器操作,无需编写复杂代码。

  • 高效性:基于结构化数据的交互方式比传统基于视觉的方法更高效。

  • 灵活性:支持实时生成指令,适应动态变化的页面。

github项目:https://github.com/microsoft/playwright-mcp

收藏
最新工具
CodePen
CodePen

一个专为前端开发者和设计师打造的在线代码编辑和展示平台,专注于前...

终身教育平台
终身教育平台

国家开放大学打造的免费在线学习平台,终身教育平台整合多领域优质资...

Radiocast
Radiocast

一个能听到全球广播的在线平台。界面像三维地球,点一下上面的城市或...

易纸
易纸

一个免费的在线稿纸打印工具,支持方格纸、竖线纸、毛笔字帖、作文纸...

装个机ZhuangIt
装个机ZhuangIt

一个手把手教你自己装系统、重装电脑的实用网站,提供从备份到激活的...

PinMe
PinMe

一款简单实用的去中心化部署工具,能降低个人网站和作品展示的技术门...

RoboNeo
RoboNeo

美图公司推出的 AI 视觉工具,能通过文字交流实现修图、设计、视...

JellyMario
JellyMario

一款改自经典的《超级马里奥》的网页游戏。游戏里的角色、敌人和场景...

MyAITeachers AI吾师
MyAITeachers AI吾师

一个面向 8 岁以上学习者的AI学习辅导工具,有多位 AI 老师...

Presenton
Presenton

一个可以本地运行的开源AI PPT生成器,使用OpenAI、Ge...