browser-control-skill — Cursor Agents | Neura Market
    Neura MarketNeura Market/Cursor
    ChatGPTChatGPTClaudeClaudeGeminiGeminiCursorCursorGrokGrokPerplexityPerplexityDeepSeekDeepSeek
    CoPilotCoPilotStable DiffusionStable DiffusionMidjourneyMidjourney
    View All Directories
    OverviewRulesPromptsMCPsAgentsBlogVideosGuidesCoursesCommunityExtensionsTrendingGenerate
    CursorAgentsbrowser-control-skill
    Back to Agents
    browser-control-skill

    browser-control-skill

    d-wwei March 12, 2026
    2 copies 0 downloads

    Browser control skill for AI coding agents to operate a user's real Chrome session on authenticated pages.

    Agent Definition
    [English](README_EN.md) | 中文
    
    # 人和 AI,终于能一起好好用浏览器了
    
    你在前台,它在后台。你让它帮忙,它就接管你的页面——点按钮、填表单、传文件、操作富文本编辑器。你让它自己查,它悄悄开 Tab 并行调研。登录态共享,安全有边界,5 个 AI 平台通用。
    
    ---
    
    ## 先说清楚:这不是一个"网页阅读器"
    
    大多数 AI 联网方案只能**读**网页——抓取文本、提取内容、返回摘要。
    
    Browser Control Skill 能**操控**你的浏览器:
    
    - 点击按钮、链接、菜单项——包括 React/Vue 等框架渲染的动态元素
    - 填写表单——兼容原生 input 和 React 受控组件,值不会被框架吞掉
    - 在 Notion、Slack、Gmail 的富文本编辑器里打字——通过 CDP 的 `Input.insertText`,连 contenteditable 区域也能写
    - 键盘快捷键——Enter 提交、Tab 切字段、Ctrl+A 全选
    - 上传文件——绕过系统文件对话框,直接把本地文件塞给 `<input type="file">`
    - 操作下拉框和悬停菜单——标准 `<select>` 和自定义 dropdown 都行
    - 截图 + 元素标注——给每个可交互元素编号,截图后一目了然
    - 拦截 Console 日志和网络请求——调试 Web 应用时直接看到后台发生了什么
    
    **这是完整的浏览器操控,不是只读的内容提取。**
    
    ---
    
    ## 但现在的问题是:人和 AI 没法共用一个浏览器
    
    你已经在 Chrome 里登录了公司内网、企业后台、各种 SaaS 平台。你想让 AI 帮你做点事——
    
    但现有方案全在某个环节掉链子:
    
    **Playwright / Puppeteer** — 开一个全新的浏览器。你的登录态?不存在。你得重新登录一遍,或者折腾 Cookie 导出。它和你用的不是同一个 Chrome。
    
    **Chrome DevTools MCP** — 能连你的 Chrome,但你和 AI 没法同时操作。Agent 一动,你的页面就跳。也没有安全防护——你的银行页面它也能点。
    
    **纯 AppleScript 方案** — 只能操作「最前面的窗口」。你在看文档,AI 要填表单——它直接把你的页面抢走了。串行操作,查 5 个网站等 5 倍时间。
    
    **WebFetch / curl** — 根本进不了登录页面。
    
    它们的共同问题:**没有一个方案能让人和 AI 和平共处在同一个浏览器里。**
    
    ---
    
    ## 解法:前台协作,后台并行,共享一个 Chrome
    
    Browser Control Skill 不是给 AI 单独开一个浏览器——而是让 AI 学会**和你共用一个 Chrome**。
    
    ### 两种模式,按场景自动切换
    
    ```
    /browse here 帮我在这个页面上填表      ← 你看着它做,操作你眼前的页面
    /browse bg 同时调研这 5 家公司的官网     ← 它在后台悄悄干,你该干嘛干嘛
    /browse 帮我查一下这个公司的信息        ← 自动判断用前台还是后台
    ```
    
    | 模式 | 技术原理 | 用户体验 |
    |------|---------|---------|
    | **前台** (here) | AppleScript,操作你的 `front window` | 你看着 AI 操作你眼前的页面,每一步都看得到 |
    | **后台** (bg) | CDP 协议,通过 `targetId` 精确寻址 | AI 开自己的 Tab,你的页面纹丝不动 |
    
    前台走 UI 层,后台走协议层。这就是为什么后台模式能做到**完全不碰你的 Tab**——它根本不通过界面操作,而是通过 Chrome 的调试协议直接和目标 Tab 通信。
    
    ### 你可以这样用
    
    **场景 1:你在看一个页面,需要 AI 帮忙操作**
    
    你打开了一个内部审批系统,想让 AI 帮你填写表单。
    
    ```
    /browse here 帮我把这个表单里的申请人改成张三,部门填研发部,然后上传桌面上的附件.pdf
    ```
    
    AI 直接操作你眼前的页面——填文本框、选下拉菜单、上传文件。你看着它一步步做,确认无误再提交。
    
    **场景 2:你在工作,让 AI 后台帮你调研**
    
    你在写代码,同时需要 AI 帮你查 5 家竞品的最新动态。
    
    ```
    /browse bg 帮我同时调研这 5 家公司的官网,总结它们最近的产品更新
    ```
    
    AI 在后台开 5 个 Tab,派 5 个子 Agent 并行调研,各查各的。你的 Chrome 界面完全不受影响。查完了它汇总结果给你

    Tags

    ai-agentsapplescriptbrowser-automationcdpchromeclaude-codecodexcursorgemini-cli

    Comments

    More Agents

    View all
    documentation

    Documentation & Onboarding Agent

    Agent that generates comprehensive documentation, API references, architecture diagrams, and developer onboarding guides from existing code.

    C
    Community
    debugging

    Cursor Bug Triage Agent

    Agent configuration for systematic bug investigation that traces issues from error logs through the codebase to root cause with suggested fixes.

    C
    Community
    api

    API Integration Agent

    Agent for integrating third-party APIs including SDK setup, type generation, error handling, retry logic, and rate limit management.

    C
    Community
    coding

    Cursor Agent Mode

    Cursor's built-in autonomous coding agent that can make multi-file edits, run terminal commands, search the codebase, and iteratively build features with minimal human intervention.

    C
    Cursor Team
    cloud

    Cursor Background Agent

    Cloud-based autonomous coding agent that runs in the background on remote sandboxed environments, handling complex multi-step tasks while you continue working.

    C
    Cursor Team
    composer

    Cursor Composer Agent

    Cursor's multi-file editing agent within Composer mode that can create, edit, and delete files across your entire project in a single conversation.

    C
    Cursor Team

    Stay up to date

    Get the latest Cursor prompts, rules, and resources delivered to your inbox weekly.

    Neura Market LogoNeura Market

    Discover the best AI prompts, plugins, and resources for Cursor and more.

    Content Types

    • Rules
    • Prompts
    • MCPs
    • Agents
    • Guides

    Platforms

    • ChatGPT Directory
    • Claude Directory
    • Gemini Directory
    • Cursor Directory
    • Grok Directory
    • Perplexity Directory
    • DeepSeek Directory
    • CoPilot Directory
    • Stable Diffusion Directory
    • Midjourney Directory
    • All Directories

    Resources

    • Blog
    • Documentation
    • Help Center
    • Marketplace

    Legal

    • Privacy Policy
    • Terms of Service

    © 2026 Neura Market. All rights reserved.

    |

    Not affiliated with any AI platform vendors.