ユーザ用ツール

サイト用ツール


windows-mcp

Windows MCP 入門

Windows MCP(Model Context Protocolサーバー)はAIエージェントがWindows GUIを自動操作するツール。UI Automation API使用で要素を直接認識・操作。

実装の違い

CursorTouch/Windows-MCP (Python)

sbroenne Windows MCP (.NET)

できること

  • 任意アプリのボタンクリック・テキスト入力
  • ウィンドウ操作・アプリ起動
  • 状態取得(SnapshotでUIツリー確認)

具体例:メモ帳に「hello」入力して保存

(CursorTouch版)

AIが以下のようにツール呼ぶ。

1. App で起動

 `{"tool":"App","action":"launch","app_name":"notepad"}`

2. WaitFor でウィンドウ待機

 `{"tool":"WaitFor","window":"notepad"}`

3. Snapshot でUI状態取得(テキストエリア特定)

4. Click でテキストエリアクリック

5. Type で入力

 `{"tool":"Type","text":"hello","clear":true}`

6. Shortcut で保存

 `{"tool":"Shortcut","keys":"ctrl+s"}`

7. 保存ダイアログが出たら再度Snapshot→Click/Typeでファイル名入力・保存

(sbroenne版は`app`ツールや`ui_type`など名称・呼び方が異なる)

主なツール

ツール 役割
App アプリ起動・ウィンドウ制御
Snapshot UI状態取得(目)
Click マウスクリック
Type テキスト入力
Shortcut キーボードショートカット
WaitFor 待機

注意

  • a11y対応アプリで強い
  • ゲーム・DirectXアプリは弱い
  • UACプロンプト不可

導入

GitHub(CursorTouch/Windows-MCP など)からcloneしてサーバー起動。Claude/CursorなどでMCP接続。

windows-mcp.txt · 最終更新: by Takuya Nishimoto

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki