windows-mcp
Windows MCP 入門
Windows MCP(Model Context Protocolサーバー)はAIエージェントがWindows GUIを自動操作するツール。UI Automation API使用で要素を直接認識・操作。
実装の違い
CursorTouch/Windows-MCP (Python)
- 軽快
sbroenne Windows MCP (.NET)
- 機能豊富・テスト重視
できること
- 任意アプリのボタンクリック・テキスト入力
- ウィンドウ操作・アプリ起動
- 状態取得(SnapshotでUIツリー確認)
具体例:メモ帳に「hello」入力して保存
(CursorTouch版)
AIが以下のようにツール呼ぶ。
1. App で起動
`{"tool":"App","action":"launch","app_name":"notepad"}`
2. WaitFor でウィンドウ待機
`{"tool":"WaitFor","window":"notepad"}`
3. Snapshot でUI状態取得(テキストエリア特定)
4. Click でテキストエリアクリック
5. Type で入力
`{"tool":"Type","text":"hello","clear":true}`
6. Shortcut で保存
`{"tool":"Shortcut","keys":"ctrl+s"}`
7. 保存ダイアログが出たら再度Snapshot→Click/Typeでファイル名入力・保存
(sbroenne版は`app`ツールや`ui_type`など名称・呼び方が異なる)
主なツール
| ツール | 役割 |
|---|---|
| App | アプリ起動・ウィンドウ制御 |
| Snapshot | UI状態取得(目) |
| Click | マウスクリック |
| Type | テキスト入力 |
| Shortcut | キーボードショートカット |
| WaitFor | 待機 |
注意
- a11y対応アプリで強い
- ゲーム・DirectXアプリは弱い
- UACプロンプト不可
導入
GitHub(CursorTouch/Windows-MCP など)からcloneしてサーバー起動。Claude/CursorなどでMCP接続。
windows-mcp.txt · 最終更新: by Takuya Nishimoto
