DeepSeek 导航网:首款无需电脑的开源 AI 手机自动化助手 Roubao 基于视觉语言模型 (VLM) · 原生 Android Kotlin · 多 Agent 协作架构,豆包手机 / 智谱 AutoGLM 代替品。同类的应用还有:Operit AI – 安卓手机实现 AI 自动化操作
我们解决了什么问题?
传统的手机自动化方案痛点:
- 必须连接电脑运行 ADB 命令
- 需要部署 Python 环境和各种依赖
- 只能在电脑端操作,手机必须通过数据线连接
- 技术门槛高,普通用户难以使用
肉包的解决方案:
一个 App ,装上就能用。无需电脑、无需数据线、无需任何技术背景。
打开 App → 配置 API Key → 说出你想做的事 → 完成。
为什么选择肉包?
原生 Android 实现,不是 Python 脚本的封装
市面上几乎所有手机自动化开源项目(包括阿里的 MobileAgent)都是 Python 实现,需要:
- 在电脑上运行 Python 脚本
- 手机通过 USB/WiFi ADB 连接电脑
- 截图通过 ADB 传输到电脑,处理后再把操作指令传回手机
肉包完全不同。
我们用 Kotlin 重写了整个 MobileAgent 框架,原生运行在 Android 设备上:
- 截图、分析、执行全部在手机本地完成
- 无需电脑中转,延迟更低
- 利用 Shizuku 获得系统级权限,而非繁琐的 ADB 命令
为什么需要 Shizuku ?
Android 系统出于安全考虑,普通 App 无法:
- 模拟用户点击、滑动屏幕
- 读取其他 App 的界面内容
- 执行
input tap、screencap等系统命令
传统方案需要连接电脑执行 ADB 命令。而 Shizuku 是一个优雅的解决方案:
- 通过无线调试或电脑 ADB 启动一次 Shizuku 服务
- 之后普通 App 就可以获得 ADB 级别的权限
- 无需 Root,无需每次都连接电脑
这让肉包可以直接在手机上执行截图、点击、输入等操作,真正实现「一个 App 搞定一切」。
核心特性
🤖 智能 AI Agent
- 基于先进的视觉语言模型(VLM),能够"看懂"屏幕内容
- 自然语言指令,说人话就能操作手机
- 智能决策,根据屏幕状态自动规划下一步操作
🎨 精心设计的 UI
这可能是所有手机自动化开源项目中 UI 做得最好看的。
- 现代化 Material 3 设计语言
- 流畅的动画效果
- 深色/浅色主题自适应
- 精心设计的首次使用引导
- 完整的中英文双语支持
🔧 高度可定制
- 支持多种 VLM:阿里云通义千问、OpenAI GPT-4V、Claude、DeepSeek 等
- 预设 API 服务商:阿里云、OpenAI、OpenRouter 一键切换
- 从 API 动态获取可用模型列表,支持模糊搜索
- 可配置自定义 API 端点,支持本地模型(Ollama、vLLM 等)
🔐 安全保护
- API Key 使用 AES-256-GCM 加密存储
- 检测到支付、密码等敏感页面自动停止
- 任务执行全程可视,悬浮窗显示进度
- 随时可以手动停止任务
- 可选的云端崩溃上报(可在设置中关闭)
🔓 Root 模式支持
当 Shizuku 以 Root 权限运行时,肉包可以启用 Root 模式:
- Root 模式:解锁更多系统级操作能力
- su 命令:允许执行
su -c命令(需谨慎使用) - 自动检测:自动检测 Shizuku 权限等级(ADB/Root),非 Root 环境下该选项为灰色不可用




API部署