返回主 PPT
REMOTE OPS

远程运维 深度管控
从批量执行到工作流编排

SSH 批量 · 10 厂商 CLI · 4 种执行策略 · 11 条风险规则 · 审批流 · DAG 工作流 · IPMI 硬件,
让每一次变更都在风控之下高效执行。

4
执行策略
11
风险规则
DAG
工作流
IPMI
硬件管控
01 / 11
返回
EXECUTION FLOW

批量执行 五步流程

从选设备到监控进度,一条龙式可视化流程,每一步都有风控卡点

1
选设备

按部门/标签/类型筛选
批量勾选 or 搜索定位

2
选操作

自定义 Shell / 脚本库
模板参数替换

3
选策略

全量 / 滚动 / 金丝雀 /
分组执行

4
风险检测

11 条规则自动拦截
高风险 → 审批流

5
监控进度

WebSocket 实时推送
Live Tail 输出

WS
实时进度推送
每台设备执行状态秒级同步
断线自动重连,不丢进度
>32K
大输出自动落盘
超限自动转文件存储
万行日志浏览器不卡
Ctrl+F
全文搜索
关键字定位 + 行内高亮
错误红标自动跳转
Pause
随时暂停恢复
发现问题一键暂停
恢复从断点继续,不重跑
02 / 11
返回
STRATEGIES

四种 执行策略

按变更风险选择合适策略 — 从全并发到金丝雀渐进发布

全量并发

所有设备同时执行,由最大并发数控制

  • 适合只读命令 / 巡检 / 查询
  • 无副作用场景最快完成
  • 失败不影响其他设备
最大并发5 台
适用场景只读 / 无副作用
滚动 Rolling

分批执行 + 批间隔 + 失败率超限自动暂停

  • 批次完成才继续下一批
  • 失败率超限立即刹车
  • 大批量有副作用变更首选
每批并发10 台 · 间隔 30 秒
失败率超限20% 自动暂停
金丝雀 Canary

样本先行验证,人工确认后推进全量

  • 小规模试水排除变更风险
  • 观察期可查看执行日志
  • 核心业务 / 高风险变更首选
样本台数1-2 台 · 观察 5 分钟
推进全量需人工确认
分组 Group

按部门/机房分组逐组执行,指定组顺序

  • 自定义组执行顺序
  • 组间可设置静置间隔
  • 多租户 / 跨机房滚动首选
分组依据部门 / 标签
组间隔60 秒
随时暂停 / 恢复:执行过程中可一键暂停,已完成任务不重跑;恢复后自动从断点继续。状态秒级持久化,断网重连不丢进度。
03 / 11
返回
RISK RULES

11 条 内置风险规则

命中任一规则自动拦截 + 进入审批流;按 priority 排序逐条匹配;设备数 >10 自动提升风险等级

高危动作 风险等级 典型场景 / 影响
递归删除系统目录误删根目录 / 系统文件夹CRITICAL不可逆,全盘文件丢失
磁盘格式化对硬盘分区执行 mkfs 等操作CRITICAL整盘数据丢失,不可恢复
删除 / 清空数据库表DROP TABLE / TRUNCATECRITICAL业务数据不可恢复
强制关机立即 shutdown / poweroffHIGH业务中断,离线维护
立即重启reboot / init 6HIGH短暂业务中断
清空防火墙规则iptables 全量 flushHIGH安全策略失效,暴露风险
停用网络接口ifdown / 关闭网卡HIGH设备断连,远程失联
修改系统账号删除用户 / 修改 root 口令HIGH登录权限受影响
终结关键系统进程kill -9 PID 1 / 强杀 systemdHIGH系统失稳 / 需重启恢复
目录递归全开权限递归 chmod 777MEDIUM权限边界丢失,安全隐患
影响范围扩大单次操作 > 10 台设备MEDIUM自动升级至审批流
自定义规则:管理员可按关键词新增规则并指定风险等级与动作;判定耗时 < 1 秒,未触发的任务直通执行队列。
04 / 11
返回
APPROVAL

审批 状态机

高风险任务自动进入待审批状态,由具备审批权限的账号决策;超时 2 小时自动拒绝,避免任务悬挂

待审批
风险规则触发
已批准
审批通过,进入执行
xxx
已驳回
人工拒绝 / 2 小时超时自动拒绝
审批详情展示
  • 风险等级 — CRITICAL / HIGH / MEDIUM 标记
  • 命中规则 — 具体触发的规则名 + 匹配片段高亮
  • 命令预览 — 完整命令 + 参数
  • 目标设备数 — 影响范围一目了然
  • 回滚建议 — 系统基于命令模式给出回滚指令
角色与审批权限
角色
执行
审批
脚本管理
管理员 admin
全局工程师
部门工程师
仅本部门
只读 viewer
2 小时自动拒绝:避免任务长期悬挂;所有审批决策永久留痕,可按人员 / 时间 / 风险等级检索,满足合规审计要求。
05 / 11
返回
DAG WORKFLOW

DAG 工作流 多步骤编排

用可视化编辑器把多个远程任务串成有向无环图,支持条件分支 + 变量传递 + 失败策略

典型工作流:数据库滚动升级
① 备份数据库
② 验证备份
③ 停止服务
④ 升级软件
⑤ 启动服务
⑥ 健康检查
✗ 失败回滚 ✓ 成功
普通任务 条件分支 终点 / 验证
核心能力
  • 依赖关系 — 可视化定义步骤顺序,系统自动拓扑排序执行
  • 条件分支 — 按上一步结果自动判定走哪条路径
  • 变量传递 — 上一步的输出可作为下一步的输入
  • 失败策略 — 终止流程 / 跳过继续 / 自动重试三选一
  • 模板化 — 存为流程模板,跨团队 / 项目复用
06 / 11
返回
IPMI

IPMI 硬件级 运维

无需 OS 在线即可操控裸金属服务器 — 电源 / 传感器 / FRU / SEL 一站管理

电源控制

on / off / reset / cycle 四种动作,一键重启冻结服务器

传感器监控

实时读取温度 / 电压 / 风扇转速,阈值异常告警

FRU 资产信息

厂商 / 产品名 / 型号 / 序列号,自动化 CMDB 同步

SEL 事件日志

硬件告警记录浏览(每页 20 条)支持清除

前置条件:设备具备独立的 BMC 管理 IP 并配置 IPMI 凭据。OpsDash 与 BMC 标准协议通信,无需在服务器 OS 安装任何代理。
批量电源操作
一键重启 23 台冻结服务器
操作动作强制重启 · 间隔 5 秒
目标设备23 台裸金属服务器
执行模式滚动(每批 5 台)
22
成功
1
BMC 不可达
< 30s
完成耗时
典型场景
  • OS 冻结无法 SSH,用 IPMI 强制重启
  • 大批量下电维护(机柜/机房切换)
  • 资产盘点:批量拉 FRU 同步 CMDB
07 / 11
返回
SCRIPT LIBRARY

脚本库 + 输出管理

可复用脚本模板 + 虚拟滚动大输出 + 全文搜索,万行日志零卡顿

脚本库能力
  • 分类管理 — 系统巡检 / 日志清理 / 性能采样 / 应急脚本
  • 参数模板 — 自动注入设备主机名 / IP / 标签,支持执行时人工输入变量
  • 导入导出 — 一键导出脚本包,跨测试 / 生产环境迁移
  • 执行策略预设 — 脚本可绑定默认策略(如滚动)
10 厂商 CLI 驱动
华为HUAWEI
H3C新华三
IOSCisco
NXCisco NXOS
JNPJuniper
锐捷
FGFortinet
PAPaloAlto
MTMikroTik
ARAruba
输出管理
sv-web-01 · 执行中 Ctrl+F 搜索
[12:34:01] Starting backup...
[12:34:02] Scanning /var/log...
[12:34:05] 1,234 files, 2.3 GB
[12:34:08] Compressing...
[12:34:12] ⚠ Low disk space on /
[12:34:15] Upload to s3://backup/...
...12,847 行隐藏(虚拟滚动)
输出阈值(超过落盘) > 32 KB
落盘策略 独立输出目录
虚拟滚动能力 万行不卡
08 / 11
返回
ANALYTICS

执行 统计 与分析

9 个统计端点帮你识别瓶颈、优化流程、找出故障设备

效率分析

平均执行时长 / 超时率 / 并发利用率 / 策略命中分布

趋势图

7/30/90 天任务数 / 成功率 / 失败率曲线

Top 脚本

30 天调用次数 Top 10,识别高频需求

失败设备

失败率 Top 10,定位问题设备,针对性巡检

脚本有效性

成功率 / 重复调用率 / 参数命中率

凭据使用

凭据调用频次 / 过期预警 / 权限风险

9 类统计维度 · 按 7 / 30 / 90 天灵活聚合:总览 · 趋势 · 高频脚本 · 失败设备 · 执行效率 · 设备健康度 · 脚本有效性 · 跨期对比 · 凭据使用,帮你持续优化运维流程。
09 / 11
返回
SECURITY

权限 + 审计 全链路

每一条命令 / 每一次审批 / 每一次策略变更,全部留痕可回溯

审计维度
  • 操作人身份 — 账号 / 会话 / 登录 IP / 终端来源,一人一链路
  • 时间戳 — 精确到毫秒,跨时区自动归一化展示
  • 执行命令 — 完整命令 + 参数,密码 / 密钥自动脱敏
  • 目标设备 — 设备列表 + 设备名快照(被删除设备仍可回溯)
  • 执行结果 — 每台设备成功 / 失败状态 + 输出摘要
  • 审批链 — 风险等级 + 审批人 + 决策理由完整留存
保留 180 天 · 可延长至 5 年:审计日志支持按人员 / 设备 / 命令 / 风险等级多维检索;高危操作自动打标,合规审计一键导出。
审计日志样例
审计 ID · 2026-04-15 14:23:01 风险:中
操作人
ops_alice(工程师角色)· 登录 IP 10.0.1.45
执行动作
批量远程执行 · 命令 重启 Nginx 服务
影响范围
23 台生产 Web 服务器 · 执行策略:滚动(每批 10 台 · 间隔 30 秒)
审批记录
已批准审批人 ops_bob · 理由:生产发布窗口
执行结果
成功 22失败 1失败设备已自动生成工单
10 / 11
返回
VALUE

远程运维 核心价值

从"逐台登录"到"批量变更 + 风控审批 + 工作流闭环"

10 倍效率

批量 + 策略 + 工作流三合一

  • 一次下发,多机并行执行
  • 滚动 / 金丝雀 / 分组策略自选
5 min100 台变更完成
4 种执行策略

零误操作

高危命令自动拦截 + 强制审批

  • 11 条内置规则 + 可自定义
  • 两步审批,人工确认才执行
< 1s风险判定
2 h超时自动拒绝

全链路审计

操作人 / 命令 / 设备 / 结果 / 审批全留痕

  • 敏感参数自动脱敏展示
  • 多维检索,合规一键导出
180 天日志默认保留
5 年可延长归档

复杂流程自动化

DAG 工作流 + 条件分支 + 变量传递

  • 可视化编排多步骤变更
  • 失败自动重试 / 跳过 / 终止
8 层嵌套深度
无限模板复用
"让每一次远程操作可追溯、可回滚、可审计,这就是 OpsDash 远程运维的底线。"
11 / 11