【转载】对自动化运维系统的几点思考

2015-08-18 · Ryan · 发表评论

自动化运维系统的演进

自动化运维系统的构建是一个持续演进的过程，其架构和功能随着技术发展和业务需求不断迭代。以下是对其发展历程的梳理。

第零代：信息展示系统

最初接手的是一个结构简单的小型应用，由 PHP 编写的前台和 Python 编写的 Agent 组成。其核心功能是接收来自不同主机的定制信息，并按照主机 IP 进行分类展示。展示内容涵盖硬件信息、操作系统详情及系统状态等。虽然功能较为简陋，但这一版本为后续的系统开发奠定了重要的基础。

第一代：基于 SSH2 与 Socket 的集中式系统

这一代系统是与同事共同使用 Java 开发的初版。核心设计思路是：通过一个 Socket 服务端接收各个 Agent 投递过来的 XML 格式加密数据，并将这些数据存入一个独立的 Oracle 数据库临时表中。随后，通过定时的批处理任务，将临时表中的数据更新到对应的业务数据表中，完成数据的整合与持久化。

第二代：引入缓冲与消息队列的分布式架构

为了解决第一代系统面临的性能瓶颈和高并发压力，第二代架构进行了重大革新：

缓冲层：引入 Redis，利用其 NoSQL 特性缓冲高并发的数据写入请求，显著提升系统吞吐能力。
通信框架：将原有的 NIO Socket 服务端替换为 ZeroMQ（ZMQ）消息总线，有效解决了服务端的高负载和连接管理问题，使通信更高效、解耦更彻底。
任务调度：集成 Quartz 框架管理复杂的定时任务。
流程管理：引入 jBPM 工作流引擎，以支持运维流程的自动化编排。

第三代（规划中）：基于 LDAP 的资源信息解耦

正在研究的新一代架构，旨在使用 LDAP（轻量级目录访问协议）来存储和管理主机的基础信息（如IP、分组、属性等），使主机信息的查询与核心业务数据库脱钩。这样做的好处是提升信息查询的灵活性和效率，并便于与其他系统（如认证系统）进行集成。

自动化运维系统的功能模块划分

一个完整的自动化运维平台通常包含以下几大功能模块：

1. 通用基础平台

权限体系：基于用户（组）-角色-权限模型，实现对系统模块（菜单）、具体功能及访问 URL 的精细控制。
系统数据字典：统一管理业务编码、状态码等基础数据。
消息通知：集成内部消息、邮件发送与实时提示功能。
文件服务：提供统一的附件上传、下载与管理接口。
定时任务组件：支持分布式、高可用的任务调度。
工作流组件：支持可视化流程设计与执行。
系统日志：完整记录用户登录、关键操作等审计日志。
第三方集成（可选）：如单点登录（CAS）、财务软件接口、外部告警平台、大数据分析系统等。

2. 资源库管理

基础设施：管理机房、机柜的物理位置信息。
网络资源：管理 IP 地址池、定义网络预警阈值、监控交换机流量。
资产信息：管理真实的服务器硬件资产信息。
逻辑主机：负责主机的注册、心跳检测、分组管理，并以图表形式展示系统状态。
数据管道：
- 将 Agent 投递的信息映射到数据库对应记录。
- 维护数据解析规则字典。
- 在 Redis 层缓存最新的投递信息以供快速查询。
- 记录资源的历史变更记录。
相关定时任务：如定期同步、数据清理等。

3. 远程控制与配置管理

远程操作：基于 SSH（Linux/Unix）或 RDP（Windows）协议实现安全的远程命令行或桌面控制。
任务管理：支持远程定时任务的发布、执行状态追踪与结果回报。
配置管理：
- 定义服务配置的标准化模板。
- 管理软件源或插件库，并与分发器对接。
- 维护各类业务节点的列表及其关联的配置文件。
- 实现配置文件的自动生成与批量推送。

4. 信息采集与分析

该模块负责从各个主机和网络设备持续采集性能指标、日志、事件等信息，并进行集中存储、处理与分析。其产出可用于实时监控、容量规划、故障排查与性能优化，是运维决策的重要数据支撑。

本文观点参考自外部技术博客，原文链接：http://my.oschina.net/yygh/blog/119408