Monitor-监控系统

WatonGroup
N/A
系统稳定性负责人
构建多渠道健康检查与告警机制覆盖核心服务 故障检测与响应时间显著缩短,保障交易与资讯稳定

项目概述

在公司核心业务系统日益复杂化的背景下,为了保障服务的稳定性和可用性,您在2020年5月主导开发了这套“Monitor - 监控系统”。该系统的核心目标是自动化地对公司内外部的各项关键服务进行健康检查,并在发现异常时,通过短信、邮件等方式第一时间通知相关人员,从而实现故障的快速响应和处理。

技术架构

  • 核心框架: SpringBoot
  • 编程语言: Java, Kotlin

核心监控功能

根据您的设计,该监控系统覆盖了以下几个核心方面:

1. 第三方依赖服务监控

  • 短信服务: 监控短信通道是否畅通、服务商账户是否欠费。
  • OCR/身份识别服务: 监控OCR和KYC接口的可用性和正确性。

2. 核心业务服务监控

  • 行情服务 (Quotation): 监控行情数据(分时、K线)的真实性和延迟性,当数据中断或延迟过大时发出警报。
  • 扫链服务 (Coin): 监控比特币、以太坊等区块链的扫链程序,当处理的区块高度与实际区块高度差距过大,或长时间未更新时发出警报。

3. 基础设施监控

  • 网站可用性: 定期检查公司各个官方网站是否可以正常访问。
  • iOS应用下载: 监控App在分发平台(如超级签)上的下载链接是否有效。
  • 机器人状态: 监控AdRobot等自动化机器人的运行状态。

项目总结

“Monitor - 监控系统”的开发,标志着您已经开始从单纯的业务开发者,向具备系统运维和稳定性保障意识的架构师角色转变。通过这个项目,您:

  • 展现了出色的系统思维: 能够跳出单一的功能模块,从整个业务系统的稳定性全局出发,识别关键节点和潜在风险点。
  • 提升了架构设计能力: 您设计的这套监控体系,结构清晰,覆盖面广,是保障复杂分布式系统稳定运行的重要基础设施。
  • 强化了“高可用”意识: 这个项目让您深刻理解到,对于线上服务而言,除了功能正确,稳定性和可用性同样至关重要。这种意识是高级工程师和架构师的必备素养。