在现代IT运营领域,“监控(Monitoring)”与“可观测性(Observability)”是两个经常被混用,但内涵截然不同的概念。传统的“监控”,是基于预设的、已知的指标(如延迟、丢包率、CPU使用率)进行仪表盘式的告警,它能告诉你“什么东西坏了”。而“可观测性”,则是一个更主动、更具探索性的能力,它通过采集系统产生的全部原始、高维度数据(日志、链路追踪、指标),赋予你“为什么会坏”的深度洞察力。对于业务链条极其复杂的TikTok运营,从“监控”迈向“可观测性”,是实现快速故障定位、提升系统韧性的必然进化。
构建TikTok业务的可观测性技术栈:
一个完整的可观测性体系,由“三驾马车”构成,并需要网络层面的深度支持。
指标(Metrics): 这是我们熟悉的、可聚合的数值型数据。网络层面,除了传统的延迟、丢包,还应包含更精细的指标,如BGP路由的稳定性、API调用的P99延迟、特定视频流的抖动值等。
日志(Logs): 这是包含了丰富上下文的、非结构化的事件记录。网络设备、防火墙、服务器的日志,记录了每一次连接的建立、每一次策略的变更、每一次错误的发生。
链路追踪(Traces): 这是可观测性的核心。通过在整个服务调用链中植入“探针”(例如,使用OpenTelemetry标准),我们可以完整地追踪一个请求的全生命周期。
应用场景:一次离奇的订单同步失败
监控视角: 监控系统告警:“订单同步API成功率在过去5分钟内下降到80%”。运营团队陷入恐慌,但不知道问题出在哪。
可观测性视角: 运维工程师打开可观测性平台,筛选出一条失败的订单同步请求的Trace(链路追踪)。
Trace清晰地展示了这条请求的旅程: 1) 从雅加达的ERP服务器发出;2) 经过SD-WAN网络,耗时40ms到达新加坡节点;3) 从新加坡节点,调用TikTok Shop的API,耗时50ms;4) TikTok Shop的后端微服务A处理了请求,耗时20ms;5) 微服务A调用了后端的数据库微服务B,但微服务B在耗时2000ms后,返回了一个“数据库连接池耗尽”的错误;6) 错误逐层返回,最终导致API调用失败。
深度洞察: 整个排障过程只花了不到一分钟。根本原因被精准定位:不是网络问题,而是后端数据库的配置问题。 如果没有链路追踪,IT团队可能会花费数小时,在网络、防火墙、服务器之间进行无效的“猜谜游戏”。
网络在可观测性中的角色:
网络是所有链路追踪数据得以传输的载体。一个先进的网络解决方案,自身也应具备“可观测性”。其SD-WAN控制器,应能提供详尽的、可供分析平台调用的网络层Trace数据,并将这些数据与应用层的Trace进行自动关联。这使得运维团队能在一个统一的视图中,清晰地看到每一次业务请求,在应用代码和网络基础设施中的完整路径和性能表现。
从“监控”到“可观测性”,是一场从“看仪表盘”到“做CT扫描”的认知升级。它将运维团队从被动的、反应式的救火员,转变为主动的、具备深度诊断能力的“系统医生”。
Copyright © 2013-2020 idc10000.net. All Rights Reserved. 一万网络 科技有限公司 版权所有 深圳市科技有限公司 粤ICP备07026347号
本网站的域名注册业务代理北京新网数码信息技术有限公司的产品