导读 | 凌晨三点,告警短信像潮水般淹没手机,容器集群全线报错,10 个监控界面疯狂切换,却找不到问题根源。或者说似乎找到很多问题。有的节点区区 8 核 switch context 却高达 25w,查看dmesg,dst_release refcnt:-5 报错一堆,一查发现是严重内核错误。有些 k8s 集群,podsandbox_status 高频报错。应用层面的报错就很严重了,中间件全部连接失败。
如果没有人告诉你是网络出了问题,凌乱的你会觉得是什么问题呢?
腾讯云可观测平台新推出的「可观测AI工作台」,通过主动式随机探索技术,让隐藏风险无处遁形,让用户在真正发生故障的时候更加淡定,聚焦目标,快速解决!
让我们来看看如何使用可观测 AI 工作台,破局上面所述的“崩溃时刻”吧!👇
体验地址:可观测 AI 工作台
一、核心能力:智能体如何破解运维困局
二、实战场景:从“救火队员”到“风险清洁员”
三、差异化竞争力:三大技术破局点
四、可观测 AI 工作功能介绍
| 智能体如何破解运维困局
传统的 Workflow 模式有很多局限性,而随着模型能力的不断提升,以及成本的降低,智能体模式成为了可能的选择,结合可观测场景的特征和痛点问题,我们通过智能体实现了破局。

| 从“救火队员”到“风险清洁员”
场景复现:快速发现内核错误和K8S集群报错的破窗。
内核错误和K8S集群报错就像是烟雾弹,加剧探索根因的难度,这些报错也许有关联,也许没有关联。最好的解决方案,就是在看起来“健康”的时候,提前发现。但是怎么可以突破“未知”去做个全面的检查呢?
可以在 AI 工作台使用下面这个简单的用户提示词,驱动 AI 去规划,努力挖掘缺陷。

以下是驱动 AI 主动检测风险的具体步骤:


通过可观测 AI 工作台,借助 Al 生成自己都不懂的 PromQL 来检索数据外,检查的维度也可以让 AI 来规划。
AI 通过“随机”努力地突破“未知”,挖掘风险。上面这些问题都修复了,在迎来真正的故障时,我们就可以聚焦真正问题,快速定位原因。
| 三大技术破局点

2.三层测试体系:分层测试配合 Trace 和 BadCase 泛化,持续优化质量,减少幻觉
3.知识双飞轮:让 AI 工作台可以覆盖更广更深的智能化场景

可观测 AI 工作台目前已实现了完整的【AI 探索】能力和【知识库】能力。
在【AI 探索】页面可以使用不同场景的专家智能体探索可观测 AI 能力,在【知识库】页面可以在平台知识库的基础上,自定义上传企业知识库,以实现更好的 AI 分析效果。
1. AI 探索
你可以使用 AI 探索页面进行可观测全场景 AI 能力的统一探索,能对单一场景能力进行问答。同时也可以实现跨不同子产品的关联分析。此界面目标是承载全栈监控数据的 AI 探索。

(1)两种模式
你可以使用这两种模式:
(2)五个智能体
(3)固定工作流报告
此外,固定的工作流能力可支持用户设置周期性AI分析任务,并按照指定的频率和渠道给用户发送结果通知。 AI 探索的能力能够在你的日常工作中持续提供价值!

2. 知识库
知识具有通用性、专属性和流动性。可观测平台基于腾讯经验为你提供了“通用”的平台知识;同时为了更好满足不同客户的个性化分析能力,你也可上传“专属”的企业知识。让平台知识与企业知识共同赋能智能体。
在知识应用的过程中,产生新的可沉淀的“流动”知识,从而形成高速滚动的知识双飞轮体系。

可观测 AI 工作台的知识库由【平台知识】和【企业知识】组成。
在知识库的管理上,我们支持两种视角:
3. 重点场景能力示例
针对海量资源场景的告警风暴问题,可以基于 AI 进行全量的告警历史分析与相关资源指标分析,发现异常的告警策略与云产品资源。并对告警原因进行聚类和根因分析,发现潜在的问题,如资源性能瓶颈风险、告警配置不合理问题等,并让 AI 优化建议。同时支持生成分析报告,以及固化为工作流定期进行AI分析,发送结果报告给用户。
APM 的服务体检以往需要人工一个个检查应用和接口异常情况,并一层层得去查看问题,耗时耗力,还要依赖过往经验去分析问题根因,使用门槛很高。
而 AI 能力可以帮助用户实现自动查询应用异常或耗时长的情况,并针对问题进一步进行相关接口的分析,以及下钻到 tracid 的链路详情的分析、底层依赖资源的分析,发现根因问题,并给出解决建议,极大地提高问题排查效率。
应用服务发生了异常,可能是多种原因,而关联的日志分析与底层资源分析是非常重要的分析途径,以往用户需要手动在不同的数据间切换查看,寻找相关性,门槛很高。
为解决这个问题,可观测平台 AI 基于多个智能体的原子能力,实现了应用异常信息与关联日志数据、底层云产品资源数据的关联分析。
免去盯盘的烦恼,AI 帮助你自动查询并分析云服务器的资源利用率指标,快速发现问题,并给出资源配置的合理性建议,更能优化成本。
告警是系统稳定性的“第一防线”,通过实时检测异常(如资源过载、服务异常),助力团队在故障影响用户前快速响应,保障业务连续性,同时优化资源分配与成本控制。
但完善的告警配置对研发或运维同学的要求很高,有了 AI 能力的助力,可观测实现了 AI 自动对当前已有的告警规则与告警历史进行分析,发现告警未覆盖或告警配置错误的问题,帮助用户建立完善的告警体系,保证壁垒的稳固防护。
通用提问、回答目前主要基于可观测平台官方文档的内容,可提供基于 AI 的快速检索能力,当前支持的文档范围为基础监控、应用性能监控和 Prometheus 监控,后续还会拓展到更多可观测子产品。



前置条件配置地址:
「免费」体验可观测 AI 工作台
为什么选择腾讯云可观测工作台? 通过将智能体的“随机性”转化为运维收益,腾讯云正在重新定义可观测性的价值边界——
✨从被动告警到主动防御,从数据堆砌到智慧生成,从僵化修补到全面观测。
👉深度体验:可观测 AI 工作台正在公测中,快来免费体验吧!AI 工作台
👉技术研讨:加入 AI 交流群,获取产品最新动态,分享用户提示词与企业知识库最佳实践。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。