可观测 AI 工作台：从被动救火到主动运维

原创

腾讯云可观测平台

修改于 2025-07-16 18:31:40

2620

导读 | 凌晨三点，告警短信像潮水般淹没手机，容器集群全线报错，10 个监控界面疯狂切换，却找不到问题根源。或者说似乎找到很多问题。有的节点区区 8 核 switch context 却高达 25w，查看dmesg，dst_release refcnt:-5 报错一堆，一查发现是严重内核错误。有些 k8s 集群，podsandbox_status 高频报错。应用层面的报错就很严重了，中间件全部连接失败。

如果没有人告诉你是网络出了问题，凌乱的你会觉得是什么问题呢？

腾讯云可观测平台新推出的「可观测AI工作台」，通过主动式随机探索技术，让隐藏风险无处遁形，让用户在真正发生故障的时候更加淡定，聚焦目标，快速解决！

让我们来看看如何使用可观测 AI 工作台，破局上面所述的“崩溃时刻”吧！👇

体验地址：可观测 AI 工作台

一、可观测 AI 核心能力

| 智能体如何破解运维困局

传统的 Workflow 模式有很多局限性，而随着模型能力的不断提升，以及成本的降低，智能体模式成为了可能的选择，结合可观测场景的特征和痛点问题，我们通过智能体实现了破局。

二、实战场景

| 从“救火队员”到“风险清洁员”

场景复现：快速发现内核错误和K8S集群报错的破窗。

内核错误和K8S集群报错就像是烟雾弹，加剧探索根因的难度，这些报错也许有关联，也许没有关联。最好的解决方案，就是在看起来“健康”的时候，提前发现。但是怎么可以突破“未知”去做个全面的检查呢？

可以在 AI 工作台使用下面这个简单的用户提示词，驱动 AI 去规划，努力挖掘缺陷。

以下是驱动 AI 主动检测风险的具体步骤：

通过可观测 AI 工作台，借助 Al 生成自己都不懂的 PromQL 来检索数据外，检查的维度也可以让 AI 来规划。

AI 通过“随机”努力地突破“未知”，挖掘风险。上面这些问题都修复了，在迎来真正的故障时，我们就可以聚焦真正问题，快速定位原因。

三、差异化竞争力

| 三大技术破局点

Agent决策引擎：像管理员工自主性一样来让 AI 自主规划、自我修正

上下文爆炸控制：专属摘要节点，超阈值舍弃工具输出和压缩 Span 的能力。
AI自优化提示词：AI 生成元提示词，消除噪声并构建“认知闭环”。
规划能力强化：明确的终止条件，专属规划节点。

2.三层测试体系：分层测试配合 Trace 和 BadCase 泛化，持续优化质量，减少幻觉

MCP 测试：验证工具基础功能，从参数和输出的内容的属性来让AI思考设计用例。
Planner 测试：确保规划正确完整、深入；工具调用和工具参数槽位正确。
端到端测试：整体验证问题解决能力；幻觉产生机评。

3.知识双飞轮：让 AI 工作台可以覆盖更广更深的智能化场景

来自“腾讯经验”的平台知识库：来自腾讯性能与一线运维团队的多年的性能分析和故障处理经验，让 AI 可以有更深入的分析和实际的解决案例支撑。
行业、领域等的企业知识库：让企业可以根据自己的行业和领域的场景来自定义关联可观测智能体的知识库，让 AI 理解自定义上报的内容和自定义指标的计算公式外，还可以提供业务类型、服务阈值、业务资源地图、内部的故障解决案例来定制自己专属的 AI。
不只是知识库，更是飞轮：解决了知识沉淀、使用和更新的闭环问题。

四、可观测 AI 工作台功能介绍

可观测 AI 工作台目前已实现了完整的【AI 探索】能力和【知识库】能力。

在【AI 探索】页面可以使用不同场景的专家智能体探索可观测 AI 能力，在【知识库】页面可以在平台知识库的基础上，自定义上传企业知识库，以实现更好的 AI 分析效果。

1. AI 探索

你可以使用 AI 探索页面进行可观测全场景 AI 能力的统一探索，能对单一场景能力进行问答。同时也可以实现跨不同子产品的关联分析。此界面目标是承载全栈监控数据的 AI 探索。

（1）两种模式

你可以使用这两种模式：

探索模式：让 AI 自主动态思考，按照实际返回，不断修正计划，有更强的随机性。
规划模式：AI 帮忙你先规划步骤，再分步帮你执行，支持你自定义调整计划，更有可能生成符合预期的效果。（✨报告能力仅支持在规划模式下使用）

（2）五个智能体

可观测联合专家：默认的智能体，适用于所有场景，在探索时如果不@指定智能体，将默认使用此智能体；同时支持多智能体能力联动的场景，如联动应用服务专家和云产品专家的应用异常关联云资源分析场景，以及报告场景只能使用该智能体。
应用服务专家：适用于应用性能监控（APM）场景，如：应用异常与耗时分析、Trace 问题分析、应用关联日志分析等场景。
云原生专家：适用于 Prometheus 监控服务（TMP）场景，如：容器健康检查、容器资源利用率分析、集成云监控数据查询、Prometheus 告警分析等场景。
云产品专家：适用于云产品基础监控场景，如：云产品监控数据查询、资源利用率分析、告警分析等。
可观测知识问答助手：提供包含对 Prometheus、基础监控、APM 和智能体工具的通用知识介绍、问答、教程等。

（3）固定工作流报告

此外，固定的工作流能力可支持用户设置周期性AI分析任务，并按照指定的频率和渠道给用户发送结果通知。 AI 探索的能力能够在你的日常工作中持续提供价值！

2. 知识库

知识具有通用性、专属性和流动性。可观测平台基于腾讯经验为你提供了“通用”的平台知识；同时为了更好满足不同客户的个性化分析能力，你也可上传“专属”的企业知识。让平台知识与企业知识共同赋能智能体。

在知识应用的过程中，产生新的可沉淀的“流动”知识，从而形成高速滚动的知识双飞轮体系。

可观测 AI 工作台的知识库由【平台知识】和【企业知识】组成。

平台知识：智能体预设的知识，无需用户管理。
企业知识：用户自定义的知识，需要用户主动上传与管理。

在知识库的管理上，我们支持两种视角：

智能体视角：可以直观地看到智能体中已有哪些平台知识和企业知识，从而针对缺少的知识进行上传。
知识视角：主要用于已上传知识的管理，统一查看全部企业知识或平台知识。

3. 重点场景能力示例

（1）告警分析报告

针对海量资源场景的告警风暴问题，可以基于 AI 进行全量的告警历史分析与相关资源指标分析，发现异常的告警策略与云产品资源。并对告警原因进行聚类和根因分析，发现潜在的问题，如资源性能瓶颈风险、告警配置不合理问题等，并让 AI 优化建议。同时支持生成分析报告，以及固化为工作流定期进行AI分析，发送结果报告给用户。

（2）应用服务健康检查

APM 的服务体检以往需要人工一个个检查应用和接口异常情况，并一层层得去查看问题，耗时耗力，还要依赖过往经验去分析问题根因，使用门槛很高。

而 AI 能力可以帮助用户实现自动查询应用异常或耗时长的情况，并针对问题进一步进行相关接口的分析，以及下钻到 tracid 的链路详情的分析、底层依赖资源的分析，发现根因问题，并给出解决建议，极大地提高问题排查效率。

（3）应用异常关联日志与资源分析

应用服务发生了异常，可能是多种原因，而关联的日志分析与底层资源分析是非常重要的分析途径，以往用户需要手动在不同的数据间切换查看，寻找相关性，门槛很高。

为解决这个问题，可观测平台 AI 基于多个智能体的原子能力，实现了应用异常信息与关联日志数据、底层云产品资源数据的关联分析。

（4）云产品资源利用情况分析

免去盯盘的烦恼，AI 帮助你自动查询并分析云服务器的资源利用率指标，快速发现问题，并给出资源配置的合理性建议，更能优化成本。

（5）Prometheus集群告警配置完善度分析

告警是系统稳定性的“第一防线”，通过实时检测异常（如资源过载、服务异常），助力团队在故障影响用户前快速响应，保障业务连续性，同时优化资源分配与成本控制。

但完善的告警配置对研发或运维同学的要求很高，有了 AI 能力的助力，可观测实现了 AI 自动对当前已有的告警规则与告警历史进行分析，发现告警未覆盖或告警配置错误的问题，帮助用户建立完善的告警体系，保证壁垒的稳固防护。

（6）通用问答

通用提问、回答目前主要基于可观测平台官方文档的内容，可提供基于 AI 的快速检索能力，当前支持的文档范围为基础监控、应用性能监控和 Prometheus 监控，后续还会拓展到更多可观测子产品。

五、三步开启体验！

一键启用：可观测控制台点击「AI 工作台-AI 探索」，开始探索之旅；
知识注入：在「AI 工作台-知识库」上传企业知识，构建专属知识飞轮；
场景验证：

前置条件配置地址：

「免费」体验可观测 AI 工作台

为什么选择腾讯云可观测工作台？通过将智能体的“随机性”转化为运维收益，腾讯云正在重新定义可观测性的价值边界——

✨从被动告警到主动防御，从数据堆砌到智慧生成，从僵化修补到全面观测。

👉深度体验：可观测 AI 工作台正在公测中，快来免费体验吧！AI 工作台

👉技术研讨：加入 AI 交流群，获取产品最新动态，分享用户提示词与企业知识库最佳实践。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯云可观测平台

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯云可观测平台

登录后参与评论

0 条评论

热度