三期同辉,收官闪耀!基调听云协办的“智能观测进化论”第三期沙龙精彩回顾
2025年开年以来,国产Al DeepSeek、Manus在中国、美国的科技圈受到广泛关注,成为大模型行业的“黑马”,DeepSeek 凭借其独特的技术架构和低成本训练方案迅速成为行业焦点,全球主流的技术公司纷纷接入DeepSeek模型,这不仅改变了AI大模型的研发格局,也在加速可观测性技术向更加智能的形态演进。
在此背景下,由中国信通院稳定性保障实验室主办、基调听云协办的“智能观测进化论”系列沙龙拉开帷幕,邀请行业资深专家和相关技术负责人就智能可观测性领域的实践经验、发展趋势、痛点问题进行分享讨论,引发业内广泛关注。
01 前情回顾
“智能观测进化论”首期于2月28日成功召开,来自中国信通院、基调听云、华为云、科来网络的专家进行了分享,基调听云 AI 负责人韦远奎分享了《听云AI落地实践-Text2NBQL》。上千人线上观看直播。
(详情链接:
https://mp.weixin.qq.com/s?__biz=MzA5NTkwMzkwNQ==&mid=2650446908&idx=1&sn=e2dc19c36c2761efa0b625330abb5391&chksm=89a4924679b19cd3ffc03c754db11b86fd022c23b39437b349c757b66b078d63eb3b45b70f4e&mpshare=1&scene=1&srcid=0305RyViHOY9RFPmjdZx4L1A&sharer_shareinfo=2c9ddca6f7d00af393472952872906c7&sharer_shareinfo_first=359bb08d5d37a9b66e793950dfa3a27c&version=4.1.6.70203&platform=mac#rd)
“智能观测进化论”第二期于3月7日召开,来自字节跳动、咪咕视讯、移动云的专家进行了分享,基调听云 AI 负责人韦远奎在圆桌环节与各位与会专家展开深入探讨,发表听云观点。
(详情链接:
https://mp.weixin.qq.com/s?__biz=MzA5NTkwMzkwNQ==&mid=2650446958&idx=1&sn=49070dd853fad0c550b281f18f9667b3&chksm=897ecb4308bf0619b90a4c0d0e71b4f5a20a8f8e08c17ff04067ecd9fa578447bf8d36f27189&mpshare=1&scene=1&srcid=0312atarzdldZmHMKD06CPTd&sharer_shareinfo=25258010df80d8a45053e61a1d06b1d6&sharer_shareinfo_first=834887e9b8d43a4a9c549086b63b662a&version=4.1.6.70203&platform=mac#rd)
02 第三期精彩演讲
3月28日,“智能观测进化论”第三期顺利召开,来自中国信通院、基调听云、阿里云、杭州数列、浪潮通信的可观测专家进行了分享,基调听云 AI 负责人韦远奎发表了《Al Agent 赋能智能运维》主题演讲,下面,就让我们一起来回顾会议精彩内容!
中国信通院云大所云计算部 刘坤 发表了《中国信通院可观测性标准体系及相关工作介绍》主题演讲。介绍了中国信通院在可观测性领域的标准体系和研究路径,分析了成功立项的行业标准《云计算系统智能化可观测性能力成熟度模型》标准内涵,以及2025年中国信通院即将开展的可观测案例征集等工作的相关规划。
基调听云AI负责人 韦远奎 发表了《Al Agent 赋能智能运维》主题演讲。他聚焦大模型与智能运维的深度融合,系统解读大模型在智能运维场景中的实践路径,包括智能助手、异常检测、告警降噪、根因分析等应用。观众将深入了解如何构建大模型驱动的智能运维平台,掌握自主动态规划和多智能体协作等关键能力,共同探索以大模型技术推动运维智能化升级,助力企业数字化转型的全面加速。
阿里云可观测高级产品专家 曹剑 发表了《面向 LLM 应用的端到端可观测体系探索与实践》主题演讲。阿里云可观测团队的产品经理曹剑分享了关于大模型应用端到端的可观测解决方案,旨在解决AI应用中的性能、可用性、质量和成本问题。主要内容包括全栈监控与全链路诊断,以提高推理速度和GPU利用率,并确保模型输出准确合规。通过Python Agent实现自动化数据采集,支持多种AI框架,提供代码级剖析能力,帮助快速定位问题。此外,还介绍了如何利用独立的大模型评估输入输出的质量和安全性,以及对token消耗进行多维度分析来控制成本。整体方案覆盖了从基础设施到应用层的全面监控和诊断能力,增强了AI服务的稳定性和效率。
杭州数列网络科技有限责任公司联合创始人 杨德华 发表了《基于AI Agent的分布式系统性能容量风险发现、原因诊断和优化实践》主题演讲。演讲探讨了基于AI Agent的分布式系统性能容量风险发现、原因诊断和优化建议的实践。随着分布式系统的复杂性和多变性增加,传统的性能监控和优化方法面临反馈周期过长、难以精准定位问题等挑战。为此从业务场景切入,利用AI Agent实时收集和分析系统数据,快速识别风险点,并通过智能算法进行原因诊断,最终给出优化建议,并结合了实际应用场景案例,展示企业在引入AI Agent后,如何显著缩短问题诊断时间并提升系统性能。
浪潮通信算力运维可观测平台产品经理 金鑫 发表了《基于可观测运维平台的能力使用与AI辅助根因定位》主题演讲。阐述了浪潮在可观测运维领域的成果,讨论如何将传统的技术运维转变成业务运维,从业务的视角来看待当前存在系统问题,以及如何基于现有运维指标,实现基于算法和专家规则经验进行故障根因定位。
03第三期圆桌观点
【观点总结】
观点1:在过去,国内外厂商差距较大,国外厂商在传统的智能可观测技术方面积累比较深厚,如专家经验、知识库等,但是大模型带来了一些颠覆性的变革,当基模的能力越来越强,专家知识库的积累似乎不那么重要了,在新的游戏规则下,国内外都处于探索阶段。
观点2:需要先设计个评价的标准来衡量差距,比如从企业估值或市值方面来看,国内外差距是比较大的,但这个跟国内的商业历史有关,因此很难比较;从相关上市公司的数量看,国内外差距也比较大。或许我们可以使用“企业在智能可观测方面一天有效使用的token数”来评价其水平。
观点3:国内外没有太大的差距。国内的各类2C业务系统和APP的用户体量不输国外,且这些系统没有出现过太多的问题,这可以说明我们的应用系统建设足够优秀,我们的运维能力/可观测能力是不输国外的。另一方面,对比智能可观测能力要落到具体的场景和环境上,不同的运维对象所需要的能力不一样,硬搬一套系统去落实效果不一定好,要考虑运维对象的适配问题。
观点4:国外在智能化方面体系存在先发优势,但国内的基模也在快速的发展,在部分方向实现了领先,在智能化可观测领域,一两年之后国内外水平会差不多。
【观点总结】
观点1:引入运维工具会给运维人员带来额外的工作量,因此可以考虑多使用自动化、智能化手段简化用户学习和操作成本。
观点2:运维工具对于其创造者是很好落地的,但是创造者所设想的场景和客户实际的场景可能存在差异,因此在把运维工具推到客户侧的生产系统时,会遇到一系列卡点,要符合客户侧一系列规章制度的同时,还需要向客户的各个角色证明其价值和收益,因此必须在设计开发阶段就好好琢磨用户实际生产中的落地难点。
观点3:运维工具对于用户的上手门槛是一个最难的点。一些运维工具设计比较复杂,有些用户企业由于技术栈比较封闭,运维人员不能熟练地使用运维工具导致其价值大打折扣。
观点4:从数据方面来说,在发生故障排查问题时,要想发挥运维工具的价值,就需要全部的服务和组件接入工具,尽量不能存在数据断点和缺失,一环数据缺失就可能导致运维工具在这次故障排查中作废,因此要统一数据接入、统一查询、统一关联、统一分析。
【观点总结】
观点1:可观测这个生意就像造牛仔裤的生意一样。任何一个时代都有掘金者,掘金者都需要牛仔裤,都需要相应的工具支持和配套,可观测APM魔力象限的玩家这么多年几乎完全更替了一轮,微服务、云原生等每一次变革都带来了行业新一轮洗牌,推理应用出现之后,我们需要立刻思考怎么做它的观测,怎么保障它的可用性。
观点2:可观测会从传统的以资源、应用性能为中心的方式向数据安全、可解释性、端到端全链路追踪的方式转变。
观点3:最直观的是在交互形式上变化,用户可以直接从对话框输入问题来进行交互和分析问题。
【观点总结】
观点1:从业务角度来说,AI无法完全代替人,但AI的融入是必然,我们需要有AI意识。
观点2:人要做价值的导向者、创新的推动者、AI的监督者,人需要提高使用AI的能力和批判性思维的能力。
观点3:与AI合作,如同人类开车一样,在具体场景中,人要设定好一个目标,并把控AI向着目标前进,同时人要为AI做出的选择和动作承担责任。
观点4:这个问题落到运维领域来说,AI最终会将运维人员武装成007电影中的Q博士,每个人都会成为超级开发者和运维者。
当下,数字技术的浪潮奔涌不息,行业发展瞬息万变,作为可观测性与应用安全领域的领导者,基调听云凭借敏锐的技术洞察力,积极拥抱前沿科技,将 AI 大模型与可观测性技术深度融合。未来,基调听云将充分发挥自身的技术优势与行业影响力,引领可观测性与应用安全行业迈向新的高度,为客户的业务稳定运行提供坚实保障,共创行业发展的美好未来。