端到端业务流程监控

背景

当前互联网业务应用规模迅速扩大,随着DevOps、微服务、虚拟化、容器化等技术的快速发展,运维管理的复杂度和困难度大大增加。监控是IT系统运维中保障核心业务稳定可用的重要环节,其涵盖了网络、主机、业务、应用、性能等方面,随着监控范围不断扩大,其产生的数据具备多样性、多维性和非结构化等特点,并且同业务数据存在相关性。与此同时监控的方式也有新的形态,从传统的手动分析处理方式到工具批量操作方式,到自动化平台管理方式,到一站式自动化运维管理平台的方向进行逐步演化。

面临问题

多样化的监控手段,以及多维度的监控方式,在一定程度上能覆盖部分场景。但以下三点一直让企业无法掌控:

异构的基础设施

企业IT基础设施环境与前几年相比前所未有复杂,往往混杂公有云、私有云、混合云以及多地数据中心等

复杂的依赖关系

企业运营一套系统往往有数套甚至数十套后台软件作支撑,其中包括数据库、Web服务器、ERP以及其他应用信息系统等

割裂的数据

企业各系统中,包含大量的数据、资源使用指标等,但这些数据分散在各系统内部,形成了割裂的“数据孤岛” 虽然对于不同的IT部件,如前端、网络、后端(应用及系统),但大量回收的监控数据,其中难免存在重复且割裂的部分,对于此部分,人为关联不同监控工具的数据和去重的工作在所难免,让相关IT人员增加了更多的分析统计任务,这与devops的核心理念背道而驰。即时在有这种手段的监控下,如果不能准确高效的利用回收到的数据,发生问题后,问题的本源还是无法定位到的
解决方案

博睿数据业务链质量分析平台是以业务质量为核心,从全业务链出发,实现从前端应用到服务后端的数据打通融合。将博睿数据的多个产品采集到的数据进行采集,同时融合企业内部自有以及第三方的数据,进行整体的格式处理、统计计算分类等大数据处理,最终实现移动端到服务端打通、网络端到服务端打通、浏览器到服务端打通、服务端跨语言打通、尤其是可以根据企业自身业务,实现自定义任务端到端打通。打破信息孤岛,形成快速实时的响应闭环,从而有效帮助企业提升IT运维效率,保障业务质量。

注:博睿采集数据概览
注:端到端数据融合展示平台架构
应用场景

端到端全业务链拓扑分析

用户完成一个操作,往往需要很多IT部件配合,如操作一次点餐业务,手机APP端需要处理一些流程,然后通过网络发送到服务器端,服务端进行逻辑处理,最终通过网络回复前端APP,如果任何一个环节出现问题,都有可能导致业务不成功。端到端全业务链的展示,可以直观的了解业务全局数据。

平台记录所有用户的访问过程,将应用中的每一个组件自动生成某一个或所有交易的关联拓扑,追踪业务交易中每个环节的性能表现,将各个环节中“隐藏”的问题一一展现,并查找交易失败的具体步骤和原因,定位问题根源并进行性能瓶颈优化,提升运维质量。

平台将前端、网络、应用、主机/容器环境等从多维度进行展示,直观查看问题环节:

部门协作可视化

平台对端到端的整体关联进行可视化监测,贯穿应用维护的运维、运营、研发及管理各环节,业务流程中问题复杂多变,利用多角色统一视角下的管理模式,更加便于问题定位和责权到位。

业务人员

通过业务总览数据分析,迅速了解各业务链条质量状况,针对直观可视的问题及环节,提出业务优化需求。

运营人员

直观发现应用性能对业务运行质量的影响,建立关联分析。

运维部门

通过对网络性能、链路质量、系统环境、错误的监控与分析,整体掌握业务各环节的运行状态及问题的影响程度。

研发部

业务受损时,快速判断受损范围和受损程度并及时阻止其扩大,制定优先解决策略。

全局评估用户端体验

应用性能的好坏用户体验说了算,当用户交易失败的时候,他们不关心问题发生时间、地点及原因,只关心他们的业务是否可用正常执行。而我们只有快速的解决问题才可以避免这些用户流失。

平台提供对于用户行为和用户体验的完全可视性,它捕获每一次用户点击,无论该点击来自任何地点的何种设备,何种浏览器类型等,都能实时分析用户访问性能和错误情况,依据用户评估体系直观展现用户感知效果和用户分布情况。

平台提供页面性能和可用性情况,上图中我们可查看全业务各环节时间消耗和关键指标,如:性能体验、任务可用性、错误率等。同时可清晰查看用户访问数及趋势、运营商接入方式、浏览器分布等维度访问情况。

自定义端到端融合监控