太平金科助力“开局之战”顺利启动,博睿数据“A+N”一体化解决方案全力护航

12月1日0时,太平人寿银保"开局之战"准时开启;8时,太平人寿个险、服拓“开局之战”正式启动。在这场“海陆空”联合的"开局之战"中,太平金科联合太平人寿、太平金运相关部门开展现场保障,确保了系统安全、稳定、顺畅运行,助力“开局之战”取得了良好开局。

项目背景


随着太平人寿“开局之战”陆续启动,太平金科的业务保障运维团队也肩负起各系统的维护保障工作。然而在此之前的日常运维中,有时会遇到一些当时无法突破的问题:

系统故障定位难;
慢请求定位难;
责任划分难;
没有可视化的系统全面监控系统;
数据缺少从网络层到应用层结合分析。

对此,太平金科的业务保障运维团队与博睿数据(股票代码:688229)展开合作,通过整合了APM、NPM与智慧运维中台产品的“A+N”一体化解决方案,不仅实现了对现有业务的全面监控、问题的快速定位分析以及全面的保障数据展示,同时也为“开局之战”的稳定运行及日常维护保驾护航。

“A+N”一体化解决方案

太平金科所采用的博睿数据“A+N”一体化解决方案,可以基于获取每一笔交易在经过各个应用、主机、交换机时的异常次数和响应耗时等重要指标,实现关联分析,结合应用节点、网络设备节点,形成全程全网交易路径图。

通过将应用节点关联对应后端主机,网络设备关联交换机、防火墙、负载均衡等,解决方案实现了从网络层到应用层的整体数据分析。同时,通过解决方案太平金科也可以查看一笔交易的完整调用链路,最终实现请求覆盖“用户端-防火墙-网络设备-应用系统-数据库”等节点在内的完整链路拓扑。


“A+N”一体化解决方案主要原理:业务中一条请求会通过网络设备和应用节点,通过traceID将整条链路的各个节点进行关联。当一条请求经过入口应用时,入口应用会产生 traceID,并将traceID埋在Http的请求头及响应头中,APM及NPM会分别解析请求和响应头中的traceID,然后将关联traceID的请求数据结合起来,即可绘制A+N全链路拓扑。

一、APM(应用性能管理)

01、应用性能管理
通过博睿数据解决方案的服务端应用性能管理平台,太平金科的业务保障运维团队可以获取业务拓扑、应用拓扑清晰展现逻辑关系,并全面实时掌握业务质量。同时,通过流程下钻,业务保障运维团队可以详细监控入口业务的请求量、业务的平均响应时间及错误,通过曲线图可查看整体概览把控业务健康状况。

02、数据库SQL优化
“开局之战”活动前夕,通过方案中的压测平台,太平金科构建了真实业务场景进行测试,并发现部分业务超时。为此,在APM_Server平台数据库功能中,太平金科的业务保障运维团队针对SQL做了具体分析,并最终下钻定位到了具体业务系统,从而可以联系对应保障人员进行快速处理,对SQL进行进一步优化。

经过太平金科业务保障运维团队的努力,最终应用系统不仅性能较之前有明显提升,同时也保障了应用前端的出单质量和出单速率。

03、主机监控
现在,在业务进行期间,太平金科的业务保障运维团队可以通过基础监控功能查看业务主机的具体使用状况、及时发现、及时告警、及时处理。

04、负载策略监测
利用博睿数据的解决方案,运维团队可以通过应用探针筛选对应的服务/集群,查看当前业务的吞吐率,进而检测负载策略。

二、NPM(网络性能管理)


网络性能管理系统主要用于对业务性能数据、用户访问数据及网络性能数据进行监控。在太平金科所采用的的“A+N”一体化解决方案中,保障运维团队实现了数据的关联分析, 能够透析业务应用与性能之间的影响。通过IP/域名+端口+VLAN标识的不同“标签”,太平金科的保障运维团队将流量进行了拆分,划分了对应具体业务,同时,为保证高可用性,方案还采用了主备方案,不仅使得两地系统双活而且还可以在同一平台同时处理。

三、大屏展示

通过对Bonree Dataview的定制化量身改造,太平金科的运维大屏可以实时刷新、跟踪底层运维数据,这使得保障运维团队可以直观了解到当前业务系统的健康和业务展现趋势。

如今,太平金科的保障运维团队通过博睿数据“A+N”一体化解决方案,不仅可以分析代码运行效率,将物理层性能数据、程序运行环境性能数据、日志、数据库、第三方调用、错误、进程等性能数据进行筛选合并分析,而且实现了应用性能数据的全面收集展现,能够快速定位业务慢请求原因,从而通过快速定位问题,划分责任域,解决问题,最终一体化完成了从网络层到应用层的整体数据分析。