搜索
查看: 61|回复: 0

SoftCOM AI,自动驾驶电信网络解决方案(上)

[复制链接]

58

主题

58

帖子

202

积分

中级会员

Rank: 3Rank: 3

积分
202
发表于 2019-5-4 00:37:16 | 显示全部楼层 |阅读模式
摘 要

当前AI 已经上升为各国科技转型升级的核心战略,在万物互联的大背景下,各行各业都掀起了AI的研究热潮。电信行业也不例外,正值运营商网络面临数字化转型的挑战,通过AI 技术来实现电信网络的自动驾驶已经逐步成为业界的共识。介绍了华为实现自动驾驶的SoftCOM AI 解决方案以及其部署方法、价值和案例。

1 引言

当前,随着流量的不断增长和资费的逐步下调,运营商的单比特收入低于单比特的成本,同时在快速发展的互联网巨头的跨界冲击下,电信运营商面临着网络结构性的问题,主要表现在:OPEX 是CAPEX 的3 倍以上;网络的复杂度使网络管理超过人的能力;70%的故障是人为因素,如图1 所示。而随着下一代5G 网络&物联网的到来,基站的数量和终端的连接数会呈现爆发式的增长,这给电信网络的运维带来更大的挑战。面对这些问题,仅依靠压缩费用或者提升人员技能已经不能解决,要用构架性的创新寻找解决的方案。综合来看,主要存在以下3 个方面的问题。
QQ截图20190504003204.jpg
图1 OPEX 与CAPEX 对比

1.1 资源利用率低
资源效率低的问题在运营商网络中普遍存在,如IP 骨干网利用率接70%,而非热点DC 之间的网络利用率不到30%。

拿某公司WAN 为例,2017 年流程IT 专线费用为1.8 亿美元,而根据实际统计,线路平均利用率只有20%~30%,见表1。原因之一是流量的峰均值比较大,为确保忙时应用需求,不得不按峰值租用带宽以保障业务。
QQ截图20190504003215.jpg

对比当前主流的OTT 云供应商,其建设的WAN 利用率极高,微软采用SWAN 削峰填谷将带宽利用率提升到90%;谷歌采用B4 将带宽利用率提升到95%,如图2 所示。
QQ截图20190504003231.jpg
图2 OTT WAN 利用率

运营商的骨干网利用率与OTT 相比差距很大,不仅造成了资源的浪费,同时也使运营商面临着OTT 的强有力竞争,很多流量都被吸收到了OTT 云间的网络连接,自2016 年起,跨大西洋海缆的流量OTT 已经超过运营商。

1.2 运维效率低

相比高速发展的网络,很多运营商的运维水平还处在初级阶段,往往依靠人工手动进行维护,而根据统计,70%的故障都是人为配置错误或操作不当导致的。2017 年11 月6 日,北美第二大互联网服务供应商Comcast 的一个手工配置错误,导致美国全境业务大面积断服达90 min;2017 年2 月28日,北美最大公有云服务供应商Amazon 的某工程师输入了一个错误的指令,导致大量的服务器被删除,损失惨重。

除了人员技能导致的错误,在电信网络运维领域,运营商还面临一个普遍问题:故障发生后会引起大量告警,但定位定界困难,生成了大量无效派单。

虽然目前的集中故障处理系统能过滤大量单网元告警,并采用自动化派单。但系统仍缺乏端到端管理视角、有效跨域关联告警手段和智能化工单派单管理系统,仍然有约65%的重复和无效工单。

以日本某运营商为例:总告警量与实际价值工单差别巨大,99.96%告警都是无效告警,依然需要人工辨别,造成了运维效率低下,如图3 所示。
QQ截图20190504003245.jpg
图3 某运营商网络99.96%为无效告警

从运营商业务来看,当前运维依靠人工、效率低下的场景还很多,如无线接入网的故障发生频率很高,根据某省移动局点工单统计,电力中断、光纤中断、硬件故障是无线接入网的三大首要故障。故障发生频繁,影响面大,系统重复派单现象严重。其网管中心认为,电力中断、光纤中断等无线接入网故障派单是最大痛点,需要优先解决效率低下的问题,如图4 所示。
QQ截图20190504003256.jpg
图4 某运营商5 月工单场景和原因类别

1.3 能源消耗高

电信运营商市场历来是固定成本很高的资本密集型产业,各种硬件设备种类繁多、错综复杂。从电费的支出来看,过去3 年中国移动都维持在300 亿元左右,拥有最少基站数的中国联通电费支出也在200 亿元上下,如图5 所示(数据来自运营商年报)。
QQ截图20190504003308.jpg
图5 2015—2017 年三大运营商电费支出(单位:亿元)

而基站站点能耗一直是支出的大头,其费用(电费)约占网络运营总费用的16%。经过统计发现,网络话务量存在明显的潮汐效应,忙时闲时能达到4 倍的差距,流量分布在时间和空间是不均衡的,10%的站点产生50%的流量,50%的站点产生5%的流量,但是大部分基站设备即使流量很少也始终保持运行状态(所有资源24 h 开放),能耗并没有随业务量动态调整,造成严重浪费。

传统宏基站能耗构成中基站主设备占50%,射频单元能耗占主设备能耗的80%,而PA(功放)能耗占射频单元能耗的79%,如图6 所示。
QQ截图20190504003320.jpg
图6 传统宏基站能耗占比

因此对于主设备而言,如何有效降低载波功放模块的能耗成为基站降低能耗的首要考虑。

当然,对此研发也曾出过解决方案,在2015 年就推出了基于业务量的多载波关断功能,设想在业务量较低时自动关闭部分载波来达到节能的目的,但从这几年网络的实际应用来看,真正使用的运营商并不多,也没有真正解决运营商能耗高的问题,究其原因,主要有两点:一是对小区流量无法实现精准预测;二是载波关断对其他小区的影响无法评估,客户担心会引起KPI 下降,所以不愿使用这个特性。

追根溯源,是系统缺乏对每个小区无线资源利用率的精准预测,并根据这个预测来控制载波的关断,同时监控KPI/KQI 的变化,根据调整策略部署后KPI/KQI 的变化动态调整关断参数,保证业务指标不下降。

2 引入AI,电信行业趋势所向

以上提到的关键问题,依靠传统的方式根本无法解决。随着AI 算法理论的逐步成熟以及运算能力的极大提升,基于大数据的导入,AI 可替代很多传统的人工重复劳动,同时由于算力远远超过人脑,可以解决很多复杂度更高的问题。

全球知名市场研究公司Tractica/Ovum 对30 个领域近300 个真实的AI 使用场景进行的研究表明,电信领域在AI 技术方面尤为积极,并且是目前最大的AI 细分市场。根据Tractica/Ovum 预测,到2025 年,全球电信业对人工智能软件、硬件和服务的投资将达到367 亿美元。其中,电信业AI软件市场将以48.8%的年复合增长率从2016 年的3.157 亿美元增至2025 年的113 亿美元。预计至2025 年,电信运营商主要将AI 用于网络运营监控和管理,这方面的支出将占到电信业AI 支出的61%,如图7 所示。
QQ截图20190504003331.jpg
图7 2016—2025 年电信行业AI 市场规模及AI 支出分布

3 华为SoftCOM AI 通信智能解决方案

3.1 用架构性创新解决结构性问题

回顾华为网络架构的发展路径,如图8 所示,在ALL IP 阶段提出了Single 战略;云计算崛起后,2012 年进入ALL Cloud 阶段,基于SDN/NFV/Cloud 技术的网络架构重构提出了SoftCOM,实现以数据中心为中心的电信网络。网络架构重构面临三大挑战:网络架构动态变化带来的网络和业务的复杂性;网元分层解耦后的故障定位等运维带来的复杂性;网络资源实时调整带来的网络运行复杂性。而AI 在处理复杂问题上的能力远超人脑,有望解决SoftCOM 网络云化面临的这些挑战。将人工智能引入电信网络,提出全面智能化(All Intelligence),SoftCOM AI 由此诞生,目的是实现网络架构层面的自治网络以及商业模式层面的服务2.0。
QQ截图20190504003347.jpg
图8 华为架构发展路径

引入人工智能的自治网络,意在构建网络领域的“工业4.0”,实现网络的“自动驾驶”。工业4.0有3 个特征,即敏捷的设备、智能的控制和智慧的分析系统,实现生产的自动化,这对于电信业来说同样适用。在电信网络中,下层是网络设备,上层是控制层,在整个网络的控制和运维方面,端到端引入人工智能技术,构建分段自治功能,每一段的自治通过上层运营系统实现端到端的自治能力,进而实现整网自治。自治网络带来的最大变化是运维人员不在整个业务流程里,是一个自动化的系统,称为“网络自动驾驶模式”,实现整个网络的自优、自愈、自动化。

华为推出SoftCOM AI 构架,在SoftCOM 全云化网络架构的基础上,引入以机器学习为核心的AI 技术,在现有网络之外构建独立的AI 训练平台用于训练数据,输出业务模型;同时在无线网络、固定网络、数据中心、核心网中构建智能管控中心,训练平台输出的模型导入各域管控中心,网络调用这些业务模型控制网络的行为,同时网络行为的结果数据会再次被收集用于平台训练、优化模型,从而实现闭环控制。整个架构的引入,会使网络从自动化业务部署和动作执行,走向智能化的故障自愈、网络自我优化,最终走向网络自治,如图9 所示。
QQ截图20190504003359.jpg
图9 SoftCOM AI 架构示意图

在规划、部署、运行、维护、优化和经营的端到端过程中,把下层设备和云基础设施、中间层的网络管理和控制以及上层全流程的系统的每一个环节中都引入人工智能技术,使能网络达到系统最优。与此同时,华为也构建了一个面向运营商的AI 训练平台,将网络设备运行的状态数据接入平台来训练AI 模型,并针对模型进行持续更新和优化,使网络系统的自动化程度不断提高。

SoftCOM+AI 战略涵盖整个运营商网络,包括无线、固网、核心网和数据中心这些网络领域,应用到规划部署、网络运行、维护优化、网络经营等运营商网络生产运营的各个方面,在业务上涵盖IPTV、语音、数据上网等。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|RF技术社区

GMT+8, 2019-6-25 15:47 , Processed in 0.156779 second(s), 9 queries , MemCache On.

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表