据世界经济论坛报价,到2025年,世界每天都会产生463EB的数据。为了应对不断增加的数据流动,数据中心运营商正在寻找新的方法来实现四个重要目标:最大限度地延长正常运行时间,优化能源使用,检测潜在风险,防止网络攻击。利用机器学习(ML)技术是重要的潜在解决方案。
采用机器学习和人工智能可能看起来很简单,但企业干部有慎重行动的理由。面临的挑战包括投资回报的不确定性、数据共享的复杂政策和高层管理者的意识和支持不足。但是,考虑到企业对数据的依赖程度,技术领导者不能忽视机器学习和其他人工智能应用程序的重要性,尤其是在维持正常运行时间方面。
企业为停机时间付出了很高的代价。
数据中心计划外停机带来的损失范围很广,从每小时14万美元到54万美元不等,这取决于企业的规模和行业。英国航空公司在2017年遭遇重大数据中心故障,公司损失了7500万美元以上。由于机器学习和更智能化的基础设施进步,当今的数据中心可以极大地简化正常运行时间的操作。
据市场研究机构International报道,DataCorp公司预测,到2022年,数据中心超过50%的技术可以使用嵌入式人工智能和机械学习功能自主运行。以下是加强数据中心运营的四种方法:
(1)最大限度地提高能源效率。
全球数据中心的能耗占到全球能源使用量的1%。这听起来可能是小数字,但即使适度提高运营效率,也能节约显着成本,阻止数百万吨计的二氧化碳排放到大气中。好消息是能源管理是最容易实施机器学习的领域之一。例如,谷歌公司使用DeepMind节约了约30%的能源,显着减少了管理费用。
(2)精确的容量计划。
为了满足日益增长的工作量,数据中心管理者必须事先正确预测计算资源的需求。这些预测需要实时更新,反映环境条件的任何变化。使用A-level机器学习算法构建的预测模型,可以处理PB级的大量数据,智能预测容量和性能利用率。该计划有助于数据中心避免任何可能停止和影响运营的资源短缺。
(3)更快的风险分析。
机器学习可以比人类更快更准确地检测异常。数据中心的工作人员可能会花很长时间发现一些东西,更糟糕的是完全忽略了异常情况。例如,一些数据中心管理即服务(DMaaS)程序可以分析电源管理和冷却系统等重要数据中心设备的性能数据,预测何时发生故障。通过事先通知数据中心设备管理者即将发生的故障,机械学习技术可以将停机时间降到最低。
(4)防御网络攻击的能力。
防御分布式拒绝服务(DDoS)攻击需要快速检测和低误报率。这些检查方法大致分为基于特征和异常两种。基于特点的检测在一般流量中具有已知特征,被广泛实施和使用。基于异常的检测超过正常流量模式。机器学习返利模式可用于识别流量异常的类型,有助于最大限度地减少误报。
克服挑战。
一些数据中心正在开展人工智能和机器学习试验项目,但一些数据中心很难全面部署。这是因为试验项目使用小数据集,在实验室条件下运行。例如,在现实世界中,可能需要在几分钟内处理几个TB的数据。因此,将人工智能从实验室扩展到现场是数据中心必须克服的重大挑战。其他挑战包括难以访问高质量数据培训模型、实现准确性的实施时间长、遵守数据共享的复杂法律政策。
那么,数据中心如何克服这些挑战呢?并没有一个万能的解决方案。企业需要从人工智能路线图入手。这似乎令人惊讶,但许多企业忽略了这一步。企业需要制定全面的数据战略,重点关注数据的可用性和获取性以及数据的正确标记。
其次,使用具有企业性能的机械学习模型,使机械学习容易扩展。使用数据中心基础设施进行自动化和容器化算法培训。同样,这样容易扩展。关注数据质量并建立卓越的测试中心或为人工智能试点建立类似的结构。这就需要考虑业的相关技术技能、专业知识和能力。帮助试点扩展到更广泛的应用程序会产生更大的影响。
数据中心需要重新规划如何在不断变化的环境中运行。在当今互联的社会,数据中心需要不断突破机器学习的界限,以免在竞争中落后或负担不起。
百纵科技转载
TOP