来源 / ToB行业头条 (ID:wwwqifu)
作者 / 海阳
河北某条省级公路旁的工厂内,现年50有余的老杨坐在烟雾缭绕的办公室内,面前办公桌上堆积的烟蒂已超过笔筒,旁边一摞摞印满字的计划书虽然摆放整齐,但放在了桌角处,似乎已被遗弃。现在的他,不知道是第四、还是第五次拿到“工厂数字化升级计划书”之后,展露出这样的状态,可以确定的是最新这版计划书依旧没让他满意。而眼看着诸多同行在业内探讨会上、在新闻报道中做出的数字化升级成效,再想想自己产品、方案没少买,效果微乎其微,忧郁便上了心头。
不只是老杨,许多与「ToB行业头条」接触过的企业负责人,都曾有相似的问题,他们都对数字化描绘的美好未来充满憧憬,可迟迟找不到通往这个世界的钥匙,造成这种局面的其中一个重要原因便是:数字化设施偏向应用层,缺乏对算力与存储能力的重视。中国信通院云计算与大数据研究所所长何宝宏近期曾表示:“算力是数字世界的核心能源,也是当今的「三次能源」。算力充沛且存储有序,方能更好地驾驭当下的AI、IoT等应用技术,完成生产力的再升级。”因此,做好企业的业务上云,用充沛的算力最大功率支持AI、IoT技术的应用,推动AI、IoT技术的发展,方可能带动数字化的建设完善。不过这个道理虽然简单明了,但在实际场景中,企业们往往难以付诸行动。其中缘由,便是现在的技术全面进步,都需要有巨量的算力支撑发展。同时企业业务发展过程中,也需要日益增多的算力与存储能力做支持,这一点,即便是在目前国内很多云厂商的单价并不高昂的情况下,但因算力与存储需求“规模大”的特点,依旧要支付高额的成本,从而很难让众多企业全面接受。火山引擎正是在无数企业的反馈和市场衍生的需求中,看到了这一点,决定通过技术优化解决,于是在几经研究探索下,最终推出了诸多新的产品服务,帮助企业实现云上新增长。
以潮汐式算力控制成本
做到以快打快
仅从市场了解,企业购买充足的算力看上去负担并不大。工信部统计显示,截至2022年底,我国算力总规模达到180百亿亿次浮点运算/秒,存力总规模超过1000EB(1万亿GB)。我国算力基数庞大的同时,客单价也长期维持较低水平。据相关数据显示,我国提供算力服务的IaaS毛利率普遍低下,皆在10%-15%之间,这得益于过去公有云为主导的服务商策略是不断降价,依靠规模提高边际效益。所以,庞大的算力基数+便宜的算力价格,让很多企业认为通过全面上云、用云获得足够的算力,其中所需要花费自己完全负担得起。但是现实往往与预期有所偏差,很多企业在完成上云建设后,会发现这份花费不仅高昂,同时预期的充沛算力也难以达到。出现这种情况,究其原因,一方面是企业没考虑伴随着市场需求变化莫测,产品需要敏捷迭代、自身业务需要不断延展的过程中,需要的算力支持亦是维持持续增长的状态。另一方面,要做到算力增加,大多数情况下,企业都会选择通过借助CPU、GPU等各种XPU部署异构计算,建设更大规模服务器集群的方式,并未考虑到企业的IT系统和云底层硬件的异构问题,最终导致因通信延迟、吞吐量等问题,从而让算力应用出现极大地耗费,进一步增添企业应用充沛算力的成本。这些情况都被火山引擎看在眼里,作为一个愿景是帮助企业“找到增长新动力”的服务商,要想将其实现,火山引擎需要降低企业使用充沛算力完成数字化建设的成本,而这并非单纯的服务降价就能实现,优化技术以减少算力的折损才是根治的重点。确定了这一想法的火山引擎,随即展开了行动,历经研发、测试、二次打磨、再测试……的研发循环,确定了软硬一体的方式是最佳方式,并以此推出了自研DPU解决方案。DPU是继CPU、GPU之后,数据中心场景中的第三颗重要的算力要素,为高带宽、低延迟、数据密集的计算场景提供计算引擎。而火山引擎的自研DPU,可实现计算存储网络的全组件卸载,释放更多资源给业务负载,提升算力基础设施效率。展开来说,火山引擎DPU从硬件到软件全栈自主研发,实现了新一代基于DPU的RDMA网络以及软硬一体的Hypervisor层,可将网络性能升级到5000万pps转发能力,20us延迟。其成绩位列业界领先地位,并且在内部部署已经超过万台,渗透率上也在持续提升。此外,火山引擎基于自研DPU,推出新一代服务器实例,让其整体性能大幅提升。包括DPU+Intel全新一代SPR CPU平台的计算实例,整机性能最高提升93%,单核性能最高提升13%。小规格实例性能最高提升6倍以上。另外,DPU+AMD全新一代Genoa CPU平台,也能将整机性能最高提升138%,单核性能最高提升39%。小规格实例性能最高提升10倍以上。而DPU+Nvidia A800裸金属,跨节点提供高速RDMA网络互联,更加适用于大规模集群分布式训练场景,提高集群并行效率,相较于上一代实例集群性能最高提升3倍以上。火山引擎总裁谭待说:“云计算本质,是资源池化和软件定义,但随着云基础设施规模越来越大,计算、存储、网络的虚拟化损耗占据10%-20%的额外开销。想提供更便宜的云服务,必须解决好这部分额外开销,把CPU和GPU释放到更关键的业务负载里。这就是火山引擎要做DPU的原因。”同时,为了帮助企业进一步压缩算力成本,火山引擎抢占式Spot服务,可以让百万级服务器资源池分时复用支持企业业务,这相比按量付费实例,火山引擎抢占式Spot服务价格最高节省 80%,有效降低企业云服务器使用成本。火山引擎在算力供给、算力成本方面做出了诸多优化,为很多企业更高效、更低成本的应用充沛算力提供了基本盘,助力了很多企业迅速完成业务拓展、产品迭代,获取更好的市场发展机会。毫末智行公司就是其中典型。毫末智行是国内第三家建立智算中心的自动驾驶公司,旗下绿洲也是目前国内最大的自动驾驶智算中心。近期毫末智行CEO顾维灏在2023春季火山引擎FORCE原动力大会上讲到,“目前自动驾驶已经进入数据驱动时代,即自动驾驶3.0时代。而数据、算力、用户反馈和AI大模型的建设是重中之重。”大会上,毫末智行CEO顾维灏介绍了应用于自动驾驶行业的生成式大模型DriveGPT雪湖·海若。DriveGPT雪湖·海若基于量产车4000万公里的驾驶数据进行训练,参数规模达1200亿,可持续对自动驾驶认知决策模型进行持续优化,最终实现端到端自动驾驶。2023年1月,毫末和火山引擎联合打造了国内自动驾驶行业最大的智算中心——雪湖·绿洲(MANA OASIS),每秒浮点运算可达67亿亿次,雪湖·绿洲的性能是为自动驾驶量身定做的,有了智算中心以及训练框架的持续迭代保障,才能让DriveGPT雪湖·海若得以连续、稳定、高效地训练出来。
存储做精细化分层
同样能少花钱
除了算力成本阻碍企业的数字化建设,数据存储成本的高昂、低效的应用同样为其造成诸多困扰。有企业曾向「ToB行业头条」提到,“数字化的到来,让我们都意识到数据的重要性,因此积极的做好存储工作,但问题在于,我们观测某个业务线方面,并非所有数据都起到作用,只需要特定数据调用即可。可在存储过程中,数据往往被统一储存。即便做分类,在调用过程中也需要一一查找存储盘,极其耗费精力。”“尤其是数据也存在低效期,一堆10余年的业务数据往往对现在业务发展解读起到的作用甚微。而由于数据访问模式未知或不断变化,我们也无法预置静态生命周期规则,因此,考虑到数据取回费用无法预期,我们只能将数据永远存在标准层,为其支付一些明知没必要却又无可奈何地花费。”该企业补充道。那么,有什么方法可以在降低企业存储成本的同时,又不影响其对业务数据的访问及应用呢?面对这样的企业普遍需求,火山引擎通过长期研发探索,推出对象存储TOS服务来解答。火山引擎的对象存储TOS智能分层存储是一种能够根据策略自动识别用户数据的访问模式,并自动将存储对象在不同的存储层级间进行移动分层的存储类型,从而达成优化存储性能与成本的均衡。
相对于普通的智能分层,火山引擎对象存储TOS的智能分层,可提供标准/低频/归档闪回访问层,覆盖更全面,满足企业精细化业务运营需要;策略更智能,可以根据访问频率、生命周期等多种策略进行存储层智能分布,归档读取无等待时间,对业务层完全透明,且不会产生额外费用。
具体来说,用户通常无法预测自己业务的各个对象的访问模式,从而提前选择不同的存储规格。对象存储TOS可以让客户无需对数据的访问模式进行预测,TOS的智能分层存储能够自动地在对象级识别访问模型,并自动地为存储对象选择适合的存储层级,降低成本。
并且,火山引擎的对象存储TOS服务,针对连续30天都不访问的Object(对象数据),会从标准层自动转为低频层,相比标准访问层降低19.1%成本。而针对连续90天都不访问的数据,会自动归档到闪回层,相比标准访问层降低66.6%成本。如果,后续这些Object被访问,即时可读无需等待解冻,自动转到标准层,且无数据取回费。Gartner表示,企业存储场景中愈发重视统一非结构化文件存储和对象存储,因为它在支持多种数据类型,支持多种工作负载方面都更有优势,在推动应用程序现代化方面,应用各种新技术方面都有至关重要的作用,这让对象存储变得愈加重要。很显然,火山引擎意识到了这一趋势,提前做好了布局,让自己完成帮助企业“找到增长新动力”的愿景之路上,向前迈进了一大步。
特定需求咋办
「分布式云」等已安排
解决了算力与存储问题,企业业务上云的道路似乎再无阻碍,但实际上由于一些业务的隐秘性,公有云的集中用云模式让一些企业无法接受。山东某水利单位相关负责人曾与「ToB行业头条」就上云一事展开沟通:“云化带来的敏捷效果,对业务发展的推进作用,这些我懂,然而问题是我们分支机构多、运行模式多样、业务形态复杂,其中又有很多业务对安全、灵敏度要求极高,这让我们无法接受集中用云这种模式。”这并非个例,实际中出于对安全度和业务分支、附属部门繁多的潜在要求,诸多企业及机构单位对于集中用云的方式并不满意。他们需要一种自身企业业务属性的新型云服务模式。伴随着这种需求愈发强烈,分布式云这种新型云服务模式应运而生。它以能分布到不同的物理位置,而服务的所有权、运营、治理、迭代和发展仍然由原始的服务商负责的优势,迅速获得诸多企业的认同与使用。这一点,由Gartner 在2020—2021年发布的十大顶级战略趋势中,分布式云就占据了其中一个位置,并且它预测到2025 年,有超过 50% 的组织将使用分布式云实现业务转型,便可证明。而作为云厂商,火山引擎自然也会面临上述企业提出的使用分布式云服务的需求,于是在秉持“以客户为中心”的理念,尊重这类企业的特性需求下,火山引擎也踏上提供“分布式云”服务的道路。“然而既然要为客户企业、机构提供分布式云服务,就不能只是为了粗浅应对,做就要做好。”火山引擎总裁谭待如此表示。因此火山引擎在研发分布式云服务过程中,并没有闭门造车,而是充分感受企业们对使用“分布式云”产品的需求。这个过程中,火山引擎发现一些企业对于分布式云关注,但一直望而却步。之所以出现这样的情景:一是中心侧,多公共云、混合云、本地服务器共存的异构基础设施体系将长期存在。二是边缘侧,随着数字化业务现场的终端变化(智能车、VR等)和应用复杂度变化(智能驾驶、8K视频等),连接与计算将无处不在。发现了这点,火山引擎在研发的分布式云服务中做了针对性解决,依托于自身的云原生实践和多云实践正式发布分布式云原生平台DCP(Distributed Cloud Native Platform ),且基于自研的大规模集群联邦系统KubeAdmiral,提供了面向多云/混合云/边缘云场景的分布式云原生管理能力:统一管理平面、统一集群运维、统一算力分发、统一流量管控。这套能力,可以连接并管理用户任何地域、任何基础设施上的Kubernetes集群,不论你的应用是构建在火山引擎云上、第三方服务商的云上还是IDC自建基础设施。同时,火山引擎还提供了集群统一资源与权限管理、应用跨集群分发、应用故障迁移等能力,为用户打造无处不在的云原生极致体验,让用户在进行云原生应用部署和管理时感受不到跨云厂商、地域、流量的限制。不仅如此,考虑到企业们为了避免数据与信息放在单个云服务器上,可能产生的严重数据泄漏与遗失问题,纷纷做出多云架构建设的趋势,但又因多云的组件异构,服务逻辑不统一,带来的安全事件难统一管理、安全漏洞难及时处理,防护资产不清晰、安全加固方式难统一等难题,火山引擎也发布全栈多云安全平台以做解决。据了解,火山引擎发布的全栈多云安全平台,是以SaaS化的方式为租户和云外客户提供服务,从而兼具了轻量化、与客户旧安全产品兼容、以及全流程服务可视化完成跨云支持等特质,可基于统一管理资产、服务、事件、身份四个安全要素,提供一站式安全运营、安全运维、安全数据共享能力,帮助客户企业完成统一的多云安全运营、多云安全运维和多云数据共享,对护网、合规、数据防泄漏三个痛点场景做一站式解决。可以说,火山引擎的全栈多云安全平台,这对于当下需要用多云服务、以及使用多云服务的企业们而言,去除了以往困扰多年的安全防护、运维处理难题,不必再头疼医头、脚疼医脚,最后因采用的安全产品过多,导致的安全问题一大堆,成本还奇高的尴尬局面。因为自己淋过雨,总想为别人撑伞。作为基于字节跳动内部孵化的云服务商,火山引擎很早就懂得企业在业务上云中,采用多云架构、分布式云服务可能存在的诸多难处与问题。于是当自己面向市场的时候,所推出相关的服务往往极具针对性。谭待表示,火山引擎是最懂多云和分布式云的云服务商,这些技术能力都将会毫无保留地提供给客户。