解密数字化，火山引擎说第一步是落「云」要实

ToB行业头条记者 2023-04-28

来源 / ToB行业头条（ID：wwwqifu）
作者 / 海阳

河北某条省级公路旁的工厂内，现年50有余的老杨坐在烟雾缭绕的办公室内，面前办公桌上堆积的烟蒂已超过笔筒，旁边一摞摞印满字的计划书虽然摆放整齐，但放在了桌角处，似乎已被遗弃。

现在的他，不知道是第四、还是第五次拿到“工厂数字化升级计划书”之后，展露出这样的状态，可以确定的是最新这版计划书依旧没让他满意。而眼看着诸多同行在业内探讨会上、在新闻报道中做出的数字化升级成效，再想想自己产品、方案没少买，效果微乎其微，忧郁便上了心头。

不只是老杨，许多与「ToB行业头条」接触过的企业负责人，都曾有相似的问题，他们都对数字化描绘的美好未来充满憧憬，可迟迟找不到通往这个世界的钥匙，造成这种局面的其中一个重要原因便是：数字化设施偏向应用层，缺乏对算力与存储能力的重视。

中国信通院云计算与大数据研究所所长何宝宏近期曾表示：“算力是数字世界的核心能源，也是当今的「三次能源」。算力充沛且存储有序，方能更好地驾驭当下的AI、IoT等应用技术，完成生产力的再升级。”

因此，做好企业的业务上云，用充沛的算力最大功率支持AI、IoT技术的应用，推动AI、IoT技术的发展，方可能带动数字化的建设完善。不过这个道理虽然简单明了，但在实际场景中，企业们往往难以付诸行动。

其中缘由，便是现在的技术全面进步，都需要有巨量的算力支撑发展。同时企业业务发展过程中，也需要日益增多的算力与存储能力做支持，这一点，即便是在目前国内很多云厂商的单价并不高昂的情况下，但因算力与存储需求“规模大”的特点，依旧要支付高额的成本，从而很难让众多企业全面接受。

火山引擎正是在无数企业的反馈和市场衍生的需求中，看到了这一点，决定通过技术优化解决，于是在几经研究探索下，最终推出了诸多新的产品服务，帮助企业实现云上新增长。

以潮汐式算力控制成本

做到以快打快

仅从市场了解，企业购买充足的算力看上去负担并不大。

工信部统计显示，截至2022年底，我国算力总规模达到180百亿亿次浮点运算/秒，存力总规模超过1000EB（1万亿GB）。

我国算力基数庞大的同时，客单价也长期维持较低水平。据相关数据显示，我国提供算力服务的IaaS毛利率普遍低下，皆在10%-15%之间，这得益于过去公有云为主导的服务商策略是不断降价，依靠规模提高边际效益。

所以，庞大的算力基数+便宜的算力价格，让很多企业认为通过全面上云、用云获得足够的算力，其中所需要花费自己完全负担得起。但是现实往往与预期有所偏差，很多企业在完成上云建设后，会发现这份花费不仅高昂，同时预期的充沛算力也难以达到。

出现这种情况，究其原因，一方面是企业没考虑伴随着市场需求变化莫测，产品需要敏捷迭代、自身业务需要不断延展的过程中，需要的算力支持亦是维持持续增长的状态。

另一方面，要做到算力增加，大多数情况下，企业都会选择通过借助CPU、GPU等各种XPU部署异构计算，建设更大规模服务器集群的方式，并未考虑到企业的IT系统和云底层硬件的异构问题，最终导致因通信延迟、吞吐量等问题，从而让算力应用出现极大地耗费，进一步增添企业应用充沛算力的成本。

这些情况都被火山引擎看在眼里，作为一个愿景是帮助企业“找到增长新动力”的服务商，要想将其实现，火山引擎需要降低企业使用充沛算力完成数字化建设的成本，而这并非单纯的服务降价就能实现，优化技术以减少算力的折损才是根治的重点。

确定了这一想法的火山引擎，随即展开了行动，历经研发、测试、二次打磨、再测试……的研发循环，确定了软硬一体的方式是最佳方式，并以此推出了自研DPU解决方案。

DPU是继CPU、GPU之后，数据中心场景中的第三颗重要的算力要素，为高带宽、低延迟、数据密集的计算场景提供计算引擎。而火山引擎的自研DPU，可实现计算存储网络的全组件卸载，释放更多资源给业务负载，提升算力基础设施效率。

展开来说，火山引擎DPU从硬件到软件全栈自主研发，实现了新一代基于DPU的RDMA网络以及软硬一体的Hypervisor层，可将网络性能升级到5000万pps转发能力，20us延迟。其成绩位列业界领先地位，并且在内部部署已经超过万台，渗透率上也在持续提升。

此外，火山引擎基于自研DPU，推出新一代服务器实例，让其整体性能大幅提升。包括DPU+Intel全新一代SPR CPU平台的计算实例，整机性能最高提升93%，单核性能最高提升13%。小规格实例性能最高提升6倍以上。

另外，DPU+AMD全新一代Genoa CPU平台，也能将整机性能最高提升138%，单核性能最高提升39%。小规格实例性能最高提升10倍以上。

而DPU+Nvidia A800裸金属，跨节点提供高速RDMA网络互联，更加适用于大规模集群分布式训练场景，提高集群并行效率，相较于上一代实例集群性能最高提升3倍以上。

火山引擎总裁谭待说：“云计算本质，是资源池化和软件定义，但随着云基础设施规模越来越大，计算、存储、网络的虚拟化损耗占据10%-20%的额外开销。想提供更便宜的云服务，必须解决好这部分额外开销，把CPU和GPU释放到更关键的业务负载里。这就是火山引擎要做DPU的原因。”

同时，为了帮助企业进一步压缩算力成本，火山引擎抢占式Spot服务，可以让百万级服务器资源池分时复用支持企业业务，这相比按量付费实例，火山引擎抢占式Spot服务价格最高节省 80%，有效降低企业云服务器使用成本。

火山引擎在算力供给、算力成本方面做出了诸多优化，为很多企业更高效、更低成本的应用充沛算力提供了基本盘，助力了很多企业迅速完成业务拓展、产品迭代，获取更好的市场发展机会。毫末智行公司就是其中典型。

毫末智行是国内第三家建立智算中心的自动驾驶公司，旗下绿洲也是目前国内最大的自动驾驶智算中心。近期毫末智行CEO顾维灏在2023春季火山引擎FORCE原动力大会上讲到，“目前自动驾驶已经进入数据驱动时代，即自动驾驶3.0时代。而数据、算力、用户反馈和AI大模型的建设是重中之重。”

大会上，毫末智行CEO顾维灏介绍了应用于自动驾驶行业的生成式大模型DriveGPT雪湖·海若。DriveGPT雪湖·海若基于量产车4000万公里的驾驶数据进行训练，参数规模达1200亿，可持续对自动驾驶认知决策模型进行持续优化，最终实现端到端自动驾驶。

2023年1月，毫末和火山引擎联合打造了国内自动驾驶行业最大的智算中心——雪湖·绿洲（MANA OASIS），每秒浮点运算可达67亿亿次，雪湖·绿洲的性能是为自动驾驶量身定做的，有了智算中心以及训练框架的持续迭代保障，才能让DriveGPT雪湖·海若得以连续、稳定、高效地训练出来。

存储做精细化分层

同样能少花钱

除了算力成本阻碍企业的数字化建设，数据存储成本的高昂、低效的应用同样为其造成诸多困扰。

有企业曾向「ToB行业头条」提到，“数字化的到来，让我们都意识到数据的重要性，因此积极的做好存储工作，但问题在于，我们观测某个业务线方面，并非所有数据都起到作用，只需要特定数据调用即可。可在存储过程中，数据往往被统一储存。即便做分类，在调用过程中也需要一一查找存储盘，极其耗费精力。”

“尤其是数据也存在低效期，一堆10余年的业务数据往往对现在业务发展解读起到的作用甚微。而由于数据访问模式未知或不断变化，我们也无法预置静态生命周期规则，因此，考虑到数据取回费用无法预期，我们只能将数据永远存在标准层，为其支付一些明知没必要却又无可奈何地花费。”该企业补充道。

那么，有什么方法可以在降低企业存储成本的同时，又不影响其对业务数据的访问及应用呢？面对这样的企业普遍需求，火山引擎通过长期研发探索，推出对象存储TOS服务来解答。

火山引擎的对象存储TOS智能分层存储是一种能够根据策略自动识别用户数据的访问模式，并自动将存储对象在不同的存储层级间进行移动分层的存储类型，从而达成优化存储性能与成本的均衡。

相对于普通的智能分层，火山引擎对象存储TOS的智能分层，可提供标准/低频/归档闪回访问层，覆盖更全面，满足企业精细化业务运营需要；策略更智能，可以根据访问频率、生命周期等多种策略进行存储层智能分布，归档读取无等待时间，对业务层完全透明，且不会产生额外费用。

具体来说，用户通常无法预测自己业务的各个对象的访问模式，从而提前选择不同的存储规格。对象存储TOS可以让客户无需对数据的访问模式进行预测，TOS的智能分层存储能够自动地在对象级识别访问模型，并自动地为存储对象选择适合的存储层级，降低成本。

并且，火山引擎的对象存储TOS服务，针对连续30天都不访问的Object（对象数据），会从标准层自动转为低频层，相比标准访问层降低19.1%成本。而针对连续90天都不访问的数据，会自动归档到闪回层，相比标准访问层降低66.6%成本。如果，后续这些Object被访问，即时可读无需等待解冻，自动转到标准层，且无数据取回费。

Gartner表示，企业存储场景中愈发重视统一非结构化文件存储和对象存储，因为它在支持多种数据类型，支持多种工作负载方面都更有优势，在推动应用程序现代化方面，应用各种新技术方面都有至关重要的作用，这让对象存储变得愈加重要。

很显然，火山引擎意识到了这一趋势，提前做好了布局，让自己完成帮助企业“找到增长新动力”的愿景之路上，向前迈进了一大步。

特定需求咋办

「分布式云」等已安排

解决了算力与存储问题，企业业务上云的道路似乎再无阻碍，但实际上由于一些业务的隐秘性，公有云的集中用云模式让一些企业无法接受。

山东某水利单位相关负责人曾与「ToB行业头条」就上云一事展开沟通：“云化带来的敏捷效果，对业务发展的推进作用，这些我懂，然而问题是我们分支机构多、运行模式多样、业务形态复杂，其中又有很多业务对安全、灵敏度要求极高，这让我们无法接受集中用云这种模式。”

这并非个例，实际中出于对安全度和业务分支、附属部门繁多的潜在要求，诸多企业及机构单位对于集中用云的方式并不满意。他们需要一种自身企业业务属性的新型云服务模式。

伴随着这种需求愈发强烈，分布式云这种新型云服务模式应运而生。它以能分布到不同的物理位置，而服务的所有权、运营、治理、迭代和发展仍然由原始的服务商负责的优势，迅速获得诸多企业的认同与使用。

这一点，由Gartner 在2020—2021年发布的十大顶级战略趋势中，分布式云就占据了其中一个位置，并且它预测到2025 年，有超过 50% 的组织将使用分布式云实现业务转型，便可证明。

而作为云厂商，火山引擎自然也会面临上述企业提出的使用分布式云服务的需求，于是在秉持“以客户为中心”的理念，尊重这类企业的特性需求下，火山引擎也踏上提供“分布式云”服务的道路。

“然而既然要为客户企业、机构提供分布式云服务，就不能只是为了粗浅应对，做就要做好。”火山引擎总裁谭待如此表示。因此火山引擎在研发分布式云服务过程中，并没有闭门造车，而是充分感受企业们对使用“分布式云”产品的需求。

这个过程中，火山引擎发现一些企业对于分布式云关注，但一直望而却步。之所以出现这样的情景：一是中心侧，多公共云、混合云、本地服务器共存的异构基础设施体系将长期存在。二是边缘侧，随着数字化业务现场的终端变化（智能车、VR等）和应用复杂度变化（智能驾驶、8K视频等），连接与计算将无处不在。

发现了这点，火山引擎在研发的分布式云服务中做了针对性解决，依托于自身的云原生实践和多云实践正式发布分布式云原生平台DCP（Distributed Cloud Native Platform ），且基于自研的大规模集群联邦系统KubeAdmiral，提供了面向多云/混合云/边缘云场景的分布式云原生管理能力：统一管理平面、统一集群运维、统一算力分发、统一流量管控。

这套能力，可以连接并管理用户任何地域、任何基础设施上的Kubernetes集群，不论你的应用是构建在火山引擎云上、第三方服务商的云上还是IDC自建基础设施。

同时，火山引擎还提供了集群统一资源与权限管理、应用跨集群分发、应用故障迁移等能力，为用户打造无处不在的云原生极致体验，让用户在进行云原生应用部署和管理时感受不到跨云厂商、地域、流量的限制。

不仅如此，考虑到企业们为了避免数据与信息放在单个云服务器上，可能产生的严重数据泄漏与遗失问题，纷纷做出多云架构建设的趋势，但又因多云的组件异构，服务逻辑不统一，带来的安全事件难统一管理、安全漏洞难及时处理，防护资产不清晰、安全加固方式难统一等难题，火山引擎也发布全栈多云安全平台以做解决。

据了解，火山引擎发布的全栈多云安全平台，是以SaaS化的方式为租户和云外客户提供服务，从而兼具了轻量化、与客户旧安全产品兼容、以及全流程服务可视化完成跨云支持等特质，可基于统一管理资产、服务、事件、身份四个安全要素，提供一站式安全运营、安全运维、安全数据共享能力，帮助客户企业完成统一的多云安全运营、多云安全运维和多云数据共享，对护网、合规、数据防泄漏三个痛点场景做一站式解决。

可以说，火山引擎的全栈多云安全平台，这对于当下需要用多云服务、以及使用多云服务的企业们而言，去除了以往困扰多年的安全防护、运维处理难题，不必再头疼医头、脚疼医脚，最后因采用的安全产品过多，导致的安全问题一大堆，成本还奇高的尴尬局面。

因为自己淋过雨，总想为别人撑伞。作为基于字节跳动内部孵化的云服务商，火山引擎很早就懂得企业在业务上云中，采用多云架构、分布式云服务可能存在的诸多难处与问题。于是当自己面向市场的时候，所推出相关的服务往往极具针对性。

谭待表示，火山引擎是最懂多云和分布式云的云服务商，这些技术能力都将会毫无保留地提供给客户。

火山引擎多分布式云

分享到

说点什么

全部评论

热门标签
- AI
- 阿里云
- 区块链
- 阿里巴巴
- SaaS
- 大数据
- AWS
- CRM
- 人工智能
- 纷享销客
- 腾讯云
- 云服务

来源 / ToB行业头条 （ID：wwwqifu） 作者 / 海阳

来源 / ToB行业头条（ID：wwwqifu）
作者 / 海阳