检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
身份认证与访问控制 身份认证 用户访问OBS的方式有多种,包括OBS控制台、OBS客户端(OBS Browser+)、OBS命令行工具(obsutil)、API、SDK,无论访问方式封装成何种形式,其本质都是通过OBS提供的REST风格的API接口进行请求。 OBS的接口既支持认
FS文件系统的相关接口实现,让大数据计算引擎(Hive、Spark等)可以将OBS作为HDFS协议的底层存储。 图2 存算分离方案中的OBSFileSystem OBS服务支持对象存储桶(对象语义)和并行文件系统(POSIX文件语义),在大数据场景下建议选择并行文件系统。并行文件
支持HTTPS/SSL安全协议,支持数据加密上传。同时OBS通过访问密钥(AK/SK)对访问用户的身份进行鉴权,结合IAM权限、桶策略、ACL、防盗链等多种方式和技术确保数据传输与访问的安全。 支持敏感操作保护,针对删除桶等敏感操作,可开启身份验证。 需自行承担网络信息安全、技术漏洞、误操作等各方面的数据安全风险。
API时,都需要在HTTP调用请求中携带签名信息,服务端会对收到的签名信息进行验证。签名验证的目的是: 对请求者进行身份验证,防止未授权用户访问。请求携带的签名包含用户相关信息,华为云会对请求者身份进行验证,只有已授权用户的密钥才能通过签名检查,成功调用API。 防止传输数据被篡改。对数据签名并检验,保障传输内容完整性。
空间。每个对象都存放在一个桶中。例如,如果名为“picture.jpg”的对象存放在“photo”桶中,则可使用URL(http://photo.obs.cn-north-4.myhuaweicloud.com/picture.jpg)对该对象进行寻址。 对象 对象在OBS中是最
Bucket) fmt.Printf("RequestId:%s\n", output.RequestId) return } fmt.Printf("Create bucket:%s fail!\n", input.Bucket) if
Hadoop对接OBS 概述 Hadoop系统提供了分布式存储、计算和资源调度引擎,用于大规模数据处理和分析。OBS服务实现了Hadoop的HDFS协议,在大数据场景中可以替代Hadoop系统中的HDFS服务,实现Spark、MapReduce、Hive等大数据生态与OBS服务的对接,为大数据计算提供“数据湖”存储。
Flink对接OBS 概述 Flink是一个分布式的数据处理引擎,用于处理有界和无界流式数据。Flink定义了文件系统抽象,OBS服务实现了Flink的文件系统抽象,使得OBS可以作为flink StateBackend和数据读写的载体。 注意事项 flink-obs-fs-hadoop目前仅支持OBS并行文件系统。
联sfsturbo”。 在“关联sfsturbo”弹窗中,选择创建资源中创建的SFS Turbo HPC型文件系统。 图2 关联SFS Turbo 选择完成后,单击“确定”创建关联。 使用过程中请不要解除关联,解除关联会导致ModelArts资源池无法访问SFS Turbo文件系统中的数据。
配置SFS Turbo数据淘汰策略 SFS Turbo HPC型文件系统绑定OBS后端之后,建议配置缓存数据淘汰功能。SFS Turbo会自动释放设定时间内没有访问过的文件数据内容,仅保留文件元数据,数据内容释放后不占用SFS Turbo文件系统上的存储空间,再次访问该文件时,将重新从OBS中加载文件数据内容。
Hive对接OBS 概述 Hive是一个数据仓库工具,可以对存储在分布式存储中的大规模数据进行数据提取、转化和加载,它提供了丰富的SQL查询方式来进行数据分析。 前提条件 已安装Hadoop,具体请参见Hadoop对接OBS。 对接步骤 以Hive 2.3.3为例。 下载apache-hive-2
针对AI训练场景中面临的问题,华为云提供了基于对象存储服务OBS+高性能文件服务SFS Turbo的AI云存储解决方案,如图所示,华为云高性能文件服务SFS Turbo HPC型支持和OBS数据联动,您可以通过SFS Turbo HPC型文件系统来加速对OBS对象存储中的数据访问,并将生成的结果数据异步持久化到OBS对象存储中长期低成本保存。
配置SFS Turbo和OBS联动 SFS Turbo HPC型文件系统支持无缝访问存储在对象存储OBS存储桶中的对象,您可以指定SFS Turbo内的文件目录与OBS对象存储桶进行关联。 登录SFS管理控制台,在左侧导航窗格中选择“SFS Turbo”。 在文件系统列表中,单击
别为“标准存储”,桶策略为“私有”。 SFS Turbo:文件系统类型为“HPC型”,存储类型请根据存储容量和性能需求选择,AI场景建议选择250MB/s/TiB及以上的存储类型。 ModelArts:AI开发平台,采用多机多卡分布式训练。 VPC:虚拟私有云和子网。 算法及数据
配置SFS Turbo数据自动导出到OBS桶 配置自动导出后,训练过程中周期性写入SFS Turbo文件系统的Checkpoint模型文件会自动以异步方式导出到关联的OBS桶中进行长期保存,无需手工导出,异步导出方式不会占用上层训练任务时间。 SFS Turbo的自动导出功能当前
readErr != nil { break } } return } fmt.Printf("List objects under the bucket(%s) fail!\n", input
S应用以标准化、中心化的方式接入事件网格,通过标准化的CloudEvents协议在这些应用之间以灵活方式路由事件,帮助您轻松构建松耦合、分布式的事件驱动架构。 OBS作为云服务事件源将产生的云服务事件发送到EG,事件规则对云服务事件进行过滤和转换,通过转换后的事件触发事件目标(即函数工作流服务中的函数)。
方案。 将数据从OBS预热到SFS Turbo中 SFS Turbo HPC型文件系统绑定OBS桶后,可以使用数据预热功能,以减少后续训练首次访问数据耗时。 训练任务开始前可通过数据预热功能将文件元数据和数据内容全部从OBS导入到SFS Turbo高性能文件存储中,数据预热功能的具体操作请参考创建SFS
FS Turbo HPC型高性能文件系统加速AI训练任务,训练速度加快可以节省AI算力费用。 文件系统使用空间不足,可以扩容吗? SFS Turbo文件系统支持在线扩容,扩容过程中挂载文件系统可能失败,建议业务低峰期扩容。 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
sfs通过访问密钥登录至OBS,从而对请求加密签名,确保请求的机密性、完整性和请求双方身份的正确性。 创建访问密钥(AK和SK) 并行文件系统 并行文件系统是存储数据的容器。 创建并行文件系统 注册华为账号并开通华为云 在使用obsfs之前,您需要拥有一个华为账号并且成功开通OB