检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 问题现象 创建出3台GPU裸金属服务器,使用A节点制作镜像,用于在CCE纳管裸金属服务器时,使用该镜像,但是纳管后发现服务器A纳管失败,剩下两台服务器纳管成功。 原因分析 在CCE纳管过程中,需要通过cloudinit
写,SFS Turbo方式“超参”框写入】 backend_config.training.data-path /home/ma-user/ws/xxx 已处理好数据路径目录,如有处理完成数据可设置此参数【Standard场景OBS方式“输入”框填写,SFS Turbo方式“超参”框写入】
【必修改】【OBS方式“输入”框填写,SFS Turbo方式“超参”框填写】 加载tokenizer与Hugging Face权重时,对应的存放绝对或相对路径。 adapter_name_or_path /home/ma-user/xxx/sft_lora/ 【OBS方式“输入”框填写,SFS Turbo方式“超参”框填写】
存储profiling数据。 多机场景如果没有挂载共享存储如SFS Turbo,需要将多机上的profiling复制至同一个目录下才能进行性能分析,这个操作相对较为繁琐且耗时。使用ModelArts时推荐挂载共享网盘如sfs turbo,既能加快训练数据的读取速度又能用于存放性能profi
步。通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统前提条件: 创建SFS Turbo文件系统前,确认已有可用的VPC。
ModelArts Standard推理服务访问公网方案 端到端运维ModelArts Standard推理服务方案 使用自定义引擎在ModelArts Standard创建模型 使用大模型在ModelArts Standard创建模型部署在线服务 第三方推理框架迁移到ModelArts
息。 部署服务并查看详情 在模型详情页面,单击右上角“部署>在线服务”,进入服务部署页面,模型和版本默认选中,选择合适的“实例规格”(例如CPU:2核 8GB),其他参数可保持默认值,单击“下一步”,跳转至服务列表页,当服务状态变为“运行中”,服务部署成功。 单击服务名称,进入服
太小,无法满足应用部署,请增大内存规格。 运行中服务告警中出现该提示,可能代码有问题导致内存溢出或者业务使用量太大导致内存需求增多。 处理方法 在部署或升级在线服务时,选择更大内存规格的计算节点。 图3 选择计算节点规格 运行中服务出现告警时,需要分析是您的代码是否出现漏洞导致内
ory/third-party/LLaMA-Factory/data 【必修改】【Standard场景OBS方式“输入”框填写,SFS Turbo方式“超参”框填写】 Llama-Factory代码包自带数据集:地址为:${INSTALL_DIR}/third-party/LLa
行指定。 运行完后,会生成推理所需镜像。 Cluster提供两种部署推理服务的方式:基于K8s Deployment、基于Kubeinfer,这两种方式都属于在线推理。 父主题: Cluster部署推理服务
FS Turbo存储联动,可以将最新的训练数据导入到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统,详细操作指导请参考创建SFS Turbo文件系统。 图1 创建SFS Turbo 其
FS Turbo存储联动,可以将最新的训练数据导入到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统,详细操作指导请参考创建SFS Turbo文件系统。 图1 创建SFS Turbo 其
参数类型 描述 vpcep_service_id String VPC访问通道vpcep终端节点服务ID。 vpcep_service_name String VPC访问通道vpcep终端节点服务名称。 service_port Integer VPC访问通道的端口。 状态码:401 表6
API兼容的在线推理服务(通过vllm中的api_server模块)。 run_vllm_single_node.sh主要针对单节点启动在线推理服务。在Cluster部署准备章节会使用到。 source /home/ma-user/.bashrc export ASCEND_TURBO_TASK_QUEUE=0
4096, "allocatable_gpus" : 0.5 } ] } 状态码 状态码 描述 200 服务部署规格列表。 错误码 请参见错误码。 父主题: 服务管理
deleteConvert 服务管理支持审计的关键操作列表 表5 服务管理支持审计的关键操作列表 操作名称 资源类型 事件名称 部署服务 service addService 删除服务 service deleteService 更新服务 service updateService 启停服务 service
限 使用Cloud Shell登录训练容器 不允许子账号使用公共资源池创建作业 委托授权ModelArts云服务使用SFS Turbo 给子账号配置文件夹级的SFS Turbo访问权限 父主题: Standard权限管理
callbacks suppressed 问题现象 弹性文件服务(Scalable File Service,SFS)提供按需扩展的高性能文件存储(NAS),可以在裸金属服务器中通过网络协议挂载使用,SFS支持NFS和CIFS的网络协议。在使用裸金属服务器时, 将数据放在SFS盘中, 并发建立多个
if data.get('architectures')[0] == "InternVLChatModel": return [0, 92543, 92542] return None def post_img(args):
步骤二 :部署模型服务 模型创建成功后,在“我的模型”页面,单击目标模型右侧操作列的“部署”。 在“部署模型服务”页面,完成创建配置。 表3 部署模型服务 参数 说明 取值样例 服务设置 服务名称 自定义模型服务的名称。 service-1122 描述 自定义部署模型服务的简介。 - 模型设置