职位描述
![](http://img.jrzp.com/jrzpfile/provincercw/images/fangxintou.png)
职位描述
负责阿里云ai服务器软硬件平台的规划、定义和技术架构设计。ai服务器软硬件平台,包括服务器硬件和软硬件结合软件,服务于ai训练和ai推理业务场景。
具体职责包括:业务需求分析、行业竞品分析、技术可行性分析、关键技术原型验证、可靠性/稳定性设计、性能优化、技术方案设计、软硬件平台交付等,为ai服务器的核心竞争力负责。
职位要求
1、硕士以上学历,计算机/电子/通信/电气等相关专业,10年以上工作经验;
2、熟悉gpgpu芯片架构及服务器架构,熟悉gpu软硬件设计,gpu虚拟化,gpu性能分析和优化,有gpu driver/opencl开发/cuda编程/gpu编译器/gpu服务器性能优化/gpu性能调优工作经验者优先;
3、熟悉多gpu分布式并行计算、熟悉nccl通信机制,熟悉分布式机器学习,熟悉热门llm框架者优先,包括但不限于:megatron、deepspeed、pytorch、ft、trt-llm、vllm等;
4、熟悉k8s,有gpu资源管控或作业调度工作经验者优先;
5、有良好的团队合作精神和积极主动的学习和沟通能力,对新技术保持热情;
工作地点
地址:北京北京文一西路969号
![](http://img.jrzp.com/jrzpfile/rcw/SearchJob/images/jg.png)
![](https://img.jrzp.com/images_server/comm/nan1921.png)
职位发布者
HR
阿里巴巴(中国)有限公司
![](http://img.jrzp.com/jrzpfile/provincercw/images/sfrz_yrz.png)
![](http://img.jrzp.com/jrzpfile/rcw/SearchJob/images/V.png)
-
IT服务·系统集成
-
1000人以上
-
中外合资(合资·合作)
-
杭州滨江区阿里巴巴滨江园区699