按省份选择

搜索

国内

北京

上海

广东

北京

上海

广东

北京

上海

广东

北京

上海

广东

北京

上海

广东

北京城区

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

训练系统研发工程师 25-50K

上海市 经验不限 博士 新一代信息技术
30W-60W
立即申请

上海人工智能实验室

科研机构 | 500-999人

收藏
职位描述
01

岗位职责

职位职责: 1.负责开发和优化大模型训练系统,使用混合并行、自动并行和通信优化等技术,提高内部模型训练的速度和效率; 2.设计并实现高效的大模型训练工具,紧跟模型架构的演进,不断优化并行训练策略,以满足公司业务发展的需求; 3.深入进行大模型训练的性能分析,精准识别并解决训练过程中的性能瓶颈,确保训练效率最大化,充分挖掘硬件资源的潜力。
02

任职要求

职位要求: 1.拥有计算机科学或相关领域的硕士或博士学位,对分布式系统、机器学习系统有深入的理解和实践经验; 2.熟悉至少一种编程语言,熟悉PyTorch FSDP、DeepSpeed或Megatron-LM等任一分布式训练框架,优先考虑有大规模预训练模系统优化经验的候选人。 3.良好的数据分析和问题解决能力,良好的业务理解能力。 4.优先考虑在计算机系统领域的顶级会议和期刊发表过发表过论文的候选人。
03

工作地点

单位介绍查看所有职位>>

上海人工智能实验室是我国人工智能领域的新型科研机构,开展战略性、原创性、前瞻性的科学研究与技术攻关,突破人工智能的重要基础理论和关键核心技术,打造“突破型、引领型、平台型”一体化的大型综合性研究基地,支撑我国人工智能产业实现跨越式发展,目标建成国际一流的人工智能实验室,成为享誉全球的人工智能原创理论和技术的策源地。


x