职位职责:
1.负责开发和优化大模型训练系统,使用混合并行、自动并行和通信优化等技术,提高内部模型训练的速度和效率;
2.设计并实现高效的大模型训练工具,紧跟模型架构的演进,不断优化并行训练策略,以满足公司业务发展的需求;
3.深入进行大模型训练的性能分析,精准识别并解决训练过程中的性能瓶颈,确保训练效率最大化,充分挖掘硬件资源的潜力。
职位要求:
1.拥有计算机科学或相关领域的硕士或博士学位,对分布式系统、机器学习系统有深入的理解和实践经验;
2.熟悉至少一种编程语言,熟悉PyTorch FSDP、DeepSpeed或Megatron-LM等任一分布式训练框架,优先考虑有大规模预训练模系统优化经验的候选人。
3.良好的数据分析和问题解决能力,良好的业务理解能力。
4.优先考虑在计算机系统领域的顶级会议和期刊发表过发表过论文的候选人。
{"address":"上海市徐汇区龙文路129号国际传媒港L1栋","zone":["上海市","上海市","徐汇区"],"latitude":31.169267,"name":"上海人工智能实验室","longitude":121.466319}
上海人工智能实验室是我国人工智能领域的新型科研机构,开展战略性、原创性、前瞻性的科学研究与技术攻关,突破人工智能的重要基础理论和关键核心技术,打造“突破型、引领型、平台型”一体化的大型综合性研究基地,支撑我国人工智能产业实现跨越式发展,目标建成国际一流的人工智能实验室,成为享誉全球的人工智能原创理论和技术的策源地。