职位详情

按省份选择

搜索

国内

北京

上海

广东

北京

上海

广东

北京

上海

广东

北京

上海

广东

北京

上海

广东

北京城区

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

关闭

1 单位认证

2 提交审核

单位认证

*单位名称

温馨提示

1.请确保上方填写的单位全称与营业执照的名称一致

2.注意区分总公司和分公司的名称
*单位简称
*所属行业

请选择
*人员规模
*联系人
*联系方式
*联系地址
*详细地址

提交

我已阅读并同意《单位认证及在职实名认证服务协议》

大语言模型数据青年研究员面议

上海市经验不限博士新一代信息技术

50w+

立即申请

上海人工智能实验室

科研机构 | 500-999人

职位描述

岗位职责

岗位职责：负责参与实验室语言大模型InternLM的数据准备、模型训练、模型评测等工作，重点构建新一代质量高，安全性好，内容全面的十万亿Token数据集，工作内容包括： 1.面向大规模，多来源，多领域的数据数据处理，复现相关大模型数据相关论文，并在此基础上设计更先进的数据质量标准与更高效的数据处理方法，对训练数据进行分析和分类并评估数据质量，解决数据多样性，内容质量，反毒性，反偏见等问题。 2.深入了解并调研与预训练数据集相关的最新文献或资料，为构建更优质的数据集提供理论支撑，构建data-centric数据闭环，研究在固定模型和评测的情况下提高大模型数据语料质量，包括持续优化数据质量，研究数据和模型的scaling law，研究数据配比，数据混入策略与混入时机。 3.围绕更具体细分类数据（如网页、代码、论文、书籍等等）构建相应大模型的数据-训练-评测链条，并针对细分类数据建立数据质量评估与优化体系，使得细分类数据质量超越已公开的数据集。

任职要求

任职要求： 1.计算机、软件工程、信息科学等相关专业，硕士学历及以上者优先； 2.三年以上NLP相关方向研究经验，有发表顶会论文、大模型相关经验、一线互联网公司NLP算法开发经验优先； 3.具备能够快速阅读论文和复现论文的能力，能够系统性对比研究领域的相关成果，并制定改进计划。 4.熟练掌握Python/C++等语言，熟悉pytorch、tensorflow等常用深度学习工具，熟悉常用数据结构及算法；熟练掌握大模型预训练，SFT等流程。 5.具有大规模数据集处理相关的工程经验，熟悉Hadoop，Spark等分布式框架的使用。 6.有强烈的上进心和求知欲，善于学习新事物，渴望用技术改变未来；有优秀的分析问题和解决问题的能力，对解决具有挑战性问题充满激情；具备良好的团队合作精神和沟通意识。

工作地点

单位介绍查看所有职位>>

上海人工智能实验室是我国人工智能领域的新型科研机构，开展战略性、原创性、前瞻性的科学研究与技术攻关，突破人工智能的重要基础理论和关键核心技术，打造“突破型、引领型、平台型”一体化的大型综合性研究基地，支撑我国人工智能产业实现跨越式发展，目标建成国际一流的人工智能实验室，成为享誉全球的人工智能原创理论和技术的策源地。

相似岗位

大语言模型数据青年研究员面议

上海人工智能实验室

硬件工程师面议

智牛电子

博士、博士后 29-32K

华盟农业

Android系统软件开发工程师面议

智牛电子

研发工程师 17-17K

智牛电子

硬件工程师面议

智牛电子

我要求职

我要招聘

大语言模型数据青年研究员 面议

上海人工智能实验室

硬件工程师 面议

智牛电子

博士、博士后 29-32K

华盟农业

Android系统软件开发工程师 面议

智牛电子

研发工程师 17-17K

智牛电子

硬件工程师 面议

智牛电子

我要求职

我要招聘

大语言模型数据青年研究员面议

硬件工程师面议

Android系统软件开发工程师面议

硬件工程师面议