按省份选择

搜索

国内

北京

上海

广东

北京

上海

广东

北京

上海

广东

北京

上海

广东

北京

上海

广东

北京城区

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

大语言模型数据青年研究员 面议

上海市 经验不限 博士 新一代信息技术
50w+
立即申请

上海人工智能实验室

科研机构 | 500-999人

收藏
职位描述
01

岗位职责

岗位职责: 负责参与实验室语言大模型InternLM的数据准备、模型训练、模型评测等工作,重点构建新一代质量高,安全性好,内容全面的十万亿Token数据集,工作内容包括: 1.面向大规模,多来源,多领域的数据数据处理,复现相关大模型数据相关论文,并在此基础上设计更先进的数据质量标准与更高效的数据处理方法,对训练数据进行分析和分类并评估数据质量,解决数据多样性,内容质量,反毒性,反偏见等问题。 2.深入了解并调研与预训练数据集相关的最新文献或资料,为构建更优质的数据集提供理论支撑,构建data-centric数据闭环,研究在固定模型和评测的情况下提高大模型数据语料质量,包括持续优化数据质量,研究数据和模型的scaling law,研究数据配比,数据混入策略与混入时机。 3.围绕更具体细分类数据(如网页、代码、论文、书籍等等)构建相应大模型的数据-训练-评测链条,并针对细分类数据建立数据质量评估与优化体系,使得细分类数据质量超越已公开的数据集。
02

任职要求

任职要求: 1.计算机、软件工程、信息科学等相关专业,硕士学历及以上者优先; 2.三年以上NLP相关方向研究经验 ,有发表顶会论文、大模型相关经验、一线互联网公司NLP算法开发经验优先; 3.具备能够快速阅读论文和复现论文的能力,能够系统性对比研究领域的相关成果,并制定改进计划。 4.熟练掌握Python/C++等语言,熟悉pytorch、tensorflow等常用深度学习工具,熟悉常用数据结构及算法;熟练掌握大模型预训练,SFT等流程。 5.具有大规模数据集处理相关的工程经验,熟悉Hadoop,Spark等分布式框架的使用。 6.有强烈的上进心和求知欲,善于学习新事物,渴望用技术改变未来;有优秀的分析问题和解决问题的能力,对解决具有挑战性问题充满激情;具备良好的团队合作精神和沟通意识。
03

工作地点

单位介绍查看所有职位>>

上海人工智能实验室是我国人工智能领域的新型科研机构,开展战略性、原创性、前瞻性的科学研究与技术攻关,突破人工智能的重要基础理论和关键核心技术,打造“突破型、引领型、平台型”一体化的大型综合性研究基地,支撑我国人工智能产业实现跨越式发展,目标建成国际一流的人工智能实验室,成为享誉全球的人工智能原创理论和技术的策源地。


x