岗位职责:
负责参与实验室语言大模型InternLM的数据准备、模型训练、模型评测等工作,重点构建新一代质量高,安全性好,内容全面的十万亿Token数据集,工作内容包括:
1.面向大规模,多来源,多领域的数据数据处理,复现相关大模型数据相关论文,并在此基础上设计更先进的数据质量标准与更高效的数据处理方法,对训练数据进行分析和分类并评估数据质量,解决数据多样性,内容质量,反毒性,反偏见等问题。
2.深入了解并调研与预训练数据集相关的最新文献或资料,为构建更优质的数据集提供理论支撑,构建data-centric数据闭环,研究在固定模型和评测的情况下提高大模型数据语料质量,包括持续优化数据质量,研究数据和模型的scaling law,研究数据配比,数据混入策略与混入时机。
3.围绕更具体细分类数据(如网页、代码、论文、书籍等等)构建相应大模型的数据-训练-评测链条,并针对细分类数据建立数据质量评估与优化体系,使得细分类数据质量超越已公开的数据集。
任职要求:
1.计算机、软件工程、信息科学等相关专业,硕士学历及以上者优先;
2.三年以上NLP相关方向研究经验 ,有发表顶会论文、大模型相关经验、一线互联网公司NLP算法开发经验优先;
3.具备能够快速阅读论文和复现论文的能力,能够系统性对比研究领域的相关成果,并制定改进计划。
4.熟练掌握Python/C++等语言,熟悉pytorch、tensorflow等常用深度学习工具,熟悉常用数据结构及算法;熟练掌握大模型预训练,SFT等流程。
5.具有大规模数据集处理相关的工程经验,熟悉Hadoop,Spark等分布式框架的使用。
6.有强烈的上进心和求知欲,善于学习新事物,渴望用技术改变未来;有优秀的分析问题和解决问题的能力,对解决具有挑战性问题充满激情;具备良好的团队合作精神和沟通意识。
{"address":"上海市徐汇区龙文路129号国际传媒港L1栋","zone":["上海市","上海市","徐汇区"],"latitude":31.169267,"name":"上海人工智能实验室","longitude":121.466319}
上海人工智能实验室是我国人工智能领域的新型科研机构,开展战略性、原创性、前瞻性的科学研究与技术攻关,突破人工智能的重要基础理论和关键核心技术,打造“突破型、引领型、平台型”一体化的大型综合性研究基地,支撑我国人工智能产业实现跨越式发展,目标建成国际一流的人工智能实验室,成为享誉全球的人工智能原创理论和技术的策源地。