北京前沿交叉学科研究院张文涛
北大国际机器学习研究中心张文涛教授团队招收研究助理(RA)/ 实习生若干。对于推免/申 请考核制的博士生/硕士生,建议提前进组联系实习。
导师简介
张文涛,北京大学国际机器学习研究中心助理教授、研究员、博士生导师,曾任职于腾讯机器 学习平台部、Apple AIML和加拿大 Mila 人工智能实验室。研究兴趣为以数据为中心的机器 学习(Data-centric ML, DCML)、图机器学习、机器学习系统和交叉学科应用(如 Diffusion、多模态和 AI4Science)。他近 5年在机器学习 (ICML/NeurIPS/ ICLR)、数据 挖掘(SIGKDD/WWW)和数据管理(SIGMOD/VLDB/ICDE)等领域发表 CCF-A 类论文 50余篇,也担任多个国际顶会(VLDB/NeurIPS/WWW 等)的 PC Member/Area Chair。 他获得多个最佳论文奖(如第一作者获 WWW’22 Best Student Paper Award 和 通讯作者 获 APWeb-WAIM’23 Best Paper Runner Up Award),领导或参与开源了多个机器学习系 统,如大规模图学习系统 SGL、分布式机器学习系统 Angel (GitHub 6.7k star)、和黑盒优 化系统 OpenBox。他曾获 2021 年度亚太地区唯一的 Apple Scholar、世界人工智能大会云 帆奖、北京大学/北京市/中国人工智能学会优秀博士学位论文奖、2023中国电子学会科技进 步一等奖等等多项荣誉。
加入课题组的优势
- 研究方向:
- 课题组的研究方向(如大模型数据侧、生成式AI和 AI4Science)都是学术界/工业界热 点
- 作为一线青椒,我善于发现和提炼好的研究问题和方向(在学术内卷的时代,找到 Practical 有Impact但Under-explored 新问题比在老问题上卷新方法可能更有意义,也 更容易出成果)
- 学生指导:
- 每周按小方向组会分享(线下:静园六院208,线上:腾讯会议)和讨论
- 安排经验丰富的师兄/师姐带入门,遇到技术细节问题,随时讨论(也可微信随时找我)
- 有完善的科研入门文档,根据每位学生的基础、兴趣和未来规划针对性选择方向,一对一指导(至少meeting 1 次/周,合作超过1年以上的学生,一般都有一作顶会投稿/发表)
- 作为同龄人:会换位思考,讨论学习、生活、工作和职业规划,尊重学生想法成为朋友
- 资源优势:
- 充界合作伙伴(如Apple、腾讯、华为、上海AI Lab、百川智能、字节、快手和蚂蚁等)Research实习和工作推荐。可以使用工业界算力、数据和好的研究问题,积累实习经历;
- 学术合作:学术界合作伙伴(如Mila、 Stanford、ETH、 HKUST、 NUS 和UQ等)交流机会;
- 助研津贴。
- 其他:有愉快的氛围,定期组织团建(羽毛球、徒步和聚餐等),自愿参加。
招生简介
- General DCML:近些年来 Al 模型发展遇到了瓶颈,大部分 SOTA 模型(如ChatGPT 和 SAM)都是沿用2017年提出的Transformer 结构,性能收益来源由模型—>数据。课题组主 要考虑优 Data quality, quantity 和 efficiency,以较低成本和较短时间来获得大量高质量数 据。以大模型(如ChatGPT)为例,在考虑数据获取成本和效率的前提下,设计高效的数据处理 方法(如过滤、去重和降噪),研究科学和系统的数据质量评估体系和策略,探索更有效的数 据合成(如合成和增强)方式,构建有效的数据抽取(如RAG、分布匹配和数据配比)方式。
- DCML Applications:
- For Science: AI4Science 是人工智能和 Science 交叉领域,也是目前学术界和工业界前 沿的热点方向。课题组主要以数据为中心,研究和设计高效的 Science 数据(如蛋白质和分子)构建和预处理方式,以及分子建模与生物制药等交叉应用。
- For AIGC充足算力:丰富的计算资源(如 80GB Tesla A100/H100集群)
- 业界合作:工业Diffusion Model:扩散模型是当前最热门的生成模型,其应用领域包含了 CV.NLP 以及交叉学科等,课题组主要探究以数据为中心,将扩散模型如何更好地应用于各种复杂数据生成场景,如文生图、文生视频、可控3D生成、多模态学习等。
- DCML Systems: ML System 是人工智能和计算机系统的交叉领域,也是目前计算机系统研究前沿的热点方向。我们课题组主要考虑从系统层面来支持DCML任务,如支持多种类型(如Graph和Text)的数据格式,支持大规模数据的处理(如Distributed ML),以及降低系统的使用门槛(如AutoML)等。针对大模型数据侧,课题组也在开发能支持多种数据类型、大规模数据的DCML系统,涵盖大模型数据处理、合成、质量评估、以及数据抽取等多个方面。
招生要求
需要至少满足以下一个要求,满足多个要求者优先考虑:
- 作为主要作者在顶级会议(如ICML/NeurIPS/ICLR/CVPR/ICCV/WWW/KDD/SIGMOD/VLDB等)发表过论文;
- 有机器学习基础,有相关研究和开源项目经验,并熟练掌握PyTorch等工具使用;
- 在科技公司或研究机构有过实习经历,对机器学习的应用有系统深刻理解,并在实习阶段取得过突出成果;
- 在Kaggle、天池和OGB等比赛中取得过良好成绩;有ACM/NOI/NOIP等信息学竞赛训练经历,有扎实的编程基础;
- 对机器学习基础研究和应用有浓厚兴趣,愿意独立思考,足够Self-motivated并渴望做出有影响力的科研成果。