近日,国家自然科学基金委员会公布了2025年度国家自然科学基金青年学生基础研究项目(博士研究生)立项名单,博士生卢俊宇申报的项目获得资助批准。
立项题目:基于隐式毒性内容挖掘的大模型安全防护关键技术研究
项目简介:大模型的安全防护已成为社会各界的关注焦点。然而,现有研究大多集中在显性有害信息上,对于隐式毒性内容的防护能力仍然不足。一方面,隐式毒性内容往往通过隐晦的表达方式传递有害信息,给大模型的识别带来挑战。另一方面,如果大模型无法与用户隐含的价值需求对齐,可能生成有害内容。因此,提升大模型对隐式毒性内容的防护能力成为富有挑战性的任务。项目围绕隐式毒性内容挖掘展开大模型安全防护研究,致力于研发隐式毒性内容识别与用户隐含价值需求对齐两大核心技术。首先,构建细粒度大模型安全体系,从“内容”和“用户”两个维度对人机交互数据进行分析建模;然后,提出基于隐晦表达理解的毒性内容识别方法,提升模型对于多样化的隐式毒性内容的理解能力;最后,设计基于隐含需求挖掘的价值观对齐方法,实现模型输出与用户价值需求的精确适配。项目将系统化提升大模型对隐式毒性内容的防护能力,保障模型在实际应用中的安全性和可靠性。

申请人简介:卢俊宇,大连理工大学计算机科学与技术学院23级博士生,导师为林鸿飞教授,研究方向为大模型安全计算和仇恨言论检测。现任中国中文信息学会青工委学生委员会委员。研究生期间共获2次国家奖学金(2023、2025)、华为专项奖学金(2022),入选腾讯犀牛鸟精英人才计划(2025)。在学术成果方面,累计发表论文20余篇,其中以第一作者或通讯作者身份发表论文11篇,相关成果发表在NeurIPS、ACL、SIGIR、COLING、TASLP等CCF推荐的A、B类会议和中科院一区期刊;多项工作被国家网信办、国家互联网应急中心等主管部门以及互联网头部企业实际采用;作为学生骨干参与研发了校园大模型“太学”,为大学生的衣食住行等日常生活提供智能支持。在技术评测方面,以队长身份参与多项国际技术评测(SemEval、NLPCC、CCAC),取得了前两名的成绩。在知识产权方面,获得软件著作权1项。在学术服务方面,作为本地委员参与第二十二届自然语言处理青年学者研讨会(YSSNLP2025),负责会场的组织工作;担任NeurIPS、ACL、IPM、Science China Information Sciences等国际顶级会议和期刊的程序委员会委员和审稿人;于 CCL2025 组织评测任务“中文细粒度仇恨识别”,共吸引了国内外390多支队伍报名参赛。