刘正皓

个人信息Personal Information

副教授

教师拼音名称：liuzhenghao

出生日期：1994-10-22

电子邮箱：

入职时间：2021-07-12

所在单位：Dept. of Computer Science and Technology

职务：副教授

学历：博士研究生毕业

办公地点：信息学馆B233，浑南校区。

学位：工学博士学位

在职信息：在职

主要任职：清华大学自然语言处理实验室客座研究员

其他任职：东北大学计划财经处副处长（挂职）

毕业院校：清华大学

研究领域

当前位置：中文主页 >> 科学研究 >> 研究领域

研究方向

研究方向主要自然语言处理与信息检索技术，具体但不限于如下方向：

1、信息检索：基于少样本学习的神经网络信息检索方法、面向多模态数据的稠密向量检索方法、面向海量数据的高效索引建模方法；(与卡内基梅隆大学、清华大学合作)

2、知识增强的大语言模型：大语言模型工具智能、面向外源知识的向量建模方法；（与清华大学合作）

3、基于大模型的推荐系统研究：基于商品内容以及大模型实现多模态推荐、序列化推荐；（与阿里巴巴合作）

4、开放域自动问答、事实验证、法律智能：面向客观事实以及法律领域的大模型人类反馈对齐研究、面向大模型的受控生成研究；（与清华大学、微软亚洲研究院合作）

5、面向教育的大语言模型研究：基于教材数据训练面向中小学教育的大语言模型。（与清华大学、北京语言大学合作）

开源项目

1、信息检索开源平台以及应用OpenMatch（网址：https://github.com/OpenMatch）。汇总了组内开源研究。

2、其他部分开源项目（数据截止至2023年8月15日）

项目名称	项目地址	Star	Fork
EntityDUET	https://github.com/thunlp/EntityDuetNeuralRanking	152	20
BERT KPE	https://github.com/thunlp/BERT-KPE	424	78
KernelGAT	https://github.com/thunlp/KernelGAT	159	34
OpenMatch v1.0	https://github.com/thunlp/OpenMatch	442	46
ConceptFlow	https://github.com/thunlp/ConceptFlow	118	19

部分项目成果

1. 面向少样本学习的神经信息检索模型

项目背景：近年来，神经信息检索（Neural Information Retrieval，Neu-IR）作为一种先进的信息检索方法，已经在各个领域展现出强大的效果。然而，Neu-IR 的有效性往往依赖于大规模的领域内相关性训练信号。然而，在实际信息检索场景中，例如：法律领域和生物医学领域，其问题-文档相关性信号的标注通常十分昂贵。因此，现有的神经信息检索模型通常会面临着漏标（Hole Rate）问题。因而，实现一个的领域自适应学习方法将神经信息检索模型从标注丰富的领域推广到少样本信息检索领域十分重要。

项目研究成果：相关工作在美国官方标准局的面向新型冠状病毒肺炎的信息检索比赛（TREC-COVID）的第二轮无人工干预组取得第一名的成绩，并被微软应用至其面向生物医学领域的信息检索系统中（网址：https://biomedsearch.microsoft.com/en-us/）。详细介绍请移步至其技术博客（网址：https://blogs.microsoft.com/ai-for-business/biomedical-search/）。相关成果被ACL2021、WebConf2020、SIGIR2021收录，模型概要如下图所示。

图片 1.png

2. 面向多模态数据的神经信息检索模型

项目背景：在人类认知世界的过程中，诸如图片、表格、知识图谱以及结构化列表等多模态数据起到了至关重要的作用。面向多模态数据融合的信息检索方法可以通过检索并整合来自不同模态的数据作为外源知识，以弥补单一模态数据的局限性，提高搜索结果的覆盖范围和语义丰富性。传统的信息检索模型往往针对于单模态信息检索以及跨模态信息检索进行建模，并只从单一模态数据中返回文档以满足用户需求。然而随着 Flamingo、GPT4 等多模态预训练语言模型的兴起，单一模态数据已经不能满足用户的信息获取需求，为信息检索相关工作提出了更大挑战。对于一个给定的用户问题，本项目拟将以语言为中心的多模态数据表征作为基石，微调信息检索模型使其将多模态数据编码至统一的向量空间中，并根据用户问题实现检索文档模态选择、单模态信息检索、跨模态信息检索以及多模态信息融合的端到端建模方法，最终能够返回满足用户信息获取需求的由多模态文档构成的外源知识候选集合。

项目研究成果：相关工作在多模态检索数据集WebQA、代码检索数据集CodeSearchNet以及商品检索数据集ESCI上取得了较好的检索精度。相关工作被ICLR2023、ACL2023收录，模型概要如下图所示。

图片 3.png

图片 2.png

3. 面向智慧教育的大语言模型研究

项目背景：随着ChatGPT引起全社会的关注，及各类大语言模型（Large Language Model）争相亮相，通用域自然语言处理任务已获得巨大成功，引起了国际中文教育领域的普遍关注。国际中文教育人士纷纷展开了对大模型的探讨：大模型是否可以根据学习者的水平，提供合适的语言表达，或根据学习者的问题给出详细的解答，从而在一定程度上辅助甚至充当学习伙伴、语言教师。

项目研究成果：

a. 与清华大学、北京语言大学联合发布桃李1.0版本（https://mp.weixin.qq.com/s/NZpY8y6hBnFvcfTwLqYvDQ）。

b. 与北京语言大学联合发布智源指数（https://mp.weixin.qq.com/s/5TTx73F-QiJ-RVBszBi8sQ）。

c. 与清华大学、北京语言大学联合组织第二十一届、第二十二届中国计算语言学大会（CLTC-2022和CLTC-2023）汉语学习者语法改错评测。

d. 针对语法改错、语法改错质量评估、语法错误检查相关任务中达到先进水平，相关论文被NAACL2021和ACL2023收录，相关研究如下图所示。

图片 4.png