Personal profile
任飞亮,教授,博士生导师,主要研究方向为知识图谱构建、智能问答、大模型等。"东北大学知识图谱研究组"负责人,本科毕业于哈尔滨工业大学,硕士、博士毕业于东北大学 。2014年8月至2015年8月剑桥大学访问学者。曾任东北大学计算机学院计算机科学系副主任、主任。现为东北大学计算机学院院长学科助理。 以第一...
more+ TechKG是一个面向中文、面向学术、多领域的大型知识图谱知识库,由“东北大学-知识图谱研究组”开发完成。
和已有知识图谱如 Freebase 或 YAGO 相比,TechKG具有如下主要特点:
1、是一个大型的中文知识图谱知识库。当前,TechKG 共包含大约 5 千万个实体、以及 2.6 亿个三元组。知识规模和 Freebase 及 YAGO 相当。
2、面向科技。TechKG 的数据源为发表在中文各类学术期刊上的科技论文,和 Freebase 或 YAGO 这些通用知识图谱相比,TechKG 更有侧重性。
3、领域划分完整。当前,TechKG的数据共分为 38 个研究领域,每个研究领域对应一个学科。
基于TechKG,我们还构建了以下几类知识库,每类知识库均分38个领域,每个领域对应一个学科。
1、TechKG10:从TechKG中抽取的子集,抽取规则如下:1)领域术语的tf*idf在前10%;2)每个实体至少出现在10个三元组中。
2、TechTerm:一个中文领域术语知识库,每个领域均由从TechKG中tf*idf最高的术语中随机选择的1w条术语组成。
3、TechBiTerm:一个“中—英”术语对知识库,每个领域均由从TechKG中选择的"共现"次数最多的1w个术语翻译对组成。
4、TechAbs:一个由论文摘要组成的知识库,每个领域均由随机选择10w个摘要组成。
5、TechQA:一个问答知识库,基于TechKG10、采用模板生成。
6、TechNER:一个基于TechTerm、采用远程监督方式生成的主要用于进行领域术语识别任务的知识库,每个领域包含3w个训练句子。
7、TechRE:一个基于TechKG10、采用远程监督方式生成的主要用于关系抽取任务的知识库,每个领域由随机选择的20w个训练bags组成,每个bag平均包含6个句子。
利用TechKG以及上面的几个知识库,研究者们不仅可以开展知识图谱方向相关的研究(如知识图谱embedding、关系抽取、命名实体识别等),还可以进行如:KBQA、机器翻译、文本分类等多项相关任务的研究。
下载资源
扫描查看移动版
校址:辽宁省沈阳市和平区文化路三巷11号 | 邮编:110819