TechKG


  TechKG是一个面向中文、面向学术、多领域的大型知识图谱知识库,由“东北大学-知识图谱研究组”开发完成。
  和已有知识图谱如 Freebase 或 YAGO 相比,TechKG具有如下主要特点:
  1、是一个大型的中文知识图谱知识库。当前,TechKG 共包含大约 5 千万个实体、以及 2.6 亿个三元组。知识规模和 Freebase 及 YAGO 相当。
  2、面向科技。TechKG 的数据源为发表在中文各类学术期刊上的科技论文,和 Freebase 或 YAGO 这些通用知识图谱相比,TechKG 更有侧重性。
  3、领域划分完整。当前,TechKG的数据共分为 38 个研究领域,每个研究领域对应一个学科。

  基于TechKG,我们还构建了以下几类知识库,每类知识库均分38个领域,每个领域对应一个学科。
  1、TechKG10:从TechKG中抽取的子集,抽取规则如下:1)领域术语的tf*idf在前10%;2)每个实体至少出现在10个三元组中。
  2、TechTerm:一个中文领域术语知识库,每个领域均由从TechKG中tf*idf最高的术语中随机选择的1w条术语组成。
  3、TechBiTerm:一个“中—英”术语对知识库,每个领域均由从TechKG中选择的"共现"次数最多的1w个术语翻译对组成。
  4、TechAbs:一个由论文摘要组成的知识库,每个领域均由随机选择10w个摘要组成。
  5、TechQA:一个问答知识库,基于TechKG10、采用模板生成。
  6、TechNER:一个基于TechTerm、采用远程监督方式生成的主要用于进行领域术语识别任务的知识库,每个领域包含3w个训练句子。
  7、TechRE:一个基于TechKG10、采用远程监督方式生成的主要用于关系抽取任务的知识库,每个领域由随机选择的20w个训练bags组成,每个bag平均包含6个句子。

  利用TechKG以及上面的几个知识库,研究者们不仅可以开展知识图谱方向相关的研究(如知识图谱embedding、关系抽取、命名实体识别等),还可以进行如:KBQA、机器翻译、文本分类等多项相关任务的研究。

下载资源