任飞亮

Personal profile

个人简介

    任飞亮,博士,副教授,主要研究方向为知识图谱构建与智能问答。"东北大学知识图谱研究组"负责人,本科毕业于哈尔滨工业大学,硕士、博士毕业于东北大学 。2014年8月至2015年8月剑桥大学访问学者。      以第一作者发表数十篇高水平学术论文,并主持多项国家级、省部级科研项目。曾获"2016-2018年度东北大学优秀教师...

more+

爱图谱

爱理解

      由"东北大学-知识图谱研究组"开发的"机器阅读理解"演示网站,可以支持中文、英文、以及中英文混合输入条件下的阅读理解任务。即针对一篇给定的输入文档,回答与该文档相关的各类问题,就象常见的中、英文各类阅读理解任务一样。
      点击体验

TechKG

      TechKG是一个面向中文、面向学术、多领域的大型知识图谱知识库,由“东北大学-知识图谱研究组”开发完成。
      和已有知识图谱如 Freebase 或 YAGO 相比,TechKG具有如下主要特点:
      1、是一个大型的中文知识图谱知识库。当前,TechKG 共包含大约 5 千万个实体、以及 2.6 亿个三元组。知识规模和 Freebase 及 YAGO 相当。
      2、面向科技。TechKG 的数据源为发表在中文各类学术期刊上的科技论文,和 Freebase 或 YAGO 这些通用知识图谱相比,TechKG 更有侧重性。
      3、领域划分完整。当前,TechKG的数据共分为 38 个研究领域,每个研究领域对应一个学科。

      基于TechKG,我们还构建了以下几类知识库,每类知识库均分38个领域,每个领域对应一个学科。
      1、TechKG10:从TechKG中抽取的子集,抽取规则如下:1)领域术语的tf*idf在前10%;2)每个实体至少出现在10个三元组中。
      2、TechTerm:一个中文领域术语知识库,每个领域均由从TechKG中tf*idf最高的术语中随机选择的1w条术语组成。
      3、TechBiTerm:一个“中—英”术语对知识库,每个领域均由从TechKG中选择的"共现"次数最多的1w个术语翻译对组成。
      4、TechAbs:一个由论文摘要组成的知识库,每个领域均由随机选择10w个摘要组成。
      5、TechQA:一个问答知识库,基于TechKG10、采用模板生成。
      6、TechNER:一个基于TechTerm、采用远程监督方式生成的主要用于进行领域术语识别任务的知识库,每个领域包含3w个训练句子。
      7、TechRE:一个基于TechKG10、采用远程监督方式生成的主要用于关系抽取任务的知识库,每个领域由随机选择的20w个训练bags组成,每个bag平均包含6个句子。

      利用TechKG以及上面的几个知识库,研究者们不仅可以开展知识图谱方向相关的研究(如知识图谱embedding、关系抽取、命名实体识别等),还可以进行如:KBQA、机器翻译、文本分类等多项相关任务的研究。

    下载资源

扫描查看移动版

访问量:     最后更新时间:--