任飞亮

Personal profile

个人简介

    任飞亮,副教授,博士生导师,主要研究方向为知识图谱构建、智能问答、大模型等。"东北大学知识图谱研究组"负责人,本科毕业于哈尔滨工业大学,硕士、博士毕业于东北大学 。2014年8月至2015年8月剑桥大学访问学者。      以第一作者发表数十篇高水平学术论文,并主持多项国家级、省部级科研项目。于2015年9月创立了...

more+

爱图谱

爱理解

      由"东北大学-知识图谱研究组"开发的"机器阅读理解"演示网站,可以支持中文、英文、以及中英文混合输入条件下的阅读理解任务。即针对一篇给定的输入文档,回答与该文档相关的各类问题,就象常见的中、英文各类阅读理解任务一样。
      点击体验

TechKG

      TechKG是一个面向中文、面向学术、多领域的大型知识图谱知识库,由“东北大学-知识图谱研究组”开发完成。
      和已有知识图谱如 Freebase 或 YAGO 相比,TechKG具有如下主要特点:
      1、是一个大型的中文知识图谱知识库。当前,TechKG 共包含大约 5 千万个实体、以及 2.6 亿个三元组。知识规模和 Freebase 及 YAGO 相当。
      2、面向科技。TechKG 的数据源为发表在中文各类学术期刊上的科技论文,和 Freebase 或 YAGO 这些通用知识图谱相比,TechKG 更有侧重性。
      3、领域划分完整。当前,TechKG的数据共分为 38 个研究领域,每个研究领域对应一个学科。

      基于TechKG,我们还构建了以下几类知识库,每类知识库均分38个领域,每个领域对应一个学科。
      1、TechKG10:从TechKG中抽取的子集,抽取规则如下:1)领域术语的tf*idf在前10%;2)每个实体至少出现在10个三元组中。
      2、TechTerm:一个中文领域术语知识库,每个领域均由从TechKG中tf*idf最高的术语中随机选择的1w条术语组成。
      3、TechBiTerm:一个“中—英”术语对知识库,每个领域均由从TechKG中选择的"共现"次数最多的1w个术语翻译对组成。
      4、TechAbs:一个由论文摘要组成的知识库,每个领域均由随机选择10w个摘要组成。
      5、TechQA:一个问答知识库,基于TechKG10、采用模板生成。
      6、TechNER:一个基于TechTerm、采用远程监督方式生成的主要用于进行领域术语识别任务的知识库,每个领域包含3w个训练句子。
      7、TechRE:一个基于TechKG10、采用远程监督方式生成的主要用于关系抽取任务的知识库,每个领域由随机选择的20w个训练bags组成,每个bag平均包含6个句子。

      利用TechKG以及上面的几个知识库,研究者们不仅可以开展知识图谱方向相关的研究(如知识图谱embedding、关系抽取、命名实体识别等),还可以进行如:KBQA、机器翻译、文本分类等多项相关任务的研究。

    下载资源

TechGPT

    TechGPT是由“东北大学知识图谱研究组”发布的通用大模型,于2023年6月26日正式发布。与其它大模型相比,TechGPT强化了以“知识图谱构建”为核心的各类信息抽取、以“逻辑推理”为核心的各类智能问答、以“文本理解”为核心的各类序列生成等3大自然语言处理核心能力大自然语言处理核心能力,并具备对计算机、材料、航天、机械、金融、冶金等十余种专业性强的垂直领域自然语言文本的处理能力。目前TechGPT支持包括领域术语抽取、实体识别、三元组抽取、标题生成摘要、摘要生成标题、文本生成关键词、文本对应领域识别、机器阅读理解、常识问答、基于知识库的问答、数学题求解、建议咨询类问答、方案生成、机器翻译、代码生成、单轮会话、多轮会话等多项基本功能。

      目前,我们已将TechGPT项目已开源,GitHub开源地址为:https://github.com/neukg/TechGPT,HuggingFace开源地址为:https://huggingface.co/neukg。同时,我们提供了TechGPT在线体验服务,体验地址为:http://techgpt.neukg.com/

扫描查看移动版

访问量:     最后更新时间:--