AIRR  >> Vol. 8 No. 3 (August 2019)

    基于天然说话处理的校园百科知识问答机械人的研究
    Research on Campus Encyclopedia Knowledge Answering Robot Based on Natural Language Processing

  • 全文下载: PDF(1391KB) HTML   XML   PP.102-108   DOI: 10.12677/AIRR.2019.83013  
  • 下载量: 25  浏览量: 54   国度科技经费支撑

作者:  

刘晓瑾,吴东庆,曾巧文,易秋艳,邝锦文,陈博文:仲恺农业工程学院计算迷信学院,广东 广州

关键词:
天然说话处理问答体系校园知识Natural Language Processing Question Answering System Campus Knowledge

摘要:

大年夜先生在校园里常常会询问一些关于校园生活的简单而又反复的成绩。本体系旨在设计一个智能问答体系,达到节俭时间,便利在校师生的目标。信息时代的赓续生长使计算机人工智能的开辟与应用愈来愈广泛。本体系应用天然说话处理中的分词、短文本相似度计算等技巧,基于MySQL和Spring Boot框架开辟为Web应用法式榜样,该法式榜样安排到网上并在本校试用后果优胜。

College students often repetitively ask simple questions about campus life. The purpose of this system is to design an intelligent question and answer robot to save time as well as facilitate teachers and students. The continuous development of the information age makes the exploitation and application of computer artificial intelligence more and more extensive. This system uses the technology of word segmentation and short text similarity calculation in natural language processing, and develops a Web application program based on MySQL and Spring Boot. The program is deployed on the Internet and tested in our school with good results.

1. 引言

近年来,随着信息技巧的生长,人工智能成为当今信息时代的研究的一大年夜热点。而智能人机交互中的主动问答机械人是个中最受追捧的研究之一 [1] [2] ,这些智能机械人可以给人们的生活带来极大年夜的便利。高校的先生,特别是重生,常常咨询一些关于校园知识的成绩,例如某快递的取件点在哪,黉舍的财务处在哪,某师长教员教甚么课程等等。今朝获取信息的方法比较原始和低效,重要有询问同窗和师长教员,查询黉舍公众号等。假设可以或许用智能的问答机械人主动答复这些简单反复的信息咨询,不只可以节俭时间,并且也进步了成绩的精确度。这大年夜大年夜便利了先生和师长教员,减轻教务员、指导员、助班和各部分的任务量。

本体系综合高校先生的需求,可用资本和团队知识程度等身分,基于关键词提取和短文本相似度计算等技巧,开辟校园百科知识问答机械人,赞助先生处理一些罕见的校园成绩。

2. 相干研究与研究基本实际

2.1. 国表里相干研究

本体系完成的主动问答机械人是一个智能的问答体系,能对用户输入的校园成绩做出答复。问答体系,也叫做主动问答体系,在其相干范畴有较为重要的研究价值。国表里在问答体系这方面的研究都有挺多例子,如Start、Cortana、Siri和国际的“度秘”。在线问答方面的研究也有很多,例如文献 [4] 。

2.2. 分词技巧

分词技巧就是把一个文本切分红一个个自力、完全、成心义的词组。本体系采取百度的分词技巧对文本停止分词、词性标注和专名辨认 [3] 。而罕见的几种字符串婚配办法有:正向最大年夜婚配法、逆向最大年夜婚配法、最少切分法。

2.3. 语义婚配模型

本体系所应用的婚配模型SimNet是一种有监督的神经搜集语义婚配。在语义的表示上SimNet依然应用隐式持续向量,基于语义的角度从而获得特点相干的信息,应用分类模型经行分类,后根据分类成果辨认隐式特点 [5] 。在语义婚配方面,SimNet应用了深度进修的End-to-End模型,该模型特别实用于数据量大年夜的情况。SimNet重要分为三层,分别是输入层、表示层、婚配层,如图1所示。

Figure 1. Framework of SimNet

图1. SimNet框架图

1) INPUT layer经过过程look up table将文本词序列转换为word embedding序列。

2) Presentation的功能是构建句子,将自力词语的embedding表示组建成为为具有全局信息的一个或多个低维紧凑的语义向量。

3) Matching layer的功能是婚配。应用表示层生成的文本向量停止类似度计算,这里共有两种婚配算法,分别是Representation-based Match和Interaction-based Match。

① Representation-based Match

该方法重点是关于表示层的构建。有了向量后便可以停止婚配计算。经常使用的婚配计算缺乏弦类似度和多层感知搜集(MLP),个中余弦函数的应用更频繁。余弦类似度侧重于在偏向上辨别向量间的差别,对数值不敏感,这个特点合实用于文本内容的辨别。而MLP是经过过程数据练习拟合出一个得分,该得分基于婚配度,婚配度越高,分数越高,这类方法相对而言拟合才能强,灵活度高,相对与Cosine请求更高,处理也更复杂。二者对比如图2所示。

Figure 2. Cosine (left) vs MLP (right)

图2. Cosine (左)与 MLP (右)比较

余弦类似度公式:

cos θ = X 1 X 2 + Y 1 Y 2 X 1 2 + Y 1 2 × X 2 2 + Y 2 2 (1)

对n维向量依然成立:

cos θ = i = 1 n ( A 1 × B 2 ) i = 1 n A i 2 × i = 1 n B i 2 = A B | A | × | B | (2)

MLP (Multilayer Perceptron)多层感知器,是一种前向构造的人工神经搜集,映照一组输入向量到一组输入向量,平日应用反向传播算法来练习MLP。

② Interaction-based Match

该婚配建模加倍精准后果更好,相对的计算本钱更高,普通应用于对婚配精度有请求的场景,实际应用的比较少。

3. 体系设计(Systematic Design)

本问答体系定名为“仲园百晓通”,供给有浅显用户端和管理端,分别对应两类用户:仲恺在校生、体系管理员。关于不合类型的用户有不合的功能应用权限。全部体系的体系框架图如图3所示。

Figure 3. System function frame diagram

图3. 体系功能框架图

4. 体系完成

4.1. 开辟对象及运转情况

本体系采取Spring Boot框架为后端开辟技巧,前端用CSS和DIV的方法设计网页,数据库采取了MySQL。全部体系基于B/S架构。

4.2. 核心部分完成

1) 检索流程完成

前台用户输入成绩以后,法式榜样起首对所输入的成绩停止分词,若是所问成绩包含数据库供给的关键词,将取得成绩地点的表名。不然,体系将提示缺点。

2) 分词与成绩婚配完成

本体系调用了百度天然说话处理的“分词”和“短文本相似度”两个接口。法式榜样根据用户输入的成绩停止分词,断定取得的成果能否含有关键词,如有关键词,则取得关键词地点的目标查询表。

4.3. 功能完成

体系操作流程图如图4所示。

Figure 4. System operation flow chart

图4. 体系操作流程图

用户在浏览器中输入精确的URL地址后,便可以拜访体系首页,如图5所示。

输入账号暗码,以浅显用户的身份登录。进入用户主页后可以对体系停止成绩询问,取得照应的答案。如图6所示。

输入账号暗码,以体系管理员的身份登录。进入管理员主页后可以对数据库中不合类型的成绩对停止管理。以快递信息管理模块为例,如图7所示。

Figure 5. The system’s front page

图5. 体系首页

Figure 6. Quiz interface

图6. 问答界面

Figure 7. Express information management module interface

图7. 快递信息管理模块界面

5. 结论

本体系旨在为全校师生供给一个官方的信息来源,在包管信息精确性的同时,达到了节俭询问时间,繁复询问方法,便利在校师生的目标,对晋升校园百科信息办事程度有明显后果。今朝本体系曾经在本校推行试用,取得好评。

基金项目

2018年国度级、省级大年夜先生创新创业练习筹划项目(201811347024、201811347086);2019仲恺农业工程学院校级质量工程项目(KA190573919);2019广州市哲学社会迷信生长“十三五”筹划2019年度课题(2019gzgj125)。

NOTES

*通信作者。

文章援用:
刘晓瑾, 吴东庆, 曾巧文, 易秋艳, 邝锦文, 陈博文. 基于天然说话处理的校园百科知识问答机械人的研究[J]. 人工智能与机械人研究, 2019, 8(3): 102-108. https://doi.org/10.12677/AIRR.2019.83013

参考文献

[1] Tse, R. and Campbell, M. (2018) Human-Robot Communications of Probabilistic Beliefs via a Dirichlet Process Mixture of Statements. IEEE Transactions on Robotics, 34, 1280-1298.
[2] Sun, S., Chen, L. and Chen, J. (2017) A Review of Natural Language Processing Techniques for Opinion Mining Systems. Information Fusion, 36, 10-25.
https://doi.org/10.1016/j.inffus.2016.10.004
[3] Singh, B. and Singh, U. (2017) A Forensic Insight into Windows 10 Cortana Search. Computers & Security, 66, 142-154.
https://doi.org/10.1016/j.cose.2017.01.007
[4] 张馨雨. 群聊话题检测技巧研究[D]: [硕士学位论文]. 杭州: 杭州电子科技大年夜学, 2016.
[5] 吴育良. 百度中文分词技巧浅析[J]. 河南图书馆学刊, 2008, 28(4): 115-117.