1000字范文,内容丰富有趣,学习的好帮手!
1000字范文 > 无监督端到端检索式问答系统方案实践

无监督端到端检索式问答系统方案实践

时间:2021-09-11 09:57:36

相关推荐

无监督端到端检索式问答系统方案实践

01

背景

暨“十四五”规划将数字政府提上国家顶层设计后,今年两会期间,数字经济、智慧城市再一次成为各界关注的焦点。

3月5日,《政府工作报告》提出要加强数字政府建设,推动政务数据共享。智慧政务旨在助力政务决策、业务流程优化,提升利企便民的服务体验,是提升政府监管效能和公共服务能力的关键之举,智慧城市中的重中之重。

02

智慧政务概况

近几年,国内数字政府建设进程加速且成果显著。据《联合国电子政务调查报告》数据显示,中国电子政务在线服务指数增长至0.9059,排名从全球第34位跃升至全球第九位

智慧政务涉及智慧城市中与政府公务相关的场景,包括信息采集、审核与服务,涉及语音技术、检测技术、文字识别、自然语言处理、理解和生成等多项AI技术。

以国家政务服务平台网上办、掌上办、一次办、跨省通办等为代表的数字政务服务功能为利企便民发挥了重要作用。在政府部门数字化转型加速的当下,越来越多创新应用正成为加快政府职能转变的重要驱动力。

03

政务问答机器人

问答系统是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户提出的问题,问答系统广泛应用于搜索引擎、智能设备、智能客服等产品中。

图:问答系统应用示例

“开户籍证明要找谁?”、“银行服务费、刷卡手续费有收费标准吗?”、“企业税费优惠如何享受”…在智慧政务业务中,政务问答系统能够24小时响应群众、企业关于日常事务办理、民生政策、企业经营法规等咨询,大力提升了信息获取的便利性。

图:政务问答系统示例

以某地方政务网站的问答系统为例,该网站积累了大量疫情相关的标准问答对(Q-A pair),希望搭建智能问答机器人,这是一个典型的FAQ问答场景:当接收到用户的咨询问题后,系统会检索语料库中的相似问题,并返回相应问题的答案。难点在于:

数据:仅有Q-A pair数据,无相似问题标注数据;

模型:传统基于字面的匹配技术仅能捕捉字面上的相关性,无法准确理解语义信息,急需精准的语义匹配方案;

部署:随着Q-A积累量和用户访问量越来越大,如何应对千万级语料库的并发检索,实现毫秒级快速响应,是保障用户体验的关键。

百度飞桨自然语言处理模型库PaddleNLP近期开源的FAQ问答系统,提出了针对无监督数据的端到端检索式问答系统方案,无需标注数据也能够轻松构建起检索系统,并且提供训练、预测、最近邻搜索一站式能力。

精度高:国际领先的检索式问答预训练模型RocketQA基础上,进一步采用无监督 SimCSE 和 Word Repetition(WR) 策略在业务数据上微调优化模型效果。

RocketQA效果领先

问答系统RocketQA+SimCSE+WR效果说明

性能强:与开源向量数据库Milvus打通,结合百度飞桨原生推理库Paddle Inference,实现高性能建库,并在千万级数据中做到毫秒级快速查询。

PaddleNLP介绍

PaddleNLP是百度飞桨自然语言处理模型库,具备易用的文本领域API、丰富的预训练模型、多场景的应用示例、以及依托飞桨框架底层算子优化的高性能推理能力,旨在提升开发者在文本领域的开发效率。

前往GitHub获取FAQ问答系统开源代码和模型:

/PaddlePaddle/PaddleNLP/tree/develop/applications/question_answering/faq_system/

如果您想了解详细技术方案和完整代码,欢迎关注GitHub Repo,也可在直播中与百度高级工程师交流哦:

PaddleNLP: /PaddlePaddle/PaddleNLP

RocketQA: /PaddlePaddle/RocketQA

直播课程预告

百度高级工程师将带来直播讲解,剖析政务问答痛点问题,深入解读系统方案,欢迎大家扫码参加!3月25日晚,直播间不见不散~

扫码报名直播课,加入技术交流群

更多精彩抢先看

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。