完成
ES语义搜索dense vector⽅法可行性进一步测试
- 新数据集:https://www.kaggle.com/asd336655/ccf2019news-so
-
- 新闻评论等,筛选出评论⻓长于50字的材料料
-
- 数据量量:7356
-
- 备注:⽹网络评论,脏数据很多,包括很多特殊符号甚⾄至乱码
-
- 截图展示:
- 截图展示:
- text2vec
-
- 概述:可⽤用于中⽂文的Python库。【有更更多求得句句⼦子向量量的⽅方法但适⽤用于英⽂文,具体可以参考⽂文档:http://text2vec.org/api.html
-
- 了解原理:根据已有的词向量,通过求句⼦中所有单词嵌⼊的平均值计算得到。
-
- 词向量:
-
-
- 腾讯词向量量完整版:
https://ai.tencent.com/ailab/nlp/zh/embedding.html
:
~/.text2vec/datasets/Tencent_AILab_ChineseEmbedding.txt
- 腾讯词向量量完整版:
-
-
-
- 腾讯轻量量版(tawe):
https://pan.baidu.com/share/init?surl=La4U4XNFe8s5BJqxPQpeiQ
:~/.text2vec/datasets/light_Tencent_AILab_ChineseEmbedding.bin
- 腾讯轻量量版(tawe):
-
-
- 关键词提取与概要⽣成结果展示
-
-
- 由于考虑语料较长,担⼼无关语句对嵌入的影响,因此尝试了对语料做关键词提取和概要生成的⽅法
-
-
-
- 原语料:
-
近3年来,九江市紧紧围绕“⼈本教育、公平教育、优质教育、幸福教育”的⽬标,努⼒办好人民满意教育,促进了义务教育均衡发展,农村贫困地区办学条件改善。⽬前,该市特⾊教育学校有70所,⻘青少年校园足球水平领跑全省。该市⼤力推进义务教育均衡发展,素质教育成果丰硕。公办幼儿园占比为34.59%,普惠性幼⼉园覆盖率达到70.88%,学前三年⽑⼊园率达85.76%,“⼊园难”“入园贵”得到有效缓解。浔阳区等9个县(市、区)顺利通过义务教育发展基本均衡县国家认定。去年11月,九江⼀中获评全国未成年人思想道德建设⼯作先进单位,同⽂中学、双峰⼩学和九江⼩小学获评第⼀一届全国⽂文明校园。该市切实改善义务教育学校特别是农村学校办学条件,努⼒缩小城乡教育差距。近3年,累计投⼊资金近40亿元,新建、改建扩建校舍⾯面积共170多万平⽅米,农村办学条件明显改善。同时,引进教师5634名,培训教师4.2万⼈次,较好解决了城乡师资结构性缺编、教师老龄化、术科教师缺乏等问题。为消除中职学校“散、⼩、弱”办学现象,该市率先启动职业教育资源整合改革试点工作,采取撤销、合并、转型、共建等措施,对不符合达标条件的中职学校进⾏整合。目前,全市原有的40所中职学校已整合为24所,达标中职学校有11所。同时,⼤力开展产教融合、校企对接等⼯作,年均为企业输送技能型⼈才8000多⼈。(记者何深宝)
-
-
- 概要:
- 概要:
-
-
-
- 关键词
- 关键词
-
-
-
- 相似度:比较summary生成向量与key word⽣成均值向量的相似度,以求能够对doc生成向量之间的程度和区别有⼀定认知。进⼀步随机测试了20个⽂文档用keyword和summary的相似度,得到mean为88%,从结果来看相似度较高。所以结论为:在⽂档质量较好的情况下(这次任务因为是政府公文应该质量较好),keyword和summary相似度较高,选择任意的都可以,可优先选择计算量/所需算⼒较小的。
- 相似度:比较summary生成向量与key word⽣成均值向量的相似度,以求能够对doc生成向量之间的程度和区别有⼀定认知。进⼀步随机测试了20个⽂文档用keyword和summary的相似度,得到mean为88%,从结果来看相似度较高。所以结论为:在⽂档质量较好的情况下(这次任务因为是政府公文应该质量较好),keyword和summary相似度较高,选择任意的都可以,可优先选择计算量/所需算⼒较小的。
-
-
- ES搜索结果:搜索“拉⾯”
-