
项目整理
William张
计算机研究生,自然语言处理方向,专注于语音。
展开
-
个人课题:言语评估
emotion: 情感,情绪,主观的。label一般是:happy、sad、angry sentiment: 态度,情绪,意见。positive、negative,nature 课题数据集处理: 数据情况: 训练集+验证集:2783;测试集(相同题目):299,测试集(不同题目):344。 初步, 类标先不平衡, 直接去学,看整体打分预测效果怎样。 类标选择二人取平均、 最终生成: train, ...原创 2019-04-03 15:38:25 · 370 阅读 · 0 评论 -
项目总结:蓝凌
核心,1)对数据建立索引(用于精确匹配);2. WMD(无监督的模型,相似度计算,排序,对于无法精确匹配的,设置阈值) 普通问答(问答类型的):返回相似度最高的匹配问句(后面可以接应用场景,返回库里对应的答案, 比如:特定领域的特定知识库) 指令(执行某种操作,命令型的):应用场景,语音助手等,1. 分类模型:识别指令类型,2.解析模型:对指令进行解析,提取出机构名(地名)、人名、时间,做什么。 ...原创 2019-03-28 18:02:49 · 841 阅读 · 0 评论 -
项目总结-网络文本识别
数据: 给定数据集:10000条数据作为训练集。 涵盖几十种字体,像素大小也各不相同,排版方式复杂,语言也很多种。 原始图片,+ 文本框四个点坐标(里面是标注的文字)最小外接矩形,确定要扣取的文本区域,图片小于45度,转为水平;图片大于45度,转为垂直,最后将垂直的转为水平(倾斜处理) 2. 对文字图片进行角度处理,然后归一化成 同一尺寸。 图片的宽高统计,选取高度,宽度,为啥??? 宽高比统计,...原创 2019-03-28 17:56:49 · 357 阅读 · 0 评论 -
项目总结-问句匹配
匹配模型相关 意图: intention 语义: semantic Semantic textual similarity 语义文本相似度 Reformulation: 问题重述,换个表达方法。 分词: Chinese Word Segmentation(WS) 词性标注: part of speech(POS) 命名实体识别: NER FAQ set: 问答语料库 -> 建立索引。(留...原创 2019-03-27 23:49:20 · 1524 阅读 · 0 评论 -
课题实验过程
4.9号 初步跑起来, sigmoid_cross_entropy_logits. 只有联合优化。 发现的问题, 1)batch划分不均匀,训练过程,不稳定,忽高忽低; 2)代码整理下,最好6个loss一起优化;(有可能只能优化一个联合loss) 3)可以图显示。 4)不用准确率来衡量。 改为softmax 交叉熵。 ...原创 2019-04-09 17:50:40 · 361 阅读 · 0 评论 -
多模态言语评估-(工作准备)
机器学习方法 特征工程 流畅度: 从静默、停顿字眼、持续时间,频率几个方面来提特征。 如: 静默次数、平均静默持续时间、静默时间超过0.5s的频率,停顿字眼出现的次数(参考口语顺滑方向)(嗯,啊,额,mmm等语气词,重叠词,重复说的,),子句在整个过程中,静默以及不流畅的频率。最终提取了7维的特征,标准化(均值方差归一)(比简单大数小数归一化靠谱)。 语调: 韵律特征如:基频、过零率、音高(主观,...原创 2019-07-01 19:12:26 · 1153 阅读 · 1 评论