文本分析
项目3:基于自然语言处理的影评分析
项目简介:通过大量的正面和负面的电影评论对计算机进行自然语言训练,实现计算机对电影评论的基本情感分析,使其能够快速判断出评论是否积极
个人职责:1. 对正面和负面的电影评论进行分词处理,整理成规定的训练数据集格式;
\2. 对nltk自带的朴素贝叶斯分类器模型进行训练;
\3. 最后模拟业务场景检测训练效果
项目3:2018.08 – 2018.12 智能考试分析系统
**项目描述:**由于公务员、事业单位、国企等面试内容来源较广,面试研发人员往往需要阅读大量的新闻热点以及微信公众号等网页端内容,这使得研发人员投入大量的时间和经历搜索、查找和筛选信息,凭借人的主观臆断往往命中率较低,又由于竞争对手的压力,快、准成为赢家至关重要的因素。该系统包括数据爬取,数据清洗,关键词统计,数据可视化等模块。
**个人职责:**对公务员等面试相关的内容的数据进行清洗,分析对面试研发有用信息,提取热点新闻的关键词,预测热点考点,为公务员等的面试研发准备素材
**所用技术:**1.利用pandas对数据进行预处理,去除无效或干扰信息;
2.利用jieba分词,提取热点新闻的关键词,进行统计;
3.利用numpy,matplotlib,将分析结果可视化,形成结论。
项目2:2018.04 – 2018.08 智能批改英文作文系统
**项目描述:**为了提高批改英文作文的效率,减少人力批改的成本,研发了包括拼写检测、语法检测、统计信息、评分、web前端等几个模块的英文作文自动批阅系统,输入英文作文,极快的给出得分及评分报告。
**个人职责:**拼写检测模块、语法检测模块、评分模块
**所用技术:**1拼写检查模块用PyEnchant对单词进行检查;
2.语法检查模块采用pylinkgrammar库,主要通过语法链对语义解析;
3.评分模块主要采用机器学习的方法对给定的样本数据打分情况进行学习,拟合出最接近样本数据的各项评分权重值,从而实现接近人类的评分结果。
经销商投诉管理系统
开发工具: numpy + matplotlib + gensim + sklearn + nltk + jieba 项目描述:
本项目通过整理经销商投诉邮件,通过LDA主题模型把每个经销商邮件当做一个文档分成若干个主题。在对所有文档中主题通过无监督模型进行聚类,并通过可视化工具对每个类按照概率降序选择前20个特征词进行可视化,最后通过挖掘关键字中潜藏的信息发现经销商投诉的重要信息,并提出解决方案,反馈给供应商。
项目职责:
数据清洗,对中文邮件进行分词和英文邮件进行分词,提取词干,排除停止词,进行词性分析,排除动词和助词等;
数据预处理,对每个邮件构建词袋,并进行归一化,生成TF-IDF等;
模型建立,对于主题的个数采取随机搜索的方式选取F1得分最高对应的超参数,构建LDA模型在 聚类方面,我们对聚类几种常用的模型进行训练,选择轮廓系数接近于1的模型。
项目效果:
通过和同事一起在后期建立模型并进行数据分析,并提出在聚类方面考虑用并结合实际,总结出最优的解决方案反馈给供应商,供应商接受的方案,几个月内投诉邮件有了明显的减少。
项目名称:客服聊天机器人
项目简介:
智能聊天机器人通过对客服工作中的重复性问题和标准化问题进行实时处理,
来辅助人工客服以更加经济高效的方式24小时的为客户提供服务,人工客服
能够集中精力为