
数据挖掘
文章平均质量分 93
Shaun_Xi
大数据小学生
展开
-
【30天从入门到放弃】我的机器学习之路 4
周末注册了kaggle,为了先熟悉一下这个平台。今天用了大半天的时间刷完了一个新手副本任务--泰坦尼克号存活率预测(这个应该算是kaggle上的“hello world”级别的项目了,借这个项目正好复习一下整个流程,关于上一期时序预测的题,咱们暂且往后排。)一、赛题背景 1912年4月15日,泰坦尼克号在处女航中撞上冰山后沉没,造成了2224名乘客和船员中的1502人遇难,即32%的存活率。 海难导致这么多人丧生的原因之一是没有足够的救生艇容纳乘客和船员。 虽然在沉船事..原创 2021-01-11 18:46:12 · 301 阅读 · 0 评论 -
数据挖掘干货总结(一)--NLP基础
本文共计1463字,预计阅读时长八分钟NLP-基础和中文分词 一、本质NLP (Natural Language Processing) 自然语言处理是一门研究计算机处理人类语言的技术 二、NLP用来解决什么问题语音合成(Speech synthesis)语音识别(Speech recognition)原创 2018-01-03 14:55:43 · 2378 阅读 · 0 评论 -
数据挖掘干货总结(二)--NLP进阶-详解Jieba分词工具
NLP进阶-详解Jieba分词工具一、Jieba分词工具1. 三种模式• 精确模式:将句子最精确的分开,适合文本分析• 全模式:句子中所有可以成词的词语都扫描出来,速度快,不能解决歧义• 搜索引擎模式:在精确模式基础上,对长词再次切分,提高召回 2.实现的算法• 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有原创 2018-01-04 11:55:57 · 667 阅读 · 0 评论 -
数据挖掘干货总结(三)--分类算法
分类算法一、本质给定一个对象X,将其划分到预定义好的某一个类别Yi中的算法二、分类算法用来解决什么问题人群分类,新闻分类,query分类,商品分类,网页分类,垃圾邮件过滤,网页排序三、有哪些分类算法(2~6为扩展)1. Naive Bayesian Mode朴素贝叶斯模型最简单的监督学习分类器,这个分类器模型是建立在每一个类别的特征向量服从正态分布的...原创 2018-01-05 12:24:02 · 23571 阅读 · 2 评论 -
SQL总结-思维导图
以上.听说,爱点赞的人运气都不会太差哦如果有任何意见和建议,也欢迎在下方留言~ 关注这个公众号,定期会有大数据学习的干货推送给你哦~只分享干货!只分享干货!只分享干货!点击这里查看往期精彩内容:每日三问(0101)每日三问(0102)每日三问(原创 2018-01-06 11:55:41 · 3346 阅读 · 1 评论 -
数据挖掘干货总结(五)--推荐算法之CB
本文共计927字,预计阅读时长六分钟推荐算法(一)--CB算法 一、推荐的本质推荐分为非个性化和个性化,非个性化推荐比如各类榜单,而本系列主要介绍个性化推荐,即:在合适的场景,合适的时机,通过合适的渠道,把合适的内容,推荐给合适的用户 二、推荐算法的种类1. 基于内容Content Based2. 基于协同Collaboration Filtering– User Based CF– Item B...原创 2018-05-02 22:43:11 · 952 阅读 · 0 评论 -
数据挖掘干货总结(六)--推荐算法之CF
本文共计1245字,预计阅读时长八分钟推荐算法(二)--CF算法一、推荐的本质推荐分为非个性化和个性化,非个性化推荐比如各类榜单,而本系列主要介绍个性化推荐,即:在合适的场景,合适的时机,通过合适的渠道,把合适的内容,推荐给合适的用户二、推荐算法的种类1.基于内容Content Based2.基于协同Collaboration Filt...原创 2018-05-02 22:46:15 · 7025 阅读 · 0 评论