- 博客(21)
- 收藏
- 关注
原创 为学英语撰文立誓
想明白了,英语的就是多听,多说,多练,达到孰能生巧的地步。才能像形成肌肉记忆一样,快速反应,其实我认为也是肌肉记忆。而作为一门语言,其复杂程度,至少需要三五年方可达到正常交流的程度。所以,这个过程会是漫长和煎熬的,需要坚持不懈和持之以恒的信念来支撑。这里立个誓言,以鼓励自己能坚持下去。
2023-05-05 19:01:00
62
原创 数学角度解析朴素贝叶斯算法
简介朴素贝叶斯算法仍然是流行的十大挖掘算法之一,也是是文本分析领域最为常用的算法之一,该算法是有监督的学习算法,解决的是分类问题,如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的正态性假设为前提,就会导致算法精度在某种程度上受影响。1. 预备数学知识1.1 求极值问题人工智能中札核心的数学环节是求出一个目标函数最小值或最大值。我们高中时学过的将
2020-07-03 08:31:45
314
原创 对svm的通俗解释
简介这里引用李航老师《统计学习方法》里的介绍。支持向量机(support vector machines, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;SVM还包括核技巧,这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。SVM就是寻找可以区分两个类别并且能使边际(margin)最大的超平面(hyp
2020-07-03 00:21:09
1909
原创 语言模型的评估指标-Perplexity
前言语言模型是什么呢?标准定义:对于语言序列w1,w2,...,wnw_1,w_2,...,w_nw1,w2,...,wn,语言模型就是计算该序列的概率,即 P(w1,w2,...,wn)P(w_1, w_2,...,w_n)P(w1,w2,...,wn)。通俗解释:判断一句话是不是我们正常说的话,即是不是人话。如P(我,打,篮球)>P(篮球,打,我)。那么怎样评估语言模型好坏呢?这里介绍一个评估指标:perplexity(困惑度)由于网上有很多对perplexity的解释,这里
2020-06-25 00:09:11
1962
原创 colab释放gpu显存
第一步:安装psmisc,以便可以使用fuser工具!aptinstallpsmisc第二步:用fuser查占用gpu进程!sudofuser/dev/nvidia*3、用查到的pid杀进程,释放gpu显存!kill-9pid
2020-06-21 20:37:46
5951
1
原创 分类问题与回归问题
分类问题预测的是类别,模型输出是概率分布。 三分类问题输出例子:[0.1, 0.2, 0.7]。回归问题输出的是值,模型的输出是一个实数值。
2020-06-17 07:36:41
635
原创 文本预处理技术
自然语言处理简介:自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。自然语言处理(NLP)=自然语言理解(NLU)+ 自然语言生成(NLG)。这三者的关系如下图:在NLP工程中,文本预处理通常包含以下几个步骤:分词:一、分词需要工具,以下是常用开源分词工具:Jieba分词 https://github.com/fxsjy/jiebaSnowNLP http
2020-06-15 22:41:21
1790
原创 爬京东整站遇坑记(一)
我是从首页开始爬取的,首先就是获取京东首页里的商品类别的链接,我这里就讲我在获取链接中遇到的问题1、京东商品类的链接是动态加载的,所以不能直接爬取。需要调取网页调试工具,然后切换到network窗口,然后再搜索框中输入:list.jd.com,就可以很幸运的获得动态链接的地址,动态链接是json数据格式。2、在解析动态链接过程中,json数据中包含有list格式的值,是京东把子类别以字典的形式存放。以下是解析json数据的代码。def parse_first_page_url(urls):
2020-06-11 16:42:51
185
原创 scrapy爬虫:pycharm调试
接上篇文章:爬京东整站:创建项目 在jd\jd目录下,创建main.py文件然后在main.py写入以下代码import sysimport osfrom scrapy.cmdline import executesys.path.append(os.path.dirname(os.path.abspath(file)))execute([“scrapy”, “crawl”, “product_data”])**注意:**execute([“scrapy”, “crawl”, “produ
2020-06-10 23:59:10
384
原创 scrapy爬虫:创建项目
cd 到存放项目目录scrapy startproject jdcd jd创建虚拟环境:virtualenv env启动虚拟环境:cd env/Scripts && activate && cd …/…/在jd目录,创建新文件requirements.txt,用于存放需要用到的库名,以便下载安装。安装requirements.txt中的库,这里指定阿里云为安装源pip install -r requirements.txt -i https://mi
2020-06-10 23:44:01
240
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人