- 博客(11)
- 收藏
- 关注
原创 [NLP]基于jieba对含特殊字符和空格的专有名字做分词
官网issue:https://github.com/fxsjy/jieba/issues/423按照官网要求:修改jieba根目录下init.py搜索re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._]+)", re.U)改成re_han_default = re.compile("(.+)", re.U)...
2019-04-02 14:01:31
1485
原创 【Redis初级】简单动态字符串(一)
Redis是C编写的开源高性能数据服务器。参考书籍:《Redis设计与实现》 内容: -1- Redis的SDS定义 -2- SDS与C字符串的区别 -3- SDS的API-1- Redis的SDS定义:
2017-11-10 11:31:01
375
原创 【爬虫初级】爬取百度百科静态页面数据案例
目的: -1- 学习爬虫架构 -2- 学习常用爬虫模块 -3- 学习爬取静态页面准备: 课程资料 收拾了一下pycharm,eclipse用着不顺手。工欲善其事必先利其器嘛。开动: -1- 项目架构调度端 -> 管理器 下载器 解析器 -> 有效数据 url-2- 管理器 功能:添加url;取出url;区分已爬和未爬; 实现: 第一种方式:内存,如python中的set()
2017-11-09 23:24:42
518
原创 Django的Markdown解bug
1– import 报没有该模块的时候 No module named 'mdx_markdown' 把import改成 from markdown import markdown就好了。 【这个问题真是奇怪,具体原因说不清道不明。】 解决了3,又碰到这个问题了。 好多人说是没有安装库的原因。其实感觉是其他原因。 逐步寻找,果然被我在markdown的源码中找到了,我安装的markdow
2017-10-29 21:48:47
1502
原创 LeetCode 【Operating System】(一)
Linux 指令 ls的效果怎么写一个线程安全的代码线程安全的代码是怎样的segmentation fault的问题怎么debug,最好的避免segmentation fault的做法
2017-10-27 21:53:34
336
原创 python数据可视化(三)字云
下面将分两个章节具体学习wordCloud这个比较火的类。 第一个章节学使用。 第二个章节看源码,解释第一个章节中没有看懂的问题。Environment:eclipse+pydev python31–分析使用方法: 用到的库:WordCloud; matplotlib.pyplot (1)从txt文件中,读出要分析的文字数据;最好是用空格或者带标点的。这是由WordCloud的分析算法决定
2017-10-27 20:42:47
447
转载 python 数据可视化(二)
本部分内容只看类型,不看实现,功能和matlib等其他差不多。呈现类型包括但不限于:直方图、散点图、箱形图、3D图适用于金融数据和科研数据的处理。 暂时我用不到,以后闲了再来补。
2017-10-27 16:01:09
428
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人