
python
lhxsir
Unto a full grown man.
展开
-
sqlalchemy使用(python)
sqlalchemy 查询SQL:#/usr/bin/env python#coding:utf-8from sqlalchemy import create_engine,textengine = create_engine("mysql+pymysql://dbname:dbpassword@ip:3306/db?charset=utf8",encoding="utf-8",echo=True)conn = engine.connect()text_sql='show index from原创 2021-07-08 12:59:35 · 379 阅读 · 0 评论 -
[python]转换文件编码格式
临时需求,需要把两年的csv文件转换格式,因为utf-8文件用Excel打开是乱码。。。于是想着批量处理方案:# -*- encoding: utf-8 -*-"""fc_test.pyCreated on 2020/3/9 0009 下午 5:06@author: LHX"""import osimport sysimport codecsimport chardet# ...原创 2020-03-09 18:59:09 · 1401 阅读 · 0 评论 -
机器学习-逻辑回归
后期补。。原创 2019-12-15 21:48:38 · 301 阅读 · 0 评论 -
机器学习-决策树
未完待续原创 2019-12-22 14:55:13 · 106 阅读 · 0 评论 -
机器学习-KNN分类算法(下)
之前写了KNN的基本概念和python基本实现方法,并没有对模型的好坏进行判断,接下来使用训练数据集和测试数据集来判断(使用accurcay分类指标)编写自己的train_test_split测试数据集未完待续...原创 2019-11-17 21:19:26 · 143 阅读 · 0 评论 -
中文短文本聚类
文本聚类是将文档由原有的自然语言文字信息转化成数学信息,以高维空间点的形式展现出来,通过计算哪些点距离比较近,从而将那些点聚成一个簇,簇的中心叫做簇心。import randomimport jiebaimport pandas as pdimport numpy as npfrom sklearn.feature_extraction.text import TfidfTransfor...原创 2018-10-23 17:19:04 · 6077 阅读 · 0 评论 -
基于CRF的中文句法依存分析模型
依存关系本身是一个树结构,每一个词看成一个节点,依存关系就是一条有向边。本文主要通过清华大学的句法标注语料库。实现代码:import sysreload(sys)sys.setdefaultencoding('utf8')import sklearn_crfsuitefrom sklearn_crfsuite import metricsfrom sklearn.externals...原创 2018-10-25 22:13:10 · 1324 阅读 · 0 评论 -
中文短文本分类
特征提取+朴素贝叶斯模型:import randomimport jiebaimport pandas as pd#加载停用词stopwords=pd.read_csv('D://input_py//day06//stopwords.txt',index_col=False,quoting=3,sep="\t",names=['stopword'], encoding='utf-8')...原创 2018-10-23 15:49:31 · 3400 阅读 · 22 评论 -
数据转换Word2Vec和Doc2Vec
Gensim 构建词袋模型import jieba#定义停用词、标点符号punctuation = [",","。",":", ";", "?"]#定义语料content = ["机器学习带动人工智能飞速的发展。", "深度学习带动人工智能飞速的发展。", "机器学习和深度学习带动人工智能飞速的发展。&qu原创 2018-10-23 14:32:29 · 701 阅读 · 0 评论 -
文本可视化
词云在这里插入代码片关系图在这里插入代码片地理热力图在这里插入代码片原创 2018-10-23 11:32:53 · 2064 阅读 · 0 评论 -
中文文本的关键字提取
基于 TF-IDF 算法的关键词抽取import jieba.analysesentence = "人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括...原创 2018-10-23 11:19:04 · 5628 阅读 · 1 评论 -
中文分词 jieba和HanLP
安装python包:pip install nltkpip install jiebapip install pyhanlppip install gensim使用jieba进行分词import jiebacontent = "现如今,机器学习和深度学习带动人工智能飞速的发展,并在图片处理、语音识别领域取得巨大成功。"# cut_all 参数用来控制是否采用全模式segs_1 ...原创 2018-10-23 10:43:54 · 2769 阅读 · 0 评论 -
中文自然语言处理(处理流程)
主要步骤:(1) 获取语料(2) 语料预处理(语料清洗,分词,词性标注,去停用词)(3) 特征工程(4) 特征选择(5) 模型训练(6) 评价指标(错误率、精度、准确率、精确度、召回率、F1 衡量)(7) 评价指标(ROC 曲线、AUC 曲线)...原创 2018-10-23 10:10:24 · 3741 阅读 · 0 评论 -
PyCharm控制台显示unicode乱码(python程序)
控制台显示unicode乱码解决方法:把 print(segs_1)改成replace = str(segs_1).replace(‘u’’, ‘’’)print(replace.decode(“unicode-escape”))同时增加下面代码:windows下的字符串str默认编码是ascii,而python编码是utf8import sysreload(sys)sys....原创 2018-10-22 18:01:44 · 6547 阅读 · 0 评论