平原2018-优快云博客

原创超好用Python小功能（持续更新中）

1、把数字转为千位数值类型 str2 = '-1234567898.71' result = "{:,}".format(float(str2)) print(result)结果-1,234,567,898.712、找出字符在字符串中的位置 #找出点在字符串中所有的位置 str1 = '123.456.789.87' index = [m.st......

2020-04-09 22:32:49 2909 2

原创 gpt4识别广告图片

1、新建一个recognition_project目录，把图片放到default下，然后把脚本放到目录下。base_url 是中转站或者openai的官网地址，如果你买的中转站的，就用中转站的地址即可。本小项目，是根据多张拼接的图片，使用gpt4进行批量识别，并根据提示词分析。api_key是openai的key。2、配置gpt的key。

2024-03-10 10:36:23 997

在 CentOS 上，如果您想让普通用户安装和使用 Docker，您需要执行以下步骤。oneapi中的通用key，如果配置的是本地chatglm或者m3e向量模型，填以下key即可。注：配置oneapi服务地址，如果127.0.0.1 不管用，使用服务器中的ifconfig。请注意，用户必须注销并重新登录才能在不使用 sudo 的情况下运行 Docker 命令。最后访问：127.0.0.1:4000即可，默认用户root，默认密码1234。注：如果中间出现奇奇怪怪的问题，可以重新拉取，删掉容器重新启动。

2024-03-10 10:10:27 7716

原创 chatglm3微调以及加速

本文是对chatglm3进行微调，并对微调过后的模型进行加速。

2024-03-08 18:36:19 788 1

原创 Miniconda虚拟环境安装(chatglm2大模型安装步骤二)

服务器系统：Centos7.9 x64显卡：RTX3090 （24G）

2023-11-27 20:22:02 914

原创 centos 显卡驱动安装(chatglm2大模型安装步骤一)

显卡驱动安装。

2023-11-27 20:16:31 1328

原创 ChatGLM2详细安装部署（chatglm2大模型安装步骤三）

服务器系统：Centos7.9 x64显卡：RTX3090 （24G）虚拟环境：Miniconda3。

2023-11-27 20:10:28 1548

原创 xgboost配置GPU

说明：博主的显卡为3090，驱动为470.94，CUDA版本为11.4，cmake 3.3.2，gcc 7.3.1以上版本配置xgboost（2.0.0）GPU可以直接调用直接安装即可 pip install xgboost==2.0.0。

2023-10-17 20:12:41 2718 2

原创 pyspark 对xgboost操作记录（待续）

大数据集群安装搭建请参考这个链接，很详细。1、连接pyspark，配置xgboostimport pandas as pdfrom pyspark.sql.functions import colfrom pyspark.sql import SparkSessionfrom pyspark.ml import Pipeline,PipelineModelfrom sklearn.utils import shufflefrom pyspark.sql import functionsfro

2021-05-18 17:28:03 652

原创 Anaconda 介绍和使用

一、Anaconda安装方法安装方法网上很多，下面的链接亦可。https://blog.youkuaiyun.com/weixin_43715458/article/details/100096496二、Anaconda常用指令1、查看Anaconda下面有什么虚拟环境conda info -e2、进入某个虚拟环境osx/linux:source env_name 或 source activate env_namewindows:activate env_name3、查看虚拟

2020-11-09 09:42:48 512

转载 pip 安装module 多种服务源（避免网速慢或者单一阻碍安装）

中断的原因由于服务器不稳定或者距离太远**处理方法使用国内的资源，速度超级快，不中断列举如下：pip install -i https://pypi.douban.com/simple module # 使用豆瓣源pip install -i http://mirrors.aliyun.com/pypi/simple/ module # 阿里云pip install -i https://pypi.mirrors.ustc.edu.cn/simple/ module # 中国科技大学pip

2020-11-06 11:35:51 614

原创 git关联远程仓库操作方法

一、git关联远程仓库操作1、本地初始化空仓库git init2、添加当前目录中所有内容如到暂缓区git add .3、提交到本地仓库管理git commit -m ‘初始化项目'4、和github仓库关联（需要去github建一个分支）git remote add origin github分支地址5、提交到githubgit push -u origin master完成，可以去github验证二：其他git操作方法1、修改内容添加taggit add .git

2020-09-27 14:40:38 2756

原创 ubuntu下Python gevent 报错

解决方案6.1 pip3 install --upgrade pip6.2 pip3 install greenlet6.3 pip3 install gevent

2020-09-22 17:54:30 421

原创 python 多进程跑函数

python 多进程跑函数import multiprocessingdef calculation(num): for i in range(num): a = num + 3 print(a) return aif __name__ == '__main__': lists = [i for i in range(10000000)] cores = multiprocessing.cpu_count() prin

2020-07-24 13:39:34 503

原创实现windows 和linux环境 word转pdf功能

本文章实现不同环境，word文档转pdf文档文章目录一、linux环境1、环境安装2、测试安装是否成功：问题汇总：1、linux系统缺少中文字体导致2、禁用libreoffice屏幕显示（不一定管用）二、windows环境1、环境安装三、windows和linux集成代码一、linux环境1、环境安装去网站下载最新版libreoffice安装包https://mirrors.cloud.tencent.com/libreoffice/libreoffice/stable/以下几个版本都可以d

2020-06-10 09:40:40 1600

原创上大学前必读的书单

一、文学类二、历史类三、哲学类四、思维类五、科学类六、经济类内容来自：吴军的《谷歌方法论》在昨天写给你的来信中，向你推荐了一些美国中小学生的书单。今天把我在《硅谷来信》中列的中学生书单分享给你。即使你不是这个年龄阶段的人，也希望它们对你能够有所启发，没有读过的书，现在拿起来读一读也无妨。希望你可以把这份书单分享给你的学生朋友和他们的家长。一、文学...

2020-04-23 17:58:17 2502

原创利用百度AI接口评估语句通顺度

如何判断一句话是否通顺，通顺程度如何，这里用到了百度AI的DNN语言模型接口例如：“今天成立了中华人民共和国”，对此句子分析1、获取百度的tokenclient_id:是主持百度AI后的idclient_secret：相当于秘钥获取token可以访问：https://jingyan.baidu.com/article/1612d50088bab6e20e1eee87.html# 获取百...

2020-04-23 16:55:24 7340 1

原创 python 将多个表格合并成一个表格中的多个sheet

本篇介绍，把多个excel表分别写到一个表格对应的多个sheet里面，每个表的名称就是sheet的名字import osimport pandas as pddir = './table_dir'# 获取目录下所有的表origin_file_list = os.listdir(dir)print(origin_file_list)with pd.ExcelWriter('resu...

2020-04-02 09:06:52 5788 3

转载如何通俗地讲解 viterbi 算法？

原文链接一、通俗地讲解 viterbi 算法这篇回答你绝对看得懂！如下图，假如你从S和E之间找一条最短的路径，除了遍历完所有路径，还有什么更好的方法？答案：viterbi (维特比)算法。过程非常简单：为了找出S到E之间的最短路径，我们先从S开始从左到右一列一列地来看。首先起点是S，从S到A列的路径有三种可能：S-A1、S-A2、S-A3，如下图：我们不能武断的说S-A1、S-A2...

2020-02-07 14:59:54 874

原创 python 合并两个txt文件

合并两个txt文件合并两个文件，其实只要把文件2的内容追加到文件1中就可以了例如，现有两个文件，file1和file2：file1.txt：123456file2.txt：abcdef代码如下：file1 = 'file1.txt'file2 = 'file2.txt'def merge(file1, file2): f1 = open(file1, 'a...

2019-11-21 21:16:25 13661 3

转载常见30种NLP任务的练手项目

1.分词 Word Segmentationchqiwang/convseg ，基于CNN做中文分词，提供数据和代码。2.词预测 Word PredictionKyubyong/word_prediction ，基于CNN做词预测，提供数据和代码。3. 文本蕴涵 Textual EntailmentSteven-Hewitt/Entailment-with-Tensorflow，基于Te...

2019-09-21 14:33:47 1206

转载 Keras同时用多张显卡训练网络

文章目录References.0. 误区1. 目的2. 实现2.1 设计一个类2.2 调用非常简洁转自：https://www.jianshu.com/p/db0ba022936fReferences.官方文档：multi_gpu_model以及Google0. 误区目前Keras是支持了多个GPU同时训练网络，非常容易，但是靠以下这个代码是不行的。os.environ["CUDA_...

2019-05-17 10:51:07 2500

原创面试算法简述

文章目录一、机器学习生成模式和判别模式的区别：感知机：K-means：k近邻：朴素贝叶斯：极大似然估计：逻辑回归(LR)：L1和L2的区别FP(FP-growth)关联算法支持向量机(SVM)：决策树：bagging随机森林：boosting梯度提升和梯度下降的区别：GBDTXGBoost：GBDT和XGBoost区别（百面机器学习）：降维LDA(隐含狄利克雷分布)：EM算法：动态规划图模型发展史...

2019-05-08 21:16:42 2416

转载极大似然估计详解

https://blog.youkuaiyun.com/zengxiantao1994/article/details/72787849

2019-03-19 11:03:54 389

转载 Frequent Pattern 挖掘之二(FP Growth算法)

文章目录FP树构造FP树的挖掘每一步都很详尽，推荐看FP树构造FP Growth算法利用了巧妙的数据结构，大大降低了Aproir挖掘算法的代价，他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对。为了达到这样的效果，它采用了一种简洁的数据结构，叫做frequent-pattern tree(频繁模式树)。下面就详细谈谈如何构造这个树，举例是最好的方法。请看下面这个例子：这张表描...

2019-03-08 15:51:44 775

原创 NLP基础算法总结

NLP基础算法总结一、词法分析1、分词二、句法分析三、语义分析四、文档分析五、其他nlp(Natural Language Processing) 简称：自然语言处理以下为自然语言处理用到的基础算法，包括词法分析、句法分析、语义分析、文档分析、其他一、词法分析词法分析包括分词、词性标注、实体识别、拼写检查等。1、分词分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行...

2019-02-28 13:39:03 39558 2

原创解决centos配置的eth0不生效问题

自己在虚拟机中配置的eth0，重启或者迁移镜像之后，静态ip不生效，查看ifconfig，结果生成了新的eth1。第一步：$ vim /etc/udev/rules.d/70-persistent-net.rules 复制里面"00:0c:29:f7:80:12"（也就是mac地址）,并把eth0改成eth1。（如图）第二步：进入ip配置文件$ vim /etc/sysconfi...

2019-01-12 16:34:09 5194

原创 jupyter notebook 恢复误删单元格或者历史代码

1、先说恢复误删单元格的操作前提不要关闭notebook窗口。解决方法：先按Esc键进入命令模式，在按z键就会恢复。记住不要按Ctrl+z（这个只限没删除单元格的常规操作）命令模式和编辑模式识别：命令模式：左侧为蓝色。编辑模式：左侧为绿色，可以直接写入内容。2、恢复原来写过的代码场景：在某个窗口写了很多代码，又删除了很多单元格，想找回原来的代码。解决方法：直接在一个单元格中写入...

2018-12-03 10:45:32 33075 16

原创 fp_growth（Frequent Pattern tree）关联算法

注意：此方法笔者已经试过，计算关联词，在跑大批量数据模型的时候，很消耗内存。打个比方，如果你的数据集足够大，内存全部能吃完。具体一点，每个子列表有10个词，共500个子列表，16个G不够用的，可以想象上万条以上是什么情况。改进的方法：1、upgraded FP-growsth, UFP 算法http://www.bjutxuebao.com/bjgydx/article/2016/0254-...

2018-11-16 10:44:03 884

原创 wordcloud解决‘'list' object has no attribute 'items'’

由于fit_words需要传入字典格式，原来传入列表会报错from os import pathfrom wordcloud import WordCloudfrom matplotlib import pyplot as plt# 定义为列表会报错frequencies = [(u'知乎',5),(u'小段同学',4),(u'曲小花',3),(u'中文分词',2),(u'样例',1)...

2018-11-12 20:10:56 26461 1

原创 pandas apply应用并行进程，多核加快运行速度

前言: 在进行数据处理的时候，我们经常会用到 pandas 。但是 pandas 本身好像并没有提供多进程的机制。本文将介绍如何来自己实现 pandas (apply 函数)的多进程执行。其中，我们主要借助 joblib 库，这个库为python 提供了一个非常简洁方便的多进程实现方法。注意：本文说的都是多进程而不是多线程。功能需求：为了匹配两个datafarme中相同的部分，并把【’是否购...

2018-11-07 10:11:48 22114 4

原创解决pandas合并某一列的文本内容

最近在做文本聚类时遇到，需要把某列的文本内容统一合并，其实很简单。上代码import pandas as pddf = pd.DataFrame({'text':['今天天气不错，适合出去玩。', '最近在上海举办了中国进口博览会，', '各国大展拳脚，', '希望国家越来越好，', '人民越来越富。']})...

2018-11-06 16:44:27 5621

原创协同过滤之基于用户-物品矩阵推荐系统(待续)

先上图，第一个是基于物品协同过滤推荐，第二个是基于用户的协同过滤推荐这个两个步骤差不多。先说基于物品的协同过滤，原理就是上面这张图，下面说步骤一、基于物品的协同过滤步骤： 1、根据用户对物品的评分构建用户-物品矩阵 2、创建一个n*n的物品相似度矩阵在产品-产品协同过滤中的产品之间的相似性值是通过观察所有对两个产品之间的打分的用户来度量的通过计算每一个i物品...

2018-10-17 15:02:16 8109 2

原创 GBDT和XGBoost区别-结论：

GBDT和XGBoost区别（百面机器学习）： 1、GBDT是机器学习算法，XGBoost是该算法的工程实现 2、在使用CART作为基分类器时，XGBoost显式的加入正则项来控制模型的复杂度，有利于防止过拟合，从而提高模型的泛化能力 3、GBDT在模型训练时只使用了代价函数的一阶导数信息，XGBoost对代价函数进行二阶泰勒展开，可以同时使用一阶和二阶导数 4、传统的GBDT采用CART...

2018-09-14 18:10:04 2089

原创 UserCF和ItemCF的综合比较（待续）

UserCF是推荐系统领域较为古老的算法， 1992年就已经在电子邮件的个性化推荐系统Tapestry中得到了应用， 1994年被GroupLens①用来实现新闻的个性化推荐，后来被著名的文章分享网站Digg用来给用户推荐个性化的网络文章。 ItemCF则是相对比较新的算法，在著名的电子商务网站亚马逊和DVD租赁网站Netflix中得到了广泛应用。 UserCF给用户推荐那些和他有共同兴趣爱...

2018-09-08 17:55:19 2595

原创偏差（bias)和方差(variance)区别：

偏差（bias)和方差(variance)区别：偏差指的是算法的期望预测与真实预测之间的偏差程度，反应了模型本身的拟合能力；方差度量了同等大小的训练集的变动导致学习性能的变化，刻画了数据扰动所导致的影响。当模型越复杂时，拟合的程度就越高，模型的训练偏差就越小。但此时如果换一组数据可能模型的变化就会很大，即模型的方差很大。所以模型过于复杂的时候会导致过拟合。...

2018-09-05 20:23:15 5318

转载关于Deep learning和NLP实战应用项目

karpathy/char-rnn · GitHub ：一个基于RNN的文本生成器。可以自动生成莎士比亚的剧本或者shell代码。 https://github.com/karpathy/char-rnnphunterlau/wangfeng-rnn · GitHub ：基于char-rnn的汪峰歌词生成器 https://github.com/phunterlau/wangfeng-r...

2018-08-25 16:03:58 7864

原创深度学习之seq2seq简单介绍(待续)

Seq2Seq模型是RNN最重要的一个变种：N vs M（输入与输出序列长度不同）。这种结构又叫Encoder-Decoder模型。原始的N vs N RNN要求序列等长，然而我们遇到的大部分问题序列都是不等长的，如机器翻译中，源语言和目标语言的句子往往并没有相同的长度。为此，Encoder-Decoder结构先将输入数据编码成一个上下文向量c：、得到c有多种方式，最简单的方法...

2018-08-23 20:11:27 1186

原创自然语言处理之word2vec原理词向量生成

链接来自：https://www.zhihu.com/question/44832436/answer/266068967前言word2vec是如何得到词向量的？这个问题比较大。从头开始讲的话，首先有了文本语料库，你需要对语料库进行预处理，这个处理流程与你的语料库种类以及个人目的有关，比如，如果是英文语料库你可能需要大小写转换检查拼写错误等操作，如果是中文日语语料库你需要增加分词处理。...

2018-08-23 19:57:19 4947 1