VFAing-优快云博客

代码见jupyter notebook整理后：决策树，linear svc, logistic regression.ipynb下面见注意事项和要点：决策树**缺失值处理**决策树不需要对数据标准化，它的标签也不需要LabelEncoder处理，但是标签必须英文，画图时显示出来才方便。**画图前还要准备好容器，否则决策树图像堆叠在一起**用max_depth和min_samples_split两个参数控制决策树复杂度**使用GridSearchCV搜索也...

2022-05-14 23:07:43 474

原创 scikit-learn机器学习分析股票板块数据（KMeans,PCA,参数选择）

本文notebok下载根据软件板块数据，考虑类别时可以使用kmeans等分类算法，而不考虑分类则可以使用pca类算法查看主要成分。本次项目涉及到下图中的两个板块，下次文章再去涉及下图其他两个板块。PCA算法实践与主成分个数选择主成分分析之前查看相关性，剔除相关性高的项，可以提高主成分分析有效性。本数据中多重共线性不严重，不用剔除数据。数据应用于算法前先做缺失值和标准化处理。准备好pipeline:将数据预处理pipeline应用于数据。为了选择出pca合适的主成分个数

2022-05-09 04:58:02 2286

原创残差分析三要素（补充说明OLS六个条件与残差季节性）

上一篇文章SPSSAU中逐步回归法——探索分析单支股票数据（实践）上一篇文章中逐步回归后留下的残差做了正态性检验，正态性检验通过，我提到残差分析不止是正态性检验。ols的假设条件前三条是：回归方程关于回归系数是线性的。自变量x不是随机的。数学上方便，此条被一些教科书舍弃了。残差项服从正太分布。所以需要对残差做正态性检验。剩下关于残差的重要性的3各条件是：线性：linearity:残差期望值为零。残差没有趋势。通过话趋势线来观察。同方差：equal variance:残差方差

2022-05-07 01:35:09 4276

原创 hive用法

sql语句指定数据库名称是个好习惯;GRANT根据roles,group,or individuals设置权限;CREATE TABLE语句指定数据在文件中如何被分割CREATE TABLE jobs (id INT,title STRING, salary INT, posted TIMESTAMP)ROW FORMAT DELIMITEDFIELDS TERMINATED BY ',';也可以terminated by '\t'。如果不指定hive就使用默认字段分割符（ASC

2022-04-26 22:46:59 2107

原创 SPSSAU中逐步回归法——探索分析单支股票数据（实践）

数据说明：还是选择万兴科技的股票数据来做回归分析，和《股票时序分析和时序模型（实践）》这篇文章使用数据一致。需要说明由于spssau免费账号最多输入50项数据，所以使用的都是近50期数据。虽然《股票时序分析和时序模型（实践）》最后说明了spssau的ARIMA推荐模型没有考虑滞后阶数和AIC/BIC与python结果不一致这两个问题。但是通过相关性可视化，我们发现spssau被多个知名高校使用，它的其他分析结果不需要太怀疑。正在上传…重新上传取消spssau上的相关分析图正在上传…重新上传取消p

2022-04-26 20:55:55 1955

原创对中成药做关联规则，挖掘用药思路（以鼻炎药为例）

apriori算法所用资料的思维导图apriori算法所用资料从excel加载数据import requestsfrom lxml import etreeimport mathimport timeimport datetimeimport pandas as pdimport jsonimport csvimport codecs#codecs.BOM_UTF8import reimport localeimport jsonimport multiprocessing

2022-04-11 19:04:30 1742

原创基于Anaconda使用virtualenv的过程和问题

问题：由于使用anaconda时已经是在一个虚拟环境里了。当再次下载virtualenv创建的虚拟环境就变得“奇怪"，不能在anaconda的虚拟环境里面激活virtualenv的虚拟环境。.在anaconda内使用virtualenv好处是不用本地下载python打开anaconda prompt依次输入以下：conda onfo -e#查看anaconda的虚拟环境activate for_django#转到要运行django项目的虚拟环境pip install virtualenv

2022-03-25 20:37:20 986

原创日常食物生克关系与营养价值分析 (Tableau Public)

爬取数据tableau可视化tableau online地址欢迎去页面试试。右上筛选器应用于仪表盘上所有工作表，我选择出我日常吃的食物。右下筛选器仅作用于”营养值工作表"，点击箭头标出的按钮依次对比不同食物的某种营养值。鼠标滑动到鸡胸下面的芝麻这里，可以看到详细信息显示“相克","一起吃严重会导致死亡”。这个结果有些惊人，用我的中医五行思想想一下的话，或许芝麻属肾水，鸡肉属于心火，水火不容。从上图知道。炒胡萝卜不应该放醋。带鱼硒含量高，日常食物中只有胡萝卜有维.

2022-03-25 20:35:10 214

原创获取晋江优质小说（按章节数量选择、python多进程）

使用工具获取xpath路径查看网页编码筛选依据一个重要的原因是如果这本小说写得不好的话，那么作者很可能没有更新动力，也就写不了太多章节。第二嘛小说章节太少多半是没写下去了或则情节太简单、设计不成熟。所以先用晋江的筛选工具筛选第一次，若然后留下的小说就可以用本部分代码选择章节数量超过设置数值的小说。步骤1进入手机版，页面如下，复制url2根据口味和一般这类小说的章节数量设置阈值比如我喜欢的《毒系女配修魔录》，章节213，我就把阈值设置为150.3代码#..

2022-03-25 20:34:41 2574

spacy对应的中文transformer模型，加载可提高分词效果

还写了篇spacy的文章，可以结合看。

2022-08-02

github copilot 1.1.28

安装说明文章在https://mp.youkuaiyun.com/mp_blog/creation/editor/126049173,github copilot能够用ai技术智能补齐代码，提高代码生产力.

2022-08-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

VFAing的博客

原创 NB-SVM strong linear baseline

原创 Pycharm插件安装记录（github copilot）

原创 pandas的series技术总结

原创用探索性分析做数据质量自查和明晰distinct和unique概念

原创高德搜索POI：以获取小区数据为例

原创 pytorch验证码识别crnn+ctcloss+beam_search_decoder从0到1（附避坑要点！）

原创机器学习之分类算法实践要点(决策树，svc,逻辑回归)