- 博客(104)
- 收藏
- 关注
原创 Scanpy(3)单细胞数据分析常规流程
面对高效快速的要求上,使用R分析数据越来越困难,转战Python分析,我们通过scanpy官网去学习如何分析单细胞下游常规分析。数据3k PBMC来自健康的志愿者,可从10x Genomics免费获得。在linux系统上,可以取消注释并运行以下操作来下载和解压缩数据。最后一行创建一个用于保存已处理数据的目录write,后面直接使用保存的数据,能快速加载数据。
2024-06-05 11:20:31
1769
转载 ChAMP分析甲基化数据:样本信息csv的制作和IDAT读取
使用ChAMP包分析甲基化数据,chAMP包非常强大,记录一下,用于学习记录,按照自已安装的方式安装。
2024-05-24 17:34:01
348
转载 vscode远程ssh隧道连接linux服务器并配置conda环境调试python过程
vscode远程ssh隧道连接linux服务器并配置conda环境调试python过程
2024-05-10 16:28:29
266
转载 Python 调试更好的方式
在本文中,我介绍了一个很棒的 Python 第三方库,名为"Ice Cream"。它增强了Python 的普通print() 函数,并提供了详细的输出。因此,它使调试变得非常方便。Ice Cream库永远不会取代print() 函数,因为它是为调试目的而设计的。同时,它也不会取代日志系统。
2024-05-08 17:13:58
60
原创 mamba 和conda 安装R包
5. 安装包6. mamba 提速 conda6.1 安装mamba是用于管理环境的 CLI 工具,相比于conda 对包和环境的管理,mamba可以实现并
2024-04-28 16:55:10
1696
原创 Scanpy(1)数据结构和样本过滤
Scanpy 是一个可扩展的工具包,用于分析与 AnnData(一种数据结构)联合构建的单细胞分析数据。通过conda,使用命令cd。
2024-04-21 18:34:15
1567
原创 scanpy的UMAP可视化优化
在进行UMAP可视化时,经常使用scanpy.pl.umap()来进行可视化,但是有时不能画出我们想要的结果,这时应该怎么办呢?
2024-04-21 18:31:33
1125
原创 Scanpy(2)多种可视化
我们使用10x的PBMC数据集(包含68k个细胞)。Scanpy在其发行版中包含了这个数据集的缩减版,该数据集只包含700个细胞和765个高变基因。。
2024-04-19 16:24:33
1260
1
原创 损失函数中的均方误差以及平方误差
机器学习中的所有算法都依赖于最小化或最大化某一个函数,我们称之为“目标函数”。最小化的这组函数被称为“损失函数”。损失函数是衡量预测模型预测期望结果表现的指标。寻找函数最小值的最常用方法是“梯度下降”。把损失函数想象成起伏的山脉,梯度下降就像从山顶滑下,目的是到达山脉的最低点。损失函数可以大致分为两类:分类损失(Classification Loss)和回归损失(Regression Loss)。下面这篇博文,就将重点介绍5种回归损失。
2023-10-23 18:22:53
317
原创 数据+代码】LightGBM+Optuna实现回归分析
我们可以看到,LightGBM在RMSE和R2方面表现非常好,RMSE为2065.31,R2为96.68%,而线性回归的RMSE为4602.43$,R2为83.51%。此外,该图表明,与配备自动或半自动变速器的汽车相比,配备手动变速器的汽车的价格范围更窄,后者的价格范围更大。里程数:平均数约为2.5万,由于存在一个32.3万英里的异常值(这个数字太高了),我们将删除这个离群值,以获得一个更准确的数据表示。为了分析数据中的数值特征,我们将首先定义一个函数,绘制所有数字特征的分布直方图和箱线图。
2023-10-23 18:12:22
262
原创 跳过开屏广告
虽然 APP 被迫下架这事令人神伤,但大家其实完全没必要为再没有同类 APP 可用这事担心首先就是这类 APP 都是依靠安卓系统的无障碍服务,在 APP 启动时模拟人工点击跳过按钮来实现自动跳过开屏广告,实际都是无需联网即可使用的只不过因为每个 APP 的广告关闭按钮位置都不相同,联网权限只是作者为了给你更新不同 APP 的对应规则简单来说,**就是虽然在应用市场被下架了,但完全不影响 APP 的继续使用!**尽管作者以后都不会再更新规则了,但你完全可以自行添加规则继续使用。
2023-10-16 15:50:48
2357
原创 PaddleNLP开源UTC通用文本分类技术,斩获ZeroCLUE、FewCLUE双榜第一
百度构建了“任务架构统一、通用能力共享”的通用文本分类技术UTC,其实现了良好的零/少样本迁移性能。
2023-01-16 20:02:30
1817
原创 2021 年年度最佳开源软件
与Git类似,LakeFS 的数据中会带有提交记录、元数据字段和回滚等信息,此外还有hooks,即在分支合并到主分支前,hooks会检查数据,确保完整性和质量。StreamNative 将 Apache Pulsar 分布式流处理架构与 Kubernetes 和混合云支持等,以及企业级功能、大型数据、认证和授权、性能监控等工具相结合,既简化了应用程序的开发,又简化了流数据应用的部署和管理。Orange 包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。
2022-12-12 14:27:12
10289
10
原创 Python实现十大经典排序算法
排序算法是《数据结构与算法》中最基本的算法之一。排序算法可以分为内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。常见的内部排序算法有:插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。
2022-11-07 20:02:34
880
原创 数据资源网站
如美国安然公司邮件数据、美国环境污染数据、1908年以来全球空难数据、深证A股个股日线数据等数据集。资源 | 这是一份非常全面的开源数据集NLP新基准!谷歌重磅发布开放问答数据集,30万自然提问+人工注释答案最强数据集集合:50个最佳机器学习公共数据集丨资源 【OCR技术】大批量生成文字训练集...
2021-08-17 11:20:49
680
原创 学习资源网站分享
一、宏观数据国家统计局国家统计局这个网站,建议每个人没事都可以看看。为什么这么说?问你几个问题,这次第七次人口普查,进展得结果怎么样拉?全国平均工资是多少?哪个行业薪资最高?前段时间沙尘暴这么严重,我国的泥沙治理又怎么样?这些你是不是不清楚?不清楚就来这看看~平时国家统计局会发布关系国际民生的各种数据。在“人口普查公报“可以看到最新的人口普查数据。在年度数据中可以看到“城镇单位就业人员平均工资”,或者查看最新的发布报告:2020年城镇私营单位就业人员年平均工资57727元想要查
2021-08-17 10:44:09
4991
转载 Typora笔记发表文章时图片不显示问题
前言:相信我们都遇到过,使用Typora做笔记是一件非常令人舒服的事,然而,它却有一个非常难受的地方,那就是我们在做完笔记想要将其上传到自己的博客时,复制粘贴的图片无法显示。因为Typora复制的图片是在本地进行了保存,所以,我们只需要让其将图片自动上传到云上,所有的图片链接使用网页链接即可解决问题。安装所需gitee+typora+PicGo1. 准备安装PicGo:https://molunerfinn.com/PicGo/Typora:https://www.typora.io/#wind
2021-08-16 13:22:09
589
原创 2020年,那些令人印象深刻的AI论文
点击 机器学习算****法与Python学习 **,**选择加星标精彩内容不迷路作者 | Louis Bouchard,译者 | 冬雨在 GitHub 查阅完整列表:https://github.com/louisfb01/Best_AI_paper_2020观看 15 分钟时长的 2020 年度完整回放:https://youtu.be/DHBclF-8KwE1、YOLOv4: 目标检测的最佳速度和精度 [1]Alexey Bochkovsky 等人于 2020 年 4 月在.
2021-01-20 14:41:05
105
翻译 numpy列表与数组的相互转换
列表转数组1、转成数组的matrix对象,使用np.mat()方法。In [1]: a = [[2,3,4],[4,7,1]]In [2]: np.mat(a)Out[2]:matrix([[2, 3, 4],[4, 7, 1]])2、转成数组的ndarray对象,使用np.array()方法。In [1]: a = [[2,3,4],[4,7,1]]In [2]: np.arr...
2020-04-19 14:26:29
2373
原创 linux 上安装CRF++ 、问题和代码
1.在Linus 上安装crf++1)比较常用的工具就是CRF++。官网地址为:https://taku910.github.io/crfpp/ 选择CRF+±0.58.tar.gz2)tar zxvf CRF+±0.58.tar.gz 进入CRF+±0.58目录下3) ./configure4)make5)su6)make install注意:这里用crf++ 工具跑出的数...
2018-12-19 21:13:52
857
2
原创 python 遍历List各种方式
1.对zip() 函数进行测试print zip([1, 2, 3], ['a', 'b', 'c']) 结果:#[(1, 'a'), (2, 'b'), (3, 'c')]另外zip(*list)也就是数组前面带个星号,是上述操作的逆操作print zip(*[(1, 'a'), (2, 'b'), (3, 'c')])结果:[...
2018-09-15 15:42:40
6120
2
原创 Python 中执行shell 命令的总结
亲自测试成功!参考文件:Python执行Linux系统命令的4种方法:点击打开链接1. 执行操作文件,然后读取数据。p = subprocess.Popen(path_crf_test+' -m '+path_model+' '+ path_test, shell=True, stdout=subprocess.PIPE, stde
2018-07-09 11:50:57
70
1
原创 python3.5 读取文本文件出现乱码
1.读取文本文件出现乱码1.1 python2.7首先,在Python2.7的里面只要设置和编码,读取文本是没有问题的:# -*- coding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding("utf-8")一般我们用Python2.7,保证输出中文,以上就已经搞定啦。 例子:# -*- coding:
2018-07-09 11:44:05
69
1
原创 python 可视化(一):matplotlib
1.图像属性1.1 figsize=(长,宽)# -*- coding: utf-8 -*-import pylab as pltimport numpy as np# 创建一个长宽为5*4 的图,并设置分辨率为100,分辨率越大,整个图像越清晰,而且图片很大plt.figure(figsize=(5,4), dpi=100)t = np.arange(0.,4.,0....
2018-07-09 11:42:17
481
原创 python 读写csv文件
1.忽略第一行标题的基础上 Python2.7# coding:utf-8import csvcsv_reader = csv.reader(open(r'C:\Users\thinkPad\Desktop\tweets.csv'))for row in csv_reader: # 条件语句忽略第一行文件数据 if csv_reader.line_num == ...
2018-07-09 11:40:54
622
转载 一文搞懂极大似然估计
以下转自 https://zhuanlan.zhihu.com/p/26614750 极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。可能有小伙伴就要说了,还是有点抽象呀。我们这样想,一当模型满足某个分布,它的参数值我通过极大似...
2018-07-09 11:38:17
1282
原创 Python实现字典依据value排序
1.初步理解:具体内容如下:使用sorted将字典按照其value大小排序 如果key值排序x[0] 默认是从小到大顺序排列>>> record ={'a':89, 'b':86, 'c':99, 'd':100}>>> sorted(record.items(), key=lambdax:x[1])[('b', 86), ('a', 89...
2018-06-27 11:31:14
892
原创 python word2vec的使用
引用块内容#-*- coding:utf-8 -*-import sysfrom gensim.models import word2vecimport gensimimport codecsfrom textrank4zh import TextRank4Keyword, TextRank4Sentencefrom nltk.tokenize import WordP...
2018-06-27 10:45:12
2234
原创 矩阵求导公式
原文地址:矩阵求导公式【转】 今天推导公式,发现居然有对矩阵的求导,狂汗–完全不会。不过还好网上有人总结了。吼吼,赶紧搬过来收藏备份。 基本公式: Y = A * X –> DY/DX = A’ Y = X * A –> DY/DX = A Y = A’ * X * B –> DY/DX = A * B’ Y = A’ * X’ * B –> DY/DX = B...
2018-06-05 10:37:56
612
原创 列表转换成自定义矩阵、切片
列表转换成矩阵:m=10;n=7list1 = range(70)print array(list1).reshape(7, 10)sd = array(list1).reshape(7, 10)print sd[:,1:10]print list1X = mat(ones((m,n)))print Xprint '===='print X[:,1:n]结果:...
2018-05-23 16:13:37
1061
原创 《机器学习实战》笔记之九——树回归
1.决策树与回归树的区别在别人那里摘过来的,并添加自已的看法。分类树以C4.5分类树为例,C4.5分类树在每次分枝时,是穷举每一个feature的每一个阈值,找到使得按照feature<=阈值,和feature>阈值分成的两个分枝的熵最大的阈值(熵最大的概念可理解
2018-05-18 10:41:48
1508
原创 Python 面向对象和类
1.类和对象类(Class): 用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。对象是类的实例。对象:通过类定义的数据结构实例。对象包括两个数据成员(类变量和实例变量)和方法。 面向对象:是把数据和方法结合起来,进行了分装。1.1 类打个比方,类好似玩具的模子,对象就是模子刻画出的玩具。 类包含:类的名称:类名类的属性:一组数据...
2018-05-15 16:08:04
1979
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人