以待成追忆-优快云博客

原创爬虫——将amazon集成到scrapy里面

这一篇章的任务是将我们前两个篇章的内容给转移到scrapy里面，相当于前面两章在scrapy实现，整体上没多少变化。

2025-03-30 00:53:12 1114

原创 Scrapy——Redis空闲超时关闭扩展

很烦，没说会一直监听啊，烦死了=。=，当时设置了一个拓展件。，这个拓展件就是用来自动结束的。

2025-03-25 19:10:56 360

原创 scrapy——playwright与selenium比较

和Selenium在Scrapy中的集成方式存在本质差异。(水一篇~）

2025-03-24 12:37:41 809

原创爬虫——将数据保存到MongoDB中

deepseek推荐的，爬虫用mongodb比mysql效果要好一些，所以就尝试一下。

2025-03-22 16:11:08 2913

原创爬虫——playwright获取亚马逊数据

playwright是微软新出的一个测试工具，与selenium类似，不过与selenium比起来还是有其自身的优势的（除了教程少是弱项）。任何浏览器 • 任何平台 • 一个 API跨浏览器。Playwright 支持所有现代渲染引擎，包括 Chromium、WebKit 和 Firefox。跨平台。在 Windows、Linux 和 macOS 上进行本地或 CI 测试，无头或有头。跨语言。

2025-03-20 17:08:58 3644

原创 scrapy——m3u8视频线程池下载（不写scrapy了）

上一章讲到视频的爬取，用HLS技术，但是有几个问题要注意，对于普通的视频文件，只要在response中可以直接获取视频地址url的，通常都是直接通过视频地址下载，无需在进一步获取m3u8。所以这一章里面，将完善这一流程。

2025-02-14 14:34:58 2437

原创 scrapy——爬图片和m3u8视频（前瞻）

在上一篇中我们开启了使用的爬虫模式，现在要学习一些基础内容，就是爬取图片，外加下载m3u8视频。而再下一篇的内容则是+爬视频，就是做一个解析+转移。

2025-02-07 14:53:11 1579

原创 scrapy——滚动获取页面获取数据

在上一篇中我开启了scrapy篇章，但是这个页面是滚动获取数据的页面，并不存在分页，需要滚动到底部才能获取数据，这尼玛就犯难了。F12selenium后台api是这个：所以放弃，因为我不会构造！只能退而求其次用selenium。

2025-02-04 15:36:03 1201

Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。最初是为了页面抓取所设计的，想要看他们的结构特点可以自己百度一下。item定义你要提取的内容（定义数据结构），比如我提取的内容为漫画名称和地址，要在。建议不要搞大公司的，但是可以搞海外的服务器什么的。这里就用海外公司的网站。由于是开始尝试爬虫，只将其输出出来就行了，不保存到数据库中，所以只要在。文件是我自己生成的，可以略过。文件里面写，这个文件是执行。要写爬虫的主要部分，在。这句话的时候生成的，在。

2025-02-02 20:18:44 1169

原创 scRNA——RNA速率

单细胞数据集能够以高分辨率研究生物过程，如早期发育。然而，由于单细胞测序的破坏性，无法追踪细胞表型特征随时间的变化。每次测序后细胞会被销毁，导致无法在不同时间点重新测量其特征。虽然轨迹推断（TI）方法可以帮助恢复发育过程中的时间位置，但传统的TI方法缺乏动态信息，并且通常只考虑转录组数据和相似性，未能整合更多的信息。

2025-02-01 15:01:58 520

原创 scRNA——StaVIA细胞轨迹

可视化从根状态到终末状态的概率路径，路径的谱系可能性越高，表示该细胞向目标终末状态分化的潜力越大。此分析可以在单细胞层面进行可视化，也可以与 Atlas View 结合，展示细胞间的连接性和路径。在这里，我们使用sc.pl.embedding自动为每个簇着色，如果需要指定自己的颜色，可以指定调色板参数。VIA是一种单细胞轨迹推理方法，可提供拓扑结构，伪时间，自动终末状态预测和沿谱系的时间基因动力学的自动绘制。以不同的方式可视化投影到2D嵌入（UMAP，PHATE，TSNE等）上的整体轨迹。

2025-01-29 20:56:49 977

原创 CNV——检测

前一章，介绍了文件的准备，然后接下来要做的是跑流程的了。由于这些bam比对的是hg19的参考文件，所以使用GRCh37的内容。由于上一章给的都是男性样本，缺少女性样本，所以在额外加三个样本，里面包含一个女性样本。

2025-01-28 19:24:19 1219

原创 scRNA——细胞比例分析

除了每种细胞类型的丰度之外，典型的单细胞数据集还以基于树的分层排序的形式包含有关不同细胞相似性的信息。在单细胞分析中，除了关注基因表达模式受不同条件所影响导致的改变之外，还会关注细胞组成比例，例如在某些刺激下，细胞类型会发生变化，细胞组成是一种整体性的变化，因此需要大量的细胞以及样本数量，才能证实组成的变化发生。为了概述不同条件下的细胞类型分布，我们可以使用 scCODA 的boxplots. 为了更好地了解数据的分布方式，红点显示实际的数据点。的数据，下面的预后细胞比例分析，则是另外的数据。

2025-01-27 00:06:27 1091

原创 CNV——文件准备

拷贝数变异，是由基因组发生重排而导致的，一般指长度为1 kb以上的基因组大片段的拷贝数增加或者减少，也包括DNA 片段长度在1Kb-3Mb的基因组结构变异，包含缺失、插入、重复、重排、倒位、DNA 拷贝数目变化。异常的DNA拷贝数变化（CNV）是许多人类疾病（如癌症、遗传性疾病、心血管疾病）的一种重要分子机制。

2025-01-22 14:43:20 751

原创 scRNA——差异基因表达分析

所以希望能在单细胞水平上，进行差异表达分析。单细胞RNA-seq由于自身测序特点的缘故，与RNA-seq数据相比，有明显的稀疏性（漏检），既是优势也是缺点，在做差异基因表达分析这方面就是缺点。为了尽量避免这个问题出现，引入了伪Bulk（pseudo-bulk）的方法来聚合单细胞数据，从而进行差异表达分析，差异表达分析之前，通过批量效应校正或通过每个个体的总和、平均或随机效应（即伪Bulk生成）对个体内的细胞类型特异性表达值进行聚合，以解释样本内相关性。

2025-01-19 15:54:05 1884

原创 scRNA——泛癌细胞类型自动注释

觉得还是要写一下癌细胞注释的。这里用准备好的h5ad，，反正是别人提供的。

2025-01-16 20:26:50 265

原创 scRNA——细胞类型自动注释

大部分细胞类型被标注为Unassigned，这是由于我们设定了预测概率0.5作为阈值，低于该阈值的细胞不被注释，表明Celltypist在注释复杂的未知的数据上的效果，并不如手动注释或者是SCSA！由于作者使用的pandas版本是1.6几的版本，太老了，在github 上有进行对应的更新（只要更新omicverse到1.6.10版本就行了），同样的也更新了。深度学习模型的自动注释方法CellTypist，可以直接注释出细胞的亚群，对于不认识的细胞类型，其会选择性注释，不会瞎注释，这与SCSA是相同的。

2025-01-14 15:22:51 1422

原创 scRNA——细胞类型手动注释（不推荐）

现在注释的都是大类细胞，Naive T cells，CD4+ T cells，CD8+ T cells等细胞亚群还没被注释，对于细胞亚群的注释，一般是每一类细胞取出来进行。，更进一步的，我们可以使用umap图可视化"FYN",“CAMK4”,"LEF1"这几个基因，通过过滤表达基因，来选择更多簇特异性的差异表达基因。细胞类型注释的物种现在就分两种，一种是老鼠，一种是人，使用的细胞还分为。这里使用暂时性的数据库，并不是别人的数据库，是为了方便了解。注释的流程也分为两种，一种是手动注释，另一种是自动注释。

2025-01-11 23:56:46 1527

原创 scRNA——批次效应矫正

深度学习的模型批次矫正效果较好，接下来是Harmony，然而深度学习要用到GPU，而Harmony只需要用CPU，对于在windows系统中，暂时没办法使用到GPU（omicverse不支持windows的GPU模式），所以这里介绍一个CPU的，一个GPU的。（用就对了，算法的事情不是我们考虑的，考虑的就是好不好用！中，为了流程和结果的准确性，在含有不同批次，不同组织的数据中，通常会额外进行批次效应矫正。如果想知道降维的效果是什么样的，可以用下面的代码，但是不做为流程中的一部分。另一类是深度学习模型。

2025-01-08 13:28:40 1167

qq_24680545的博客