- 博客(37)
- 收藏
- 关注
原创 FutureWarning: `clean_up_tokenization_spaces` was not set.
是 Transformers 库中用于控制文本去掉多余空格的参数。,即不再自动清理多余空格。这可能会影响到文本的格式,尤其是在生成或处理文本时。,Transformers 默认会将其设置为。,即会自动清理多余空格。
2024-12-20 20:28:37
486
原创 使用网络爬虫简单爬取页面信息
由于我要获取的数据存在于多个url(一个涵盖所有条数据的url以及每条数据单独属性的url),所以在将url1(涵盖所有条数据的url)中获取到的响应数据写入的过程中去单独获取了属于该条数据在url2中的属性值并同时写入。这里展示的代码是将从网页获取的数据并转换为csv文件的示例。
2024-10-23 18:16:28
823
原创 anaconda包的管理
为什么我进入我的虚拟环境grover3后使用which pip显示/home/2023_lcl/anaconda3/envs/grover3/bin/pip ,,使用which conda显示/home/2023_lcl/anaconda3/condabin/conda在你的虚拟环境grover3中使用which pip显示了环境中的pip路径,这是正常的,表示你正在使用该虚拟环境的pip。然而,使用显示的是 Anaconda 安装目录中的conda路径,而不是虚拟环境中的conda。这是因为。
2024-09-29 20:42:01
285
原创 ChIP-seq技术详解
ChIP-seq的原理基于染色质免疫共沉淀技术,首先利用特异抗体富集目的蛋白结合的DNA片段,然后通过高通量测序技术检测这些DNA片段,最后通过生物信息分析,将测序获得的高通量序列标签比对到基因组上,从而获得全基因组范围内目的蛋白结合DNA的位置和强度信息。是首先固定在活细胞状态下蛋白质-DNA复合物,并将其随机切断为一定长度范围内的染色质小片段,然后通过免疫学方法沉淀此复合体,特异性地富集目的蛋白结合的DNA片段,通过对目的片断的纯化与检测,从而获得蛋白质与DNA相互作用的信息。
2024-09-27 12:51:42
721
原创 macs2的参数和使用
MACS2 是 ChIP-seq 数据分析的标准工具,能够帮助你快速识别基因组中的富集区域(peaks)。根据不同的实验类型(如窄峰、宽峰或无对照实验),你可以灵活调整参数。
2024-09-26 09:35:53
3117
原创 Chip-seq数据分析处理流程
以上步骤详细展示了如何处理的 ChIP-seq 数据,使用hg38参考基因组进行比对、峰值调用,以及对富集区域进行基序分析。该段描述了实验的整个过程,从样品制备、免疫沉淀到 DNA 纯化和测序库构建。接着介绍了如何使用Bowtie将测序数据比对到参考基因组,如何通过MACS2调用 G4 的富集区域(峰值),以及使用MEME-ChIP进行基序分析。这些步骤有助于识别基因组中可能形成 G-四链体结构的区域,并分析其功能。
2024-09-26 09:35:50
2617
原创 生信操作文件类型
在整个操作流程中,你会接触到多个文件类型,从原始的测序数据(SRA、FASTQ)到比对文件(SAM、BAM),以及用于可视化的覆盖度文件(bedGraph、BigWig)。通过这些文件类型的协作,能够完成从数据比对到最终基因组浏览器可视化的完整过程。
2024-09-12 23:15:01
825
原创 比对生成view
通过以下步骤,你可以从 SRA 数据集中提取与NOP56使用prefetch和下载和转换 SRA 数据。使用 BWA 或 Bowtie2 将序列比对到人类参考基因组。使用samtools提取NOP56基因对应的染色体区域数据。使用 IGV 等工具进一步分析提取的 BAM 文件。
2024-09-12 09:21:57
613
原创 手动下载工具后设环境变量(ubuntu)
临时修改环境变量可以使用,仅对当前会话有效。永久添加到PATH可以通过编辑 .bashrc文件,使 BLAST 在每次启动终端时都能自动加载。验证安装是否成功可以通过运行确认。
2024-09-10 10:25:54
509
原创 使用阿里云服务器实现frp内网穿透
要使用阿里云服务器通过(一个高性能的反向代理应用)实现内网穿透,您需要在阿里云服务器上部署,并在本地内网机器上部署。
2024-09-06 21:33:40
1521
2
原创 环境配置相关
环境变量是操作系统中用于存储配置信息的全局变量。通过设置环境变量,用户可以方便地访问软件、配置软件行为、管理依赖关系、提高跨平台兼容性以及进行动态配置。设置环境变量通常是为了使软件更易于使用和管理,确保它们能够正确地找到所需的资源或依赖项。二、软件的安装对系统做出的修改。
2024-08-30 13:10:15
607
原创 linux系统上远程开发
安装程序将询问你是否要将Anaconda安装到默认位置(通常是你的用户主目录下的 `~/anaconda3`)。你可以按 `Enter` 键使用默认路径,或输入自定义的安装路径。安装完成后,系统会询问是否将 Anaconda 添加到 `PATH` 环境变量中。选择 `yes`(默认选项),这样你可以直接使用 `conda` 命令而不需要指定完整路径。你可以使用 `conda` 命令来管理包和环境,并开始你的数据科学或开发工作。或者,你可以直接在终端中使用 `wget` 命令下载最新版本的安装脚本。
2024-08-27 18:38:15
354
原创 DNA和RNA
dNTP代表脱氧核糖核苷三磷酸,它是dATP(脱氧腺苷三磷酸)、dGTP(脱氧鸟苷三磷酸)、dCTP(脱氧胞苷三磷酸)和dTTP(脱氧胸苷三磷酸)的总称。生物中的NTP代表三磷酸核苷酸,它是ATP(腺苷三磷酸)、GTP(鸟苷三磷酸)、CTP(胞苷三磷酸)、UTP(尿苷三磷酸)和TTP(胸苷三磷酸)的总称。核苷酸由三部分组成:一个含氮环结构称为氮基,一个五碳糖,和至少一个磷酸基。含氮碱基包括腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T),它们通过氢键配对形成碱基对,位于两条脱氧核糖核苷酸链的内侧。
2024-08-19 15:18:43
1202
原创 卷积神经网络中的池化方法
对于池化操作,大部分人想到的可能就是Max_Pooling和Average_Pooling,但实际上卷积神经网络的池化方法还有很多,本文对业界目前所出现的一些池化方法进行了归纳总结。
2024-07-31 17:08:31
307
原创 深度学习之正则化方法
正则化(Regularization)是一种用于防止过拟合、提高模型泛化能力的机器学习和统计建模技术。过拟合指的是模型在训练数据上表现很好,但在测试数据或新数据上表现较差的现象。为了提高模型在新数据上的泛化能力,正则化通过在原始损失函数中添加一个惩罚项来平衡模型的复杂度与拟合优度。
2024-07-30 14:49:41
332
原创 性能指标、参数概念
在Evo模型的研究中,Spearman相关系数被用来量化模型预测的序列概率(如序列似然性或伪似然性)与实验测量的适应度值(代表分子功能的实验评估结果)之间的关联性。也称均方根差(RMSE),是观测值与真值偏差的平方和与观测次数m比值的平方根,是用来衡量观测值同真值之间的偏差。RMSE是一种常用的测量数值之间差异的量度,其数值常为模型预测的量或是被观察到的估计量。具体来说,它会计算机器生成的句子和参考句子之间的n-gram(n元语法)重叠程度,并根据这些重叠的程度来计算一个得分。
2024-06-25 21:29:14
1707
1
原创 《 借助机器学习设计和筛选合成细胞中新兴蛋白质功能》
MinD是一种ATP酶,它与MinC结合形成MinCD复合物,该复合物在细胞膜上扩散,并在ATP水解的作用下周期性地结合和解离。self-organization assay(自组织测定)是一种实验方法,用于研究分子或细胞如何在没有外部指导的情况下自主组织成有序的结构或模式。Min系统包括MinC、MinD和MinE三个蛋白,它们共同作用以抑制细胞分裂蛋白FtsZ在细胞两极的形成,从而确保细胞分裂发生在细胞的中心位置。minDE是一种来自枯草杆菌的ATP依赖的解旋酶,属于Min系统的一部分。
2024-05-17 19:40:39
635
原创 《适配体的体外选择及应用》
1. 单链RNA或DNA寡核苷酸作为分子识别剂的概念直到20世纪80年代末才被提出,这一概念超越了传统的抗体概念。2. SELEX方法是由Ellington和Szostak在1990年首次提出的,它允许从大量随机序列中筛选出高亲和力的寡核苷酸分子,这些分子被称为aptamers。3. aptamers具有特异性高、亲和力强的特点,且由化学合成的短链分子组成,不含细胞培养中的污染物。4. SELEX方法具有成本低廉、稳定性好和灵活性高的优势,已经在分子诊断、合成生物学和新治疗方法的开发中发挥了重要作用。
2024-05-15 18:27:14
1259
原创 生物相关技术
NGS(Next-Generation Sequencing)是指下一代测序技术,也称为高通量测序技术或二代测序技术。这是一种革命性的生物分子测序方法,相比于传统的Sanger测序技术,NGS能够在短时间内对大量DNA、RNA或者蛋白质序列进行平行测序,大大提高了测序速度和数据产出量,同时降低了单位成本。
2024-05-14 22:25:56
1030
原创 生物相关概念
生物学中的中心法则(Central Dogma of Molecular Biology),是由弗朗西斯·克里克在1958年首次提出的,用于描述生物体内遗传信息的基本流动方向。:遗传信息从DNA传递给DNA,即在细胞分裂时,亲代DNA分子通过半保留复制方式产生两个完全一样的子代DNA分子。:遗传信息从DNA传递给RNA,即在细胞核内,特定基因的一部分DNA作为模板合成一条互补的mRNA(信使RNA)分子。
2024-04-18 19:06:23
5638
原创 深度学习相关概念整理
残差连接(Residual Connection)是一种在深度学习领域,特别是在深度神经网络架构设计中的关键技术。它最初由何凯明等人在2015年的论文《Deep Residual Learning for Image Recognition》中提出,并应用于ResNet(Residual Network)中,极大地推动了深度神经网络的发展,尤其是在图像识别任务上的突破。残差连接的核心思想是引入“捷径”或“跳过连接”,它允许输入信号可以直接传递到网络的较深层,而不仅仅依赖于逐层前向传播的计算结果。
2024-04-13 18:37:43
3039
原创 git使用教程
总结来说,Git是一个,主要处理的是代码版本控制的具体技术实现,而GitHub则是之上构建的一个,不仅提供代码托管服务,而且强化了团队间的沟通、协作和项目管理功能。
2024-04-07 15:47:11
897
原创 python语法易混点(笔记持续更新)
都是属于序列类型的,即有序的。但列表有序可更改且一般是同一类型的元素;元组是有序不可更改且一般包含不同种类的元素。是由不重复元素组成的无序的集,我们可以对集合对象求并集、交集、差集、对称差分的运算。列表、元组、集合三者形式上的区别就在于列表中括号、元组小括号、集合花括号。即是键值对,键一般为字符串or数字等不可变类型。参考自python官方参考文档。
2024-03-25 16:43:35
325
原创 2024pycharm解释器配置和快捷键(持续更新)
generate new表示新建的项目依赖的第三模块会单独的放在属于它自己的location中,这是独属于该新建项目的虚拟环境,它可以脱离系统安装的python独立运行,它对于自身venv的修改也只影响它自身。Select existing表示新建项目的依赖的第三方模块是放在本地系统已建立的虚拟环境中的,此时修改该虚拟环境的第三方库会影响其他也依赖于该虚拟环境的项目。自定义环境,可以指定一个已经存在的python环境或者让pycharm下载一个新的,自定义环境可以同时作为其他项目的环境。
2024-03-23 10:16:02
12435
3
原创 anaconda、cuda、pytorch安装(深度学习环境配置简洁版)
是开源的python和R语言发行版和包管理器,内置有几百个python的第三方库、包管理工具conda、可视化界面Navigator、IDE。我们使用anaconda进行python运行环境和工具包的管理。cuda是nvidia推出的基于nvidia显卡的通用并行计算架构,可以提高nvidia显卡的性能。CUDA提供了对其它编程语言的支持,如C/C++,Python,Fortran等语言。只有安装CUDA才能够进行复杂的并行计算。主流的深度学习框架也都是基于CUDA进行GPU并行加速的,几乎无一例外。
2024-03-22 19:52:48
1385
原创 操作系统
第一章1.操作系统概念操作系统的定义操作系统是计算机系统中的一个系统软件,是能有效地组织和管理计算机系统中的硬件和软件资源,合理地组织计算机工作流程,控制程序的执行,并向用户提供各种服务功能,使得用户能够灵活、方便、有效地使用计算机,并使整个计算机系统能高效地运行的一组程序模块的集合。2.基本特征操作系统的四个基本特征:并发,共享,异步,虚拟。并发:是指两个或多个事件在同一时间间隔内发生。共享:是指系统中的资源(硬件资源和信息资源)可以被多个并发执行的程序共同使用,而不是被其中一个独
2021-01-02 17:00:31
498
1
原创 电脑组成配置
计算机由硬件系统和、软件系统组成,没有软件的计算机被称为裸机。其中硬件分为cpu,显卡,内存,主板,硬盘,声卡,网卡这几个部分,下面我们具体介绍一下这几个部分。一,CPUcpu有什么作用?计算机的运算核心和控制核心。其功能主要是解释计算机指令以及处理计算机软件中的数据,CPU的性能主要体现在其运行程序的速度上。目前的主流cpu主要有intel和AMD两大品牌intel的处理器目前有七个系列,酷睿,奔腾,赛扬,至强,安腾,凌动,Quark系列。每个系列所适用的设备以及场景不同,我们主要介绍
2020-12-24 10:30:00
1059
1
原创 java.sql.SQLIntegrityConstraintViolationException: Column ‘pwd‘ cannot be null的错误
今天在进行前后端交互时出现先这样了一个错误,后端控制台报了java.sql.SQLIntegrityConstraintViolationException: Column 'pwd' cannot be null,找了半天发现是servlet没有取到jsp中form表单提交的数据导致update语句执行失败,究其原因是servlet取参数时与前端变量名未写一致!jsp中代码片段<div class="formbody"> <div class="formtitle"&
2020-12-19 16:14:26
5410
2
原创 微机原理复习要点
第一章复习要点①微处理器 p12②微型计算机 p13③总线微处理器:一般也称中央处理器(CPU),是本身具有运算能力和控制功能,是微型计算机的核心。微处理器:由运算器,控制器和寄存器阵列组成!以及片总线(元件级总线)微型计算机:由CPU、内存储器、输入输出接口电路组成!以及内总线(系统总线)微型计算机系统:以微型计算机为主体,配上系统软件,应用软件,外存储器,输入输出设备,电源,面板和机架!以及外总线(通信总线)微型处理器的典型结构如下图所示其中...
2020-12-10 19:23:37
9149
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人