- 博客(238)
- 资源 (1)
- 问答 (3)
- 收藏
- 关注

原创 wegt | 批量下载url下的文件
wget --user user --password pass -r -np -nH -R index.html http://url/including/files/you/want/to/download/各个参数的含义:-r : 遍历所有子目录-np : 不到上一层子目录去-nH : 不要将文件保存到主机名文件夹-R index.html : 不下载 index.html 文件-user 用户名-password 密码这里是引用这里是引用...
2022-05-19 14:21:10
777

原创 AI&化学 | 逆合成分析软件Synbook
Synbook是一款免费的通过AI进行化学合成的软件,他可以进行多条路线设计,拥有反应条件查看等功能,还可以对当前路径进行修改,通过邮箱注册后使用。点击进入网站登录界面目标分子路线查看反应条件redo修改当前路径............
2022-05-15 00:25:37
4304
2

原创 pandas | 并行处理dataframe生成新csv
import csvimport pandas import processing_function1, processing_function2def get_writer(fname, header): fout = open(fname, 'w') writer = csv.writer(fout) writer.writerow(header) return fout, writerdef get_tuple(task): col1, col2,
2020-12-21 16:04:45
407

原创 pip&python | 下载速度慢亲测有效!!!
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple “你要下载的库名”
2020-09-14 21:24:15
283

原创 python | 将列表数据按行保存为txt格式并进行读取
with open("abc.txt", 'w') as f: for i in alist: f.write(i+'\n')f = open("abc.txt","r")lines = f.readlines()for line in lines: line=line.strip('\n')# 删除\n print(line)
2020-08-14 16:41:54
9899
3

原创 joblib&pandas | 多进程处理dataframe通过某一列计算新列
from multiprocessing import cpu_countfrom joblib import Parallel, delayedimport pandas as pdcores = cpu_count()def proc(): """ xxxxxxxxxxxxxxx """ return results def apply_parallel(df_grouped, func): results = Parallel(n_jobs = cores)(delayed(
2020-07-23 15:25:09
2017
原创 S-groups(Substructure Groups)介绍
缩写基团可以作为较大分子的一部分,通过其连接点与其他片段相连。使用化学官能团和分子的缩写,可以创建更紧凑的结构。或者,缩写基团可以以其完整的扩展形式显示,以更详细地描述分子的关键部分。S-groups或子结构基团是化学结构的重要组成部分,包含Generic S-groups和预定义的Abbreviated groups(Superatom S-groups)。部分编辑器提供了多个化合物家族的缩写基团(如碳水化合物、氨基酸等)。这些结构可以通过工具栏中的“缩写基团”按钮访问。
2025-03-19 00:52:48
17
原创 CXSMILES介绍
Chemaxon 扩展 SMILES/SMARTS 用于在 SMILES 字符串后存储分子的特殊特征。任何信息都可以存储在 SMILES 字符串后,只要它们由空格或制表符字符分隔,因为 SMILES 解析器会忽略这些信息,或者将它们作为注释使用。扩展特征以以下格式存储:Chemaxon 的扩展 SMILES/SMARTS 不包含非 ASCII 字符,它们通常以字符代码 n 的形式被转义为 &#n;。在 S-group 中,ASCII 字符“,”、“;”、“|”、“{”、“}”也以这种方式转义。此外,符号“$
2025-03-18 21:48:59
60
原创 Docker Desktop无法安装报错(求助记录中)
之前Docker Desktop无法使用,报了一个注册表的错误(忘记截图)我想着更新安装下应该就好了,结果Docker Desktop一直无法安装,花了几天都没解决。同时我的window11更新也出现下载。Docker Desktop版本安装失败4.31.1。Microsoft Windows 11 专业版。异常,启动或关闭Windows功能为空。运行修复 Windows 映像和组件存储。
2025-02-08 01:05:09
612
5
原创 java将本地依赖批量打包
单个jar包依赖项格式输出将lib下所有jar包,手动复制到pom.xml下,在所有依赖上添加 optional 标志,这样可以防止 Maven 尝试从远程仓库解析依赖。
2024-12-05 16:09:59
383
原创 LangChain | 快速查阅提示词模板
SystemMessagePromptTemplateSystemMessagePromptTemplate是基于系统级的提示词,用于命令AI要做什么,不要做什么。还是一样的,请他担任翻译官,将英文翻译成中文。HumanMessagePromptTemplate这是一个模板类,用于创建可以填入变量的人类消息模板允许你定义带有占位符的模板,可以动态替换变量使用 format() 方法将变量值注入模板生成最终的消息AIMessagePromptTemplate主要用于创建 AI 响应的模
2024-10-29 15:22:51
169
原创 从drugbank提取药物对应的靶点和基因信息
DrugBank是一个综合性的在线数据库,它提供了关于药物的详细化学、药理、药代动力学和药物-药物相互作用的信息。这个数据库是一个宝贵的资源,广泛用于药物研究、药理学、毒理学、药物设计和个性化医疗等领域。先从下载XML文件然后使用python对文件进行处理。
2024-05-10 11:49:16
1809
原创 使用python创建生成动态链接库dll
*python作为一种脚本语言,本身是不能直接编译生成动态库的。**为了生成动态库,我们借助cython,将python脚本变成c语言文件。具体过程,我们通过一个简单的例子来解释。
2024-03-26 17:45:09
458
原创 构建生物医学知识图谱from zero to hero (4):通过Neo4j构建知识图谱
图数据库是一种专门用于存储图形数据的 NoSQL 数据库。与传统的关系型数据库和其他 NoSQL 数据库不同,图数据库利用图形数据模型来存储和管理数据。图形数据模型由节点和边组成,节点代表实体,边代表实体之间的关系。例如,在社交网络中,用户可以表示为节点,朋友关系可以表示为边。在沙盒中启动空白项目 https://sandbox.neo4j.com/?Neo4j使用图相关的概念来描述数据模型,把数据保存为图中的节点以及节点之间的关系。
2024-02-23 19:08:39
403
原创 构建生物医学知识图谱from zero to hero (3):生物医学命名实体识别和链接
例如,我们不希望图中有单独的实体代表抗坏血酸和维生素C,因为领域专家可以告诉你这些是同一件事。第二个原因是,通过将概念映射到目标知识库,我们可以通过从目标知识库中获取有关映射概念的信息来丰富图形模型。如果我们再次使用抗坏血酸的例子,如果我们已经知道它的CHEBI id,我们可以很容易地从CHEBI数据库中获取更多信息。在这个例子中,NLP模型在文本中识别了基因、疾病、药物、物种、突变和途径。如前所述,这个过程被称为命名实体识别。例如,在生物医学领域,我们希望在文本中识别各种基因、药物、疾病和其他概念。
2024-02-23 18:18:25
157
原创 构建生物医学知识图谱from zero to hero (5):关系抽取
使用此模型,必须定义要在哪些实体对之间检测关系。将使用命名实体链接的结果作为关系提取过程的输入。首先,我找到所有提到两个或多个实体的句子,然后通过关系提取模型运行它们来提取任何连接。我还定义了一个阈值0.85,这意味着如果模型以低于0.85的概率预测实体之间的链接,将忽略该预测。现在将尝试提取医学概念之间的关系。如果不希望命名实体链接取得完美的结果,那么关系提取技术肯定会出现一些错误。使用zero-shot关系提取器,可以定义要检测的关系。我还尝试了更具体的关系类型,如治疗、原因和其他,但结果并不理想。
2024-02-23 18:10:38
174
原创 构建生物医学知识图谱from zero to hero (2):文献抽取
我们选取一篇文献,将文献PDF转换成图片,然后采用pytesseract 实现图片文字识别。接下来对文本进行处理。
2024-02-23 14:22:03
92
原创 构建生物医学知识图谱from zero to hero (1): 简介
首先,由于生物医学领域的复杂性和多样性,构建全面、准确的生物医学知识图谱需要耗费大量的时间和人力成本。最后,如何将生物医学知识图谱与其他领域的知识图谱进行融合,以实现跨领域的知识推理和应用,也是当前亟待解决的问题之一。此外,随着算法的发展和开源理念的普及,越来越多的生物医学知识图谱开始采用算法驱动的方法,通过自动或半自动的方式从大量生物医学文献中抽取信息,进而构建知识图谱。随着技术的不断发展和应用的不断拓展,相信生物医学知识图谱将在未来的生物医学领域中发挥更加重要的作用。
2024-02-23 11:53:02
206
原创 像素、分辨率、公差的概念
像素是指在由一个数字序列表示的图像中的一个最小单位。像素的多少表明相机所含有的感光元件的多少。所谓 200 万像素 CCD 就是一个由 200 万个光电二极管构成的集合体。一台100万像素的相机拍摄的照片洗成5寸比洗成六寸清晰点。80万 1024×768 5” (3.5×5英寸),130万 1280×960 6” (4×6英寸)
2024-02-05 16:02:43
2116
原创 stable-diffusion | v1-5-pruned.ckpt和v1-5-pruned-emaonly.ckpt的区别
对于日常生成,我们只要了解这样一个事实就行了:如果只是生成,EMA模型和标准模型的效果是一样的。如果你要做二次训练,并且显卡够好,选择带EMA的模型可能更好,因为所有数据都在;VAE模型:用于图像在像素空间和潜在空间的映射,生成图片时将图像从潜在空间转换为像素图片,目前大部分模型都自带VAE。标准模型:生成图片的核心模块,潜空间中的前向扩散和反向扩散就是通过它做的,对应到图中左侧的 U-Net。对于 1.5 模型,其中可能包括四部分:标准模型、文本编码器、VAE模型、EMA模型。
2024-02-04 18:17:31
7924
原创 AI&大模型 | llama2微调手册查看ing
位于[INST]之后,/[INST]之前的文本,是用户在. 这一轮次(<s></s>包含的文本)对话中所输入的query,而/[INST]之后的文本,是模型针对这一query所作出的回答。Llama 2使用与 Llama 1 相同的分词器;在对话中的第一组单元,可以提供整个对话的背景信息,并以<<SYS>>和<</SYS>>作为特殊标记,位于它们之间的,是对话的背景信息,类似instruction。<s> ,<\s>,<<SYS>>,<</SYS>>,[INST],以及[/INST]是特殊token,
2023-12-22 21:39:18
976
原创 clinicaltables | 疾病转化为ICD-10编码
国际疾病分类(international Classification of diseases ,ICD),是依据疾病的某些特征,按照规则将疾病分门别类,并用编码的方法来表示的系统。ICD使得疾病名称标准化、格式化。这是医学信息化、医院信息管理等临床信息系统的应用基础。
2023-12-19 19:41:29
291
原创 AI | 大模型推理参数解析(进行中)
(int, optional, defaults to 1) - 批次中每个元素独立计算的返回序列的数量。
2023-12-12 16:05:27
2675
原创 onnx导出报错 | IndexError: index_select(): Index is supposed to be a vector
在torch.onnx.export钟添加do_constant_folding=False,如下。
2023-11-23 21:21:27
566
1
原创 大模型多轮对话数据集构建
history”:[[“长城h3风扇不转。保险丝好的传感器新的风扇也新的这是为什么。水温多少”], [“95”, “上下水管温差怎么样啊?“history”: [[“长城h3风扇不转。保险丝好的传感器新的风扇也新的这是为什么。“response”:“那就要检查线路了,一般风扇继电器是由电脑控制吸合的,如果电路存在断路,或者电脑坏了的话会出现继电器不吸合的情况!{“prompt”: “长城h3风扇不转。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线”,{“prompt”: “是的。
2023-11-07 10:57:03
3254
3
原创 化工&python | PID控制器优化算法
比例-积分-导数控制器(PID控制器)是一种采用反馈机制的工业控制系统,用于计算每一时间步k的误差值ek,并将其作为期望设定值(SP)与测量过程变量(PV)之间的差异。通过应用比例、积分和导数项(表示为P、I和D),进行校正调整,从而实现控制作用。传统上存在多种方法来优化这些参数,然而将问题视为黑盒优化问题是一种有效解决方法。ukKPekKIi0∑ikeiKDΔtek−ek−1其中KPKIKD。
2023-10-15 15:08:11
296
原创 化工&python | CSTR连续搅拌反应器系统
绝热连续搅拌釜反应器 (CSTR) 是过程工业中常见的化学系统。容器中发生单个一级放热且不可逆的反应 A → B,假定容器始终完全混合。试剂 A 的入口流以恒定的体积速率进入罐。产物流B以相同的体积速率连续排出,液体密度恒定。因此,反应液体的体积是恒定的。,它们的变化可以由下面方程表示。的冷却套作为系统的输入。在反应器中发生的反应是。
2023-10-15 14:37:34
975
原创 多模态模型文本预处理方式
将句子中的类别提取出来,结合成一个句子,并使用注意力掩码遮蔽掉不相关类别的注意力。保持每个单词特征的细粒度意思。句子级别的表征编码一整个句子到一个特征中。如果一个句子有多个短语,提取这些短语丢弃其他的单词。缺点:会在类别之间建立不必要的联系,尤其多个类别以随机顺序排列。缺点:这种方式会丢失句子中细粒度的信息。将句子中的类别提取出来,结合成一个句子。
2023-10-15 13:26:35
660
原创 timm模型无法联网下载采用本地读取
最新的timm版本(0.9.x)默认使用huggingface hub作为权重,优先于torch hub缓存,许多权重已经为模型更改重新映射,所以最好通过HF hub下载。Kaggle真的应该支持通过HF hub,或者至少正确地缓存它,但他们似乎没有兴趣让事情变得更简单,所以手动缓存数据集中的权重的疯狂继续…要覆盖预训练的位置,您可以从HF hub手动下载权重文件并尝试以下操作。
2023-09-26 17:09:04
2182
原创 解决shutil.copyfile常见错误:PermissionError: [Errno 13] Permission denied
亲测有效。
2023-09-26 16:03:10
321
1
原创 pyd包导入报ModuleNotFoundError: No module named
在windows环境下确保运行环境python版本与pyd版本一致。
2023-09-06 15:34:23
476
原创 TensorRT&C++ | INT8量化
实现Int8EntropyCalibrator类并继承自llnt8EntropyCalibrator2。
2023-08-29 11:35:13
454
2
半导体设备研究系列之明暗场缺陷检测设备
2024-02-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人