- 博客(207)
- 收藏
- 关注
原创 Jupyter Lab打印日志
有时候在 jupyter 中执行运行时间较长的程序,且需要一直信息,但是程序执行到某些时候就不再打印了。可以开启 日志控制台,将日志信息记录在控制台中。
2024-12-04 18:43:45
720
原创 pyflink datastream数据流ds经过一系列转换后转为table,t_env.from_data_stream(ds)
ds = ds.map(lambda x: update_tel(x), output_type=Types.TUPLE([Types.INT(), Types.STRING()]))。每一个算子之后需要指定输出的数据类型output_type
2024-11-14 10:54:15
504
原创 MoneyPrinterTurbo 安装使用流程
进入 MoneyPrinterTurbo 目录,复制 config.example.toml 并重命名为 config.toml,随后打开 config.toml。pexels_api_keys 和 moonshot_api_key 需要到对应官网申请。完成后打开 docker 客户端,点击8501:8501 即可跳转到webui页面。在 docker 安装目录执行以下命令显示隐藏文件夹。给出一段视频文案即可开始生成视频。执行命令打包,可能需要较长时间。试用前需要开启 VPN。
2024-09-17 11:07:57
1322
原创 ast.literal_eval 将字符串 ‘[NaN,NaN,0.0]‘ 转为列表时报错:ValueError: malformed node or string on line 1: <ast.N
kimi prompt: ast.literal_eval 将字符串 ‘[NaN,NaN,0.0]’ 转为列表时报错:ValueError: malformed node or string on line 1: <ast.Name object at 0x0000029929149B50>使用 json.loads() 替代,因为 JSON 支持 NaN 值的序列化和反序列化。
2024-07-19 17:28:24
440
原创 spark.createDataFrame(pandas_df)遇错 AttributeError: ‘DataFrame‘ object has no attribute ‘iteritems‘.
解决方案 安装2.0以下版本的 pandas
2024-06-23 23:11:58
474
原创 Python字典对象是可变对象
在Python中,字典是可变对象,它们的值可以是任何类型,包括另一个字典或者列表等可变对象。当你在字典中将一个字典赋值给一个键时,你实际上是将这个字典对象的引用赋给了这个键,而不是创建了该字典的一个副本
2024-06-07 10:21:01
293
原创 保存带 numpy.ndarray 的 dataframe
使用 pickle,import picklesave_path = "./result/tmp/text_embedding_df.pkl"with open(save_path, 'wb') as f: pickle.dump(df, f)
2024-03-14 11:21:25
298
原创 pandas: groupby() 分组求向量平均值
data.groupby('Pclass')['Fare'].mean()data.groupby('Pclass').mean()['Fare']对向量求均值,向量类型需为 numpy.ndarray,不能为list会报错
2024-03-12 12:00:03
823
原创 python使用 concurrent.futures 启动并行任务
以相同的方式工作,它使用多进程而不是多线程作为工作池。顾名思义,创建一个可以提交作业的线程池。
2024-02-28 11:17:50
521
原创 超平面介绍
(1) 超平面是指n维线性空间中维度为n-1的子空间。它可以把线性空间分割成不相交的两部分。比如二维空间中,一条直线是一维的,它把平面分成了两部分;三维空间中,一个平面是二维的,它把空间分成了两部分。(2) 法向量是指垂直于超平面的向量。为 N 维向量,b为标量,表示超平面于原点之间的距离。(垂直于超平面) ,已知超平面中的一点。,需要求它到超平面之间的距离。,对于超平面中的任意一点。
2024-02-20 20:58:52
1717
原创 BPE原理及代码简单演示
BPE(Byte pair encoding)是对字节编码,BPE 算法是在 UTF-8 编码的字符串上运行的,所以它是“字节级”的。 理论上任何 UTF-8 编码的字符串都可以统一使用 BPE
2024-02-19 18:26:32
871
原创 tqdm和zip一起用进度条不显示的解决方法
for a,b in tqdm(zip(x, y), total=len(x)): # 添加一个参数 total 即可
2024-01-31 10:12:17
553
原创 GPT-SoVITS 测试
AutoDL地址:https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official。Blili 地址:https://www.bilibili.com/video/BV12g4y1m7Uw。GitHub地址:https://github.com/RVC-Boss/GPT-SoVITS。step2 创建好实例之后,进入命令行,输入命令。step4 完成之后,点击 tab 栏,随后选择公网地址打开,进入Web页面。step1 打开地址。
2024-01-27 20:34:37
3688
原创 Amphion tts(Text to Speech) 语音合成
强烈推荐使用带 GPU 的 Ubuntu 或 Centos 系统运行,可以租一个比较便宜的机器实例运行
2023-12-29 16:55:00
951
原创 fill-in-the-middle(FIM) 实现与简单应用
传统训练的 GPT 模型只能根据前文内容预测后文内容,但有些应用比如代码生成器,需要我们给出上文和下文,使模型可以预测中间的内容,传统训练的 GPT 就不能完成这类任务。FIM 是一种新的训练技巧,使得 GPT 类模型能够根据上下问填充中间部分。调换 suffix 与 middle 位置,此为 PSM 模式。通过添加特殊 token, 使得训练数据包含上下文内容。传统训练的 GPT 只能根据上文预测下文。使用 FIM 训练的能够正确填充中间部分。另外还有 SPM 模型。
2023-12-20 21:11:30
4496
原创 本地运行大语言模型并可视化(Ollama+big-AGI方案)
其中 Ollama 目前只支持 Mac,LM Studio目前支持 Mac 和 Windows。该服务启动在 3000 端口:http://localhost:3000/ ,直接在浏览器中打开,界面窗口中 vendor 记得选择 ollama。命令行终端运行命令 ollama run llama2,该命令会下载 llama2 模型,随后运行这个模型,现在我们就可以在终端对话了。执行 npm install 可能报错: zsh: command not found: npm。查看是否安装成功:npm -v。
2023-12-16 18:20:55
3488
原创 numpy.memmap 用法与注意事项
当处理大数组时,内存可能不够用。numpy 提供了一个函数 np.memmap() 让我们可以处理大数组。np.memmap() 可以读取大磁盘文件中的一小段到内存,所以它占内存较小。
2023-12-12 16:55:08
2300
原创 jupyter notebook中添加内核kernel
进入对应路径,可以看到一个 kernel.json 文件,里面记录了 kernel 对应的 python 执行路径。jupyter kernelspec list 命令之后可以看到每个内核配置路径。step5 重启 jupyter notebook 可以选择需要使用的内核。step2 若没有kernel,则需要安装 kernel。step1 检查环境中是否有kernel。step3 查看已添加的内核。step4 添加内核。
2023-12-05 11:37:07
4199
翻译 深度学习术语:词嵌入 Word Embedding
word2vec 有两种方法:CBOW (Continuous Bag-Of-Words) 和 Skip-gramSkip-gram方法就是取句子中固定单词数量(如 5),使用中间单词去预测周围 4 个单词。输入是 one-hot 向量,经过隐层线性层,随后经过softmax层(结果值为正,加起来为 1)输出预测结果。中间的隐藏层权重即为嵌入矩阵embedding matrix,也即查找表。嵌入矩阵的大小为单词总数词向量维度,假如单词总数为 10000,并且隐藏神经元为 300。
2023-11-21 22:01:55
153
原创 python 打印与去除不可见字符 \x00
其中strip()只能去掉\r,\n,\t,无法去掉\x00。所以 text.strip()==“boot_1__normal/” 两者不相等。
2023-10-31 16:09:42
1040
原创 Tesseract OCR 报错 PermissionError: [WinError 5] 拒绝访问
【代码】Tesseract OCR 报错 PermissionError: [WinError 5] 拒绝访问。
2023-10-30 09:32:05
886
原创 如何开通 Medium会员
首先你需要一张可以支付的外国卡选择开通 WildCard 卡,优点:1 无需上传身份证件,支付宝认证即可2 可以使用国内手机号注册3 可以使用支付宝、微信充值一步一步按步骤操作即可,在邀请码中输入(HONGSHU1),可以享受开卡 88 折优惠(不填就没有优惠哦)。开卡之后,最低充值 20美元。
2023-10-27 16:06:44
1013
1
原创 pandas读取json文件,文件中包含多个json对象
可以使用 jsonlines 库,读取多个json对象的json文件。, 内容如下,里面包含多个 json 对象。直接使用 json 读取会报错。也可以使用 pandas 读取。
2023-10-26 10:58:04
757
原创 linux下安装 Chrome 和 chromedriver 以及 selenium webdriver 使用
https://googlechromelabs.github.io/chrome-for-testing/ (推荐,包含最新稳定版)现在就可以使用 selenium 的 webdriver 爬取内容了。chromedriver对应下载地址。
2023-10-25 17:04:33
6771
https://github.com/PlayVoice/so-vits-svc 预训练文件
2023-03-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人