鸡毛蒜皮集锦

打算纪录一下各种鸡毛蒜皮的小错误,过段时间回头看看有没有用


1. MAC篇

MAC OX 10.8.2 ML, Xcode Xcode 4.5.1 (Build version 4G1004)

1.1 undefined symbols for architecture x86_64:  "_omp_get_thread_num", referenced from:....

Solution: -fopenmp option both enables parsing of OpenMP pragmas at compile time and linking with libgompOpenMP run-time library (and also with libpthreads) at link time. 

http://stackoverflow.com/questions/12500859/openmp-mac-osx-lion-c-linker-error-undefined-symbols-for-architecture-x86-64


1.2 ld: can't open output file for writing: xxxx, errno=21 for architecture x86_64

R&S: 有个和输出文件xxxx同名的文件夹!!(不区分大小写)

Error 21 in /usr/include/sys/errno.h is EISDIR 

http://stackoverflow.com/questions/9200521/why-does-the-name-of-a-source-file-affect-compilation


1.3 编译opencv下的kalman例子出错:ld: can't write output file: kalman for architecture x86_64

R&S:都说了没权限嘛。。。如果一定要在安装目录下生成(/opt/local/share/OpenCV/samples/cpp/)就sudo就好了

这里https://discussions.apple.com/thread/3406578?start=0&tstart=0 说还要

sudo bash

export ARCHFLAGS='-arch i386 -arch x86_64'

没必要

### 如何在中文分词过程中进行虚词过滤 #### 虚词过滤的概念 虚词是指那些本身意义较弱,在句法结构中起辅助作用的词语,例如介词、助词、连词等。这些词通常不携带核心语义信息,因此在许多自然语言处理任务中会被忽略或移除[^2]。 #### 使用停用词表实现虚词过滤 一种常见的方法是通过构建或使用现成的停用词表来过滤掉不需要的虚词。停用词表包含了大量常用的虚词和其他无实际意义的词汇。在分词完成后,可以通过简单的匹配操作去除这些词。 以下是基于 `jieba` 的示例代码: ```python import jieba sentence = "人们宁愿去关心一个蹩脚电影演员的吃喝拉撒和鸡毛蒜皮" stopwords = set() # 停用词集合初始化 with open('stopwords.txt', 'r', encoding='utf-8') as f: # 加载停用词文件 stopwords.update(line.strip() for line in f) tokens = jieba.lcut(sentence) # 对句子进行分词 filtered_tokens = [word for word in tokens if word not in stopwords] # 过滤停用词 print(filtered_tokens) ``` 上述代码加载了一个外部的停用词列表,并将其用于过滤分词结果中的虚词或其他无关紧要的词。 #### 利用词性标注筛选实词 另一种更精确的方法是利用词性标注技术,仅保留具有实际含义的词类(如名词、动词)。这种方法能够有效排除大部分虚词的影响[^3]。 下面是一个具体的例子,展示如何结合 Jieba 库的词性标注功能完成这一过程: ```python import jieba.posseg as pseg sentence = "人们宁愿去关心一个蹩脚电影演员的吃喝拉撒和鸡毛蒜皮" tag_filter = ['n', 'v'] # 定义需要保留的词性标签 (名词, 动词) result = [] for word, flag in pseg.cut(sentence): # 获取每一对单词及其对应的词性标记 if flag in tag_filter: result.append(word) print(result) ``` 此程序片段实现了对输入字符串按指定条件(即只接受属于所选类别内的词条)的选择性输出。 #### Ansj 中文分词库的应用 除了 Jieba 外,还可以考虑采用其他高性能的开源项目比如 **Ansj** 来执行类似的预处理工作流[^4]。它不仅提供了基础版的标准切分服务,还额外集成了针对专有名词解析的支持模块以及灵活可配置型用户扩展机制等功能特性优势明显突出表现优异值得推荐尝试一下看看效果怎么样再决定是否长期合作下去吧! ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值