使用g++编译tf_ops出现undefined symbol: _ZN10tensorflow8internal21CheckOpMessageBuilder9NewStringEv

博客讲述了在使用CUDA和TensorFlow时遇到的g++版本与-D_GLIBCXX_USE_CXX11_ABI标志不匹配的问题。提供了两种解决方案,针对g++5.4.0和4.8.0版本,建议读者根据自身环境尝试。第一种方案是针对g++5.4.0,需要移除-D_GLIBCXX_USE_CXX11_ABI=0;第二种方案是对于g++4.8.0,尝试切换-D_GLIBCXX_USE_CXX11_ABI的值。

1.第一种方式

根据查找资料,才知道sh文件中有错误,
如果你使用的g++版本是5.4.0,那么以下的
-D_GLIBCXX_USE_CXX11_ABI=0 都得去掉

#!/usr/bin/env bash
nvcc=/usr/local/cuda-9.0/bin/nvcc
cudainc=/usr/local/cuda-9.0/include/
cudalib=/usr/local/cuda-9.0/lib64/

TF_INC=$(python3 -c 'import tensorflow as tf; print(tf.sysconfig.get_include())')
TF_LIB=$(python3 -c 'import tensorflow as tf; print(tf.sysconfig.get_lib())')

$nvcc tf_sampling_g.cu -c -o tf_sampling_g.cu.o  -std=c++11  -I $TF_INC -DGOOGLE_CUDA=1\
 -x cu -Xcompiler -fPIC -O2

g++ tf_sampling.cpp tf_sampling_g.cu.o -o tf_sampling_so.so -std=c++11 -shared -fPIC -I $TF_INC \
-I$TF_INC/external/nsync/public -I $cudainc -L$TF_LIB -ltensorflow_framework -lcudart -L $cudalib -O2 #-D_GLIBCXX_USE_CXX11_ABI=0

2.第二种方式

如果你使用的g++版本为4.8.0,那么你可以尝试 -D_GLIBCXX_USE_CXX11_ABI=0
将这里的0变为1,或者你原本写的是1,将其变为0

第一种方式亲测有效,第二种方式对我没有效果,你们可以都试试。

<think>好的,我现在需要解决用户在TensorFlow中遇到的`tf_sampling_so.so`文件未定义符号`_ZTIN10tensorflow8OpKernelE`的错误。首先,我应该回忆一下这个错误的常见原因。根据经验,这类未定义符号的问题通常与编译时的依赖库版本不匹配有关,特别是当使用自定义的C++操作时。 用户提到的是`tf_sampling_so.so`,这可能是一个自定义的采样操作,需要编译成.so文件供TensorFlow调用。错误中的符号`_ZTIN10tensorflow8OpKernelE`看起来是TensorFlowOpKernel类的类型信息符号,这通常出现在C++代码中。如果这个符号未定义,可能是因为编译该so文件时使用TensorFlow头文件版本与运行时链接的TensorFlow库版本不一致。 接下来,我需要考虑可能的解决方案。首先,用户需要检查他们的TensorFlow安装版本是否与编译自定义操作时使用的版本完全一致。例如,如果编译时用的是TensorFlow 2.5.0,而运行时用的是2.6.0,就可能出现这样的问题。这种情况下,重新编译自定义操作并使用对应版本的TensorFlow是关键。 另外,用户可能需要确保编译使用编译器选项与TensorFlow本身编译时的选项一致。例如,ABI兼容性问题也可能导致符号找不到。TensorFlow在某些版本中可能启用了不同的ABI设置,比如`_GLIBCXX_USE_CXX11_ABI`标志,这需要在编译自定义操作时保持一致。用户可以通过在编译命令中添加`-D_GLIBCXX_USE_CXX11_ABI=0`或`1`来解决这个问题,具体取决于他们安装的TensorFlow版本所使用的设置。 还有可能涉及到CUDA和cuDNN的版本兼容性问题。如果自定义操作使用了GPU相关的功能,那么CUDA和cuDNN的版本也需要与TensorFlow版本匹配。用户应该检查官方文档中关于TensorFlow版本与CUDA/cuDNN的对应关系,并确保环境配置正确。 此外,用户可能需要检查他们的编译命令是否正确引用了TensorFlow的头文件和库文件。例如,使用`g++`编译时,应该包含正确的`-I`路径指向TensorFlow的头文件,以及`-L`路径指向库文件,并链接必要的库如`-ltensorflow_framework`。 如果用户之前升级过TensorFlow,但没有重新编译自定义操作,这也是一个常见的问题点。建议用户先卸载当前TensorFlow,安装指定版本,然后重新编译自定义操作。使用虚拟环境(如conda或venv)可以帮助管理不同的版本,避免系统全局环境的冲突。 最后,如果上述步骤都无法解决问题,可能需要检查自定义操作的源代码,确保没有遗漏任何TensorFlow命名空间的引用,或者是否有不兼容的API变更。例如,某些OpKernel的方法在TensorFlow版本更新后可能会有变动,导致符号无法正确链接。 总结一下,解决方案的步骤可能包括:确认TensorFlow版本一致性,检查编译器标志,确保CUDA/cuDNN版本匹配,正确设置编译路径,重新编译自定义操作,以及检查源代码兼容性。用户需要逐一排查这些可能的原因,以解决未定义符号的错误。</think>关于TensorFlow中`tf_sampling_so.so`文件报错`undefined symbol _ZTIN10tensorflow8OpKernelE`的解决方案: ### 问题原因 该错误通常由以下原因引起: 1. **TensorFlow版本不匹配**:编译自定义操作时使用TensorFlow头文件版本与当前运行的TensorFlow版本不一致[^1] 2. **ABI兼容性问题**:编译使用的C++ ABI标志(如`_GLIBCXX_USE_CXX11_ABI`)与TensorFlow二进制版本不匹配[^2] 3. **链接库缺失**:未正确链接TensorFlow框架库(`libtensorflow_framework.so`) ### 解决步骤 1. **验证TensorFlow版本一致性** ```bash pip list | grep tensorflow # 查看当前TensorFlow版本 ``` 确保编译环境和运行环境使用完全相同的TensorFlow版本(精确到小版本号) 2. **设置ABI兼容标志** 在编译命令中添加对应的ABI标志: ```bash # 对于TensorFlow >=1.15通常使用 -D_GLIBCXX_USE_CXX11_ABI=1 # 对于早期版本可能需要 -D_GLIBCXX_USE_CXX11_ABI=0 ``` 3. **完整编译命令示例** ```bash g++ -std=c++11 -shared -o tf_sampling_so.so \ -fPIC -I$PYTHON_PATH/site-packages/tensorflow/include \ -I/usr/local/cuda/include \ sampling.cpp \ -L$PYTHON_PATH/site-packages/tensorflow \ -ltensorflow_framework \ -O2 -D_GLIBCXX_USE_CXX11_ABI=1 ``` 4. **验证CUDA/cuDNN版本兼容性** 通过TensorFlow官方文档确认当前版本对应的CUDA/cuDNN版本: $$ \text{TensorFlow 2.10+} \Rightarrow \text{CUDA 11.2, cuDNN 8.1} $$ 5. **强制重新编译** 清理旧编译产物后重新编译: ```bash make clean && make ``` ### 预防措施 - 使用虚拟环境管理不同版本的TensorFlow ```bash python -m venv tf_env && source tf_env/bin/activate ``` - 使用Bazel构建系统保证编译环境一致性 - 在Docker容器中构建保证环境隔离
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值