mpirun 报错¶
ucx error¶
运行 openmpi 3.1.6 时,有如下报错:
mm_posix.c:195 UCX ERROR open(file_name=/proc/211766/fd/28 flags=0x0) failed: Permission denied
mm_ep.c:149 UCX ERROR mm ep failed to connect to remote FIFO id 0xc000000700033b36: Shared memory error
解决方法: 加上 -x UCX_POSIX_USE_PROC_LINK=n 这个 flag
mpirun -x UCX_POSIX_USE_PROC_LINK=n program
-x 用来指定环境变量, 通过设置 UCX_POSIX_USE_PROC_LINK=n,等于告诉 UCX 不使用 /proc 下的文件,从而避免这些权限问题