SLURM 작업을 원격으로 연결된 클러스터로 전송하는 데 문제가 있음
사내 클러스터에서 작업을 수신하기 위한 내부의 slurmdbd MariaDB 데이터베이스와 Oracle Cloud의 일부 slurmctld 데이터베이스를 사용하여 SLURM 다중 클러스터 설정을 만들고 있습니다.지금까지 클라우드에 있는 슬럼트들을 데이터베이스에 연결했습니다.이들은 "sacctmgr 목록 클러스터"에 표시되며, 저는 이들에 대한 정보를 수신하고 온프레미스 slurmld에서 해당 대기열의 작업을 삭제할 수 있습니다.그러나 온프레미스 클러스터에서 이러한 클라우드 클러스터로 작업을 보낼 수 없습니다.-M 또는 -Mall을 사용하여 다른 클러스터에 작업을 제출하려고 하면 대신 온프레미스 대기열에서 작업이 실행됩니다.클라우드 클러스터는 sbatch를 사용하여 직접 제출된 작업을 실행할 수 있습니다.
작업을 제출할 때 오류가 나타납니다.작업을 수신해야 하는 클러스터의 /var/log/slurmctld.log에 있습니다.
[2022-03-17T19:15:41.046] Registering slurmctld at port 6817 with slurmdbd <IP_ADDRESS>:<PORT>
[2022-03-17T19:15:41.046] error: slurmdbd: Sending message type DBD_REGISTER_CTLD: 11: Resource temporarily unavailable
[2022-03-17T19:15:46.046] error: g_slurm_auth_pack: protocol_version 6500 not supported
[2022-03-17T19:15:46.046] error: slurm_send_node_msg: authentication: No error
[2022-03-17T19:15:46.046] error: slurm_persist_conn_open: failed to send persistent connection init message to <IP_ADDRESS>:<PORT>
IP 주소와 포트가 정확하고 slurmdbd에 연결되는 것을 확인했는데, 나머지는 무슨 뜻입니까?문서를 찾을 수 없고 이 문제는 이전에 다른 포럼에 올라온 적이 없는 것 같습니다.이러한 클러스터에 실제로 작업을 보낼 수 있으려면 어떻게 해야 합니까?
저도 같은 문제가 있었습니다. 그 반대였습니다.OCI Slurm 인스턴스에 작업을 보낼 수 없습니다.
저에게 문제는 다음과 같습니다.OCI 슬럼은 슬럼dbd 20.11이었고 나의 사내 슬럼트랜드는 21.08이었습니다.문제는 slurmdbd가 slurmctld(최대 3개 버전 내)와 나머지 바이너리 버전보다 동일하거나 최신이어야 한다는 것입니다.여기 슬라이드(섹션 업그레이드)를 참조하십시오.
OCI Slurm 인스턴스를 업그레이드한 후 양방향으로 제출할 수 있었습니다.
언급URL : https://stackoverflow.com/questions/71518378/having-trouble-sending-slurm-jobs-to-remotely-connected-clusters
'programing' 카테고리의 다른 글
HTML5 비디오가 Angular에서 작동하지 않습니다.JSong-src 태그 (0) | 2023.08.14 |
---|---|
파일 입력을 지우는 방법 (0) | 2023.08.14 |
pip을 제거할 수 없음: "distutils 설치된 프로젝트입니다." (0) | 2023.07.25 |
공용 생성자가 없는데 어떻게 Oracle Exception을 모의/가짜/스티븐할 수 있습니까? (0) | 2023.07.25 |
JQuery.load() 콜백 함수 (0) | 2023.07.25 |