LSF(Load Sharing Facility)是IBM旗下的一款分布式集群管理系統(tǒng)軟件,負(fù)責(zé)計算資源的管理和批處理作業(yè)的調(diào)度。它給用戶提供統(tǒng)一的集群資源訪問接口,讓用戶透明地訪問整個集群資源。它通常是高性能計算環(huán)境中不可或缺的基礎(chǔ)軟件。LSF 是一種強大的工作負(fù)載管理平臺,提供基于各種策略的智能調(diào)度功能,利用分布式的基礎(chǔ)架構(gòu)資源來提高整體的系統(tǒng)性能。用戶通過 LSF可以實現(xiàn)集群間的負(fù)載均衡,擴展集群構(gòu)架和資源,最大限度地提高集群的使用效率。
【資料圖】
所謂集群(Cluster)就是指一組(若干個)相互獨立的計算機,利用高速通信網(wǎng)絡(luò)組成的一個較大的計算機服務(wù)系統(tǒng),每個集群節(jié)點(即集群中的每臺計算機)都是運行各自服務(wù)的獨立服務(wù)器。這些服務(wù)器之間可以彼此通信,協(xié)同向用戶提供應(yīng)用程序,系統(tǒng)資源和數(shù)據(jù),并以單一系統(tǒng)的模式加以管理。當(dāng)用戶請求集群系統(tǒng)時,集群給用戶的感覺就是一個單一獨立的服務(wù)器,而實際上用戶請求的是一組集群服務(wù)器。簡單來講,集群就是一堆服務(wù)器合作做同一件事,這些機器可能需要統(tǒng)一協(xié)調(diào)管理,可以分布在一個機房,也可以分布在全國全球各個地區(qū)的多個機房。只有當(dāng)并發(fā)或總請求數(shù)量超過單臺服務(wù)器的承受能力時,服務(wù)器集群才會體現(xiàn)出優(yōu)勢。
3. 常用命令之bqueues
查詢所有queue的狀態(tài)
5. 常用命令之bjobs
刪除不需要的作業(yè)
7. bpeek -f 作業(yè)號
查看任務(wù)日志,顯示處于運行時作業(yè)的標(biāo)準(zhǔn)輸出和標(biāo)準(zhǔn)錯誤輸出信息;
8.bhist
顯示最近完成作業(yè)或正在運行作業(yè)的歷史情況
bhist jobid
查看作業(yè)歷史;
bsub < run_sim.bsub
參考文獻
[1]https://blog.51cto.com/u_13946099/6081321
[2]https://blog.csdn.net/dacming/article/details/125164549
[3]https://www.04ip.com/post/275572.html
[4]https://blog.csdn.net/l471094842/article/details/94039624
標(biāo)簽:





