ChemiAndy

AMD64-Ubuntu Karmic (9.10) 安装 Open-MPI and Torque

1. Open-MPI:

从这一页:
https://launchpad.net/ubuntu/karmic/amd64/openmpi-bin

选择version, 比如1.3.2-3ubuntu1.1进入:
https://launchpad.net/ubuntu/karmic/amd64/openmpi-bin/1.3.2-3ubuntu1.1

Click openmpi-bin_1.3.2-3ubuntu1.1_amd64.deb (134.7 KiB) active installation procedure;

2. Torque
https://www.clusterresources.com/torquedocs21/

PBS是功能最为齐全,历史最悠久,支持最广泛的本地集群调度器之一。 PBS的目前包括openPBS,PBS Pro和Torque三个主要分支。其中OpenPBS是最早的PBS系统,目前已经没有太多后续开发,PBS pro是PBS的商业版本,功能最为丰富。Torque是Clustering公司接过了OpenPBS,并给与后续支持的一个开源版本。

1.0   Overview

* 1.1   Installation
* 1.2   Basic Configuration
* 1.3   Advanced Configuration
* 1.4   Manual Setup of Initial Server Configuration
* 1.5   Testing Server Configuration


1.1 TORQUE Installation
1.1.1 TORQUE Architecture

一个TORQUE cluster包括一个主节点(head node)和一些计算节点(compute nodes)
* 主节点(head node): 运行pbs_server daemon,和scheduler daemon(调度后台)
* 计算节点(compute nodes): 运行pbs_mom daemon
* 客户端 (client): 递交和管理作业,可安装在任意节点上
* 调度后台(scheduler daemon): 同pbs_server交互并决定如何运行作业;绝大多数TORQUE用户使用高级调度程序Maui or Moab.

用户通过qsub命令递交作业。当pbs_server收到一个作业时,即通知调度后台(scheduler daemon), scheduler daemon查看可用节点列表和其它资源并决定如何运行该作业后发回给pbs_server,pbs_server则把该作业发送给节点列表中的第一个节点,并通知其如何运行。

1.1.2 Installing TORQUE安装
下载解压进入目录,然后:
>./configure
> make
> sudo make install

1.1.3 Compute Nodes 在子节点上安装

在 master 机器上需要安装的是 server 包,在节点上需要安装的是 mom 包。在需要提交 PBS 任务的机器上需要安装 clients 包。

> make packages // 生成子节点安装所需的自解压包和批文件
> sudo mkdir /share
> sudo chmod 777 /share //创建共享目录
> cp torque-package-mom-linux-amd64.sh /share
> cp torque-package-clients-linux-amd64.sh /share //复制批文件

安装
> vi hosts
127.0.0.1 localhost  //创建节点列表文件,此例仅本机
> dsh -f hosts torque-package-mom-linux-amd64.sh --install
> dsh -f hosts torque-package-clients-linux-amd64.sh --install

本例在本机上依次运行:
>sudo ./torque-package-clients-linux-x86_64.sh  
>sudo ./torque-package-devel-linux-x86_64.sh
>sudo ./torque-package-doc-linux-x86_64.sh
>sudo ./torque-package-mom-linux-x86_64.sh
>sudo ./torque-package-server-linux-x86_64.sh

1.1.4 Enabling TORQUE as a service (optional)

1.2 Basic Configuration

1.2.1 Initialize/Configure TORQUE on the Server (pbs_server)在服务器上配置TORQUE

首先更新 ld 配置的缓存:
> sudo ldconfig
(https://linux.chinaunix.net/techdoc/system/2009/02/08/1061473.shtml)

然后配置
> sudo ./torque.setup xijun
initializing TORQUE (admin: xijun@xijun-desktop)
Max open servers: 4
Max open servers: 4

检查配置是否成功
> qmgr -c 'print server'
#
# Create queues and set their attributes.
#
#
# Create and define queue batch
#
create queue batch
set queue batch queue_type = Execution
set queue batch resources_default.nodes = 1
set queue batch resources_default.walltime = 01:00:00
set queue batch enabled = True
set queue batch started = True
#
# Set server attributes.
#
set server scheduling = True
set server acl_hosts = xijun-desktop
set server managers = xijun@xijun-desktop
set server operators = xijun@xijun-desktop
set server default_queue = batch
set server log_events = 511
set server mail_from = adm
set server scheduler_iteration = 600
set server node_check_rate = 150
set server tcp_timeout = 6
set server mom_job_sync = True
set server keep_completed = 300
成功!

1.2.2 Specify Compute Nodes指定计算节点

pbs_server需要知道网络中的那些节点为计算节点,它读取$TORQUECFG/server_priv/nodes文件。(环境变量$TORQUECFG 指定存储nodes文件的路径,缺省为:/var/spool/torque/)

nodes文件语法:
node-name[:ts] [np=] [properties]
:ts 标注该节点位分时计算节点;np指定该节点的核(processor);

> cat $TORQUECFG/server_priv/nodes
xijun-desktop np=4

1.2.3 Configure TORQUE on the Compute Nodes 配置计算节点

在计算节点上运行:
> torque-package-mom-linux-x86_64.sh

1.2.4 Finalize Configurations

配置serverdb和server_priv/nodes之后,分别在主/计算节点上重启pbs_server和pbs_mom
计算节点:
> pbs_mom

服务节点:
> sudo qterm -t quick
> sudo pbs_server
> sudo pbs_sched

等待数秒之后,运行
> pbsnodes -a //里出所有可用节点
xijun-desktop
state = down  //尚未启动
np = 4
ntype = cluster


1.3 Advanced Configuration高级配置

1.3.1 Customizing the Install自定义安装(略)

1.3.2 Server Configuration 服务配置

1.3.2.1 Server Configuration Overview
1.3.2.2 Name Service Configuration 命名服务配置
每个节点与服务器必须能够解析相互间的名字,可用/etc/hosts。并使用ping来测试是否相通。
> ping xijun-desktop

1.3.2.3 Configuring Job Submission Hosts 配置作业递交主机
当作业通过多个不同的主机进行递交时,这些主机之间必须通过R*命令建立信任。略

1.3.2.6 Specifying Non-Root Administrators
指定xijun作为root管理TORQUE
> sudo qmgr -c "set server managers += xijun@xijun-desktop"
> sudo qmgr -c "set server operators += xijun@xijun-desktop"

1.4 Manual Setup of Initial Server Configuration
> sudo pbs_server -t create
> sudo qmgr -c "set server scheduling=true"
> sudo qmgr -c "create queue batch queue_type=execution"
> sudo qmgr -c "set queue batch started=true"
> sudo qmgr -c "set queue batch enabled=true"
> sudo qmgr -c "set queue batch resources_default.nodes=1"
> sudo qmgr -c "set queue batch resources_default.walltime=3600"
> sudo qmgr -c "set server default_queue=batch"
(未完)

评论