通信人家园

标题: APG40操作维护讲座 [查看完整版帖子] [打印本页]

时间: 2010-3-17 18:16

作者: lijunlong 标题: APG40操作维护讲座

APG40操作维护讲座目录: 1 前言：... 12 概述及基本操作... 12.1 APG40硬件配置... 32.2 CP 与 AP的连接。... 72.3 如何通过 Winfiol telnet连接APG40（以 CZMSC7 AP1为例）... 82.4 PcAnywhere的使用和系统备份、计费备份(PcAnywhere10.0.0为例) 92.5 文件传输功能... 142.6 APG40的软件备份和恢复。... 153 APG40 的计费输出。... 174 APG40 常见故障处理介绍。... 214.1 AP CP 失去联系：... 214.2 一个NODE DOWN.. 234.3 AP2问题导致计费失败... 244.4 进程死亡... 254.5 cluster停止... 254.6 关于RAID的处理... 264.7 单侧关电的操作... 284.8 对APG的CP负荷高的处理... 29 1 前言：在今年的换型及扩容中，新型的APG40被大量地引入，包括MSC,BSC,HLR的各类节点。由于APG40和IOG20有较大的差异，在此我们就日常维护中的基本操作加以说明，希望有所帮助。 2 概述及基本操作 APG40是在IOG20基础上发展的以WINDOWS NT为平台的新型输入输出系统，应用于AXE系统的MSC,HLR,BSC中。软件体系如下： OS: Windows NT ServerBYB501cPCIINTELHW:MSCS3pMWTCP/IPP Proprietary Middleware ApplicationsDe sIG n En vI r o nme ntLBBAPMSTS APM: Adjunct Processor Middleware(爱立信为了APG40适应网元而自主开发的软件包，包括自我检测，系统监控，告警系统，与CP的通信，数据传输等.(现有4个子系统: RTR(用于计费), ACS(类似IOG的SPS),OCS(负责AP,CP的通信), AES(类似IOG的DCS). LBB(Large Building Block):为支持APG40的底层硬件(FORCE Computer,处理器,DAT驱动器)和软件(NT OS,Cluster software)以及第三方产品(如 Diskeeper, TCP/IP协议包等). Application: 现在 APG40包括 APIO(如 CPF,MML命令,CPT命令,告警管理),以及 STS. 2.1 APG40硬件配置 APG40使用WINDOWS NT作为操作平台，和传统的IOG一样，一个APG40包括NODE A和NODE B。在MSC上AP1和AP2相当于IOG的SPG0和SPG1。 APG40 Node A & B组成了一个NT Domain, Node A 为PDC(Primary Domain Controller), Node B为BDC(Backup Domain Controller). Node A 管理主用户数据库，并周期性的备份到 Node B. APG40的2个Node组成了 Cluster. Active Node拥有大多数资源， Passive Node拥有少数必要的资源,如:监控，信令等。资源通过 Windows NT Cluster Server管理。当出现 APG Failover时, Cluster 资源将转到原来的Passive Node进行处理,原来的Passive node成为 Active node,且 Cluster IP与新的 Active Node的 MAC地址连接。这样保证在一侧 Node出现故障时,APG40依然能够正常工作。 Cluster resource 分为5个组: RGAPM_0(Node A相关的管理，信令), RGAPM_1(Node B相关的管理，信令),Disk Group(硬盘操作相关资源，如: ALOG,RTR,MSD,STS), PMC860 Group(PMCrHW_1 & PMCrSDLC_1(APG40 硬件维护相关的资源), Cluster Group(其他APG40资源，如：APG Name,Cluster Name,Cluster IP address,Internal Address,Time Service.Cluster resource 可以通过 GUI的 Cluster administrator管理。也可以通过 CLI 的命令管理，如：Cluster node 查看Node状态。Cluster group 查看Group状态。Cluster res 查看Cluster resource状态。Cluster res 资源名 /priv 查看cluster resource具体信息，如参数等。Cluster netint 查看网络接口状态。每个NODE由四块板组成，CPCI730板(也叫系统板),类似于平时我们使用的电脑主板，包含有一块PIII 500Mhz CPU和768MB物理内存、10GB硬盘(包括C:,D:,E:,F:四个卷)、16MB Flash Disk(安装有Win95 DOS等用于灾难性故障恢复,clone等), COM口(连接另一Node的告警板)、显卡、键盘和鼠标接口等。键盘和鼠标口共用，通过转换线一分二用。CPCI730上的硬盘C、D、E、F四个分区，C区(2GB),安装的是WINDOWS NT和CLUSTER SERVER等应用软件，相当于IOG的SP SOFTWARE，D区完全是一个C区的镜像备份，用于恢复系统。E,F盘为系统临时盘，如F盘可保存memory dump.在通过告警板的VGA接口接上显示器即可以显示出WINDOWS NT系统的操作窗口，再通过键盘和鼠标可以对APG40进行最直接的操作,这种接入APG40的方式叫 Local Console. PM 3757 板(也叫外设板)相当于一个SCSI RAID控制器，RAID功能是将两个（或两组）硬盘合而为一，即将NODE A和NODE B的PSU/HDD板两组SCSI硬盘用RAID组合，RAID硬盘由ACTIVE NODE控制，两边NODE的硬盘同时更新数据实现备份功能，只能在ACTIVE NODE的WINDOWS NT中可以看到RAID的硬盘分区（如J、K、L、M、R、S分区），当ACTIVE NODE系统出现问题时，另一边PASSIVE的NODE变为ACTIVE状态，RAID硬盘交由新的ACTIVE NODE控制。另外，当一边NODE的RAID硬盘坏且该NODE为ACTIVE时。另一个NODE的自动变为ACTIVE，且该NODE的RAID硬盘能正常工作，但不能实现备份功能。RAID硬盘是存贮交换局数据如CP DUMP、TTFILE等。RAID硬盘的管理和维护由应用软件CLUSTER SERVER实现，每个NODE相当于一个CLUSTER GROUP。外设板前面有4个 10/100BaseTX以太网接口(ETH #1,#2,#3,#4),以及2个IPN100接口，2个IPN100接口用于APG Node 与 CP的连接，上端的IPN口连接CP-A,下端的连接CP-B,以 100MB以太网速度与CP交互。 ETH#1口有固定的IP地址192.168.200.1,PC机可以通过RJ45连接直接连到APG40上，然后通过Telnet,Winfiol,PcanyWhere等对APG40操作，这种方式叫(Local Craft Terminal LCT).ETH#2口通过路由器可以连接到网络或者OSS,它的IP地址可以设置。ETH#3,ETH#4 与另一Node的ETH#3,ETH#4 互连，用于传送 heartbeat信号,当 active node出现故障，就会产生 Fail over, passive node自动接替原active node而成为active node. 第二个以太网口用网线连到一个小交换机（可以看成HUB），通过小交换机可以连接很多其他的终端（LCT），第二个以太网口的IP地址每个交换局统一分配，如CZMSC8 的AP1 NODE A为10.39.149.2，NODE B为10.39.149.3。另外，系统设定一个公共IP地址为：10.39.149.4，当CONNECT公共IP地址时，总是连到ACTIVE的NODE，可以保证无论是NODE A或NODE B是ACTIVE，CONNECT公共IP地址总能连到ACTIVE的一边。这样，当前的ACTIVE NODE出现问题不正常工作而另一NODE变为ACTIVE时，我们不用改变任何设置即可连到ACTIVE NODE。 MACAHUBROUTERNODE ANODE BAPG 40IPAIPBMACB 这里需要提到的是AP2的PM 3757板的用途，第二个以太网口通过路由器连到计费中心，以传送计费文件。 LBB-AM板(Alarm Board): 第一个PMC Slot有VGA卡，可通过VGA接口连接到Local Console,第二个PMC SLOT通过SDLC（Signalling Terminal Open Communiction）和MAU通过Y-Cable相连，并连到内部告警以接收内部告警输出。 RS232(COM1)接口连接到另一Node 的 System board,用于两个Node CPU的通信; RS485(COM3)接口连接到告警板。 PSU/HDD板包括三个18G的SCSI硬盘、一个磁带机（DAT）、电源接口、外部告警接口和两个SCSI接口。两边NODE的SCSI接***叉互连，用于两边NODE的硬盘进行数据交换，NODE A和NODE B的两组硬盘组成RAID结构。外部告警接口接收电源、环境等外部告警,可接32个外部告警; 接入-48V直流电. DAT使用24GB磁带. HDD板上还有MIA LED指示灯，只有在MIA LED灯亮时，才能进行 APG Node 关电，Node 更换等人工干预操作。 PSU/HDD板上三个SCSI硬盘在Node A & Node B组成镜像的数据盘。有 3*18GB=54GB容量.只有 Cluster Node 的数据盘才进行读写操作，如保存计费，统计等。Passive Node的数据盘通过SCSI总线从Active Node进行磁盘镜像获得数据。磁盘阵列的管理可以通过 GUI工具DPT Storage Manager,如下所示:也可以通过命令行方式,如:Raidutil –L logical RAID 逻辑设备列表。 Raidutil –L physical RAID 物理设备列表。 Raidutil –L version RAID 版本信息。 2.2 CP 与 AP的连接。 APG40 与 APZ 212 3X 和 APZ 212 40 CP的连接方式是不同的。区别如下图所示，1） APZ 212 3X 与 APG40的连接。Node ANode BAP 2Ethernet SwitchIPNA-1CP-AMAUEthernet SwitchIPNA-2CP-BNode ANode BAP 1CPT ConnectionCPGEthernetHUBROUTERWANROUTERROUTEROSSBGWEthernet123456789101112131415 2） APZ 212 40 与 APG40的连接。所以在 APZ 212 3X的交换机下可以执行 OCINP:IPN=ALL; 查看IPN 数据，且在如 Lifeline test前需要 OCISI:IPN=1;来分离IPN. 而在APZ 212 40下，这些命令就不支持了。 2.3 如何通过 Winfiol telnet连接APG40（以 CZMSC7 AP1为例） 1、用网线把本机和OSS的局域网相连。2、在本地网络属性里设定正确的IP地址，确保能够连接到OSS 。3、打开WINFIOL，在Channel \properties里的Protocol选择TCP/IP(telnet)。4、Protocol\SETUP\Host name输入CZMSC7 AP1的Cluster Node AP地址：10.39.149.135; Port Number: 23.5、Protocol\Target\Target exchange type选择APG40，其他使用默认值，确定后打开CHANNEL会出现登录提示。6、login name:：administrator 7、password： xxxx8、Windows NT Domain：N/A9、进入到AP1后出现C:\>提示符，表示现在已经连到了AP系统，此模式接受AP和DOS指令，不接受CP指令。 2.4 PcAnywhere的使用和系统备份、计费备份(PcAnywhere10.0.0为例) PCAnywhere可以实现主机和远程客户登录功能，我们要使用的是它的客户远程登录功能，我们可以在终端上用PcAnywhere登录到APG40的WINDOWS NT系统，对APG40进行管理和操作维护。考虑安全因素，避免多人同时对AP主机进行不同或相同的操作引起故障，同一时间内AP主机只允许一个用户通过PcAnywhere登录，所以我们登录主机操作完成后，要及时退出登录使其他有需要的用户能正常登录，这里介绍PcAnywhere11.0.0的使用，以及如何进行CP系统备份，计费备份，CLOG备份 1、安装完并执行Symantec pcAnywhere，出现下面窗口选中Remotes，并选择 Add Remote. 在连接信息栏中选择: TCP/IP; 在设置栏中选择控制的网络被控端 PC 或 IP地址，并输入 APG 的IP 地址，如： 10.39.149.135. 设置完成后，双击新加的 Remote图标，即可连接到APG的 Node. 如下图所示: 之前会提示主机的显示模式和你本机的不相同，按”OK”忽略不理，进入后按蓝色字提示的按纽进行用户登录（注意别按错上图中红色字提示的按钮，按错了不要确定而是取消操作，那个按纽是重启主机）。User name:administratorPassword: xxxxDomain: 使用默认值，不需更改登录到主机后，我们发现对主机进行的操作就象对本机电脑一样方便，退出主机时按最右边的那个按纽或直接点解窗口右上角的”╳”关闭，切勿选窗口左下角的”Start”--”shut down”，这是把主机关闭的操作。下面是如何把CP DUMP、CLOG等备份到磁带。选择“Start”---“Run”，弹出上面的对话框，在”Open”处输入”NTBACKUP”后按”ok”将出现WINDOWS NT的BACKUP的对话框 Drives里是硬盘上的分区内容，Tapes是磁带机，No tape in the drive表未磁带机里没有插入磁带。Restore表示把磁带的数据备份到硬盘，Backup表示把硬盘的数据备份到磁带，现在我们选中的是Tapes驱动器，所以上面的Restore是黑色，表示该项为可选，Backup为灰色，表示不可选。当我们选中的是Drives时，Backup变为黑色可选，Restore变化灰色不可选，现在我们插入磁带，进行CP DUMP的备份到磁带的操作。 CP DUMP文件存放在L:\FMS\data\CFP\RELVOLUMSW目录下，我们在Drives框双击L分区，将会弹出L分区的对话框，进入到L:\FMS\data\CFP\RELVOLUMSW用光标在RELFSW2目录前的四方格点击一下，选取该目录，选中后文件前的四方格有一个”╳”标志，由于上图的操作是非正式备份，故只选中了一个子文件R2，平时维护备份时需将所有子文件选中。选中要备份的文件后，这时我们按左上的”backup”，上面是Backup的选项，需要注意的是红线框住的部分，当磁带是内容是空的时，Append不可选，当磁带已经存有数据时，Append可选。如果选”Replace时，将会把磁带机已有数据全部覆盖，选择”Append”时，将保留已有数据。我们可以根据实际需要进行选择，其他选项可以使用默认设置，然后按”ok”，进行文件备份，完成后会提示”completed”，备份到磁带的文件会将文件在硬盘上的分区目录一起记录到磁带上。下图是刚才备份到磁带里的文件。如果想把磁带里的文件存到硬盘时，如上图选取了磁带里的R2文件，按Restore出现对话框： ”Altemate Path” 选项可以让你选择存放在硬盘的任意目录位置。取出磁带时，可以直接按磁带驱动器上附带的按纽，切勿正在读写磁带时试图取出磁带。 CLOG备份和CP DUMP备份操作一样，CLOG备份存放在L:\FMS\data\CPF\RELVOLUMSW\RELCMDHDF目录中。 TTFILE文件备份和CP DUMP备份在连接方式上不同外，其他操作都一样可通过PcAnywhere登录到AP2按照CP DUMP的方法进行TTFILE备份。TTFILE存放的目录为： Y:\ACS\data\RTR\CHS_cp0ex\dataFiles\Reported TTFILE文件通常设定为传到计费中心168小时（一星期）后删除， 2.5 文件传输功能PcAnywhere还提供文件传输功能，方便本机和主机之间进行文件传送。登录到AP主机后，按上图提示打开文件传输对话框左边是本机的文件列表，右图是AP的文件列表上图选中的是AP里L:\FMS\data\CFP\RELVOLUMSW下Relfsw2的所有内容，按中间的”Transfer”即可把AP里的Relfsw2内容传送到本机D:\worktools目录下。此功能对于TTFILE的备份较为有用，也可以用于CP Dump备份, 软件升级文件传送等。 2.6 APG40的软件备份和恢复。 APG40是基于Windows NT操作系统下开发的集成AXE交换机的I/O系统。系统启动，硬盘损坏或者Function Change失败等都可能造成软件损坏，并使得APG40瘫痪。所以对于APG40的软件备份就显得尤为重要。所以在进行软件更新或者APG40参数修改前，一定需要进行APG40软件备份；另外建议一到两个月做一次例行APG40软件备份，并把备份保存到外部存储介质，保障在APG40软件损坏时能够即时恢复。 APG40的软件备份包括数据盘结构备份和重要数据(如计费，统计等)的备份，以及系统盘(C:)的备份。功能块(BUR) 负责APG40系统盘的备份和恢复。 1) 数据盘的结构备份。当数据盘出现严重损坏时，这种备份可以用于恢复数据盘的分区和目录结构。数据盘只有在 Active Node才可见，所以备份在 Active Node 进行。备份文件一般放在C:\bur目录下。一 CZMSC7 AP1 为例，假设 AP1 Node A为 Active Node.在 Active Node 执行， Burbackup –savedatadiskinfo c:\bur\czm7ap1_061030_data.ddi将把数据盘备份保存到 C:\bur\czm7ap1_061030_data.ddi.然后复制一份备份到 Passive Node, 如，Copy c:\bur\czm7ap1_061030_data.ddi \\czg7ap1b\c$\bur也可以通过 FTP或者 PCanyWhere 把数据盘备份存储到外部存储介质。 2) 系统盘的备份。系统软件保存在系统盘C:中，D:中保存这C:的备份。由于Active node的系统盘处于工作状态，所以系统盘的备份只能在 Passive Node执行。首先不带参数执行 burbackup , 把 Passive node C:的内容全部复制到 D:. 例如：C:\>burbackupImage name?061030ap1bExecute burBackup with these parameters: -src C:\ -dest D:\ -ImageName "061030ap1b"[y=yes, n=no]??:yburBackup execution completed916 directories and 9379 files copied or equal and 0 files locked. Burverify -d 可以显示D:备份的时间，状态等信息。然后把 D:备份的内容压缩存储于数据盘 K:\Images 的相关目录。如: burbackup –src D:\ -imgdest \\czg7ap1a\k$\images\nodeb\061030ap1b.zip备份好的文件可以通过 burverify –I \\czg7ap1a\k$\images\nodeb\061030ap1b.zip检验备份是否成功。可以通过 PcAnyWhere 把备份拷贝出来，或者通过 Backup软件备份到DAT磁带。由于只能在Passive Node进行系统盘的备份，所以需要在 Active Node 执行 prcboot,使得Active Node切换到原来的 Passive Node,然后在新的 Passive Node(原来的 Active Node)再进行另一侧Node的系统盘备份。 3) 系统盘的恢复。当出现紧急故障，APG40系统盘损坏时，需要做系统盘的恢复。恢复过程依据 OPI: AP,System restore,Initiate. 以下以一侧 Node 的恢复为例介绍系统盘的恢复过程。a) 从 D: 直接恢复系统盘。执行 burrestore 在APG Node 启动恢复后检查cluster 资源是否均 online. cluster res如果有未 online的资源，依据OPI人工操作使得资源恢复工作。b) 从数据盘中备份的数据盘备份中恢复系统盘。首先选择一个用于恢复的好的数据盘备份，如 061030ap1b.zip. 然后执行Burbackup -imgsrc \\czg7ap1a\k$\images\nodeb\061030ap1b.zip -dest D:\ 备份就从文件中解压到 D:\. 然后再依据方法a,从 D:直接恢复系统盘。 3 APG40 的计费输出。 APG40的计费输出是产生在AP2上的，AP2的PM 3757板的第二个以太网口通过路由器连到计费中心，以传送计费文件。为了保证在AP2 down时，不至于计费不能输出，而造成CP 内存中的计费拥塞，并进而影响话务，我们也在 AP1 打开了计费的冗余备份。下面以 CZMSC4 为例，介绍 APG40下的计费产生和传送过程。 ACARTRGOHCPBGWBilling Centre 计费的产生和输出主要由APG40中的三个功能块 ACA,RTR,GOH管理。ACA(Adjunct Processor Communication) 和 MSD(Message Store Daemon) 用于AP与CP间高速可靠的通过MTAP协议进行通信，MSD把计费信息先保存起来。RTR(Record Transfer) 再把MSD保存从计费信息打包产生为文件形式，即TTFILE文件。GOH(Generic Output Handler)负责把文件传送到计费中心。计费的产生原理图如下: 1) CP中话单的生成。当CP中的计费进程开始启动，用户将占用一个SAE 446 的 Inidvidual, 比如一个呼叫的计费分析开始，计费过程结束（如用户挂断电话）， SAE 446中相关的计费数据将会传送到 SAE=500,block=CHOP,产生出计费的原始数据。观察 CP中计费是否正常的命令有，CHODP; ！查看计费指针的跳动；包括即时的计费总分钟计数和记录计数。应为随时增加的值。CHOIP; ! 计费的IO接口是IOG OR APG。在APG系统下，这里应该为 INTERF=AP.CHOPP; 查看计费输出到AP1 OR AP2及其状态。如: CHOPP; COMMON CHARGING OUTPUT ADJUNCT PROCESSOR INTERFACE DATA STATUS BSIZE OUTP MSNAMEOPEN 2 00030 CHSEND STATUS=OPEN, 表示计费输出功能打开， CHOPE; 关闭计费输出，则计费就只能存储在CP中了。OUTP=30 表示计费数据最多在CP缓存中保存30秒就需要输出到 APG.MSNANE: 表示 APG40 中的 Message Store Name. CHS为 AP2的 Message Store, CHSAP1为 AP1的 Message store. SAAEP:SAE=500,BLOCK=CHOP; SAE=500,BLOCK=CHOP为保存计费数据的CP缓存。正常情况下，其中的计费数据将存储到APG40,在 CHOPE 关闭计费输出，或者AP2 down等计费不能正常输出时， NIU值将会很大。如果APG系统正常，该SIZE的占用在有限的范围内波动，通常（0－20左右）. 2) 话单在APG40中的接收，文件生成和传送。在R10版本下，APG系统中话单的接收、分割管理和传递通过MSD、RTR、AFP三个功能块配合完成，它们分别对应的进程（RESOURCE）为 ACS_MSD_service、ACS_RTR_service、AES_AFP_server、 AES_CDH_server。ACS_MSD_service负责接收CP传递过来的话单，并将其存储在Q盘；ACS_RTR_service将话单分割整理为计费中心所识别的TTFILE文件，并将其存储在Y盘的对应目录下。AES_AFP_server功能和AES_CDH_server功能配合将Y盘的文件传递到K盘，并定义为被动的计费传送方式，由计费中心到APG指定的FTP下取计费文件。 MSD相关的命令。phaprint ACS_ACABIN* 检查ACS_ACABIN打头的参数数据。可见 CHS对应的目录为 Q:\ACS\data.Msdls 显示了AP上Message Store的列表。在AP2上可见 MS=CHS,CHS1 到 CHS7,Site=cp0ex. 通过 CHOPP; 命令可知, CHS 为计费输出使用的Message Store.Msdls –m chs -s cp0ex –S 检查 MSNAME=CHS, Site=cp0ex的统计信息。如:Msdls –m chs –s cp0ex –SStatistics of message store ‘chs’ at site ‘cp0ex’Created: 2005-10-12,11:58.Lostmsg: 00000skippedMsg: 00000RecMsg: {00000000000,0189088860}RecBytes: {00000000084,2277833006}. 其中RecMsg表示这个 MessageStore一共接收了多少个Message,RecBytes表示这个 MessageStore一共接收了多少个字节.多次输入这个命令，如果 RecMsg,RecBytes都在不停增长，表明 Message Store工作正常。同样 CD Q:\ACS\data\ACA\CHS\cp0ex\dataFiles DIR 也可以看到 Message Store的数据是在不停的增加的。 RTR相关的命令。 Message Store 保存的计费信息通过 RTR功能按照计费文件的格式进行分割处理，并把产生的计费文件保存在Y:盘。Rtrls 列出RTR的传输队列与MS的关联和RTR的参数。如:rtrlsRTR TABLEMESSAGE STORE FILE TRANSFER QUEUECHS cp0ex RTRFILESFILE Size 1024 ----- 1M bytes.File holding time 900 ----- 最多文件打开900s(15minutes).Fiexed file records YESFile record length 2048File padding char 0Generation time 00:00Reset flag NO.Rtrls –d 列出RTR的 default parameters. RTR default parameters通过 rtrch 命令修改。RTR传送队列与 Message Store的关联通过 rtrdef 命令定义。如CZMSC4 AP2 RTRFILES队列即与 CHS 关联了. Message Store的 MS buffer 必须与 RTRFILE的 File record length 一样，否则Message store 中的内容不能正常生成文件。RTR生成的文件放在 Y:\ACS\data\RTR.如： CZMSC4 AP2 的 TTFILE存放在，Y:\ACS\data\RTR\CHS_cp0ex\dataFiles\Reported. 在该目录下 DIR 检查，如果RTR功能正常， TTFILE将会在达到1M或者最大 15分钟间隔产生一个。 AFP相关的命令。 Afpls –l列出传送队列的参数信息和与 Destination Set 的关联信息。C:\>afpls -lAFP TABLE TRANSFER QUEUE USER GROUPRTRFILES SOURCE DIRECTORYY:\ACS\DATA\RTR\CHS_CP0EX\DATAFILES\REPORTED REMOVE DELAY REMOVE TIMER DEFAULT STATUS DESTINATION SET 10080 0 READY BILLDESTSET表示传送队列 RTRFILES与目的集BILLDESTSET关联. afpls -a transferqueue destinationset传送队列详细属性列表。如: CZMSC4 AP2C:\>afpls -a rtrfiles billdestsetAFP TABLE TRANSFER QUEUE USER GROUPRTRFILES DESTINATION SETBILLDESTSET DEFAULT STATUS REMOVE BEFORE NAME TAGREADY NO TTFILE. REMOVE DELAY RETRIES RETRY INTERVAL MANUAL 10080 0 10 NO TEMPLATE RENAME SOURCE DIRECTORYFyyyymmddHHMMSSpppp LOCAL Y:\ACS\DATA\RTR\CHS_CP0EX\DATAFILES\REPORTED表示通过传送队列 RTRFILES,传送到:\ACS\DATA\RTR\CHS_CP0EX\DATAFILES\REPORTED的计费文件，保存 10080分钟(7天), 文件名为 TTFILE, 如 TTFILE.200611061750083707 CDH(Common Destination Handling)相关的命令。CDH功能块用于把数据或者文件传送到Destination,可用于计费或者统计等的传送。Cdhdsls –l 所有Destination Set 的详细列表，如 CZMSC4 AP2,C:>cdhdsls -lCDH DESTINATION SET TABLE DESTINATION SET TYPE USER GROUPBILLDESTSET FILE DESTINATION ACTIVE P BILLINGDEST YES S B 一个 Destination Set 最多可定义三个Destination:主，次和备份。例子中仅定义了Primary dest. Cdhdls –p destination Destination的路径。如 CZMSC4 AP2.C:>cdhls -p billingdestCDH DESTINATION TABLE DESTINATION: BILLINGDESTPATH: K:\AES\data\cdh\billing\billingdest Cdhdls –l destination Destination的属性详细列表。如 CZMSC4 AP2.C:\ >cdhls -lCDH DESTINATION TABLE DESTINATION TRANSFER TYPE PARAMETERS BILLINGDEST FTPV2 -c r -g yes -k yes -h Billing 表示传送类型为 FTPV2, 连接方式为 responding,表示传送发起方为远端，虚拟目录为 Billing. Vdls –n “Default FTP Site”列出虚拟目录列表。如： C:\vdls -n "Default FTP Site" Virtual Directory ACSPhysical Path "C:\acs\data\ftp" Virtual Directory CDHPhysical Path "K:\aes\data\cdh\ftp" Virtual Directory imagesPhysical Path "K:\Images" Virtual Directory ftpvolPhysical Path "G:\ftpvol" Virtual Directory BillingPhysical Path "K:\AES\data\cdh\billing\billingdest" Virtual Directory AutoTTPhysical Path "Y:\ACS\data\RTR\CHS_cp0ex\dataFiles\Reported" 可见 Billing 对于的实际目录为 K:\AES\data\cdh\billing\billingdest.需要传送的TTFILE会从Y:自动拷贝到K:\AES\data\cdh\billing\billingdest\ready. 然后计费中心通过FTP连接到这个目录主动取得计费文件。Dir K:\AES\data\cdh\billing\billingdest\ready 如果文件在不停的增加，且没有删除的，表示计费中心不能正常取走文件。 4 APG40 常见故障处理介绍。4.1 AP CP 失去联系： a. 尝试TELNET到ACTIVE NODEb. Ping IPN device,确认物理连接正常。c. 命令"cluster netint "来检查和CP的接口是否正常。C:\>cluster netintListing status for all available network interfaces: Node Net Status-------------------------- -------------------------- ------- KSMSC3APG1B IPN100-2 Up KSMSC3APG1B IPN100-1 Up KSMSC3APG1B Heartbeat 2 Up KSMSC3APG1B Heartbeat 1 Up KSMSC3APG1B Local Maintenance Up KSMSC3APG1A IPN100-2 Up KSMSC3APG1A IPN100-1 Up KSMSC3APG1A Heartbeat 2 Up KSMSC3APG1A Heartbeat 1 Up KSMSC3APG1A Local Maintenance Up KSMSC3APG1A Public Up KSMSC3APG1B Public Up d. ipnaadm –listC:\>ipnaadm –list !用于 APZ 212 3X 与 APG40连接! Connected IPNAs are : ipna00 ipna01 endlist e. 如果c,d OK,CP_AP仍然无联系，通过CPT连接：PTCOI

TWSP

TSRI:RANK=SMALL;f. 如果无法CPT连接，REBOOT主用侧，做个切换，然后再尝试CPT连接。 4.2 一个NODE DOWN 关电为最后选择，一般不进行。a. TELNET到此NODE.b. LOCAL CONSOLE到该NODE,参考以下“CLUSTER STOP”处理c. 如果以上都失败，登录上ACTIVE的NODE,做fcc_reset other。 4.3 AP2问题导致计费失败在R10中，采取GOH&RTR方式AP中检查CDH, destination set:cdhdsls -l BILLDESTSETcdhls –l billingdest !check destination!cdhls –p billingdest !path list! CDHVER检查DEST连接是否正常；Cdhver billingdest 检查CP和AP间的接口：<APAMP;AP MAINTENANCE DATADIRECTORY ADDRESS DATAAP NODE LAN IP PORT STATUS CATEGORY1 A 1 192.168.169.1 14000 PASSIVE1 A 2 192.168.170.1 14000 ACTIVE1 B 2 192.168.170.2 14000 ACTIVE1 B 1 192.168.169.2 14000 PASSIVE2 A 1 192.168.169.3 14000 ACTIVE2 A 2 192.168.170.3 14000 PASSIVE2 B 2 192.168.170.4 14000 ACTIVE2 B 1 192.168.169.4 14000 PASSIVE确认CP-AP状态OPEN: CHOPP;CHOIP;CP SAE检查SAAEP:SAE=500,BLOCK=CHOP;AP2 检查 MESSAGE STOREmsdls -m CHS -s cp0ex –a子文件检查：Y:\ACS\data\RTR\CHS_cp0ex\dataFiles\Reported>AFP功能检查Afpls –ls rtrfiles人工传送Afpfti –f rtrfiles 4.4 进程死亡 cluster res 来确认进程为ONLINE,OFFLINE,或FAILURE分以下两类情形处理：在单侧：a. 检查死亡或停止的进程在ACTIVE或PASSIVE侧，若在ACTIVE侧，做切边（prcboot）,让问题的NODE为PASSIVE状态；b. 人工启动进程.cluster res <process name> /on /wait 在双侧：a. 启动现在的PASSIVE侧，试图启动死亡的进程；b. 再次登陆启动的NODE，如果CLUSTER正常，检查进程是否online,若依旧为offline,尝试人工启动；c. 若已是online,则在执行侧启动（FAILOVER），使原PASSIVE侧成为ACTIVE侧，以下遵循“在单侧”的方法。 4.5 cluster停止类似于NODE DOWN.a. 如何判断cluster downprcstate 显示状态为UNDEFINED.b. 检查cluster servicenet start检查SERVICE是否正常启动首先为clussvc,其次为ACS_PRC_LBBc. 如果以上SERVICE已经启动，则尝试再次PRCBOOT.d. 如果SERVICE未启动，尝试人工启动：net start "Cluster Server" net start "ACS_PRC_LBB" e. 如果能够正常启动，CLUSTER应会稍后正常（UP）f. 如果不能启动，再次启动NODE(prcboot),如仍无效，呼叫爱立信工程师。 4.6 关于RAID的处理主要可能为“MIRROR NOT REDUNDANT”的告警。a. 如何判断raidutil –L logical 可以检查RAID的状态正常情况下，在执行侧，我们应看到：Logical ViewAddress Type Manufacturer/Model Capacity Status---------------------------------------------------------------------------d0b0t0d0 RAID 1 (Mirrored) DPT RAID-1 17522MB Optimald0b0t0d0 Disk Drive (DASD) FUJITSU MAP3367NP 17522MB Optimald0b1t0d0 Disk Drive (DASD) FUJITSU MAP3367NP 17522MB Optimald0b0t1d0 RAID 1 (Mirrored) DPT RAID-1 17522MB Optimald0b0t1d0 Disk Drive (DASD) FUJITSU MAP3367NP 17522MB Optimald0b1t1d0 Disk Drive (DASD) FUJITSU MAP3367NP 17522MB Optimald0b0t2d0 RAID 1 (Mirrored) DPT RAID-1 17522MB Optimald0b0t2d0 Disk Drive (DASD) FUJITSU MAP3367NP 17522MB Optimald0b1t2d0 Disk Drive (DASD) FUJITSU MAP3367NP 17522MB Optimal 在PASSIVE侧，我们应看到：Logical ViewAddress Type Manufacturer/Model Capacity Status---------------------------------------------------------------------------d0b0t0d0 RAID 1 (Mirrored) DPT RAID-1 17522MB Drive Failed d0b0t0d0 Disk Drive (DASD) FUJITSU MAP3367NP 0MB Optimal d0b1t0d0 Disk Drive (DASD) FUJITSU MAP3367NP 0MB Optimald0b0t1d0 RAID 1 (Mirrored) DPT RAID-1 17522MB Drive Failed d0b0t1d0 Disk Drive (DASD) FUJITSU MAP3367NP 0MB Optimal d0b1t1d0 Disk Drive (DASD) FUJITSU MAP3367NP 0MB Optimald0b0t2d0 RAID 1 (Mirrored) DPT RAID-1 17522MB Drive Failed d0b0t2d0 Disk Drive (DASD) FUJITSU MAP3367NP 0MB Optimal d0b1t2d0 Disk Drive (DASD) FUJITSU MAP3367NP 0MB Optimal 如和以上不符，应考虑修复RAID. b. 对于degraded状态的DISK，显示Logical ViewAddress Type Manufacturer/Model Capacity Status---------------------------------------------------------------------------d0b0t0d0 RAID 1 (Mirrored) DPT RAID-1 17522MB Degraded d0b1t0d0 Disk Drive (DASD) FUJITSU MAN3184MP 17522MB Optimal d0b0t0d0 Disk Drive (DASD) FUJITSU MAN3184MP 17522MB Failed drived0b0t1d0 RAID 1 (Mirrored) DPT RAID-1 17522MB Degraded d0b1t1d0 Disk Drive (DASD) FUJITSU MAN3184MP 17522MB Optimal d0b0t1d0 Disk Drive (DASD) FUJITSU MAN3184MP 17522MB Failed drived0b0t2d0 RAID 1 (Mirrored) DPT RAID-1 17522MB Degraded d0b1t2d0 Disk Drive (DASD) FUJITSU MAN3184MP 17522MB Optimal d0b0t2d0 Disk Drive (DASD) FUJITSU MAN3184MP 17522MB Failed drive 在执行侧，使用命令raidutil -a rebuild d#b#t#d#遵循OPI “AP Fault” c. 另一可选择的方式为利用DPT Storage Manager如何进入：Start -> Programs -> DPT Storage Manager -> DPT Storage Manager v2.17 选择Logical Configuration View双击RAID-1的图标，状态域中应显示degraded点击REBUILD的图标，启动RAID的重建磁盘将显示白旗表示处于重建进程中；当重建完成，白旗将消失，阵列的状态将为OPTIMAL 4.7 单侧关电的操作在某些情况下（如RAID问题，OS NOT FOUND(蓝屏)，NODE DOWN），可能需要单侧关电（不考虑客户操作双侧关电）,对于此类判断，通常应由爱立信工程师指导，此处只是说明基本过程。a. 如是ACTIVE侧需关电，通过切换，使之成为PASSIVE；如已是PASSIVE，则忽略；b. 检查RAID状态，确认ACTIVE侧的RAID状态为OPTIMAL.c. 在ACTIVE侧，执行fcc_save_to_remove other 检查命令是否执行，另一侧是否关闭；如成功执行后，等待数分钟后检查需关电侧的MIA灯是否已亮，如亮，即可关电。开电恢复后，还需要在 Active node执行 fcc_integrate other 来恢复磁盘镜像。 4.8 对APG的CP负荷高的处理当发现某些操作较慢时，可能是某个进程（或RESOURCE)占用了较多CPU的资源，首先定位进程：1.PSTAT 发现是否有进程占用时间太长，如CMD.EXE,例子如下：User Time Kernel Time Ws Faults Commit Pri Hnd Thd Pid Name 0:00:03.635 0:00:03.404 3908 1153 2440 8 252 5 861 mml.exe 0:00:00.020 0:00:00.060 3348 847 2216 8 199 1 525 aploc.exe 2:50:04.573 5:33:00.460 1512 334950256 516 8 181 1 854 CMD.EXE 显然CMD.EXE占用时间较长。 2.通过PCANYWHERE，进入NT，直接RUN:TASKMGR，通过选择CPU部分，可以看到占用的百分比，在通常情况下，CPU IDLE PROCESS占用50左右，如无IDLE PROCESS，则在此列中最高显示的即为吊住的进程。此法直接，推荐。处理方法如下：1.对于AP相关的进程，如MCS_MTS_ADM等，（CLUSTER RES可显示），可以通过cluster res mcs_mts_adm /off /wait 再 cluster res mcs_mts_adm /on /wait 对进程重启。 2.对于非AP相关的进程，如cmd.exe,ghost32.exe,explore.exe等，爱立信不建议采用cohen（类似UNIX的kill)来杀死进程，在PASSIVE NODE无异常的情况下，prcboot做NODE的切换更合适

时间: 2010-3-21 12:34

作者: bhj_dysf

格式太难看开了

时间: 2013-2-26 10:54

作者: jianwwj

虽然格式乱，但资料还是很不错的。

通信人家园 (https://test.txrjy.com/)