15分毎に発生する "unknown error (1)" につきまして (Linux-ha-jp) - Linux-HA Japan

橋間さん

こんにちは。
松浦と申します。

ご提示のログですがWEB1ノードにてWeb_Clusterリソースの故障情報が
残ったままになってため、15分間隔で警告が出ているものと思います。

故障検知された原因はPacemakerやアプリケーションのログを見ないと
分からないですが、故障情報自体はWEB1ノードのPacemakerを再起動
するか、以下のコマンドを実行すれば消えると思います。
※ pcs詳しくないですが、多分あってるはず。

　# pcs resource cleanup Web_Cluster WEB1

放置した場合のサービスの影響としては故障情報が残ったままとなって
いるので、今後何らかの故障が現用機で発生した際にWEB1へフェイル
オーバしない挙動になると思われます。

以上です。

-----Original Message-----
From: linux****@lists***** [mailto:linux****@lists*****] On Behalf Of 原田将寛
Sent: Wednesday, September 13, 2017 11:30 AM
To: linux****@lists*****
Subject: [Linux-ha-jp] 15分毎に発生する "unknown error (1)" につきまして

お世話になります。
橋間 と申します。

1点、質問をさせていただきます。
ご教示いただけますと幸いでございます。

このたびnginxで構築したWebサーバーのHAを
以下のソフトウェアで実現しております。

corosync-2.4.0-4.el7.x86_64

pacemaker-1.1.15-11.el7_3.4.x86_64

pcs-0.9.152-10.el7.centos.3.x86_64

先日サーバーの再起動を実施してから、以下のログが15分毎に発生するようになりました。
Sep 1 01:013:22 WEB1 pengine[1214]: warning: Processing failed op monitor for Web_Cluster on WEB1: unknown error (1)

サービスに影響は出ていないため、いまは静観しておりますが
本ログに関して、原因・対応についてご教示いただけないでしょうか。
初歩的な質問で（当方サーバーエンジニア歴2年程）恐縮なのですが、
何卒、よろしくお願い申し上げます。

pcs config は以下の通りでございます。
リソースとして、"仮想IP"と"nginxのwebサービス" を監視しております。

Cluster Name: ha_cluster
Corosync Nodes:
 WEB1 WEB2
Pacemaker Nodes:
 WEB1 WEB2

Resources:
 Resource: Virtual_IP (class=ocf provider=heartbeat type=IPaddr2)
  Attributes: ip=192.168.100.100 cidr_netmask=32
  Operations: start interval=0s timeout=20s (Virtual_IP-start-interval-0s)
              stop interval=0s timeout=20s (Virtual_IP-stop-interval-0s)
              monitor interval=5s (Virtual_IP-monitor-interval-5s)
 Resource: Web_Cluster (class=ocf provider=heartbeat type=nginx)
  Attributes: configfile=/etc/nginx/nginx.conf status10url=http://localhost/nginx_status
  Operations: start interval=0s timeout=60s (Web_Cluster-start-interval-0s)
              stop interval=0s timeout=60s (Web_Cluster-stop-interval-0s)
              monitor interval=5 OCF_CHECK_LEVEL=10 (Web_Cluster-monitor-interval-5)

Stonith Devices:
Fencing Levels:

Location Constraints:
Ordering Constraints:
Colocation Constraints:
  Web_Cluster with Virtual_IP (score:INFINITY) (id:colocation-Web_Cluster-Virtual_IP-INFINITY)
Ticket Constraints:

Alerts:
 No alerts defined

Resources Defaults:
 No defaults set
Operations Defaults:
 No defaults set

Cluster Properties:
 cluster-infrastructure: corosync
 cluster-name: ha_cluster
 dc-version: 1.1.15-11.el7_3.4-e174ec8
 default-resource-stickiness: INFINITY
 have-watchdog: false
 no-quorum-policy: ignore
 stonith-enabled: false

Quorum:
  Options:

Linux-HA Japan Forkpm_logconv-cspm_diskdpm_logconv-hbpm_extrasdocpm_crmgenvm-ctlpm_kvm_tools

[Linux-ha-jp] 15分毎に発生する "unknown error (1)" につきまして

Linux-HA Japan
Fork
pm_logconv-cs
pm_diskd
pm_logconv-hb
pm_extras
doc
pm_crmgen
vm-ctl
pm_kvm_tools