手機版
你好,游客 登錄 注冊
背景:
閱讀新聞

Linux-HA開源軟件Heartbeat

概念篇

[日期:2016-11-23] 來源:Linux社區  作者:eurasiaxz [字體: ]

一、 heartbeat的概念
Linux-HA的全稱是High-Availability Linux,它是一個開源項目,這個開源項目的目標是:通過社區開發者的共同努力,提供一個增強linux可靠性(reliability)、可用性 (availability)和可服務性(serviceability)(RAS)的群集解決方案。其中Heartbeat就是Linux-HA項目中 的一個組件,也是目前開源HA項目中最成功的一個例子,它提供了所有 HA 軟件所需要的基本功能,比如心跳檢測和資源接管、監測群集中的系統服務、在群集中的節點間轉移共享 IP 地址的所有者等,自1999年開始到現在,Heartbeat在行業內得到了廣泛的應用,也發行了很多的版本,可以從Linux-HA的官方網站www.linux-ha.org下載到Heartbeat的最新版本。

 
二、 HA集群中的相關術語

1.節點(node)
運行heartbeat進程的一個獨立主機,稱為節點,節點是HA的核心組成部分,每個節點上運行著操作系統和heartbeat軟件服務,在 heartbeat集群中,節點有主次之分,分別稱為主節點和備用/備份節點,每個節點擁有唯一的主機名,并且擁有屬于自己的一組資源,例如,磁盤、文件 系統、網絡地址和應用服務等。主節點上一般運行著一個或多個應用服務。而備用節點一般處于監控狀態。
2.資源(resource)
資源是一個節點可以控制的實體,并且當節點發生故障時,這些資源能夠被其它節點接管,heartbeat中,可以當做資源的實體有:
  磁盤分區、文件系統
  IP地址
  應用程序服務
  NFS文件系統
3.事件(event)
也就是集群中可能發生的事情,例如節點系統故障、網絡連通故障、網卡故障、應用程序故障等。這些事件都會導致節點的資源發生轉移,HA的測試也是基于這些事件來進行的。
4.動作(action)
 事件發生時HA的響應方式,動作是由shell腳步控制的,例如,當某個節點發生故障后,備份節點將通過事先設定好的執行腳本進行服務的關閉或啟動。進而接管故障節點的資源。

三、 Heartbeat的組成與原理

1.Heartbeat的組成
Heartbeat提供了高可用集群最基本的功能,例如,節點間的內部通信方式、集群合作管理機制、監控工具和失效切換功能等等,目前的最新版本是 Heartbeat2.x,這里的講述也是以Heartbeat2.x為主,下面介紹Heartbeat2.0的內部組成,主要分為以下幾大部分:
  heartbeat: 節點間通信檢測模塊
  ha-logd: 集群事件日志服務
  CCM(ConsensusCluster Membership):集群成員一致性管理模塊
  LRM (LocalResource Manager):本地資源管理模塊
  Stonith Daemon: 使出現問題的節點從集群環境中脫離
  CRM(Clusterresource management):集群資源管理模塊
  Cluster policy engine: 集群策略引擎
  Cluster transition engine:集群轉移引擎
圖1顯示了Heartbeat2.0內部結構組成:

 Heartbeat僅僅是個HA軟件,它僅能完成心跳監控和資源接管,不會監視它控制的資源或應用程序,要監控資源和應用程序是否運行正常,必須使用第三方的插件,例如ipfail、Mon、Ldirector等。Heartbeat自身包含了幾個插件,分別是ipfail、Stonith和Ldirectord,介紹如下:
    ipfail的功能直接包含在Heartbeat里面,主要用于檢測網絡故障,并作出合理的反應,為了實現這個功能,ipfail使用ping節點或者ping節點組來檢測網絡連接是否出現故障,從而及時的做出轉移措施。
    Stonith插件可以在一個沒有響應的節點恢復后,合理接管集群服務資源,防止數據沖突,當一個節點失效后,會從集群中刪除,如果不使用Stonith 插件,那么失效的節點可能會導致集群服務在多于一個節點運行,從而造成數據沖突甚至是系統崩潰。因此,使用Stonith插件可以保證共享存儲環境中的數 據完整性。
    Ldirector是一個監控集群服務節點運行狀態的插件。Ldirector如果監控到集群節點中某個服務出現故障,就屏蔽此節點的對外連接功能,同時將后續請求轉移到正常的節點提供服務,這個插件經常用在LVS負載均衡集群中,關于Ldirector插件的使用,將在后面詳細講述。
  同樣,對于操作系統自身出現的問題,Heartbeat也無法監控,如果主節點操作系統掛起,一方面可能導致服務中斷,另一方面由于主節點資源無法釋放,而備份節點卻接管了主節點的資源,此時就發生了兩個節點同時爭用一個資源的狀況。
針對這個問題,就需要在linux內核中啟用一個叫watchdog的模塊,watchdog是一個Linux內核模塊,它通過定時向/dev /watchdog設備文件執行寫操作,從而確定系統是否正常運行,如果watchdog認為內核掛起,就會重新啟動系統,進而釋放節點資源。
在linux中完成watchdog功能的軟件叫softdog,softdog維護一個內部計時器,此計時器在一個進程寫入/dev/watchdog 設備文件時更新,如果softdog沒有看到進程寫入/dev/watchdog文件,就認為內核可能出了故障。watchdog超時周期默認是一分鐘,可以通過將watchdog集成到Heartbeat中,從而通過Heartbeat來監控系統是否正常運行。

2.Heartbeat的工作原理
從圖18.1可以看出,heartbeat內部結構有三大部分組成。
集群成員一致性管理模塊(CCM)用于管理集群節點成員,同時管理成員之間的關系和節點間資源的分配,heartbeat模塊負責檢測主次節點的運行狀態,以決定節點是否失效。ha-logd模塊用于記錄集群中所有模塊和服務的運行信息。
本地資源管理器(LRM)負責本地資源的啟動,停止和監控,一般由LRM守護進程lrmd和節點監控進程(Stonith Daemon)組成,lrmd守護進程負責節點間的通信,Stonith Daemon通常是一個Fence設備,主要用于監控節點狀態,當一個節點出現問題時處于正常狀態的節點會通過Fence設備將其重啟或關機以釋放IP、 磁盤等資源,始終保持資源被一個節點擁有,防止資源爭用的發生。
集群資源管理模塊(CRM)用于處理節點和資源之間的依賴關系,同時,管理節點對資源的使用,一般由CRM守護進程crmd、集群策略引擎和集群轉移引擎 三個部分組成,集群策略引擎(Cluster policy engine)具體實施這些管理和依賴,集群轉移引擎(Clustertransition engine)監控CRM模塊的狀態,當一個節點出現故障時,負責協調另一個節點上的進程進行合理的資源接管。
在Heartbeat集群中,最核心的是heartbeat模塊的心跳監測部分和集群資源管理模塊的資源接管部分,心跳監測一般由串行接口通過串口線來實現,兩個節點之間通過串口線相互發送報文來告訴對方自己當前的狀態,如果在指定的時間內未受到對方發送的報文,那么就認為對方失效,這時資源接管模塊將啟 動,用來接管運行在對方主機上的資源或者服務。

更多詳情見請繼續閱讀下一頁的精彩內容http://www.nmzech.live/Linux/2016-11/137436p2.htm

linux
【內容導航】
第1頁:概念篇 第2頁:安裝篇
第3頁:配置篇 第4頁:測試篇
本文評論   查看全部評論 (0)
表情: 表情 姓名: 字數

       

評論聲明
  • 尊重網上道德,遵守中華人民共和國的各項有關法律法規
  • 承擔一切因您的行為而直接或間接導致的民事或刑事法律責任
  • 本站管理人員有權保留或刪除其管轄留言中的任意內容
  • 本站有權在網站內轉載或引用您的評論
  • 參與本評論即表明您已經閱讀并接受上述條款
北京快乐8走势图彩客网