avamar maintenace obecne 3. – HFScheck
To, čo je v UNIXoch fschk, je na avamare hfscheck (Hash Filesystem Check) – pravidelná kontrola inregrity dát (pre disaster recovery záloh a systémový rollback) podľa heší, resp. kontrola checkopintov (Checkpoint validation). Štandardne prebieha 2x denne, v tejto dobe je avamar read only . Hlavný proces sa volá hfscheck, je šedulovaný, le dá sa spustit aj ručne: avmaint hfscheck. Vyžere to pamať a trvá niekoľko hodín, takže bacha a nejde spustiť, keď bežia aktívne backupy (maintenance window). Pre tento prípad je tam možnosť ho púšťať i parciálne (“rolling”), kedy kontroluje len zmenené a nové dáta a na staré len výberovo. Má dobrú vlastnosť – samoopravné sklony.Hfscheck inicializuje proces cgsan. Pred jeho štartom sa spúšťa waitcgsan, ktorý čaká, až sa proces inicializuje na všetkých nodoch. Často to lezie na nervy, ale neodsteľovať tento proces, pekne počkať!
Aké fázy tvoria samotný hfscheck?
- indexsweep – kontrola integrity indexu (tabuľky heší pre jednotlivé chunky) a rozkopírovanie heší na jednotlivé nody (bude sa to kontrolovať na nodoch, tak kvoli rýchlosti).
- datasweep – jadro hfschecku. Kontrola heší datových chunkov s hešmi z indexu (= odpovedajú data, ktoré sa uložili, informácii v tabuľke?) na jednotlivých nodoch.
- paritysweep – rekalkulácia parity dát a porovnanie tohoto údaju s údajmi na nodoch (= je parita správna a zodpovedá aktuálnemu výpočtu?)
- refcheck – kontrola, či každý datový chunk je uvedený v indexe
Nejaké tie komandy
Prehľad stavu hfschecku, vylistuje posledný stav vo formáte .xml: avmaint hfscheckstatus
Every 2.0s: avmaint hfscheckstatus
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<hfscheckstatus
nodes-queried="5"
nodes-replied="5"
nodes-total="4"
checkpoint="cp.20161002072226"
status="error"
result="MSG_ERR_HFSCHECKERRORS"
type="reduced"
checks="rolling+metadata:10:2"
elapsed-time="7497"
start-time="1475393096"
end-time="1475400593"
check-start-time="1475393408"
check-end-time="1475400573"
generation-time="1475477646"
stripes-checking="13097"
stripes-completed="13096"
offline-stripes="0"
percent-complete="100.00">
<hfscheckerrors>
<error stripeid="0.4-DBC">
<detail kind="offline"/>
</error>
</hfscheckerrors>
</hfscheckstatus>
V tomto výpise je vidieť chybu na node 0.4.
pokiaľ beží hfscheck a je potreba nečakať a zastaviť ho, tak komand hfscheck_kill
dobo
29 May 18 at 10:28
avmaint hfscheckstatus – status hfschecku
avmaint hfscheck – nastartovanie hfschecku
hfscheck_kill – nicely stopne hfscheck
dobo
29 May 18 at 10:38