ceph/tasks/mon_recovery.py

"""
Monitor recovery
"""
import logging
import ceph_manager
from teuthology import misc as teuthology


log = logging.getLogger(__name__)

def task(ctx, config):
    """
    Test monitor recovery.
    """
    if config is None:
        config = {}
    assert isinstance(config, dict), \
        'task only accepts a dict for configuration'
    first_mon = teuthology.get_first_mon(ctx, config)
    (mon,) = ctx.cluster.only(first_mon).remotes.iterkeys()

    manager = ceph_manager.CephManager(
        mon,
        ctx=ctx,
        logger=log.getChild('ceph_manager'),
        )

    mons = [f.split('.')[1] for f in teuthology.get_mon_names(ctx)]
    log.info("mon ids = %s" % mons)

    manager.wait_for_mon_quorum_size(len(mons))

    log.info('verifying all monitors are in the quorum')
    for m in mons:
        s = manager.get_mon_status(m)
        assert s['state'] == 'leader' or s['state'] == 'peon'
        assert len(s['quorum']) == len(mons)

    log.info('restarting each monitor in turn')
    for m in mons:
        # stop a monitor
        manager.kill_mon(m)
        manager.wait_for_mon_quorum_size(len(mons) - 1)

        # restart
        manager.revive_mon(m)
        manager.wait_for_mon_quorum_size(len(mons))

    # in forward and reverse order,
    rmons = mons
    rmons.reverse()
    for mons in mons, rmons:
        log.info('stopping all monitors')
        for m in mons:
            manager.kill_mon(m)

        log.info('forming a minimal quorum for %s, then adding monitors' % mons)
        qnum = (len(mons) / 2) + 1
        num = 0
        for m in mons:
            manager.revive_mon(m)
            num += 1
            if num >= qnum:
                manager.wait_for_mon_quorum_size(num)

    # on both leader and non-leader ranks...
    for rank in [0, 1]:
        # take one out
        log.info('removing mon %s' % mons[rank])
        manager.kill_mon(mons[rank])
        manager.wait_for_mon_quorum_size(len(mons) - 1)

        log.info('causing some monitor log activity')
        m = 30
        for n in range(1, m):
            manager.raw_cluster_cmd('log', '%d of %d' % (n, m))

        log.info('adding mon %s back in' % mons[rank])
        manager.revive_mon(mons[rank])
        manager.wait_for_mon_quorum_size(len(mons))
Added docstrings, and improved some of the comments on several tasks. 2013-10-12 08:28:27 +00:00			`"""`
			`Monitor recovery`
			`"""`
mon_recovery: add task to test monitor cluster failure recovery Some simple tests to start with. We still need some sort of mon cluster thrashing. Signed-off-by: Sage Weil <sage@newdream.net> 2011-11-09 06:06:43 +00:00			`import logging`
			`import ceph_manager`
			`from teuthology import misc as teuthology`


			`log = logging.getLogger(__name__)`

			`def task(ctx, config):`
			`"""`
			`Test monitor recovery.`
			`"""`
			`if config is None:`
			`config = {}`
			`assert isinstance(config, dict), \`
			`'task only accepts a dict for configuration'`
			`first_mon = teuthology.get_first_mon(ctx, config)`
Revert "Lines formerly of the form '(remote,) = ctx.cluster.only(role).remotes.keys()'" This reverts commit d693b3f8950ffd1f2492a4db0f8234fee31f00f0. 2014-03-27 16:35:28 +00:00			`(mon,) = ctx.cluster.only(first_mon).remotes.iterkeys()`
mon_recovery: add task to test monitor cluster failure recovery Some simple tests to start with. We still need some sort of mon cluster thrashing. Signed-off-by: Sage Weil <sage@newdream.net> 2011-11-09 06:06:43 +00:00
			`manager = ceph_manager.CephManager(`
			`mon,`
			`ctx=ctx,`
			`logger=log.getChild('ceph_manager'),`
			`)`

			`mons = [f.split('.')[1] for f in teuthology.get_mon_names(ctx)]`
			`log.info("mon ids = %s" % mons)`

			`manager.wait_for_mon_quorum_size(len(mons))`

			`log.info('verifying all monitors are in the quorum')`
			`for m in mons:`
			`s = manager.get_mon_status(m)`
			`assert s['state'] == 'leader' or s['state'] == 'peon'`
			`assert len(s['quorum']) == len(mons)`

			`log.info('restarting each monitor in turn')`
			`for m in mons:`
			`# stop a monitor`
			`manager.kill_mon(m)`
			`manager.wait_for_mon_quorum_size(len(mons) - 1)`

			`# restart`
			`manager.revive_mon(m)`
			`manager.wait_for_mon_quorum_size(len(mons))`

			`# in forward and reverse order,`
			`rmons = mons`
			`rmons.reverse()`
			`for mons in mons, rmons:`
			`log.info('stopping all monitors')`
			`for m in mons:`
			`manager.kill_mon(m)`

			`log.info('forming a minimal quorum for %s, then adding monitors' % mons)`
mon_recovery: need n/2 + 1 monitors for quorum 2012-01-06 23:12:15 +00:00			`qnum = (len(mons) / 2) + 1`
mon_recovery: add task to test monitor cluster failure recovery Some simple tests to start with. We still need some sort of mon cluster thrashing. Signed-off-by: Sage Weil <sage@newdream.net> 2011-11-09 06:06:43 +00:00			`num = 0`
			`for m in mons:`
			`manager.revive_mon(m)`
			`num += 1`
			`if num >= qnum:`
			`manager.wait_for_mon_quorum_size(num)`

			`# on both leader and non-leader ranks...`
			`for rank in [0, 1]:`
			`# take one out`
			`log.info('removing mon %s' % mons[rank])`
			`manager.kill_mon(mons[rank])`
			`manager.wait_for_mon_quorum_size(len(mons) - 1)`

			`log.info('causing some monitor log activity')`
			`m = 30`
			`for n in range(1, m):`
			`manager.raw_cluster_cmd('log', '%d of %d' % (n, m))`

			`log.info('adding mon %s back in' % mons[rank])`
			`manager.revive_mon(mons[rank])`
			`manager.wait_for_mon_quorum_size(len(mons))`