- 求職 : Linux運(yùn)維
- 論壇徽章:
- 203
|
MongoDB oplog是一個(gè)capped collection,創(chuàng)建capped collection時(shí),createCollection可以設(shè)置size(最大字節(jié)數(shù))和max(最大文檔數(shù))的參數(shù),當(dāng)這個(gè)集合的『總大小超過size』或者『總文檔數(shù)超過max』時(shí),在新插入文檔時(shí)就會(huì)自動(dòng)刪除一些集合內(nèi)最先插入的文檔,相當(dāng)于一片環(huán)形的存儲(chǔ)空間。
oplog(local.oplog.rs集合)默認(rèn)情況下配置為可用磁盤空間的5%,當(dāng)oplog寫滿時(shí),就會(huì)開始刪除最先寫入的oplog,一次正常的insert操作包含如下步驟:
將文檔寫入指定的集合
將寫入操作記錄到oplog
如果oplog滿了,刪除最先寫入的oplog
優(yōu)化策略
MongoDB 3.2為了提升寫入性能,使用wiredtiger引擎時(shí),針對(duì)local.oplog.rs這個(gè)集合的刪除策略進(jìn)行了優(yōu)化,主要改進(jìn):
將刪除動(dòng)作從用戶的寫入路徑移除,放到后臺(tái)線程執(zhí)行
批量刪除,并不是oplog一滿就立馬觸發(fā)刪除,而是一次刪除一批
實(shí)施方案
monogd啟動(dòng)時(shí),會(huì)根據(jù)oplog的最大字節(jié)數(shù)將整個(gè)集合分為10-100個(gè)Stone(可以理解為oplog的一段數(shù)據(jù),包含多個(gè)文檔,Stone的具體個(gè)數(shù)oplogSizeMB的配置相關(guān))。
WiredTigerRecordStore::OplogStones::OplogStones(OperationContext* txn, WiredTigerRecordStore* rs)
: _rs(rs) {
//...
unsigned long long maxSize = rs->cappedMaxSize();
const unsigned long long kMinStonesToKeep = 10ULL;
const unsigned long long kMaxStonesToKeep = 100ULL;
unsigned long long numStones = maxSize / BSONObjMaxInternalSize;
_numStonesToKeep = std::min(kMaxStonesToKeep, std::max(kMinStonesToKeep, numStones));
_minBytesPerStone = maxSize / _numStonesToKeep;
// ...
}
其中_numStonesToKeep為oplog應(yīng)該保持的Stone個(gè)數(shù),而_minBytesPerStone代表每個(gè)Stone的最小字節(jié)數(shù)。
22.jpg (32.96 KB, 下載次數(shù): 47)
下載附件
2016-05-23 17:17 上傳
接下來,會(huì)根據(jù)oplog當(dāng)前的大小以及_minBytesPerStone來估算下,當(dāng)前的oplog大致包含的Stone數(shù)量,并通過采樣的方式來獲取每個(gè)Stone的起始位置(不能保證每個(gè)Stone的大小跟預(yù)期完全一樣),然后將所有的Stone按順序存儲(chǔ)到一個(gè)隊(duì)列中。
mongod在服務(wù)寫請(qǐng)求的過程中,每次都會(huì)記錄下新產(chǎn)生oplog的大小,當(dāng)新產(chǎn)生的oplog的總量超過_minBytesPerStones時(shí),就會(huì)產(chǎn)生一個(gè)新的Stone加入到隊(duì)列中。
void WiredTigerRecordStore::OplogStones::createNewStoneIfNeeded(RecordId lastRecord) {
if (_currentBytes.load() < _minBytesPerStone) {
// Must have raced to create a new stone, someone else already triggered it.
return;
}
// ...
OplogStones::Stone stone = {_currentRecords.swap(0), _currentBytes.swap(0), lastRecord};
_stones.push_back(stone);
_pokeReclaimThreadIfNeeded(); // **后臺(tái)回收oplog空間的線程
}
當(dāng)隊(duì)列中的Stone數(shù)量超過_numStonesToKeep,后臺(tái)線程就會(huì)刪除最老的Stone里的數(shù)據(jù),來回收oplog的存儲(chǔ)空間。 |
|