壓縮 MongoDB 的數(shù)據(jù)文件
MongoDB 采用了磁盤(pán)空間預(yù)分配的機(jī)制,為了避免磁盤(pán)碎片以及使用mmap后造成的近一步的內(nèi)存碎片,但是隨著數(shù)據(jù)的增刪除改操作,數(shù)據(jù)文件不可避免的會(huì)產(chǎn)生空洞,造成磁盤(pán)空間和內(nèi)存的浪費(fèi)。本文說(shuō)的是這方面的壓縮,數(shù)據(jù)使用某些壓縮算法進(jìn)行壓縮的討論不在此范圍。
在MongoDB 中,大概有兩種方法可以解決這種問(wèn)題,但是都不是無(wú)痛方式,所以并不推薦使用。
1.通過(guò) repairDatabase 整理數(shù)據(jù)文件
repairDatabase 是MongoDB 內(nèi)置的一個(gè)db 上的方法,調(diào)用這個(gè)方法,MongoDB 會(huì)掃描db中的所有數(shù)據(jù),并將通過(guò)重新插入來(lái)重新整理數(shù)據(jù)集合。
這種方法的代價(jià)是對(duì)這個(gè) db 的讀寫(xiě)操作會(huì)變得非常之慢,甚至?xí)霈F(xiàn)寫(xiě)操作丟失的情況。所以這個(gè)時(shí)候最好直接停掉客戶端的寫(xiě)操作。
可以創(chuàng)建 bar.js 文件,寫(xiě)入如下代碼:- // Get a the current collection size.
- var storage = db.foo.storageSize();
- var total = db.foo.totalSize();
- print('Storage Size: ' + tojson(storage));
- print('TotalSize: ' + tojson(total));
- print('-----------------------');
- print('Running db.repairDatabase()');
- print('-----------------------');
- // Run repair
- db.repairDatabase()
- // Get new collection sizes.
- var storage_a = db.foo.storageSize();
- var total_a = db.foo.totalSize();
- print('Storage Size: ' + tojson(storage_a));
- print('TotalSize: ' + tojson(total_a));然后運(yùn)行:
- $ mongo foo bar.js運(yùn)行結(jié)果:
- MongoDB shell version: 1.6.4
- connecting to: foo
- Storage Size: 51351
- TotalSize: 79152
- -----------------------
- Running db.repairDatabase()
- -----------------------
- Storage Size: 40960
復(fù)制代碼 TotalSize: 65153 2.如果應(yīng)用可以接受,可以考慮使用capped collection
capped collection 是 MongoDB 中的一種特殊collection,它的大小可以限定,數(shù)據(jù)在這個(gè)限定大小內(nèi)循環(huán)寫(xiě)入,在數(shù)據(jù)集合達(dá)到上限后,新數(shù)據(jù)會(huì)覆蓋老的數(shù)據(jù)。這樣磁盤(pán)上的空洞在一段時(shí)間后會(huì)自動(dòng)消除。
參考資料:http://learnmongo.com/posts/compacting-mongodb-data-files/
事實(shí)上使用 replication 相關(guān)的功能也可以實(shí)現(xiàn)以上說(shuō)的數(shù)據(jù)壓縮,具體過(guò)程比較麻煩,還會(huì)涉及到客戶端的切換等操作。有興趣的同學(xué)可以自己研究一下。同時(shí)歡迎有更好的方法提供。
|