size=4] MongoDB 索引數(shù)據(jù)類型優(yōu)化,節(jié)省60%內(nèi)存
最近trunk.ly的工程師通過mongostat發(fā)現(xiàn)了大量的page fault,然后通過檢查發(fā)現(xiàn),他們的索引已經(jīng)超出內(nèi)存限制了(沒有keep all index in RAM)。于是他們決定開始減小索引大小,通過測試得出了如下的數(shù)據(jù),不同的數(shù)據(jù)類型的索引大小有2到3倍的差距。
雖然能夠想像得到,但是直觀的數(shù)據(jù)圖可能讓我們更深刻的認(rèn)識(shí)到。他們的測試再一次告訴我們:給索引定一個(gè)好的數(shù)據(jù)結(jié)構(gòu)是多么重要。
這是測試結(jié)果圖,分別是用int、MongoDB的ObjectID、base64和md5的字符串做索引產(chǎn)生的索引大。
測試過程也非常簡單,首先用下面腳本將各種不同數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)寫入到不同的collection里:
#!/usr/bin/env python
import pymongo
import bson
from pymongo import Connection
db = connection.test_database
print('ObjectID')
for i in range(1, 1000000):
db.objectids.insert({'i': i})
print('int')
for i in range(1, 1000000):
db.ints.insert({'_id': i, 'i': i})
print('Base64 BSON')
for i in range(1, 1000000):
db.base64s.insert({'_id': \
bson.Binary(hashlib.md5(str(i)).digest(),
bson.binary.MD5_SUBTYPE), 'i': i})
print('string')
for i in range(1, 1000000):
db.strings.insert({'_id': hashlib.md5(str(i)).digest(), 'i': i})然后獲取每個(gè)collection的index大小,得到如下的結(jié)果,畫成上面的圖:
> db.base64s.stats()
{
"totalIndexSize" : 67076096,
}
> db.objectids.stats()
{
"totalIndexSize" : 41598976,
}
> db.ints.stats()
{
"totalIndexSize" : 32522240,
}
> db.strings.stats()
{
"totalIndexSize" : 90914816,
}原文鏈接:How to save 200% RAM by selecting the right key data type for #MongoDB
5838054519_257552e344_z.jpeg (31.46 KB, 下載次數(shù): 91)
下載附件
2012-02-23 19:31 上傳
|