平臺(tái) 論壇博客文庫

論壇徽章:: 0

電梯直達(dá)

1樓 [收藏(0)] [報(bào)告]

發(fā)表于 2012-02-23 19:31 |只看該作者 |倒序?yàn)g覽

size=4]

MongoDB 索引數(shù)據(jù)類型優(yōu)化，節(jié)省60％內(nèi)存

最近trunk.ly的工程師通過mongostat發(fā)現(xiàn)了大量的page fault，然后通過檢查發(fā)現(xiàn)，他們的索引已經(jīng)超出內(nèi)存限制了（沒有keep all index in RAM）。于是他們決定開始減小索引大小，通過測試得出了如下的數(shù)據(jù)，不同的數(shù)據(jù)類型的索引大小有2到3倍的差距。

雖然能夠想像得到，但是直觀的數(shù)據(jù)圖可能讓我們更深刻的認(rèn)識(shí)到。他們的測試再一次告訴我們：給索引定一個(gè)好的數(shù)據(jù)結(jié)構(gòu)是多么重要。

這是測試結(jié)果圖，分別是用int、MongoDB的ObjectID、base64和md5的字符串做索引產(chǎn)生的索引大�。�

測試過程也非常簡單，首先用下面腳本將各種不同數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)寫入到不同的collection里：

#!/usr/bin/env python

import pymongo
import bson
from pymongo import Connection

db = connection.test_database

print('ObjectID')
for i in range(1, 1000000):
db.objectids.insert({'i': i})

print('int')
for i in range(1, 1000000):
db.ints.insert({'_id': i, 'i': i})

print('Base64 BSON')
for i in range(1, 1000000):
db.base64s.insert({'_id': \
      bson.Binary(hashlib.md5(str(i)).digest(),
      bson.binary.MD5_SUBTYPE), 'i': i})

print('string')
for i in range(1, 1000000):
db.strings.insert({'_id': hashlib.md5(str(i)).digest(), 'i': i})然后獲取每個(gè)collection的index大小，得到如下的結(jié)果，畫成上面的圖：

> db.base64s.stats()
{
      "totalIndexSize" : 67076096,
}
> db.objectids.stats()
{
      "totalIndexSize" : 41598976,
}
> db.ints.stats()
{
      "totalIndexSize" : 32522240,
}
> db.strings.stats()
{
      "totalIndexSize" : 90914816,

}原文鏈接：How to save 200% RAM by selecting the right key data type for #MongoDB