亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 2875 | 回復: 6
打印 上一主題 下一主題

請教關于建長索引的問題 [復制鏈接]

論壇徽章:
0
跳轉到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2008-11-11 21:38 |只看該作者 |倒序瀏覽
5可用積分
現在處理海量URL,采用方法為先對URL串求出一個hash值,然后以hash值和url串為key存入表,
由于索引長度限制,url字段只有前320左右的字符被用于索引。
現在存在一些URL串,長度超過400,而且前350的字符都是相同的,由于某些原因,這些串求出
的hash值也是相同的,這樣就導致了插入表失敗。
不知道有沒有好的方法處理這個問題,能不能從后面截取串的指定長度來做key?

最佳答案

查看完整內容

把url做hash方法是對的但是你細節(jié)上還有改進的把url做md5 得32位的hash key這樣就可以了,把key做成索引就好了如keyf44aa2173b673075340781a12f997ce0 http://www.123.com/6ba8a0d666352ec6e569ee445bfbabce http://www.123.com/123

論壇徽章:
0
2 [報告]
發(fā)表于 2008-11-11 21:38 |只看該作者
把url做hash方法是對的
但是你細節(jié)上還有改進的
把url做md5 得32位的hash key
這樣就可以了,把key做成索引就好了

key
f44aa2173b673075340781a12f997ce0  http://www.123.com/
6ba8a0d666352ec6e569ee445bfbabce  http://www.123.com/123

論壇徽章:
0
3 [報告]
發(fā)表于 2008-11-12 11:09 |只看該作者
那你的HASH算法就有問題了。重新搞一下。

論壇徽章:
0
4 [報告]
發(fā)表于 2008-11-12 16:54 |只看該作者

回復 #2 gogo407 的帖子

md5也是Hash 算法的一種啊

回復 樓主

既然是hash算法,那必然有可能重復,只是概率的大小問題。
從url的特征來看,或許可以變通一下,比如把key改成 md5(url)+md5(left(url,50))+md5(right(url,50))
甚至再搞個SHA1也可以考慮
總之,既然準備使用hash作為key,能做的就是盡量減少重復的概率,然后祈禱吧

論壇徽章:
0
5 [報告]
發(fā)表于 2008-11-12 17:12 |只看該作者
350字符長度的索引太長了.10個足夠.
你所說的情況,用程序把前面的相同部分去掉即可.取出時再補上.

論壇徽章:
0
6 [報告]
發(fā)表于 2008-11-12 20:58 |只看該作者
原帖由 sunnyfun 于 2008-11-12 16:54 發(fā)表
md5也是Hash 算法的一種啊

回復 樓主

既然是hash算法,那必然有可能重復,只是概率的大小問題。
從url的特征來看,或許可以變通一下,比如把key改成 md5(url)+md5(left(url,50))+md5(right(url,50))
甚 ...

1.謝謝提醒
2.我沒說過或者暗示過md5不是hash算法
我很生氣
哈哈

論壇徽章:
0
7 [報告]
發(fā)表于 2008-11-12 21:02 |只看該作者
恩,改了一下hash算法,盡可能規(guī)避了重復的概率
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復

  

北京盛拓優(yōu)訊信息技術有限公司. 版權所有 京ICP備16024965號-6 北京市公安局海淀分局網監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯網協會會員  聯系我們:huangweiwei@itpub.net
感謝所有關心和支持過ChinaUnix的朋友們 轉載本站內容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP