色综合久久久无码中文字幕,天天躁狠狠躁狠狠躁夜夜躁

論壇徽章:: 0

電梯直達(dá)

1樓 [收藏(0)] [報告]

發(fā)表于 2013-04-25 09:28 |只看該作者 |倒序瀏覽

本帖最后由 xlwang_0903 于 2013-04-25 14:18 編輯

最近開始學(xué)習(xí)C語言，有一個問題需要解決，還請大家?guī)兔Τ龀鲋饕�。我先把需要解決的問題描述一下：
讀取文本文件，小到幾十K，大到十幾G，內(nèi)容為基因序列字符串，包括基因的id、描述及其對應(yīng)的序列（也就是由AGCT四種字符組成的文本內(nèi)容）�，F(xiàn)在想對這個文件做索引以便搜索。如果待查詢的字符串長度為K，那么我需要得到這個文件中所有的長度為K的子串的位置以及子串所屬的基因（包括基因id等信息），然后寫入mysql。

不知道有沒有比較好的算法能做這個事情，或者請大家?guī)臀姨崽崴悸罚視S時關(guān)注大家的回復(fù)，謝謝！

呃……我補(bǔ)充一下，好像我沒有說明白。實際我是要在一個文件中查詢某個字符串是否存在并得到這個字符串的位置信息。字符串的長度相對固定。

文庫|博客

使用正則表達(dá)式與lex實現(xiàn)詞法分析器
C語言的MIPS匯編實現(xiàn)（四）SWITCH
Requested init /linuxrc failed (error -2).
比較 csv 文件中數(shù)據(jù)差異
LMD ElPack v2019.7新版亮點：Transparent mode全新升級|附下載

hellioncu

巨富豪門

論壇徽章:: 324

2樓 [報告]

發(fā)表于 2013-04-25 09:37 |只看該作者

你還是舉個例子來說明比較好

實戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

xlwang_0903

豐衣足食

論壇徽章:: 0

3樓 [報告]

發(fā)表于 2013-04-25 09:51 |只看該作者

hellioncu 發(fā)表于 2013-04-25 09:37
你還是舉個例子來說明比較好

比如文件的內(nèi)容如下：
>0
AGCAGGGGGGCTTATTATTACCCCCCCTGCTCGGGGCGGGACATTCTGTG
ATGGGCTGGGCTTTATGCGGCCAAATAAGCCCATAAAGCCAGATCTGGGC
CCATTTAAGGGCCCGTGGTTTGAAAATGTCGCGTTCCCGCCTAA
……
>1
……
>2
我要查詢所有長度為k的子串的位置，例如查詢AAGCCCA（k=7），把這個子串的所有位置信息找出來，并且要知道這個子串是在>0對應(yīng)的序列上，還是在>1對應(yīng)的序列上。

實戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

pandaiam

小富即安

論壇徽章:: 3

4樓 [報告]

發(fā)表于 2013-04-25 10:03 |只看該作者

看了例子才發(fā)現(xiàn)和我想的完全不一樣..
讀取每個基因,然后看輸入的字串是否在這個基因的序列里,是的話就插入數(shù)據(jù)庫了..
是否在基因序列里可以用kmp.

實戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

xlwang_0903

豐衣足食

論壇徽章:: 0

5樓 [報告]

發(fā)表于 2013-04-25 10:13 |只看該作者

pandaiam 發(fā)表于 2013-04-25 10:03
看了例子才發(fā)現(xiàn)和我想的完全不一樣..
讀取每個基因,然后看輸入的字串是否在這個基因的序列里,是的話就插入 ...

我的想法是先對文件做個索引保存到數(shù)據(jù)庫，待查詢的序列是到數(shù)據(jù)庫中去查。我是想知道建索引的過程有沒有比較好的方法。另外你說的kmp是什么意思？

實戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

windoze

版主

論壇徽章:: 44

15-16賽季CBA聯(lián)賽之浙江
日期:2021-10-11 02:03:59

程序設(shè)計版塊每日發(fā)帖之星
日期:2016-07-02 06:20:00

15-16賽季CBA聯(lián)賽之新疆
日期:2016-04-25 10:55:45

15-16賽季CBA聯(lián)賽之山東
日期:2016-04-17 12:00:28

15-16賽季CBA聯(lián)賽之福建
日期:2016-04-12 15:21:29

15-16賽季CBA聯(lián)賽之遼寧
日期:2016-03-24 21:38:27

15-16賽季CBA聯(lián)賽之福建
日期:2016-03-18 12:13:40

15-16賽季CBA聯(lián)賽之佛山
日期:2016-02-05 00:55:20

15-16賽季CBA聯(lián)賽之佛山
日期:2016-02-04 21:11:36

15-16賽季CBA聯(lián)賽之天津
日期:2016-11-02 00:33:12

15-16賽季CBA聯(lián)賽之浙江
日期:2017-01-13 01:31:49

6樓 [報告]

發(fā)表于 2013-04-25 10:19 |只看該作者

本帖最后由 windoze 于 2013-04-25 10:22 編輯

MySQL中按子串查找(LIKE '%xxx%')的速度會很慢，一個簡單的思路是把每個序列中的每個堿基單獨建立倒排鏈并保存位置，這樣在查詢時只需要按照單個堿基做phrase query。這么做的缺點是，因為堿基只有4個，每個倒排鏈都會很長，查詢效率只能說比LIKE略高。
一個優(yōu)化一點的方案是N Gram，也就是把堿基序列切分成長度為N的片段，例如“GCTTAT”的2Gram切分就是GC,CT,TT,TA,AT，3Gram就是GCT,CTT,TTA,TAT，每個切片的位置前進(jìn)一位，你可以對序列做一個1～N的切片，也就是按照單個堿基切分一遍，按照2Gram切分一遍，按照3Gram切分一遍…………然后針對所有這些切片建立倒排鏈。
查詢時，如果要查詢的序列長度大于預(yù)先建立好的索引中最大的N，則需要將查詢序列按照最大的N做一個NGram切分，將所有的切分片段做一個AND query，在這個結(jié)果集中再做單個堿基的phrase query，或者直接查找子串，因為你的查詢序列是已知的，所以可以用KMP預(yù)先建立跳轉(zhuǎn)表，速度會比較快。
這個過程的作用是確保沒有false positive，因為NGram AND query并不能確保得到的結(jié)果集一定準(zhǔn)確。
這樣做的缺點是N越大，索引就會越大，但是N越大查詢的速度就會越快。

實戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

xlwang_0903

豐衣足食

論壇徽章:: 0

7樓 [報告]

發(fā)表于 2013-04-25 10:50 |只看該作者

windoze 發(fā)表于 2013-04-25 10:19
MySQL中按子串查找(LIKE '%xxx%')的速度會很慢，一個簡單的思路是把每個序列中的每個堿基單獨建立倒排鏈并保 ...

我現(xiàn)在的想法有點類似與您說的N Gram。因為待查詢的字符串長度K相對固定，所以我想做索引時取的N就等于K。我把所有長度為K的子串的位置直接保存到數(shù)據(jù)庫。

實戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

windoze

版主

論壇徽章:: 44

8樓 [報告]

發(fā)表于 2013-04-25 11:19 |只看該作者

回復(fù) 7# xlwang_0903

如果K基本固定，那你就可以直接針對這些長度做NGram切分然后建立索引。
但有一個問題要注意，索引并不適合存到MySQL里，因為索引本身是一個keyword->document_id_list的映射表，MySQL并不能充分優(yōu)化這種特定的場景。
建議你找一個專門的search engine干這事，比如Lucene、Xapian，或者…………給自己做個廣告…………Argos…………