亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 1803 | 回復(fù): 0
打印 上一主題 下一主題

Python應(yīng)用:文件內(nèi)容分析:篩選單詞清單 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報(bào)告]
發(fā)表于 2007-01-09 19:37 |只看該作者 |倒序?yàn)g覽
    今天工作又遇到了問題,簡單說一下:是漢化Flash項(xiàng)目(程序文件擴(kuò)展名as),部門的策劃新手從老外那里發(fā)過來的策劃案中的數(shù)據(jù)集文檔析出中英文列表詞元不完整,這是在調(diào)試程序時(shí)發(fā)現(xiàn)的。
    我想起在源碼中的字元定義很有規(guī)律可循,即都寫成這種形式:
[color="#008080"]stype5Verb2.push("nap");
所以我可以使用Python正則來取出這種寫法中的單詞字元
這是所寫程序,其生成所需字元清單,去除可能的重復(fù)字元并排序:
[color="#008080"]# restoreWordSets.py
[color="#0000ff"]import [color="#800000"]re
[color="#0000ff"]import [color="#800000"]types
[color="#000000"]sFile_wordSet[color="#00c600"]=[color="#000000"]r[color="#a6caf0"]'workfolder\words.as'
[color="#000000"]sPath_produce[color="#00c600"]=[color="#000000"]r[color="#a6caf0"]'[color="#a6caf0"]workfolder[color="#a6caf0"]\datasetFactory\produce\\'
[color="#000000"]sFile_Produce[color="#00c600"]=[color="#000000"]sPath_produce[color="#00c600"]+[color="#a6caf0"]'wordSets.txt'
[color="#000000"]sWs[color="#00c600"]=[color="#a6caf0"]''
[color="#000000"]dWord[color="#00c600"]=[color="#000000"]{}
[color="#808000"]f[color="#00c600"]=[color="#808000"]file[color="#000000"](sFile_wordSet)
[color="#000000"]aWs[color="#00c600"]=[color="#808000"]f[color="#00c600"].[color="#808000"]readlines[color="#000000"]()
[color="#808000"]f[color="#00c600"].[color="#808000"]close[color="#000000"]()
[color="#0000ff"]for [color="#000000"]ln [color="#0000ff"]in [color="#000000"]aWs:
        [color="#008080"]# ex stype5Verb2.push("nap");
        [color="#000000"]m[color="#00c600"]=[color="#800000"]re[color="#00c600"].[color="#808000"]search[color="#000000"]([color="#a6caf0"]'push\s*\(\s*"([^"]+)"\)'[color="#000000"],ln)
        [color="#0000ff"]if [color="#808000"]type[color="#000000"](m) ![color="#00c600"]= [color="#800000"]types[color="#00c600"].NoneType[color="#000000"]:
                [color="#000000"]w[color="#00c600"]=[color="#000000"]m[color="#00c600"].[color="#808000"]group[color="#000000"](1)
                [color="#0000ff"]if not [color="#000000"]dWord[color="#00c600"].[color="#808000"]has_key[color="#000000"](w):
                        [color="#000000"]dWord[w][color="#00c600"]=[color="#000000"]1
[color="#000000"]aWord[color="#00c600"]=[color="#000000"]dWord[color="#00c600"].[color="#808000"]keys[color="#000000"]()
[color="#000000"]aWord[color="#00c600"].[color="#808000"]sort[color="#000000"]()
[color="#0000ff"]for [color="#000000"]e [color="#0000ff"]in [color="#000000"]aWord:
                        [color="#000000"]sWs[color="#00c600"]+=[color="#000000"]e[color="#00c600"]+[color="#a6caf0"]'\n'
[color="#808000"]f[color="#00c600"]=[color="#808000"]file[color="#000000"](sFile_Produce,[color="#a6caf0"]'w'[color="#000000"])
[color="#808000"]f[color="#00c600"].[color="#808000"]write[color="#000000"](sWs)
[color="#808000"]f[color="#00c600"].[color="#808000"]close[color="#000000"]()

本文來自ChinaUnix博客,如果查看原文請點(diǎn):http://blog.chinaunix.net/u/28253/showart_229133.html
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP