亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 3033 | 回復(fù): 6
打印 上一主題 下一主題

請問做一個網(wǎng)站的關(guān)鍵詞分析應(yīng)該怎么做? [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2008-03-03 18:24 |只看該作者 |倒序瀏覽
10可用積分
這是一份開源的代碼,但是似乎有點問題,只能取出英文的關(guān)鍵詞,似乎還是有問題的,YUI
例子里用的YUI,這個我沒有上傳


我想分析和統(tǒng)計整個網(wǎng)站的關(guān)鍵詞和出現(xiàn)的頻率和分數(shù)
請問有沒有好的實現(xiàn)方法
keyworddensity.rar (5.44 KB, 下載次數(shù): 76)

[ 本帖最后由 workingbeijing 于 2008-3-3 18:39 編輯 ]

論壇徽章:
0
2 [報告]
發(fā)表于 2008-03-04 09:29 |只看該作者
config.ini
<?php
        set_time_limit(360);
        //define('URL_SEED','http://games.hawkenterprises.org/keyworddensity/test.html');//trailing slash
        //define('DOMAIN','hawkenterprises.com');
        define('SINGLE_SITE',true);
        define('SINGLE_PAGE',true);
        define('DROP_COUNT',0);  // drop keywords that appear less than 4 times

        $exclude_terms_url = array(0=>'javascript:','mailto:','file:','.pdf','.jpg','.gif','.png','.doc','#','.xls','.tar','.gz','feed:');
        $dropwords = array(0=>'and','the','is','it','a',' ','an','or','of','on','for','to');
?>

run.php
<?php
function get_document($urltofetch){
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $urltofetch);

    curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
    $str = curl_exec($ch);
    curl_close($ch);
    return $str;
}
function parsed_document_links($document_string){
    $hrefs = array();
    $doc = new DOMDocument();
    @$doc->loadHTML($document_string);
    $anchor_tags = $doc->getElementsByTagName('a');
    foreach($anchor_tags as $anchor){
        $hrefs[] = $anchor->getAttribute('href');
    }
    return $hrefs;
}
function normalize_links($links_array){
    global $exclude_terms_url;
    $url_normalized = array();
    foreach($links_array as $k=>$v){
        $skip_url = false;
        foreach($exclude_terms_url as $key=>$value){
            if(stristr($v,$value) !== false)
                $skip_url = true;
        }
        if(!$skip_url){
            $parsed_link = @parse_url($v);
            if(SINGLE_SITE){   
                if(isset($parsed_link['scheme']) && $parsed_link['scheme'] == 'http'){
                    if(stristr($v,DOMAIN) !== false){
                        $url_normalized[] = $v;
                    }
                }else{
                    $url_normalized[] = URL_SEED . $v;
                }
            }
        }
    }
    return $url_normalized;
}
?>



crawl.php
<?php
function get_document($urltofetch){
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $urltofetch);

    curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
    $str = curl_exec($ch);
    curl_close($ch);
    return $str;
}
function parsed_document_links($document_string){
    $hrefs = array();
    $doc = new DOMDocument();
    @$doc->loadHTML($document_string);
    $anchor_tags = $doc->getElementsByTagName('a');
    foreach($anchor_tags as $anchor){
        $hrefs[] = $anchor->getAttribute('href');
    }
    return $hrefs;
}
function normalize_links($links_array){
    global $exclude_terms_url;
    $url_normalized = array();
    foreach($links_array as $k=>$v){
        $skip_url = false;
        foreach($exclude_terms_url as $key=>$value){
            if(stristr($v,$value) !== false)
                $skip_url = true;
        }
        if(!$skip_url){
            $parsed_link = @parse_url($v);
            if(SINGLE_SITE){   
                if(isset($parsed_link['scheme']) && $parsed_link['scheme'] == 'http'){
                    if(stristr($v,DOMAIN) !== false){
                        $url_normalized[] = $v;
                    }
                }else{
                    $url_normalized[] = URL_SEED . $v;
                }
            }
        }
    }
    return $url_normalized;
}
?>


[ 本帖最后由 workingbeijing 于 2008-3-4 09:58 編輯 ]

論壇徽章:
0
3 [報告]
發(fā)表于 2008-03-04 09:51 |只看該作者
問問題,干嘛貼那一駝code啊,看著惡心。


我想應(yīng)該是將網(wǎng)站(過濾掉js,css,image)抓取到本地,然后對網(wǎng)頁內(nèi)容進行分詞統(tǒng)計。

論壇徽章:
0
4 [報告]
發(fā)表于 2008-03-04 09:56 |只看該作者
我現(xiàn)在的問題是,代碼看不明白,運行后有時apache就會死掉

我做的不是抓取到本地,想做成一個在線統(tǒng)計分析的工具

[ 本帖最后由 workingbeijing 于 2008-3-4 09:59 編輯 ]

論壇徽章:
0
5 [報告]
發(fā)表于 2008-03-04 09:59 |只看該作者
原帖由 workingbeijing 于 2008-3-4 09:56 發(fā)表
我現(xiàn)在的問題是,代碼看不明白,運行后有時apache就會死掉



那就看把。。。apache死掉就要慢慢調(diào)試拉。

論壇徽章:
0
6 [報告]
發(fā)表于 2008-03-04 10:25 |只看該作者
中文的改個正則就可以了,呵呵,但是還是不明白這個算法

論壇徽章:
0
7 [報告]
發(fā)表于 2008-03-05 10:35 |只看該作者
自己頂
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP