亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 817 | 回復(fù): 0
打印 上一主題 下一主題

使用Libxml2操作XML文檔 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2007-10-02 12:32 |只看該作者 |倒序瀏覽
一、Libxml2介紹:
Libxml2 是一個xml的c語言版的解析器,本來是為Gnome項目開發(fā)的工具,是一個基于MIT License的免費開源軟件。它除了支持c語言版以外,還支持c++、PHP、Pascal、Ruby、Tcl等語言的綁定,能在Windows、Linux、Solaris、MacOsX等平臺上運行。功能還是相當強大的,相信滿足一般用戶需求沒有任何問題。
二、 Libxml2安裝:
一般如果在安裝系統(tǒng)的時候選中了所有開發(fā)庫和開發(fā)工具的話(Fedora Core系列下),應(yīng)該不用安裝,下面介紹一下手動安裝:
  1) 從xmlsoft站點或ftp(ftp.xmlsoft.org)站點下載libxml壓縮包(libxml2-xxxx.tar.gz)
                2)      對壓縮包進行解壓縮
                  tar xvzf libxml2-xxxx.tar.gz
                3)      進入解壓縮后的文件夾中運行
                                 ./configure
                                 make
                                 make install
安裝完成后就可以使用簡單的代碼解析XML文件,包括本地和遠程的文件,但是在編碼上有一些問題。Libxml默認只支持UTF-8的編碼,無論輸入輸出都是UTF-8,所以如果你解析完一個XML得到的結(jié)果都是UTF-8的,如果需要輸出GB2312或者其它編碼,需要ICONV來做轉(zhuǎn)碼(生成UTF-8編碼的文件也可以用它做),如果系統(tǒng)中沒有安裝iconv的話,需要安裝libiconv。
  1) 下載libiconv壓縮包(例如libiconv-1.11.tar.gz)
  2) 對壓縮包進行解壓縮
    tar xvzf libiconv-1.11.tar.gz
  3) 進入解壓縮后的文件夾中運行
    ./configure
    make
    make install
  
三、關(guān)于XML:
在開始研究 Libxml2 庫之前,先了解一下XML的相關(guān)基礎(chǔ)。XML 是一種基于文本的格式,它可用來創(chuàng)建能夠通過各種語言和平臺訪問的結(jié)構(gòu)化數(shù)據(jù)。它包括一系列類似 HTML 的標記,并以樹型結(jié)構(gòu)來對這些標記進行排列。
例如,可參見清單 1 中介紹的簡單文檔。為了更清楚地顯示 XML 的一般概念,下面是一個簡化的XML文件。
清單 1. 一個簡單的 XML 文件
  
            
             root
             delete
             10
            
清單 1 中的第一行是 XML 聲明,它告訴負責處理 XML 的應(yīng)用程序,即解析器,將要處理的 XML 的版本。大部分的文件使用版本 1.0 編寫,但也有少量的版本 1.1 的文件。它還定義了所使用的編碼。大部分文件使用 UTF-8,但是,XML 設(shè)計用來集成各種語言中的數(shù)據(jù),包括那些不使用英語字母的語言。
接下來出現(xiàn)的是元素。一個元素以開始標記 開始(如 ),并以結(jié)束標記 結(jié)束(如 ),其中使用斜線 (/) 來區(qū)別于開始標記。元素是 Node 的一種類型。XML 文檔對象模型 (DOM) 定義了幾種不同的 Nodes 類型,包括:
Elements(如 files 或者 age)
Attributes(如 units)
Text(如 root 或者 10)
元素可以具有子節(jié)點。例如,age 元素有一個子元素,即文本節(jié)點 10。

XML 解析器可以利用這種父子結(jié)構(gòu)來遍歷文檔,甚至修改文檔的結(jié)構(gòu)或內(nèi)容。LibXML2 是這樣的解析器中的其中一種,并且文中的示例應(yīng)用程序正是使用這種結(jié)構(gòu)來實現(xiàn)該目的。對于各種不同的環(huán)境,有許多不同的解析器和庫。LibXML2 是用于 UNIX 環(huán)境的解析器和庫中最好的一種,并且經(jīng)過擴展,它提供了對幾種腳本語言的支持,如 Perl 和 Python。
四、使用Libxml2
項目中要實現(xiàn)一個管理XML文件的后臺程序,需要對XML文件進行創(chuàng)建,解析,修改,查找等操作,下面介紹如何利用libxml2提供的庫來實現(xiàn)上述功能。
1、創(chuàng)建XML文檔:
我們使用xmlNewDoc()來創(chuàng)建XML文檔,然后使用xmlNewNode(),xmlNewChild(),xmlNewProp(),xmlNewText()等函數(shù)向XML文件中添加節(jié)點及子節(jié)點,設(shè)置元素和屬性,創(chuàng)建完畢后用xmlSaveFormatFileEnc()來保存XML文件到磁盤(該函數(shù)可以設(shè)置保存XML文件時的編碼格式)。
示例1:
  #include
  #include
  #include
  int main(int argc, char **argv)
  {
          xmlDocPtr doc = NULL;       /* document pointer */
          xmlNodePtr root_node = NULL, node = NULL, node1 = NULL;/* node pointers */
   // Creates a new document, a node and set it as a root node
          doc = xmlNewDoc(BAD_CAST "1.0");
          root_node = xmlNewNode(NULL, BAD_CAST "root");
          xmlDocSetRootElement(doc, root_node);
          //creates a new node, which is "attached" as child node of root_node node.
          xmlNewChild(root_node, NULL, BAD_CAST "node1",BAD_CAST "content of node1");
          // xmlNewProp() creates attributes, which is "attached" to an node.
          node=xmlNewChild(root_node, NULL, BAD_CAST "node3", BAD_CAST"node has attributes");
          xmlNewProp(node, BAD_CAST "attribute", BAD_CAST "yes");
          //Here goes another way to create nodes.
          node = xmlNewNode(NULL, BAD_CAST "node4");
          node1 = xmlNewText(BAD_CAST"other way to create content");
          xmlAddChild(node, node1);
          xmlAddChild(root_node, node);
          //Dumping document to stdio or file
          xmlSaveFormatFileEnc(argc > 1 ? argv[1] : "-", doc, "UTF-8", 1);
          /*free the document */
          xmlFreeDoc(doc);
          xmlCleanupParser();
          xmlMemoryDump();//debug memory for regression tests
          return(0);
  }

2、解析XML文檔
解析文檔時僅僅需要文件名并只調(diào)用一個函數(shù),并有錯誤檢查,常用的相關(guān)函數(shù)有xmlParseFile(),xmlParseDoc(),獲取文檔指針后,就可以使用xmlDocGetRootElement()來獲取根元素節(jié)點指針,利用該指針就可以在DOM樹里漫游了,結(jié)束后要調(diào)用xmlFreeDoc()釋放。
示例2:
  xmlDocPtr doc;   //定義解析文檔指針
  xmlNodePtr cur;  //定義結(jié)點指針(你需要它為了在各個結(jié)點間移動)
  xmlChar *key;
  doc = xmlReadFile(url, MY_ENCODING, 256);  //解析文件
  
  /*檢查解析文檔是否成功,如果不成功,libxml將指一個注冊的錯誤并停止。一個常見錯誤是不適當?shù)木幋a。XML標準文檔除了用UTF-8或UTF-16外還可用其它編碼保存。如果文檔是這樣,libxml將自動地為你轉(zhuǎn)換到UTF-8。更多關(guān)于XML編碼信息包含在XML標準中。*/
  if (doc == NULL ) {
   fprintf(stderr,"Document not parsed successfully. \n");
       return;
  }
  cur = xmlDocGetRootElement(doc);  //確定文檔根元素
  /*檢查確認當前文檔中包含內(nèi)容*/
  if (cur == NULL) {
       fprintf(stderr,"empty document\n");
       xmlFreeDoc(doc);
       return;
  }
  /*在這個例子中,我們需要確認文檔是正確的類型!皉oot”是在這個示例中使用文檔的根類型。*/
  if (xmlStrcmp(cur->name, (const xmlChar *) "root")) {
   fprintf(stderr,"document of the wrong type, root node != root");
       xmlFreeDoc(doc);
       return;
  }

  cur = cur->xmlChildrenNode;
  while(cur!=NULL) {
   if ((!xmlStrcmp(cur->name, (const xmlChar *)"keyword"))) {
    key = xmlNodeListGetString(doc, cur->xmlChildrenNode, 1);
    printf("keyword: %s\n", key);
    xmlFree(key);
   }
   cur = cur->next;
  }
  xmlFreeDoc(doc);

3、修改XML元素及屬性等信息
要修改XML文檔里的元素及屬性等信息,先需要解析XML文檔,獲得一個節(jié)點指針(xmlNodePtr node),利用該節(jié)點指針漫游DOM樹,就可以在XML文檔中獲取,修改,添加相關(guān)信息。
示例3:
  得到一個節(jié)點的內(nèi)容:
   xmlChar *value = xmlNodeGetContent(node);
   返回值value應(yīng)該使用xmlFree(value)釋放內(nèi)存
  得到一個節(jié)點的某屬性值:
   xmlChar *value = xmlGetProp(node, (const xmlChar *)"prop1");
   返回值需要xmlFree(value)釋放內(nèi)存
  設(shè)置一個節(jié)點的內(nèi)容:
   xmlNodeSetContent(node, (const xmlChar *)"test");
  設(shè)置一個節(jié)點的某屬性值:
   xmlSetProp(node, (const xmlChar *)"prop1", (const xmlChar *)"v1");
  添加一個節(jié)點元素:
   xmlNewTextChild(node, NULL, (const xmlChar *)"keyword", (const xmlChar *)"test Element");
  添加一個節(jié)點屬性:
   xmlNewProp(node, (const xmlChar *)"prop1", (const xmlChar *)"test Prop");

4、查找XML節(jié)點
有時候?qū)σ粋XML文檔我們可能只關(guān)心其中某一個或某幾個特定的Element的值或其屬性,如果漫游DOM樹將是很痛苦也很無聊的事,利用XPath可以非常方便地得到你想的Element。下面是一個自定義函數(shù):
示例4:
  xmlXPathObjectPtr get_nodeset(xmlDocPtr doc, const xmlChar *xpath) {
   xmlXPathContextPtr context;
   xmlXPathObjectPtr result;
   context = xmlXPathNewContext(doc);
   if (context == NULL) {
    printf("context is NULL\n");
    return NULL;
   }
   result = xmlXPathEvalExpression(xpath, context);
   xmlXPathFreeContext(context);
   if (result == NULL) {
    printf("xmlXPathEvalExpression return NULL\n");
    return NULL;
   }
   if (xmlXPathNodeSetIsEmpty(result->nodesetval)) {
    xmlXPathFreeObject(result);
    printf("nodeset is empty\n");
    return NULL;
   }
   return result;
  }
  
  在doc指向的XML文檔中查詢滿足xpath表達式條件的節(jié)點,返回滿足這一條件的節(jié)點集合查詢條件xpath的寫法參見xpath相關(guān)資料。在查詢完畢獲取結(jié)果集后,就可以通過返回的 xmlXPathObjectPtr 結(jié)構(gòu)訪問該節(jié)點:
示例5:
  xmlChar *xpath = ("/root/node/[@key='keyword']");
  xmlXPathObjectPtr app_result = get_nodeset(doc,xpath);
  if (app_result == NULL) {
   printf("app_result is NULL\n");
   return;
  }
  
  int i = 0;
  xmlChar *value;
  if(app_result) {
   xmlNodeSetPtr nodeset = app_result->nodesetval;
   for (i=0; i nodeNr; i++) {
    cur = nodeset->nodeTab;   
    cur = cur->xmlChildrenNode;  
    while(cur!=NULL) {   
     value = xmlGetProp(cur,(const xmlChar *)"key");
     if (value != NULL) {
      printf("value: %s\n\n", d_ConvertCharset("utf-8", "GBK", (char *)value));
      xmlFree(value);
     }
     value = xmlNodeGetContent(cur);
     if (value != NULL) {
      printf("value: %s\n\n", d_ConvertCharset("utf-8", "GBK", (char *)value));
      xmlFree(value);
     }
    }
   }
   xmlXPathFreeObject (app_result);
  }
  通過get_nodeset()返回的結(jié)果集,我們可以獲取該節(jié)點的元素及屬性,也可以修改該節(jié)點的值。示例中在獲取值打印的時候用到 d_ConvertCharset()函數(shù)來改變編碼格式為GBK,以方便正確讀取可能的中文字符。

5、編碼問題
由于Libxml一般以UTF-8格式保存和操縱數(shù)據(jù),如果你的程序使用其它的數(shù)據(jù)格式,比如中文字符(GB2312,GBK編碼),就必須使用Libxml函數(shù)轉(zhuǎn)換到UTF-8。如果你想你的程序以除UTF-8外的其它編碼方式輸出也必須做轉(zhuǎn)換。
    下面的示例程序提供幾個函數(shù)來實現(xiàn)對數(shù)據(jù)編碼格式的轉(zhuǎn)換,其中有的要用到Libiconv,因此為了確保他們能正常工作,先檢查以下系統(tǒng)中是否已經(jīng)安裝libiconv庫。
示例6:
  xmlChar *ConvertInput(const char *in, const char *encoding) {
   unsigned char *out;
   int ret;
   int size;
   int out_size;
   int temp;
   xmlCharEncodingHandlerPtr handler;

   if (in == 0)
    return 0;

   handler = xmlFindCharEncodingHandler(encoding);

   if (!handler) {
    printf("ConvertInput: no encoding handler found for '%s'\n", encoding ? encoding : "");
    return 0;
   }

   size = (int) strlen(in) + 1;
   out_size = size * 2 - 1;
   out = (unsigned char *) xmlMalloc((size_t) out_size);
   
   if (out != 0) {
    temp = size - 1;
    ret = handler->input(out, &out_size, (const unsigned char *) in, &temp);
    if ((ret  %s\n", encFrom, encTo);
    return NULL;
   }
   iconv(c_pt, NULL, NULL, NULL, NULL);

   lenin = strlen(in) + 1;
   lenout = 1024;
   sin    = (char *)in;
   sout   = bufout;
   ret = iconv(c_pt, &sin, (size_t *)&lenin, &sout, (size_t *)&lenout);
         
   if (ret == -1) {
    return NULL;
   }

   iconv_close(c_pt);
   return bufout;
  }

示例8:
  char *d_ConvertCharset(char *cpEncodeFrom, char *cpEncodeTo, const char *cpInput) {
   static char s_strBufOut[1024], *sin, *cpOut;
   size_t iInputLen, iOutLen, iReturn;
  
   iconv_t c_pt;
   if ((c_pt = iconv_open(cpEncodeTo, cpEncodeFrom)) == (iconv_t)-1) {
    printf("iconv_open failed!\n");
    return NULL;
   }
   iconv(c_pt, NULL, NULL, NULL, NULL);
  
   iInputLen = strlen(cpInput) + 1;
   iOutLen = 1024;
   sin   = (char *)cpInput;
   cpOut = s_strBufOut;
   iReturn = iconv(c_pt, &sin, &iInputLen, &cpOut, &iOutLen);
  
   if (iReturn == -1) {
    return NULL;
   }
  
   iconv_close(c_pt);
   return s_strBufOut;
  }

通過上述函數(shù),可以方便的在XML文件中保存并操縱中文字符。  


本文來自ChinaUnix博客,如果查看原文請點:http://blog.chinaunix.net/u/12446/showart_393847.html
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP