xml即可擴(kuò)展標(biāo)記語(yǔ)言,它可以用來(lái)標(biāo)記數(shù)據(jù)、定義數(shù)據(jù)類型,是一種允許用戶對(duì)自己的標(biāo)記語(yǔ)言進(jìn)行定義的源語(yǔ)言。從結(jié)構(gòu)上,很像HTML超文本標(biāo)記語(yǔ)言。但他們被設(shè)計(jì)的目的是不同的,超文本標(biāo)記語(yǔ)言被設(shè)計(jì)用來(lái)顯示數(shù)據(jù),其焦點(diǎn)是數(shù)據(jù)的外觀。它被設(shè)計(jì)用來(lái)傳輸和存儲(chǔ)數(shù)據(jù),其焦點(diǎn)是數(shù)據(jù)的內(nèi)容。那么Python是如何處理XML語(yǔ)言文件的呢?下面一起來(lái)看看Python常用內(nèi)置模塊之xml模塊吧。
本文主要學(xué)習(xí)的ElementTree是python的XML處理模塊,它提供了一個(gè)輕量級(jí)的對(duì)象模型。在使用ElementTree模塊時(shí),需要import xml.etree.ElementTree的操作。ElementTree表示整個(gè)XML節(jié)點(diǎn)樹,而Element表示節(jié)點(diǎn)數(shù)中的一個(gè)單獨(dú)的節(jié)點(diǎn)。
構(gòu)建XML文件
ElementTree(tag),其中tag表示根節(jié)點(diǎn),初始化一個(gè)ElementTree對(duì)象。
Element(tag, attrib={}, **extra)函數(shù)用來(lái)構(gòu)造XML的一個(gè)根節(jié)點(diǎn),其中tag表示根節(jié)點(diǎn)的名稱,attrib是一個(gè)可選項(xiàng),表示節(jié)點(diǎn)的屬性。
SubElement(parent, tag, attrib={}, **extra)用來(lái)構(gòu)造一個(gè)已經(jīng)存在的節(jié)點(diǎn)的子節(jié)點(diǎn) Element.text和SubElement.text表示element對(duì)象的額外的內(nèi)容屬性,Element.tag和Element.attrib分別表示element對(duì)象的標(biāo)簽和屬性。
ElementTree.write(file, encoding='us-ascii', xml_declaration=None, default_namespace=None, method='xml'),函數(shù)新建一個(gè)XML文件,并且將節(jié)點(diǎn)數(shù)數(shù)據(jù)寫入XML文件中。
下面以新建一個(gè)網(wǎng)站的sitemap.xml文件為例進(jìn)行代碼示例
#!/usr/bin/env python
# -*- coding:utf-8 -*-
from xml.etree import ElementTree as ET
def build_sitemap():
urlset = ET.Element("urlset") #設(shè)置一個(gè)根節(jié)點(diǎn),標(biāo)簽為urlset
url = ET.SubElement(urlset,"url") #在根節(jié)點(diǎn)urlset下建立子節(jié)點(diǎn)
loc = ET.SubElement(url,"loc")
loc.text = "http://www.tjdsmy.cn/baidu.com"
lastmod = ET.SubElement(url,"lastmod")
lastmod.text = "2017-10-10"
changefreq = ET.SubElement(url,"changefreq")
changefreq.text = "daily"
priority = ET.SubElement(url,"priority")
priority.text = "1.0"
tree = ET.ElementTree(urlset)
tree.write("sitemap.xml")
if __name__ == '__main__':
build_sitemap()
結(jié)果如下圖所示:
解析和修改XML文件
ElementTree.parse(source, parser=None),將xml文件加載并返回ElementTree對(duì)象。parser是一個(gè)可選的參數(shù),如果為空,則默認(rèn)使用標(biāo)準(zhǔn)的XMLParser解析器。
ElementTree.getroot(),得到根節(jié)點(diǎn)。返回根節(jié)點(diǎn)的element對(duì)象。
Element.remove(tag),刪除root下名稱為tag的子節(jié)點(diǎn) 以下函數(shù),ElementTree和Element的對(duì)象都包含。
find(match),得到第一個(gè)匹配match的子節(jié)點(diǎn),match可以是一個(gè)標(biāo)簽名稱或者是路徑。返回個(gè)element findtext(match,default=None),得到第一個(gè)配置的match的element的內(nèi)容 findall(match),得到匹配match下的所有的子節(jié)點(diǎn),match可以是一個(gè)標(biāo)簽或者是路徑,它會(huì)返回一個(gè)list,包含匹配的elements的信息 iter(tag),創(chuàng)建一個(gè)以當(dāng)前節(jié)點(diǎn)為根節(jié)點(diǎn)的iterator。
還是以上面創(chuàng)建的sitemap.xml為例,對(duì)其進(jìn)行一定的修改,代碼示例如下:
#!/usr/bin/env python
# -*- coding:utf-8 -*-
from xml.etree import ElementTree as ET
tree = ET.parse("sitemap.xml")
url = tree.find("url")
for rank in tree.iter('loc'):
rank.text = "http://www.tjdsmy.cn"
tree.write("sitemap.xml")
以上的代碼將url修改為http://www.tjdsmy.cn了。另外,節(jié)點(diǎn)還有set(設(shè)置節(jié)點(diǎn)屬性)、attrib(刪除節(jié)點(diǎn)屬性)方法。