国产欧美日韩第一页|日本一二三不卡视频|在线精品小视频,亚洲第一免费播放区,metcn人体亚洲一区,亚洲精品午夜视频

幫助中心 >  技術(shù)知識庫 >  數據庫 >  相關(guān)技術(shù)支持 >  實(shí)例解析:PHP程序開(kāi)發(fā)中的中文編碼問(wèn)題

實(shí)例解析:PHP程序開(kāi)發(fā)中的中文編碼問(wèn)題

2009-12-02 14:09:47 8621



PHP程序設計中中文編碼問(wèn)題曾經(jīng)困擾很多人,導致這個(gè)問(wèn)題的原因其實(shí)很簡(jiǎn)單,每個(gè)國家(或區域)都規定了計算機信息交換用的字符編碼集,如美國的擴展 ASCII 碼, 中國的 GB2312-80,日本的 JIS 等。作為該國家/區域內信息處理的基礎,字符編碼集起著(zhù)統一編碼的重要作用。字符編碼集按長(cháng)度分為 SBCS(單字節字符集),DBCS(雙字節字符集)兩大類(lèi)。早期的軟件(尤其是操作系統),為了解決本地字符信息的計算機處理,出現了各種本地化版本(L10N),為了區分,引進(jìn)了 LANG, Codepage 等概念。但是由于各個(gè)本地字符集代碼范圍重疊,相互間信息交換困難;軟件各個(gè)本地化版本獨立維護成本較高。因此有必要將本地化工作中的共性抽取出來(lái),作一致處理,將特別的本地化處理內容降低到最少。這也就是所謂的國際化(118N)。各種語(yǔ)言信息被進(jìn)一步規范為 Locale 信息。處理的底層字符集變成了幾乎包含了所有字形的 Unicode。


現在大部分具有國際化特征的軟件核心字符處理都是以 Unicode 為基礎的,在軟件運行時(shí)根據當時(shí)的ocale/Lang/Codepage 設置確定相應的本地字符編碼設置,并依此處理本地字符。在處理過(guò)程中需要實(shí)現 Unicode 和本地字符集的相互轉換,甚或以 Unicode 為中間的兩個(gè)不同本地字符集的相互轉換。這種方式在網(wǎng)絡(luò )環(huán)境下被進(jìn)一步延伸,任何網(wǎng)絡(luò )兩端的字符信息也需要根據字符集的設置轉換成可接受的內容。


數據庫中的字符集編碼問(wèn)題


流行的關(guān)系數據庫系統都支持數據庫字符集編碼,也就是說(shuō)在創(chuàng )建數據庫時(shí)可以指定它自己的字符集設置,數據庫的數據以指定的編碼形式存儲。當應用程序訪(fǎng)問(wèn)數據時(shí),在入口和出口處都會(huì )有字符集編碼的轉換。對于中文數據,數據庫字符編碼的設置應當保證數據的完整性。GB2312、GBK、UTF-8 等都是可選的數據庫字符集編碼;當然我們也可以選擇 ISO8859-1 (8-bit),只是我們得在應


用程序寫(xiě)數據之前先將 16Bit 的一個(gè)漢字或 Unicode 拆分成兩個(gè) 8-bit 的字符,讀數據之后也需要將兩個(gè)字節合并起來(lái),同時(shí)還要判別其中的 SBCS 字符,因此我們并不推薦采用 ISO8859-1 作為數據庫字符集編碼。這樣不但沒(méi)有充分利用數據庫自身的字符集編碼支持,而且同時(shí)也增加了編程的復雜度。編程時(shí),可以先用數據庫管理系統提供的管理功能檢查其中的中文數據是否正確。


PHP 程序在查詢(xún)數據庫之前,首先執行 mysql_query("SET NAMES xxxx"); 其中 xxxx 是你網(wǎng)頁(yè)的編碼(charset=xxxx),如果網(wǎng)頁(yè)中 charset=utf8,則 xxxx=utf8,如果網(wǎng)頁(yè)中 charset=gb2312,則xxxx=gb2312,幾乎所有 WEB 程序,都有一段連接數據庫的公共代碼,放在一個(gè)文件里,在這文件里,加入 mysql_query("SET NAMES xxxx") 就可以了。


SET NAMES 顯示客戶(hù)端發(fā)送的 SQL 語(yǔ)句中使用什么字符集。因此,SET NAMES utf-8 語(yǔ)句告訴服務(wù)器“將來(lái)從這個(gè)客戶(hù)端傳來(lái)的信息采用字符集 utf-8”。它還為服務(wù)器發(fā)送回客戶(hù)端的結果指定了字符集(例如,如果你使用一個(gè) SELECT 語(yǔ)句,它表示列值使用了什么字符集)。


定位問(wèn)題時(shí)常用的技巧


定位中文編碼問(wèn)題通常采用最笨的也是最有效的辦法―在你認為有嫌疑的程序處理后打印字符串的內碼。通過(guò)打印字符串的內碼,你可以發(fā)現什么時(shí)候中文字符被轉換成 Unicode,什么時(shí)候Unicode 被轉回中文內碼,什么時(shí)候一個(gè)中文字成了兩個(gè) Unicode 字符,什么時(shí)候中文字符串被轉成了一串問(wèn)號,什么時(shí)候中文字符串的高位被截掉了……


取用合適的樣本字符串也有助于區分問(wèn)題的類(lèi)型。如:"aa啊 aa?@aa" 等中英相間,GB、GBK特征字符均有的字符串。一般來(lái)說(shuō),英文字符無(wú)論怎么轉換或處理,都不會(huì )失真(如果遇到了,可以嘗試著(zhù)增加連續的英文字母長(cháng)度)。


解決各種應用的亂碼問(wèn)題


1) 使用 標簽設置頁(yè)面編碼


這個(gè)標簽的作用是聲明客戶(hù)端的瀏覽器用什么字符集編碼顯示該頁(yè)面,xxx 可以為 GB2312、GBK、UTF-8(和 MySQL 不同,MySQL 是 UTF8)等等。因此,大部分頁(yè)面可以采用這種方式來(lái)告訴瀏覽器顯示這個(gè)頁(yè)面的時(shí)候采用什么編碼,這樣才不會(huì )造成編碼錯誤而產(chǎn)生亂碼。但是有的時(shí)候我們會(huì )發(fā)現有了這句還是不行,不管 xxx 是哪一種,瀏覽器采用的始終都是一種編碼,這個(gè)情況我后面會(huì )談到。


請注意, 是屬于 HTML 信息的,僅僅是一個(gè)聲明,僅表明服務(wù)器已經(jīng)把 HTML 信息傳到了瀏覽器。


2) header("content-type:text/html; charset=xxx");


這個(gè)函數 header() 的作用是把括號里面的信息發(fā)到 http 標頭。如果括號里面的內容為文中所說(shuō)那樣,那作用和 標簽基本相同,大家對照第一個(gè)看發(fā)現字符都差不多的。但是不同的是如果有這段函數,瀏覽器就會(huì )永遠采用你所要求的 xxx 編碼,絕對不會(huì )不聽(tīng)話(huà),因此這個(gè)函數是很有用的。為什么會(huì )這樣呢?那就得說(shuō)說(shuō) http 標頭和 HTML信息的差別了:


http 標頭是服務(wù)器以 http 協(xié)議傳送 HTML 信息到瀏覽器前所送出的字串。而 標簽是屬于 HTML 信息的,所以 header() 發(fā)送的內容先到達瀏覽器,通俗點(diǎn)就是 header() 的優(yōu)先級高于 (不知道可不可以這樣講)。假如一個(gè) php 頁(yè)面既有header("content-type:text/html;charset=xxx"),又有,瀏覽器就只認前者 http 標頭而不認 meta 了。當然這個(gè)函數只能在 php 頁(yè)面內使用。


同樣也留有一個(gè)問(wèn)題,為什么前者就絕對起作用,而后者有時(shí)候就不行呢?這就是接下來(lái)要談的Apache 的原因了。


3) AddDefaultCharset


Apache 根目錄的 conf 文件夾里,有整個(gè) Apache 的配置文檔 httpd.conf。


用文本編輯器打開(kāi) httpd.conf,第 708 行(不同版本可能不同)有 AddDefaultCharset xxx,xxx為編碼名稱(chēng)。這行代碼的意思:設置整個(gè)服務(wù)器內的網(wǎng)頁(yè)文件 http 標頭里的字符集為你默認的 xxx字符集。有這行,就相當于給每個(gè)文件都加了一行 header("content-type:text/html; charset=xxx")。這下就明白為什么明明 設置了是 utf-8,可瀏覽器始終采用 gb2312 的原因。


如果網(wǎng)頁(yè)里有 header("content-type:text/html; charset=xxx"),就把默認的字符集改為你設置的字符集,所以這個(gè)函數永遠有用。如果把 AddDefaultCharset xxx 前面加個(gè)"#",注釋掉這句,而且頁(yè)面里不含 header("content-type…"),那這個(gè)時(shí)候就輪到 meta 標簽起作用了。


下面列出以上的優(yōu)先順序:


.. header("content-type:text/html; charset=xxx")


.. AddDefaultCharset xxx


..


如果你是 web 程序員,建議給你的每個(gè)頁(yè)面都加個(gè)header("content-type:text/html;charset=xxx"),這樣就可以保證它在任何服務(wù)器都能正確顯示,可移植性也比較強。


4) php.ini 中的 default_charset 配置:


php.ini 中的 default_charset = "gb2312" 定義了 php 的默認語(yǔ)言字符集。一般推薦注釋掉此行,讓瀏覽器根據網(wǎng)頁(yè)頭中的 charset 來(lái)自動(dòng)選擇語(yǔ)言而非做一個(gè)強制性的規定,這樣就可以在同臺服務(wù)器上提供多種語(yǔ)言的網(wǎng)頁(yè)服務(wù)。


結束語(yǔ)


其實(shí) php 開(kāi)發(fā)中的中文編碼并沒(méi)有想像的那么復雜,雖然定位和解決問(wèn)題沒(méi)有定規,各種運行環(huán)境也各不盡然,但后面的原理是一樣的。了解字符集的知識是解決字符問(wèn)題的基礎。不過(guò),隨著(zhù)中文字符集的變化,不僅僅是 php 編程,中文信息處理中的問(wèn)題還是會(huì )存在一段時(shí)間的。

提交成功!非常感謝您的反饋,我們會(huì )繼續努力做到更好!

這條文檔是否有幫助解決問(wèn)題?

非常抱歉未能幫助到您。為了給您提供更好的服務(wù),我們很需要您進(jìn)一步的反饋信息:

在文檔使用中是否遇到以下問(wèn)題:
-->