打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
JAVA 对 URL 进行 编码与解码

因为在做链接来源统计的时候需要把 http://www.baidu.com/baidu?word=%D6%D0%B9%FA%B4%F3%B0%D9%BF%C6%D4%DA%CF%DF%C8%AB%CE%C4%BC%EC%CB%F7&tn=myie2dg  这类的URL编码还原成明文字串,一般大部分的网站都是用普通的URL编码形式,如上面链接中的badu,这种很容易转换和还原,Java包里提供了两个类的不同方法URLEncode.encode()和URLDecode.decode()可以很方便实现,但也有特别一点的就是Google了,http://www.google.com/search?hl=zh-CN&newwindow=1&q=%E4%B8%AD%E5%9B%BD%E5%A4%A7%E7%99%BE%E7%A7%91%E5%9C%A8%E7%BA%BF%E5%85%A8%E6%96%87%E6%A3%80%E7%B4%A2&btnG=%E6%90%9C%E7%B4%A2&lr= 他们的编码和别人不一样,如果使用URLDecode.decode()的话则变成乱码,查询的一些相关资料都说Google使用的是UTF-8编码,这点我就有些奇怪了,如果Google使用的是UTF-8编码,那别人使用的又是什么?IE的高级选项里不是有项“始终以UTF-8形式发送URL”的吗?但是UTF-8一个中文是3byte,而一般的编码则是2个byte,这就是为什么一般的URL中是以两组‘%‘代码表示一个汉字,如“中”的URL编码为"%D6%D0",而UTF-8则为3组,“中”为"%E4%B8%AD",这个问题我在Google里也没得到较好回答。我对各种编码形式了解的不是很好,之前只看过如何将字符串转成Utf8-URL编码的方法,其实也挺简单的,直接转成byte后直接取其16进制值前面加个%就行,还原方法在网上搜了几圈居然没发现有现成的!倒是也是几个人在CSDN问了此类的问题。最后还是决定自己搞定了,基本上是toUTF8的原路退回法,再加了个检测URL链接是否UTF-8形式的方法,觉得已经蛮好用了。可以拿出来share一下。

 

 

 

import java.io.UnsupportedEncodingException;            import java.net.URLEncoder;            import java.net.URLDecoder;            /**            * <p>Title:字符编码工具类 </p>            * <p>Description:  </p>            * <p>Copyright: flashman.com.cn Copyright (c) 2005</p>            * <p>Company: flashman.com.cn </p>            * @author: jeffzhu            * @version 1.0            */            public class CharTools {            /**            * 转换编码 ISO-8859-1到GB2312            * @param text            * @return            */            public String ISO2GB(String text) {            String result = "";            try {            result = new String(text.getBytes("ISO-8859-1"), "GB2312");            }            catch (UnsupportedEncodingException ex) {            result = ex.toString();            }            return result;            }            /**            * 转换编码 GB2312到ISO-8859-1            * @param text            * @return            */            public String GB2ISO(String text) {            String result = "";            try {            result = new String(text.getBytes("GB2312"), "ISO-8859-1");            }            catch (UnsupportedEncodingException ex) {            ex.printStackTrace();            }            return result;            }            /**            * Utf8URL编码            * @param s            * @return            */            public String Utf8URLencode(String text) {            StringBuffer result = new StringBuffer();            for (int i = 0; i < text.length(); i++) {            char c = text.charAt(i);            if (c >= 0 && c <= 255) {            result.append(c);            }else {            byte[] b = new byte[0];            try {            b = Character.toString(c).getBytes("UTF-8");            }catch (Exception ex) {            }            for (int j = 0; j < b.length; j++) {            int k = b[j];            if (k < 0) k += 256;            result.append("%" + Integer.toHexString(k).toUpperCase());            }            }            }            return result.toString();            }            /**            * Utf8URL解码            * @param text            * @return            */            public String Utf8URLdecode(String text) {            String result = "";            int p = 0;            if (text!=null && text.length()>0){            text = text.toLowerCase();            p = text.indexOf("%e");            if (p == -1) return text;            while (p != -1) {            result += text.substring(0, p);            text = text.substring(p, text.length());            if (text == "" || text.length() < 9) return result;            result += CodeToWord(text.substring(0, 9));            text = text.substring(9, text.length());            p = text.indexOf("%e");            }            }            return result + text;            }            /**            * utf8URL编码转字符            * @param text            * @return            */            private String CodeToWord(String text) {            String result;            if (Utf8codeCheck(text)) {            byte[] code = new byte[3];            code[0] = (byte) (Integer.parseInt(text.substring(1, 3), 16) - 256);            code[1] = (byte) (Integer.parseInt(text.substring(4, 6), 16) - 256);            code[2] = (byte) (Integer.parseInt(text.substring(7, 9), 16) - 256);            try {            result = new String(code, "UTF-8");            }catch (UnsupportedEncodingException ex) {            result = null;            }            }            else {            result = text;            }            return result;            }            /**            * 编码是否有效            * @param text            * @return            */            private boolean Utf8codeCheck(String text){            String sign = "";            if (text.startsWith("%e"))            for (int i = 0, p = 0; p != -1; i++) {            p = text.indexOf("%", p);            if (p != -1)            p++;            sign += p;            }            return sign.equals("147-1");            }            /**            * 是否Utf8Url编码            * @param text            * @return            */            public boolean isUtf8Url(String text) {            text = text.toLowerCase();            int p = text.indexOf("%");            if (p != -1 && text.length() - p > 9) {            text = text.substring(p, p + 9);            }            return Utf8codeCheck(text);            }            /**            * 测试            * @param args            */            public static void main(String[] args) {            CharTools charTools = new CharTools();            String url;            url = "http://www.google.com/search?hl=zh-CN&newwindow=1&q=%E4%B8%AD%E5%9B%BD%E5%A4%A7%E7%99%BE%E7%A7%91%E5%9C%A8%E7%BA%BF%E5%85%A8%E6%96%87%E6%A3%80%E7%B4%A2&btnG=%E6%90%9C%E7%B4%A2&lr=";            if(charTools.isUtf8Url(url)){            System.out.println(charTools.Utf8URLdecode(url));            }else{            System.out.println(URLDecoder.decode(url));            }            url = "http://www.baidu.com/baidu?word=%D6%D0%B9%FA%B4%F3%B0%D9%BF%C6%D4%DA%CF%DF%C8%AB%CE%C4%BC%EC%CB%F7&tn=myie2dg";            if(charTools.isUtf8Url(url)){            System.out.println(charTools.Utf8URLdecode(url));            }else{            System.out.println(URLDecoder.decode(url));            }            }            }                        

 

[Edit on 2006-6-27 0:06:06 By flashman]

[ from ]
By [flashman] at 20:55:06 | Comments [1] | TrackBack[0] | 701 views
≡≡≡ 网友评论 ≡≡≡
  
waterflier 在 2006-5-25 10:04:39 说:
最近我也在研究中文分词,到你的blog来找点资料 ^_^ 有什么好东西记得给兄弟分享一份。
正式的正式:
这编文章的理论基础有错误,建议fox去看看编码相关的基础知识。ISO-8859-1 和GB2312是不能直接转的。他们都属于ANSI编码。
一共有三类编码
ANSI(ISO-8859-1,GBK,GB2312,BIG5等) UCS(UCS2,UCS4) UTF(UTF7 UTF8 UTF16)
其中 所有的编码都可以转成UCS,UTF是UCS为了节省空间的一种存储方式(使用huffman编码的理论的变长编码,如果全部都是e文的话可以有效地压缩成UTF8,如果是中文编码成UTF8反而会浪费空间)。ANSI各个编码之间不存在抓换关系只存在极少数的对应关系(比如每个ANSI编码都必须包含英文,又比如简体字与繁体字之间的对应关系使GBK和BIG5之间的某些编码存在对应关系,这种关系是无规律的)。
我的blog上也有不少关于这方面的内容


 
----------------------------------------------------------------------------------------------------------------------------
 
<html>
<head>
<meta http-equiv=‘Content-Type‘ content=‘text/html; charset=gb2312‘>
<title>URL解码(Decode)/编码(Encode)</title>
</head>
<body>
<center><font color=green size=+2>URL解码(Decode)/编码(Encode)</font><br>
需要解码的字符串:<TEXTAREA ID="String1" ROWS="10" COLS="30"></TEXTAREA> 解码后的字符串:<TEXTAREA ID="String2" ROWS="10" COLS="30"></TEXTAREA><br>
需要编码的字符串:<TEXTAREA ID="String3" ROWS="10" COLS="30"></TEXTAREA> 编码后的字符串:<TEXTAREA ID="String4" ROWS="10" COLS="30"></TEXTAREA><br>
<INPUT TYPE="button" ID="Decode" value="解码(Decode)" onClick="javascript:String2.value=decodeURI(String1.value);">
<INPUT TYPE="button" ID="Encode" value="编码(Encode)" onClick="javascript:String4.value=encodeURI(String3.value);">
</center>
</body>
</html>
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
C#编程总结(十)字符转码
C# byte[]转string, string转byte[] 的四种方法
java中文乱码解决总结
struts2中文乱码解决方法
Hadoop中文件读写(Java)
CSDN 文档中心:手机中文码制问题的一点理解
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服