如何测试文件或字符串的编码？

ruilin521314

浏览: 884978 次

最近访客更多访客>>

u012363178

peng4602

gtweee

1572706830_gyx

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (1692)

社区版块

存档分类

由于程序需要导入一些文本文件，所以碰到文件编码问题。原来想输入的文本文件都用utf-8编码格式问题就解决了，但是后来发现，需要导入的文件，是由第三方来提供的，格式我们控制不了，所以在导入前需要检测文件的编码，然后根据编码来读入，以避免乱码问题。

经过一番查找，发现用现成的第三方jar包比较简单、可靠。需要的jar包：cpdetector_1.0.8.jar，另外需要依赖antlr-2.7.2.jar和chardet.jar包，网上下载地址很多，就不上传了。

测试文件编码：

import info.monitorenter.cpdetector.io.CodepageDetectorProxy;
import info.monitorenter.cpdetector.io.ParsingDetector;
import info.monitorenter.cpdetector.io.JChardetFacade;
import info.monitorenter.cpdetector.io.ASCIIDetector;
import info.monitorenter.cpdetector.io.UnicodeDetector;

String chartsetName;
//获取文件编码格式
CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance();
detector.add(new ParsingDetector(false));
detector.add(JChardetFacade.getInstance());
detector.add(ASCIIDetector.getInstance());
detector.add(UnicodeDetector.getInstance());
java.nio.charset.Charset charset = null;
try {
charset = detector.detectCodepage(sourseFile.toURL());
} catch (Exception ex) {
ex.printStackTrace();
}
if (charset != null) {
chartsetName=charset.name();
} else {
chartsetName="UTF-8";
}
//获取编码后按编码格式读取文件
BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(fileName),chartsetName));
while (in.ready()) {
str = in.readLine().trim();
... ...
}

如果测试输入的文本流的格式，可以如下：

charset=detector.detectCodepage(InputStream in, int length);

可以用下面代码获得Java支持编码集合：

Charset.availableCharsets().keySet();

可以用下面的代码获得系统默认编码：

Charset.defaultCharset();

分享到：

旅行的第欧根尼 | java.lang.NullPointerException at andro ...

2011-10-11 14:42
浏览 483
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论