자바에서 UTF-8을 ISO-8859-1로 변환-단일 바이트로 유지하는 방법
UTF-8로 Java로 인코딩 된 문자열을 ISO-8859-1로 변환하려고합니다. 예를 들어 'âabcd'문자열에서 'â'는 ISO-8859-1에서 E2로 표시됩니다. UTF-8에서는 2 바이트로 표시됩니다. C3 A2 믿습니다. getbytes (encoding)를 수행 한 다음 ISO-8859-1 인코딩의 바이트로 새 문자열을 만들면 두 개의 다른 문자가 표시됩니다. Ã ¢. 캐릭터를 동일하게 유지하기 위해 이렇게하는 다른 방법이 있습니까?
UTF-16 이외의 문자 인코딩을 다루는 경우 java.lang.String
또는 char
기본 형식을 사용해서는 안됩니다 . byte[]
배열이나 ByteBuffer
객체 만 사용해야 합니다. 그런 다음을 사용 java.nio.charset.Charset
하여 인코딩간에 변환 할 수 있습니다 .
Charset utf8charset = Charset.forName("UTF-8");
Charset iso88591charset = Charset.forName("ISO-8859-1");
ByteBuffer inputBuffer = ByteBuffer.wrap(new byte[]{(byte)0xC3, (byte)0xA2});
// decode UTF-8
CharBuffer data = utf8charset.decode(inputBuffer);
// encode ISO-8559-1
ByteBuffer outputBuffer = iso88591charset.encode(data);
byte[] outputData = outputBuffer.array();
byte[] iso88591Data = theString.getBytes("ISO-8859-1");
트릭을 할 것입니다. 설명에 따르면 "ISO-8859-1 문자열 저장"을 시도하는 것처럼 보입니다. Java의 문자열 객체는 항상 UTF-16으로 암시 적으로 인코딩됩니다. 해당 인코딩을 변경할 방법이 없습니다.
할 수있는 일은 ' .getBytes()
위에 표시된 방법을 사용하여 다른 인코딩을 구성하는 바이트를 가져 오는 것 입니다.
UTF-8을 사용하여 문자열을 인코딩하는 바이트 세트로 시작하여 해당 데이터에서 문자열을 만든 다음 다른 인코딩으로 문자열을 인코딩하는 일부 바이트를 가져옵니다.
byte[] utf8bytes = { (byte)0xc3, (byte)0xa2, 0x61, 0x62, 0x63, 0x64 };
Charset utf8charset = Charset.forName("UTF-8");
Charset iso88591charset = Charset.forName("ISO-8859-1");
String string = new String ( utf8bytes, utf8charset );
System.out.println(string);
// "When I do a getbytes(encoding) and "
byte[] iso88591bytes = string.getBytes(iso88591charset);
for ( byte b : iso88591bytes )
System.out.printf("%02x ", b);
System.out.println();
// "then create a new string with the bytes in ISO-8859-1 encoding"
String string2 = new String ( iso88591bytes, iso88591charset );
// "I get a two different chars"
System.out.println(string2);
이것은 문자열과 iso88591 바이트를 올바르게 출력합니다.
âabcd
e2 61 62 63 64
âabcd
따라서 바이트 배열이 올바른 인코딩과 쌍을 이루지 않았습니다.
String failString = new String ( utf8bytes, iso88591charset );
System.out.println(failString);
출력
âabcd
(또는 방금 utf8 바이트를 파일에 쓰고 다른 곳에서 iso88591로 읽습니다)
이것이 내가 필요한 것입니다.
public static byte[] encode(byte[] arr, String fromCharsetName) {
return encode(arr, Charset.forName(fromCharsetName), Charset.forName("UTF-8"));
}
public static byte[] encode(byte[] arr, String fromCharsetName, String targetCharsetName) {
return encode(arr, Charset.forName(fromCharsetName), Charset.forName(targetCharsetName));
}
public static byte[] encode(byte[] arr, Charset sourceCharset, Charset targetCharset) {
ByteBuffer inputBuffer = ByteBuffer.wrap( arr );
CharBuffer data = sourceCharset.decode(inputBuffer);
ByteBuffer outputBuffer = targetCharset.encode(data);
byte[] outputData = outputBuffer.array();
return outputData;
}
문자열에 올바른 인코딩이있는 경우 다른 인코딩을위한 바이트를 가져 오기 위해 더 많은 작업을 수행 할 필요가 없습니다.
public static void main(String[] args) throws Exception {
printBytes("â");
System.out.println(
new String(new byte[] { (byte) 0xE2 }, "ISO-8859-1"));
System.out.println(
new String(new byte[] { (byte) 0xC3, (byte) 0xA2 }, "UTF-8"));
}
private static void printBytes(String str) {
System.out.println("Bytes in " + str + " with ISO-8859-1");
for (byte b : str.getBytes(StandardCharsets.ISO_8859_1)) {
System.out.printf("%3X", b);
}
System.out.println();
System.out.println("Bytes in " + str + " with UTF-8");
for (byte b : str.getBytes(StandardCharsets.UTF_8)) {
System.out.printf("%3X", b);
}
System.out.println();
}
산출:
Bytes in â with ISO-8859-1
E2
Bytes in â with UTF-8
C3 A2
â
â
파일 인코딩의 경우 ...
public class FRomUtf8ToIso {
static File input = new File("C:/Users/admin/Desktop/pippo.txt");
static File output = new File("C:/Users/admin/Desktop/ciccio.txt");
public static void main(String[] args) throws IOException {
BufferedReader br = null;
FileWriter fileWriter = new FileWriter(output);
try {
String sCurrentLine;
br = new BufferedReader(new FileReader( input ));
int i= 0;
while ((sCurrentLine = br.readLine()) != null) {
byte[] isoB = encode( sCurrentLine.getBytes() );
fileWriter.write(new String(isoB, Charset.forName("ISO-8859-15") ) );
fileWriter.write("\n");
System.out.println( i++ );
}
} catch (IOException e) {
e.printStackTrace();
} finally {
try {
fileWriter.flush();
fileWriter.close();
if (br != null)br.close();
} catch (IOException ex) {
ex.printStackTrace();
}
}
}
static byte[] encode(byte[] arr){
Charset utf8charset = Charset.forName("UTF-8");
Charset iso88591charset = Charset.forName("ISO-8859-15");
ByteBuffer inputBuffer = ByteBuffer.wrap( arr );
// decode UTF-8
CharBuffer data = utf8charset.decode(inputBuffer);
// encode ISO-8559-1
ByteBuffer outputBuffer = iso88591charset.encode(data);
byte[] outputData = outputBuffer.array();
return outputData;
}
}
Adam Rosenfield의 답변 외에도 ByteBuffer.array()
버퍼의 기본 바이트 배열 을 반환하는 것을 추가하고 싶습니다 . 이는 반드시 마지막 문자까지 "트림"되지는 않습니다. 이 답변에 언급 된 것과 같은 추가 조작이 필요합니다 . 특히:
byte[] b = new byte[bb.remaining()]
bb.get(b);
ISO-8859-1이 아닌 문자를 제거하면 '?'로 대체됩니다. (예를 들어 ISO-8859-1 DB로 보내기 전) :
utf8String = 새 문자열 (utf8String.getBytes (), "ISO-8859-1");
'development' 카테고리의 다른 글
Python 3은 값을 기준으로 dict를 정렬합니다. (0) | 2020.12.07 |
---|---|
collectstatic을 수행 할 수 없습니다. (0) | 2020.12.07 |
Guava를 사용하여 컬렉션을 변환하는 동안 null을 제거하는 우아한 방법이 있습니까? (0) | 2020.12.07 |
변경 사항을 확인하려면 nodejs를 다시 시작하지 않고 서버 파일을 편집하려면 어떻게해야합니까? (0) | 2020.12.07 |
PHP CURL 및 HTTPS (0) | 2020.12.07 |