网站首页 > 精选教程 正文
1 字符种类
字符主要包括以下几种类型:
数字类型,如1、2、3等。
字符类型,如a、b、c等。
特殊字符,如#、$、%、^、&等
不可见字符,如\n(换行符)、\r(回车符)、\t(Tab字符)等。
【注意】\n(换行符)和\r(回车符)在windows系统中没有什么区别,都可以当做回车符。但是在linux系统中则是两种效果。在linux系统中,\n表示换到下一行,却不会回到行首;而\r表示光标回到行首,但仍然在本行。
2 JVM字符编码
在 JVM中,字符是使用 Unicode编码的。Unicode编码指的是UCS-2编码方式,即直接用两个字节存入字符的Unicode码。Unicode是一个很大的集合,将世界上所有的符号都纳入其中,每一个符号都给予一个独一无二的编码。需要注意的是,Unicode只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。基本多文种平面是Unicode中的一个编码区段。编码从U+0000至U+FFFF。常用汉字在此区间对应。常用字占用2个字节,在多文种平面区。冷僻字占用4个字节,在其它平面。所以,冷僻的汉字无法在Java中使用。
3 char深刻研究
(1)char的包装类是Character。
(2)char占用两个字节存储字符。存储过程为:字符->Unicode代码点->UTF-16编码格式存储->大端/小端->文件
(3)char并不能表示所有的字符,Unicode的编码空间从u\0000到u\10FFFF,而JAVA所表示的范围是:\u0000到\uFFFF,仅仅能表示65535个字符。
(4)utf-16定义:
如果字符编码小于0x10000,也就是十进制的0到65535之内,则直接使用两字节表示;如果字符编码大于0x10000,由于Unicode编码范围最大为0x10FFFF,从0x10000到0x10FFFF之间共有0xFFFFF个编码,也就是需要20个bit就可以标示这些编码。为表示从0x10000到0xFFFFF之间的值,将其前10 bit作为高位和16 bit的数值0xD800(1101 1000 0000 0000)进行逻辑or操作,将后10 bit作为低位和0xDC00(1101 1100 0000 0000)做逻辑or操作,这样组成的4个字节就构成了字符编码。
猜你喜欢
- 2024-11-25 初识java—(五十)输出流
- 2024-11-25 Python 打印回车换行
- 2024-11-25 Bash技巧:介绍一个批量复制文件到指定目录的Shell脚本
- 2024-11-25 进阶之路:Java 日志框架全画传(中)
- 2024-11-25 JSON 字符串是如何被解析的?JsonParser了解一下
- 2024-11-25 看了这篇,我确定你已经彻底搞懂Git了
- 2024-11-25 java正则表达式的使用
- 2024-11-25 用 Java 的 IO 流进行读写文件操作
- 2024-11-25 盘点一下Redis中常用的Java客户端,或者咱们手写一个?
- 2024-11-25 如何写出同事看不懂的Java代码?
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- nginx反向代理 (57)
- nginx日志 (56)
- nginx限制ip访问 (62)
- mac安装nginx (55)
- java和mysql (59)
- java中final (62)
- win10安装java (72)
- java启动参数 (64)
- java链表反转 (64)
- 字符串反转java (72)
- java逻辑运算符 (59)
- java 请求url (65)
- java信号量 (57)
- java定义枚举 (59)
- java字符串压缩 (56)
- java中的反射 (59)
- java 三维数组 (55)
- java插入排序 (68)
- java线程的状态 (62)
- java异步调用 (55)
- java中的异常处理 (62)
- java锁机制 (54)
- java静态内部类 (55)
- java怎么添加图片 (60)
- java 权限框架 (55)
本文暂时没有评论,来添加一个吧(●'◡'●)