《深入理解Java虚拟机:JVM高级特性与最佳实践》读书笔记(一)

有关Java虚拟机的这一系列文章都基于《深入理解Java虚拟机:JVM高级特性与最佳实践》这本书,是在阅读这本书过程的一些读书笔记,以梳理和总结相关的知识点为目的。

运行时数据区域

Java虚拟机在执行Java程序时,会将把其所管理的内存分为若干个数据区域,这些区域都有各自的用途,以及创建和销毁的时间,有的区域随着虚拟机进程的启动而存在,有些区域则依赖用户线程的启动和结束而建立和销毁。根据《Java虚拟机规范(JavaSE 7版)》的规定,Java虚拟机所管理的内存将会包括以下几个运行时数据区域:程序计数器、虚拟机栈、Java堆、方法区和本地方法栈。如下图所示:

  • 程序计数器(Program Counter Resgister):是一块较小的内存区域,可以看作是当前线程执行字节码的行号指示器(实际是当执行字节码的地址),字节码解释器工作时就是通过改变这个计数器的值来选取下一条需要执行的字节码指令,分支、循环、跳转、异常处理、线程恢复等基础功能都需要依赖这个计数器来完成。该区域是线程私有的;
  • 虚拟机栈(VM Stack):是Java方法执行的内存模型,每个Java方法(或本地方法)在执行的同时会创建栈帧(Stack Frame),用来存放局部变量表、方法出口、操作数栈和动态链接等信息。每个方法从调用到执行完成的过程就对应着这样一个栈帧的入栈和弹栈。局部变量表所需的内存大小在编译期就已分配完成,进入一个方法或方法在执行过程中,其大小是确定的,不变的。Sun Hotspot虚拟机中,Java虚拟机栈和本地方法栈(为Native方法服务)合二为一,此处统称为虚拟机栈。该区域是线程私有的;
  • Java堆(Java Heap):是Java虚拟机所管理内存中最大的一块区域,并且被各线程共享,在虚拟机启动时被创建。此区域唯一目的就是存放对象实例和数组,同时也是GC管理的主要区域。从内存回收的角度来看,由于现在收集器基本都采用分代收集算法,所以Java堆中还可以细分为:新生代和老年代;再细致一点的有Eden空间、From Survivor空间、To Survivor空间等,Java堆可以处于物理上不连续的内存空间中,只要逻辑上是连续的即可,就像我们的磁盘空间一样;
  • 方法区(Method Area):与Java堆一样,是各个线程共享的内存区域,它用于存储已被虚拟机加载的类信息、常量、静态变量、即时编译器编译后的代码等数据。Java虚拟机规范把方法区描述为堆的一个逻辑部分,亦称“非堆(Non-Heap)”。这区域的内存回收目标主要是针对常量池的回收和对类型的卸载。运行时常量池(Runtime Constant Pool)是方法区的一部分,用于存放编译期生成的各种字面量和符号引用,这部分内容将在类加载后进入方法区的运行时常量池中存放。

HotSpot VM下堆内存的对象管理

  • 对象的创建:此处讨论的对象仅限于普通Java对象,不包括数组和Class对象等。下面是Java对象创建的过程:

    1. 虚拟机遇到一条new指令时,首先将去检查这个指令的参数是否能在常量池中定位到一个类的符号引用,并且检查这个符号引用代表的类是否已被加载、解析和初始化过。如果没有,那必须先执行相应的类加载过程;
    2. 类加载检查通过后,会为对象分配内存。根据Java堆是否规整,为对象分配空间的方式有“指针碰撞”和“空闲列表”之分。由于Java堆是各个线程共享的一片内存区域,则在给对象分配空间时存在线程不安全的问题,为解决这个问题可以采用CAS配上失败重试的方式保证更新操作的原子性或者采用本地线程分配缓冲(Thread Local Allocation Buffer,TLAB)方式为每个线程预先分配一小块内存,然后在这小块内存上为对象分配空间。内存的大小是在类加载完就可以确定的(至于为什么之后再补充);
    3. 内存分配完成后,虚拟机需要将分配到的内存空间都初始化为零值(不包括对象头)。这一操作保证了对象的实例字段在Java代码中可以不赋初始值就直接使用,程序能访问到这些字段的数据类型所对应的零值;
    4. 接下来,虚拟机要对对象进行必要的设置,例如这个对象是哪个类的实例、如何才能找到类的元数据信息、对象的哈希码、对象的GC分代年龄等信息,这些信息存放在对象的对象头(ObjectHeader)之中;
    5. 一般来说,执行new指令之后会接着执行<init>方法,把对象按照程序员的意愿进行初始化,这样一个真正可用的对象才算完全产生出来。
  • 对象的内存布局:dui在HotSpot虚拟机中,对象在内存中存储的布局可以分为3块区域:对象头(Header)、实例数据(Instance Data)和对齐填充(Padding)。下面分别介绍着3块区域:

    1. HotSpot虚拟机的对象头包括两部分信息,第一部分用于存储对象自身的运行时数据,如哈希码(HashCode)、GC分代年龄、锁状态标志、线程持有的锁、偏向线程ID、偏向时间戳等,另一部分是类型指针,即对象指向它的类元数据的指针,虚拟机通过这个指针来确定这个对象是哪个类的实例;
    2. 实例数据部分是对象真正存储的有效信息,也是在程序代码中所定义的各种类型的字段内容。无论是从父类继承下来的,还是在子类中定义的,都需要记录起来;
    3. 对齐填充仅仅起着占位符的作用,由于HotSpot VM的自动内存管理系统要求对象起始地址必须是8字节的整数倍,换句话说,就是对象的大小必须是8字节的整数倍。而对象头部分正好是8字节的倍数(1倍或者2倍),因此,当对象实例数据部分没有对齐时,就需要通过对齐填充来补全。
  • 对象的访问定位:Java程序需要通过栈上的reference数据来操作访问堆上的具体对象,目前主流的访问方式有使用句柄和直接指针两种;

    • 如果使用句柄访问的话,那么Java堆中将会划分出一块内存来作为句柄池,reference中存储的就是对象的句柄地址,而句柄中包含了对象实例数据与类型数据各自的具体地址信息,如图:

    • 如果使用直接指针访问,那么Java堆对象的布局中就必须考虑如何放置访问类型数据的相关信息,而reference中存储的直接就是对象地址,如图:

      对虚拟机Sun HotSpot而言,它是使用第二种方式进行对象访问的,即通过直接指针访问对象。使用直接指针访问方式的最大好处就是速度更快,它节省了一次指针定位的时间开销,由于对象的访问在Java中非常频繁,因此这类开销积少成多后也是一项非常可观的执行成本。