Index: stable/12/share/man/man4/nvme.4
===================================================================
--- stable/12/share/man/man4/nvme.4	(revision 356960)
+++ stable/12/share/man/man4/nvme.4	(revision 356961)
@@ -1,234 +1,242 @@
 .\"
 .\" Copyright (c) 2012-2016 Intel Corporation
 .\" All rights reserved.
 .\"
 .\" Redistribution and use in source and binary forms, with or without
 .\" modification, are permitted provided that the following conditions
 .\" are met:
 .\" 1. Redistributions of source code must retain the above copyright
 .\"    notice, this list of conditions, and the following disclaimer,
 .\"    without modification.
 .\" 2. Redistributions in binary form must reproduce at minimum a disclaimer
 .\"    substantially similar to the "NO WARRANTY" disclaimer below
 .\"    ("Disclaimer") and any redistribution must be conditioned upon
 .\"    including a substantially similar Disclaimer requirement for further
 .\"    binary redistribution.
 .\"
 .\" NO WARRANTY
 .\" THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
 .\" "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
 .\" LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTIBILITY AND FITNESS FOR
 .\" A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
 .\" HOLDERS OR CONTRIBUTORS BE LIABLE FOR SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
 .\" DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
 .\" OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
 .\" HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
 .\" STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING
 .\" IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
 .\" POSSIBILITY OF SUCH DAMAGES.
 .\"
 .\" nvme driver man page.
 .\"
 .\" Author: Jim Harris <jimharris@FreeBSD.org>
 .\"
 .\" $FreeBSD$
 .\"
-.Dd August 21, 2019
+.Dd January 6, 2020
 .Dt NVME 4
 .Os
 .Sh NAME
 .Nm nvme
 .Nd NVM Express core driver
 .Sh SYNOPSIS
 To compile this driver into your kernel,
 place the following line in your kernel configuration file:
 .Bd -ragged -offset indent
 .Cd "device nvme"
 .Ed
 .Pp
 Or, to load the driver as a module at boot, place the following line in
 .Xr loader.conf 5 :
 .Bd -literal -offset indent
 nvme_load="YES"
 .Ed
 .Pp
 Most users will also want to enable
 .Xr nvd 4
 to expose NVM Express namespaces as disk devices which can be
 partitioned.
 Note that in NVM Express terms, a namespace is roughly equivalent to a
 SCSI LUN.
 .Sh DESCRIPTION
 The
 .Nm
 driver provides support for NVM Express (NVMe) controllers, such as:
 .Bl -bullet
 .It
 Hardware initialization
 .It
 Per-CPU IO queue pairs
 .It
 API for registering NVMe namespace consumers such as
 .Xr nvd 4
 or
 .Xr nda 4
 .It
 API for submitting NVM commands to namespaces
 .It
 Ioctls for controller and namespace configuration and management
 .El
 .Pp
 The
 .Nm
 driver creates controller device nodes in the format
 .Pa /dev/nvmeX
 and namespace device nodes in
 the format
 .Pa /dev/nvmeXnsY .
 Note that the NVM Express specification starts numbering namespaces at 1,
 not 0, and this driver follows that convention.
 .Sh CONFIGURATION
 By default,
 .Nm
 will create an I/O queue pair for each CPU, provided enough MSI-X vectors
 and NVMe queue pairs can be allocated.
 If not enough vectors or queue
 pairs are available, nvme(4) will use a smaller number of queue pairs and
 assign multiple CPUs per queue pair.
 .Pp
 To force a single I/O queue pair shared by all CPUs, set the following
 tunable value in
 .Xr loader.conf 5 :
 .Bd -literal -offset indent
 hw.nvme.per_cpu_io_queues=0
 .Ed
 .Pp
 To assign more than one CPU per I/O queue pair, thereby reducing the number
 of MSI-X vectors consumed by the device, set the following tunable value in
 .Xr loader.conf 5 :
 .Bd -literal -offset indent
 hw.nvme.min_cpus_per_ioq=X
 .Ed
 .Pp
 To force legacy interrupts for all
 .Nm
 driver instances, set the following tunable value in
 .Xr loader.conf 5 :
 .Bd -literal -offset indent
 hw.nvme.force_intx=1
 .Ed
 .Pp
 Note that use of INTx implies disabling of per-CPU I/O queue pairs.
+.Pp
+To control maximum amount of system RAM in bytes to use as Host Memory
+Buffer for capable devices, set the following tunable:
+.Bd -literal -offset indent
+hw.nvme.hmb_max
+.Ed
+.Pp
+The default value is 5% of physical memory size per device.
 .Pp
 The
 .Xr nvd 4
 driver is used to provide a disk driver to the system by default.
 The
 .Xr nda 4
 driver can also be used instead.
 The
 .Xr nvd 4
 driver performs better with smaller transactions and few TRIM
 commands.
 It sends all commands directly to the drive immediately.
 The
 .Xr nda 4
 driver performs better with larger transactions and also collapses
 TRIM commands giving better performance.
 It can queue commands to the drive; combine
 .Dv BIO_DELETE
 commands into a single trip; and
 use the CAM I/O scheduler to bias one type of operation over another.
 To select the
 .Xr nda 4
 driver, set the following tunable value in
 .Xr loader.conf 5 :
 .Bd -literal -offset indent
 hw.nvme.verbose_cmd_dump=1
 .Ed
 .Pp
 .Sh SYSCTL VARIABLES
 The following controller-level sysctls are currently implemented:
 .Bl -tag -width indent
 .It Va dev.nvme.0.num_cpus_per_ioq
 (R) Number of CPUs associated with each I/O queue pair.
 .It Va dev.nvme.0.int_coal_time
 (R/W) Interrupt coalescing timer period in microseconds.
 Set to 0 to disable.
 .It Va dev.nvme.0.int_coal_threshold
 (R/W) Interrupt coalescing threshold in number of command completions.
 Set to 0 to disable.
 .El
 .Pp
 The following queue pair-level sysctls are currently implemented.
 Admin queue sysctls take the format of dev.nvme.0.adminq and I/O queue sysctls
 take the format of dev.nvme.0.ioq0.
 .Bl -tag -width indent
 .It Va dev.nvme.0.ioq0.num_entries
 (R) Number of entries in this queue pair's command and completion queue.
 .It Va dev.nvme.0.ioq0.num_tr
 (R) Number of nvme_tracker structures currently allocated for this queue pair.
 .It Va dev.nvme.0.ioq0.num_prp_list
 (R) Number of nvme_prp_list structures currently allocated for this queue pair.
 .It Va dev.nvme.0.ioq0.sq_head
 (R) Current location of the submission queue head pointer as observed by
 the driver.
 The head pointer is incremented by the controller as it takes commands off
 of the submission queue.
 .It Va dev.nvme.0.ioq0.sq_tail
 (R) Current location of the submission queue tail pointer as observed by
 the driver.
 The driver increments the tail pointer after writing a command
 into the submission queue to signal that a new command is ready to be
 processed.
 .It Va dev.nvme.0.ioq0.cq_head
 (R) Current location of the completion queue head pointer as observed by
 the driver.
 The driver increments the head pointer after finishing
 with a completion entry that was posted by the controller.
 .It Va dev.nvme.0.ioq0.num_cmds
 (R) Number of commands that have been submitted on this queue pair.
 .It Va dev.nvme.0.ioq0.dump_debug
 (W) Writing 1 to this sysctl will dump the full contents of the submission
 and completion queues to the console.
 .El
 .Pp
 In addition to the typical pci attachment, the
 .Nm
 driver supports attaching to a
 .Xr ahci 4
 device.
 Intel's Rapid Storage Technology (RST) hides the nvme device
 behind the AHCI device due to limitations in Windows.
 However, this effectively hides it from the
 .Fx
 kernel.
 To work around this limitation,
 .Fx
 detects that the AHCI device supports RST and when it is enabled.
 See
 .Xr ahci 4
 for more details.
 .Sh SEE ALSO
 .Xr nda 4 ,
 .Xr nvd 4 ,
 .Xr pci 4 ,
 .Xr nvmecontrol 8 ,
 .Xr disk 9
 .Sh HISTORY
 The
 .Nm
 driver first appeared in
 .Fx 9.2 .
 .Sh AUTHORS
 .An -nosplit
 The
 .Nm
 driver was developed by Intel and originally written by
 .An Jim Harris Aq Mt jimharris@FreeBSD.org ,
 with contributions from
 .An Joe Golio
 at EMC.
 .Pp
 This man page was written by
 .An Jim Harris Aq Mt jimharris@FreeBSD.org .
Index: stable/12/sys/dev/nvme/nvme.h
===================================================================
--- stable/12/sys/dev/nvme/nvme.h	(revision 356960)
+++ stable/12/sys/dev/nvme/nvme.h	(revision 356961)
@@ -1,1944 +1,1952 @@
 /*-
  * SPDX-License-Identifier: BSD-2-Clause-FreeBSD
  *
  * Copyright (C) 2012-2013 Intel Corporation
  * All rights reserved.
  *
  * Redistribution and use in source and binary forms, with or without
  * modification, are permitted provided that the following conditions
  * are met:
  * 1. Redistributions of source code must retain the above copyright
  *    notice, this list of conditions and the following disclaimer.
  * 2. Redistributions in binary form must reproduce the above copyright
  *    notice, this list of conditions and the following disclaimer in the
  *    documentation and/or other materials provided with the distribution.
  *
  * THIS SOFTWARE IS PROVIDED BY THE AUTHOR AND CONTRIBUTORS ``AS IS'' AND
  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
  * ARE DISCLAIMED.  IN NO EVENT SHALL THE AUTHOR OR CONTRIBUTORS BE LIABLE
  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  * SUCH DAMAGE.
  *
  * $FreeBSD$
  */
 
 #ifndef __NVME_H__
 #define __NVME_H__
 
 #ifdef _KERNEL
 #include <sys/types.h>
 #endif
 
 #include <sys/param.h>
 #include <sys/endian.h>
 
 #define	NVME_PASSTHROUGH_CMD		_IOWR('n', 0, struct nvme_pt_command)
 #define	NVME_RESET_CONTROLLER		_IO('n', 1)
 #define	NVME_GET_NSID			_IOR('n', 2, struct nvme_get_nsid)
 
 #define	NVME_IO_TEST			_IOWR('n', 100, struct nvme_io_test)
 #define	NVME_BIO_TEST			_IOWR('n', 101, struct nvme_io_test)
 
 /*
  * Macros to deal with NVME revisions, as defined VS register
  */
 #define NVME_REV(x, y)			(((x) << 16) | ((y) << 8))
 #define NVME_MAJOR(r)			(((r) >> 16) & 0xffff)
 #define NVME_MINOR(r)			(((r) >> 8) & 0xff)
 
 /*
  * Use to mark a command to apply to all namespaces, or to retrieve global
  *  log pages.
  */
 #define NVME_GLOBAL_NAMESPACE_TAG	((uint32_t)0xFFFFFFFF)
 
 /* Cap nvme to 1MB transfers driver explodes with larger sizes */
 #define NVME_MAX_XFER_SIZE		(MAXPHYS < (1<<20) ? MAXPHYS : (1<<20))
 
 /* Register field definitions */
 #define NVME_CAP_LO_REG_MQES_SHIFT			(0)
 #define NVME_CAP_LO_REG_MQES_MASK			(0xFFFF)
 #define NVME_CAP_LO_REG_CQR_SHIFT			(16)
 #define NVME_CAP_LO_REG_CQR_MASK			(0x1)
 #define NVME_CAP_LO_REG_AMS_SHIFT			(17)
 #define NVME_CAP_LO_REG_AMS_MASK			(0x3)
 #define NVME_CAP_LO_REG_TO_SHIFT			(24)
 #define NVME_CAP_LO_REG_TO_MASK				(0xFF)
 #define NVME_CAP_LO_MQES(x) \
 	(((x) >> NVME_CAP_LO_REG_MQES_SHIFT) & NVME_CAP_LO_REG_MQES_MASK)
 #define NVME_CAP_LO_CQR(x) \
 	(((x) >> NVME_CAP_LO_REG_CQR_SHIFT) & NVME_CAP_LO_REG_CQR_MASK)
 #define NVME_CAP_LO_AMS(x) \
 	(((x) >> NVME_CAP_LO_REG_AMS_SHIFT) & NVME_CAP_LO_REG_AMS_MASK)
 #define NVME_CAP_LO_TO(x) \
 	(((x) >> NVME_CAP_LO_REG_TO_SHIFT) & NVME_CAP_LO_REG_TO_MASK)
 
 #define NVME_CAP_HI_REG_DSTRD_SHIFT			(0)
 #define NVME_CAP_HI_REG_DSTRD_MASK			(0xF)
 #define NVME_CAP_HI_REG_NSSRS_SHIFT			(4)
 #define NVME_CAP_HI_REG_NSSRS_MASK			(0x1)
 #define NVME_CAP_HI_REG_CSS_NVM_SHIFT			(5)
 #define NVME_CAP_HI_REG_CSS_NVM_MASK			(0x1)
 #define NVME_CAP_HI_REG_BPS_SHIFT			(13)
 #define NVME_CAP_HI_REG_BPS_MASK			(0x1)
 #define NVME_CAP_HI_REG_MPSMIN_SHIFT			(16)
 #define NVME_CAP_HI_REG_MPSMIN_MASK			(0xF)
 #define NVME_CAP_HI_REG_MPSMAX_SHIFT			(20)
 #define NVME_CAP_HI_REG_MPSMAX_MASK			(0xF)
 #define NVME_CAP_HI_REG_PMRS_SHIFT			(24)
 #define NVME_CAP_HI_REG_PMRS_MASK			(0x1)
 #define NVME_CAP_HI_REG_CMBS_SHIFT			(25)
 #define NVME_CAP_HI_REG_CMBS_MASK			(0x1)
 #define NVME_CAP_HI_DSTRD(x) \
 	(((x) >> NVME_CAP_HI_REG_DSTRD_SHIFT) & NVME_CAP_HI_REG_DSTRD_MASK)
 #define NVME_CAP_HI_CSS_NVM(x) \
 	(((x) >> NVME_CAP_HI_REG_CSS_NVM_SHIFT) & NVME_CAP_HI_REG_CSS_NVM_MASK)
 #define NVME_CAP_HI_MPSMIN(x) \
 	(((x) >> NVME_CAP_HI_REG_MPSMIN_SHIFT) & NVME_CAP_HI_REG_MPSMIN_MASK)
 #define NVME_CAP_HI_MPSMAX(x) \
 	(((x) >> NVME_CAP_HI_REG_MPSMAX_SHIFT) & NVME_CAP_HI_REG_MPSMAX_MASK)
 
 #define NVME_CC_REG_EN_SHIFT				(0)
 #define NVME_CC_REG_EN_MASK				(0x1)
 #define NVME_CC_REG_CSS_SHIFT				(4)
 #define NVME_CC_REG_CSS_MASK				(0x7)
 #define NVME_CC_REG_MPS_SHIFT				(7)
 #define NVME_CC_REG_MPS_MASK				(0xF)
 #define NVME_CC_REG_AMS_SHIFT				(11)
 #define NVME_CC_REG_AMS_MASK				(0x7)
 #define NVME_CC_REG_SHN_SHIFT				(14)
 #define NVME_CC_REG_SHN_MASK				(0x3)
 #define NVME_CC_REG_IOSQES_SHIFT			(16)
 #define NVME_CC_REG_IOSQES_MASK				(0xF)
 #define NVME_CC_REG_IOCQES_SHIFT			(20)
 #define NVME_CC_REG_IOCQES_MASK				(0xF)
 
 #define NVME_CSTS_REG_RDY_SHIFT				(0)
 #define NVME_CSTS_REG_RDY_MASK				(0x1)
 #define NVME_CSTS_REG_CFS_SHIFT				(1)
 #define NVME_CSTS_REG_CFS_MASK				(0x1)
 #define NVME_CSTS_REG_SHST_SHIFT			(2)
 #define NVME_CSTS_REG_SHST_MASK				(0x3)
 #define NVME_CSTS_REG_NVSRO_SHIFT			(4)
 #define NVME_CSTS_REG_NVSRO_MASK			(0x1)
 #define NVME_CSTS_REG_PP_SHIFT				(5)
 #define NVME_CSTS_REG_PP_MASK				(0x1)
 
 #define NVME_CSTS_GET_SHST(csts)			(((csts) >> NVME_CSTS_REG_SHST_SHIFT) & NVME_CSTS_REG_SHST_MASK)
 
 #define NVME_AQA_REG_ASQS_SHIFT				(0)
 #define NVME_AQA_REG_ASQS_MASK				(0xFFF)
 #define NVME_AQA_REG_ACQS_SHIFT				(16)
 #define NVME_AQA_REG_ACQS_MASK				(0xFFF)
 
 /* Command field definitions */
 
 #define NVME_CMD_FUSE_SHIFT				(8)
 #define NVME_CMD_FUSE_MASK				(0x3)
 
 #define NVME_STATUS_P_SHIFT				(0)
 #define NVME_STATUS_P_MASK				(0x1)
 #define NVME_STATUS_SC_SHIFT				(1)
 #define NVME_STATUS_SC_MASK				(0xFF)
 #define NVME_STATUS_SCT_SHIFT				(9)
 #define NVME_STATUS_SCT_MASK				(0x7)
 #define NVME_STATUS_CRD_SHIFT				(12)
 #define NVME_STATUS_CRD_MASK				(0x3)
 #define NVME_STATUS_M_SHIFT				(14)
 #define NVME_STATUS_M_MASK				(0x1)
 #define NVME_STATUS_DNR_SHIFT				(15)
 #define NVME_STATUS_DNR_MASK				(0x1)
 
 #define NVME_STATUS_GET_P(st)				(((st) >> NVME_STATUS_P_SHIFT) & NVME_STATUS_P_MASK)
 #define NVME_STATUS_GET_SC(st)				(((st) >> NVME_STATUS_SC_SHIFT) & NVME_STATUS_SC_MASK)
 #define NVME_STATUS_GET_SCT(st)				(((st) >> NVME_STATUS_SCT_SHIFT) & NVME_STATUS_SCT_MASK)
 #define NVME_STATUS_GET_M(st)				(((st) >> NVME_STATUS_M_SHIFT) & NVME_STATUS_M_MASK)
 #define NVME_STATUS_GET_DNR(st)				(((st) >> NVME_STATUS_DNR_SHIFT) & NVME_STATUS_DNR_MASK)
 
 #define NVME_PWR_ST_MPS_SHIFT				(0)
 #define NVME_PWR_ST_MPS_MASK				(0x1)
 #define NVME_PWR_ST_NOPS_SHIFT				(1)
 #define NVME_PWR_ST_NOPS_MASK				(0x1)
 #define NVME_PWR_ST_RRT_SHIFT				(0)
 #define NVME_PWR_ST_RRT_MASK				(0x1F)
 #define NVME_PWR_ST_RRL_SHIFT				(0)
 #define NVME_PWR_ST_RRL_MASK				(0x1F)
 #define NVME_PWR_ST_RWT_SHIFT				(0)
 #define NVME_PWR_ST_RWT_MASK				(0x1F)
 #define NVME_PWR_ST_RWL_SHIFT				(0)
 #define NVME_PWR_ST_RWL_MASK				(0x1F)
 #define NVME_PWR_ST_IPS_SHIFT				(6)
 #define NVME_PWR_ST_IPS_MASK				(0x3)
 #define NVME_PWR_ST_APW_SHIFT				(0)
 #define NVME_PWR_ST_APW_MASK				(0x7)
 #define NVME_PWR_ST_APS_SHIFT				(6)
 #define NVME_PWR_ST_APS_MASK				(0x3)
 
 /** Controller Multi-path I/O and Namespace Sharing Capabilities */
 /* More then one port */
 #define NVME_CTRLR_DATA_MIC_MPORTS_SHIFT		(0)
 #define NVME_CTRLR_DATA_MIC_MPORTS_MASK			(0x1)
 /* More then one controller */
 #define NVME_CTRLR_DATA_MIC_MCTRLRS_SHIFT		(1)
 #define NVME_CTRLR_DATA_MIC_MCTRLRS_MASK		(0x1)
 /* SR-IOV Virtual Function */
 #define NVME_CTRLR_DATA_MIC_SRIOVVF_SHIFT		(2)
 #define NVME_CTRLR_DATA_MIC_SRIOVVF_MASK		(0x1)
 /* Asymmetric Namespace Access Reporting */
 #define NVME_CTRLR_DATA_MIC_ANAR_SHIFT			(3)
 #define NVME_CTRLR_DATA_MIC_ANAR_MASK			(0x1)
 
 /** OACS - optional admin command support */
 /* supports security send/receive commands */
 #define NVME_CTRLR_DATA_OACS_SECURITY_SHIFT		(0)
 #define NVME_CTRLR_DATA_OACS_SECURITY_MASK		(0x1)
 /* supports format nvm command */
 #define NVME_CTRLR_DATA_OACS_FORMAT_SHIFT		(1)
 #define NVME_CTRLR_DATA_OACS_FORMAT_MASK		(0x1)
 /* supports firmware activate/download commands */
 #define NVME_CTRLR_DATA_OACS_FIRMWARE_SHIFT		(2)
 #define NVME_CTRLR_DATA_OACS_FIRMWARE_MASK		(0x1)
 /* supports namespace management commands */
 #define NVME_CTRLR_DATA_OACS_NSMGMT_SHIFT		(3)
 #define NVME_CTRLR_DATA_OACS_NSMGMT_MASK		(0x1)
 /* supports Device Self-test command */
 #define NVME_CTRLR_DATA_OACS_SELFTEST_SHIFT		(4)
 #define NVME_CTRLR_DATA_OACS_SELFTEST_MASK		(0x1)
 /* supports Directives */
 #define NVME_CTRLR_DATA_OACS_DIRECTIVES_SHIFT		(5)
 #define NVME_CTRLR_DATA_OACS_DIRECTIVES_MASK		(0x1)
 /* supports NVMe-MI Send/Receive */
 #define NVME_CTRLR_DATA_OACS_NVMEMI_SHIFT		(6)
 #define NVME_CTRLR_DATA_OACS_NVMEMI_MASK		(0x1)
 /* supports Virtualization Management */
 #define NVME_CTRLR_DATA_OACS_VM_SHIFT			(7)
 #define NVME_CTRLR_DATA_OACS_VM_MASK			(0x1)
 /* supports Doorbell Buffer Config */
 #define NVME_CTRLR_DATA_OACS_DBBUFFER_SHIFT		(8)
 #define NVME_CTRLR_DATA_OACS_DBBUFFER_MASK		(0x1)
 /* supports Get LBA Status */
 #define NVME_CTRLR_DATA_OACS_GETLBA_SHIFT		(9)
 #define NVME_CTRLR_DATA_OACS_GETLBA_MASK		(0x1)
 
 /** firmware updates */
 /* first slot is read-only */
 #define NVME_CTRLR_DATA_FRMW_SLOT1_RO_SHIFT		(0)
 #define NVME_CTRLR_DATA_FRMW_SLOT1_RO_MASK		(0x1)
 /* number of firmware slots */
 #define NVME_CTRLR_DATA_FRMW_NUM_SLOTS_SHIFT		(1)
 #define NVME_CTRLR_DATA_FRMW_NUM_SLOTS_MASK		(0x7)
 /* firmware activation without reset */
 #define NVME_CTRLR_DATA_FRMW_ACT_WO_RESET_SHIFT		(4)
 #define NVME_CTRLR_DATA_FRMW_ACT_WO_RESET_MASK		(0x1)
 
 /** log page attributes */
 /* per namespace smart/health log page */
 #define NVME_CTRLR_DATA_LPA_NS_SMART_SHIFT		(0)
 #define NVME_CTRLR_DATA_LPA_NS_SMART_MASK		(0x1)
 
 /** AVSCC - admin vendor specific command configuration */
 /* admin vendor specific commands use spec format */
 #define NVME_CTRLR_DATA_AVSCC_SPEC_FORMAT_SHIFT		(0)
 #define NVME_CTRLR_DATA_AVSCC_SPEC_FORMAT_MASK		(0x1)
 
 /** Autonomous Power State Transition Attributes */
 /* Autonomous Power State Transitions supported */
 #define NVME_CTRLR_DATA_APSTA_APST_SUPP_SHIFT		(0)
 #define NVME_CTRLR_DATA_APSTA_APST_SUPP_MASK		(0x1)
 
 /** Sanitize Capabilities */
 /* Crypto Erase Support  */
 #define NVME_CTRLR_DATA_SANICAP_CES_SHIFT		(0)
 #define NVME_CTRLR_DATA_SANICAP_CES_MASK		(0x1)
 /* Block Erase Support */
 #define NVME_CTRLR_DATA_SANICAP_BES_SHIFT		(1)
 #define NVME_CTRLR_DATA_SANICAP_BES_MASK		(0x1)
 /* Overwrite Support */
 #define NVME_CTRLR_DATA_SANICAP_OWS_SHIFT		(2)
 #define NVME_CTRLR_DATA_SANICAP_OWS_MASK		(0x1)
 /* No-Deallocate Inhibited  */
 #define NVME_CTRLR_DATA_SANICAP_NDI_SHIFT		(29)
 #define NVME_CTRLR_DATA_SANICAP_NDI_MASK		(0x1)
 /* No-Deallocate Modifies Media After Sanitize */
 #define NVME_CTRLR_DATA_SANICAP_NODMMAS_SHIFT		(30)
 #define NVME_CTRLR_DATA_SANICAP_NODMMAS_MASK		(0x3)
 #define NVME_CTRLR_DATA_SANICAP_NODMMAS_UNDEF		(0)
 #define NVME_CTRLR_DATA_SANICAP_NODMMAS_NO		(1)
 #define NVME_CTRLR_DATA_SANICAP_NODMMAS_YES		(2)
 
 /** submission queue entry size */
 #define NVME_CTRLR_DATA_SQES_MIN_SHIFT			(0)
 #define NVME_CTRLR_DATA_SQES_MIN_MASK			(0xF)
 #define NVME_CTRLR_DATA_SQES_MAX_SHIFT			(4)
 #define NVME_CTRLR_DATA_SQES_MAX_MASK			(0xF)
 
 /** completion queue entry size */
 #define NVME_CTRLR_DATA_CQES_MIN_SHIFT			(0)
 #define NVME_CTRLR_DATA_CQES_MIN_MASK			(0xF)
 #define NVME_CTRLR_DATA_CQES_MAX_SHIFT			(4)
 #define NVME_CTRLR_DATA_CQES_MAX_MASK			(0xF)
 
 /** optional nvm command support */
 #define NVME_CTRLR_DATA_ONCS_COMPARE_SHIFT		(0)
 #define NVME_CTRLR_DATA_ONCS_COMPARE_MASK		(0x1)
 #define NVME_CTRLR_DATA_ONCS_WRITE_UNC_SHIFT		(1)
 #define NVME_CTRLR_DATA_ONCS_WRITE_UNC_MASK		(0x1)
 #define NVME_CTRLR_DATA_ONCS_DSM_SHIFT			(2)
 #define NVME_CTRLR_DATA_ONCS_DSM_MASK			(0x1)
 #define NVME_CTRLR_DATA_ONCS_WRZERO_SHIFT		(3)
 #define NVME_CTRLR_DATA_ONCS_WRZERO_MASK		(0x1)
 #define NVME_CTRLR_DATA_ONCS_SAVEFEAT_SHIFT		(4)
 #define NVME_CTRLR_DATA_ONCS_SAVEFEAT_MASK		(0x1)
 #define NVME_CTRLR_DATA_ONCS_RESERV_SHIFT		(5)
 #define NVME_CTRLR_DATA_ONCS_RESERV_MASK		(0x1)
 #define NVME_CTRLR_DATA_ONCS_TIMESTAMP_SHIFT		(6)
 #define NVME_CTRLR_DATA_ONCS_TIMESTAMP_MASK		(0x1)
 #define NVME_CTRLR_DATA_ONCS_VERIFY_SHIFT		(7)
 #define NVME_CTRLR_DATA_ONCS_VERIFY_MASK		(0x1)
 
 /** Fused Operation Support */
 #define NVME_CTRLR_DATA_FUSES_CNW_SHIFT		(0)
 #define NVME_CTRLR_DATA_FUSES_CNW_MASK		(0x1)
 
 /** Format NVM Attributes */
 #define NVME_CTRLR_DATA_FNA_FORMAT_ALL_SHIFT		(0)
 #define NVME_CTRLR_DATA_FNA_FORMAT_ALL_MASK		(0x1)
 #define NVME_CTRLR_DATA_FNA_ERASE_ALL_SHIFT		(1)
 #define NVME_CTRLR_DATA_FNA_ERASE_ALL_MASK		(0x1)
 #define NVME_CTRLR_DATA_FNA_CRYPTO_ERASE_SHIFT		(2)
 #define NVME_CTRLR_DATA_FNA_CRYPTO_ERASE_MASK		(0x1)
 
 /** volatile write cache */
 /* volatile write cache present */
 #define NVME_CTRLR_DATA_VWC_PRESENT_SHIFT		(0)
 #define NVME_CTRLR_DATA_VWC_PRESENT_MASK		(0x1)
 /* flush all namespaces supported */
 #define NVME_CTRLR_DATA_VWC_ALL_SHIFT			(1)
 #define NVME_CTRLR_DATA_VWC_ALL_MASK			(0x3)
 #define NVME_CTRLR_DATA_VWC_ALL_UNKNOWN			(0)
 #define NVME_CTRLR_DATA_VWC_ALL_NO			(2)
 #define NVME_CTRLR_DATA_VWC_ALL_YES			(3)
 
 /** namespace features */
 /* thin provisioning */
 #define NVME_NS_DATA_NSFEAT_THIN_PROV_SHIFT		(0)
 #define NVME_NS_DATA_NSFEAT_THIN_PROV_MASK		(0x1)
 /* NAWUN, NAWUPF, and NACWU fields are valid */
 #define NVME_NS_DATA_NSFEAT_NA_FIELDS_SHIFT		(1)
 #define NVME_NS_DATA_NSFEAT_NA_FIELDS_MASK		(0x1)
 /* Deallocated or Unwritten Logical Block errors supported */
 #define NVME_NS_DATA_NSFEAT_DEALLOC_SHIFT		(2)
 #define NVME_NS_DATA_NSFEAT_DEALLOC_MASK		(0x1)
 /* NGUID and EUI64 fields are not reusable */
 #define NVME_NS_DATA_NSFEAT_NO_ID_REUSE_SHIFT		(3)
 #define NVME_NS_DATA_NSFEAT_NO_ID_REUSE_MASK		(0x1)
 /* NPWG, NPWA, NPDG, NPDA, and NOWS are valid */
 #define NVME_NS_DATA_NSFEAT_NPVALID_SHIFT		(4)
 #define NVME_NS_DATA_NSFEAT_NPVALID_MASK		(0x1)
 
 /** formatted lba size */
 #define NVME_NS_DATA_FLBAS_FORMAT_SHIFT			(0)
 #define NVME_NS_DATA_FLBAS_FORMAT_MASK			(0xF)
 #define NVME_NS_DATA_FLBAS_EXTENDED_SHIFT		(4)
 #define NVME_NS_DATA_FLBAS_EXTENDED_MASK		(0x1)
 
 /** metadata capabilities */
 /* metadata can be transferred as part of data prp list */
 #define NVME_NS_DATA_MC_EXTENDED_SHIFT			(0)
 #define NVME_NS_DATA_MC_EXTENDED_MASK			(0x1)
 /* metadata can be transferred with separate metadata pointer */
 #define NVME_NS_DATA_MC_POINTER_SHIFT			(1)
 #define NVME_NS_DATA_MC_POINTER_MASK			(0x1)
 
 /** end-to-end data protection capabilities */
 /* protection information type 1 */
 #define NVME_NS_DATA_DPC_PIT1_SHIFT			(0)
 #define NVME_NS_DATA_DPC_PIT1_MASK			(0x1)
 /* protection information type 2 */
 #define NVME_NS_DATA_DPC_PIT2_SHIFT			(1)
 #define NVME_NS_DATA_DPC_PIT2_MASK			(0x1)
 /* protection information type 3 */
 #define NVME_NS_DATA_DPC_PIT3_SHIFT			(2)
 #define NVME_NS_DATA_DPC_PIT3_MASK			(0x1)
 /* first eight bytes of metadata */
 #define NVME_NS_DATA_DPC_MD_START_SHIFT			(3)
 #define NVME_NS_DATA_DPC_MD_START_MASK			(0x1)
 /* last eight bytes of metadata */
 #define NVME_NS_DATA_DPC_MD_END_SHIFT			(4)
 #define NVME_NS_DATA_DPC_MD_END_MASK			(0x1)
 
 /** end-to-end data protection type settings */
 /* protection information type */
 #define NVME_NS_DATA_DPS_PIT_SHIFT			(0)
 #define NVME_NS_DATA_DPS_PIT_MASK			(0x7)
 /* 1 == protection info transferred at start of metadata */
 /* 0 == protection info transferred at end of metadata */
 #define NVME_NS_DATA_DPS_MD_START_SHIFT			(3)
 #define NVME_NS_DATA_DPS_MD_START_MASK			(0x1)
 
 /** Namespace Multi-path I/O and Namespace Sharing Capabilities */
 /* the namespace may be attached to two or more controllers */
 #define NVME_NS_DATA_NMIC_MAY_BE_SHARED_SHIFT		(0)
 #define NVME_NS_DATA_NMIC_MAY_BE_SHARED_MASK		(0x1)
 
 /** Reservation Capabilities */
 /* Persist Through Power Loss */
 #define NVME_NS_DATA_RESCAP_PTPL_SHIFT		(0)
 #define NVME_NS_DATA_RESCAP_PTPL_MASK		(0x1)
 /* supports the Write Exclusive */
 #define NVME_NS_DATA_RESCAP_WR_EX_SHIFT		(1)
 #define NVME_NS_DATA_RESCAP_WR_EX_MASK		(0x1)
 /* supports the Exclusive Access */
 #define NVME_NS_DATA_RESCAP_EX_AC_SHIFT		(2)
 #define NVME_NS_DATA_RESCAP_EX_AC_MASK		(0x1)
 /* supports the Write Exclusive – Registrants Only */
 #define NVME_NS_DATA_RESCAP_WR_EX_RO_SHIFT	(3)
 #define NVME_NS_DATA_RESCAP_WR_EX_RO_MASK	(0x1)
 /* supports the Exclusive Access - Registrants Only */
 #define NVME_NS_DATA_RESCAP_EX_AC_RO_SHIFT	(4)
 #define NVME_NS_DATA_RESCAP_EX_AC_RO_MASK	(0x1)
 /* supports the Write Exclusive – All Registrants */
 #define NVME_NS_DATA_RESCAP_WR_EX_AR_SHIFT	(5)
 #define NVME_NS_DATA_RESCAP_WR_EX_AR_MASK	(0x1)
 /* supports the Exclusive Access - All Registrants */
 #define NVME_NS_DATA_RESCAP_EX_AC_AR_SHIFT	(6)
 #define NVME_NS_DATA_RESCAP_EX_AC_AR_MASK	(0x1)
 /* Ignore Existing Key is used as defined in revision 1.3 or later */
 #define NVME_NS_DATA_RESCAP_IEKEY13_SHIFT	(7)
 #define NVME_NS_DATA_RESCAP_IEKEY13_MASK	(0x1)
 
 /** Format Progress Indicator */
 /* percentage of the Format NVM command that remains to be completed */
 #define NVME_NS_DATA_FPI_PERC_SHIFT		(0)
 #define NVME_NS_DATA_FPI_PERC_MASK		(0x7f)
 /* namespace supports the Format Progress Indicator */
 #define NVME_NS_DATA_FPI_SUPP_SHIFT		(7)
 #define NVME_NS_DATA_FPI_SUPP_MASK		(0x1)
 
 /** Deallocate Logical Block Features */
 /* deallocated logical block read behavior */
 #define NVME_NS_DATA_DLFEAT_READ_SHIFT		(0)
 #define NVME_NS_DATA_DLFEAT_READ_MASK		(0x07)
 #define NVME_NS_DATA_DLFEAT_READ_NR		(0x00)
 #define NVME_NS_DATA_DLFEAT_READ_00		(0x01)
 #define NVME_NS_DATA_DLFEAT_READ_FF		(0x02)
 /* supports the Deallocate bit in the Write Zeroes */
 #define NVME_NS_DATA_DLFEAT_DWZ_SHIFT		(3)
 #define NVME_NS_DATA_DLFEAT_DWZ_MASK		(0x01)
 /* Guard field for deallocated logical blocks is set to the CRC  */
 #define NVME_NS_DATA_DLFEAT_GCRC_SHIFT		(4)
 #define NVME_NS_DATA_DLFEAT_GCRC_MASK		(0x01)
 
 /** lba format support */
 /* metadata size */
 #define NVME_NS_DATA_LBAF_MS_SHIFT			(0)
 #define NVME_NS_DATA_LBAF_MS_MASK			(0xFFFF)
 /* lba data size */
 #define NVME_NS_DATA_LBAF_LBADS_SHIFT			(16)
 #define NVME_NS_DATA_LBAF_LBADS_MASK			(0xFF)
 /* relative performance */
 #define NVME_NS_DATA_LBAF_RP_SHIFT			(24)
 #define NVME_NS_DATA_LBAF_RP_MASK			(0x3)
 
 enum nvme_critical_warning_state {
 	NVME_CRIT_WARN_ST_AVAILABLE_SPARE		= 0x1,
 	NVME_CRIT_WARN_ST_TEMPERATURE			= 0x2,
 	NVME_CRIT_WARN_ST_DEVICE_RELIABILITY		= 0x4,
 	NVME_CRIT_WARN_ST_READ_ONLY			= 0x8,
 	NVME_CRIT_WARN_ST_VOLATILE_MEMORY_BACKUP	= 0x10,
 };
 #define NVME_CRIT_WARN_ST_RESERVED_MASK			(0xE0)
 
 /* slot for current FW */
 #define NVME_FIRMWARE_PAGE_AFI_SLOT_SHIFT		(0)
 #define NVME_FIRMWARE_PAGE_AFI_SLOT_MASK		(0x7)
 
 /* Commands Supported and Effects */
 #define	NVME_CE_PAGE_CSUP_SHIFT				(0)
 #define	NVME_CE_PAGE_CSUP_MASK				(0x1)
 #define	NVME_CE_PAGE_LBCC_SHIFT				(1)
 #define	NVME_CE_PAGE_LBCC_MASK				(0x1)
 #define	NVME_CE_PAGE_NCC_SHIFT				(2)
 #define	NVME_CE_PAGE_NCC_MASK				(0x1)
 #define	NVME_CE_PAGE_NIC_SHIFT				(3)
 #define	NVME_CE_PAGE_NIC_MASK				(0x1)
 #define	NVME_CE_PAGE_CCC_SHIFT				(4)
 #define	NVME_CE_PAGE_CCC_MASK				(0x1)
 #define	NVME_CE_PAGE_CSE_SHIFT				(16)
 #define	NVME_CE_PAGE_CSE_MASK				(0x7)
 #define	NVME_CE_PAGE_UUID_SHIFT				(19)
 #define	NVME_CE_PAGE_UUID_MASK				(0x1)
 
 /* Sanitize Status */
 #define	NVME_SS_PAGE_SSTAT_STATUS_SHIFT			(0)
 #define	NVME_SS_PAGE_SSTAT_STATUS_MASK			(0x7)
 #define	NVME_SS_PAGE_SSTAT_STATUS_NEVER			(0)
 #define	NVME_SS_PAGE_SSTAT_STATUS_COMPLETED		(1)
 #define	NVME_SS_PAGE_SSTAT_STATUS_INPROG		(2)
 #define	NVME_SS_PAGE_SSTAT_STATUS_FAILED		(3)
 #define	NVME_SS_PAGE_SSTAT_STATUS_COMPLETEDWD		(4)
 #define	NVME_SS_PAGE_SSTAT_PASSES_SHIFT			(3)
 #define	NVME_SS_PAGE_SSTAT_PASSES_MASK			(0x1f)
 #define	NVME_SS_PAGE_SSTAT_GDE_SHIFT			(8)
 #define	NVME_SS_PAGE_SSTAT_GDE_MASK			(0x1)
 
 /* CC register SHN field values */
 enum shn_value {
 	NVME_SHN_NORMAL		= 0x1,
 	NVME_SHN_ABRUPT		= 0x2,
 };
 
 /* CSTS register SHST field values */
 enum shst_value {
 	NVME_SHST_NORMAL	= 0x0,
 	NVME_SHST_OCCURRING	= 0x1,
 	NVME_SHST_COMPLETE	= 0x2,
 };
 
 struct nvme_registers
 {
 	uint32_t	cap_lo; /* controller capabilities */
 	uint32_t	cap_hi;
 	uint32_t	vs;	/* version */
 	uint32_t	intms;	/* interrupt mask set */
 	uint32_t	intmc;	/* interrupt mask clear */
 	uint32_t	cc;	/* controller configuration */
 	uint32_t	reserved1;
 	uint32_t	csts;	/* controller status */
 	uint32_t	nssr;	/* NVM Subsystem Reset */
 	uint32_t	aqa;	/* admin queue attributes */
 	uint64_t	asq;	/* admin submission queue base addr */
 	uint64_t	acq;	/* admin completion queue base addr */
 	uint32_t	cmbloc;	/* Controller Memory Buffer Location */
 	uint32_t	cmbsz;	/* Controller Memory Buffer Size */
 	uint32_t	bpinfo;	/* Boot Partition Information */
 	uint32_t	bprsel;	/* Boot Partition Read Select */
 	uint64_t	bpmbl;	/* Boot Partition Memory Buffer Location */
 	uint64_t	cmbmsc;	/* Controller Memory Buffer Memory Space Control */
 	uint32_t	cmbsts;	/* Controller Memory Buffer Status */
 	uint8_t		reserved3[3492]; /* 5Ch - DFFh */
 	uint32_t	pmrcap;	/* Persistent Memory Capabilities */
 	uint32_t	pmrctl;	/* Persistent Memory Region Control */
 	uint32_t	pmrsts;	/* Persistent Memory Region Status */
 	uint32_t	pmrebs;	/* Persistent Memory Region Elasticity Buffer Size */
 	uint32_t	pmrswtp; /* Persistent Memory Region Sustained Write Throughput */
 	uint32_t	pmrmsc_lo; /* Persistent Memory Region Controller Memory Space Control */
 	uint32_t	pmrmsc_hi;
 	uint8_t		reserved4[484]; /* E1Ch - FFFh */
 	struct {
 	    uint32_t	sq_tdbl; /* submission queue tail doorbell */
 	    uint32_t	cq_hdbl; /* completion queue head doorbell */
 	} doorbell[1] __packed;
 } __packed;
 
 _Static_assert(sizeof(struct nvme_registers) == 0x1008, "bad size for nvme_registers");
 
 struct nvme_command
 {
 	/* dword 0 */
 	uint8_t opc;		/* opcode */
 	uint8_t fuse;		/* fused operation */
 	uint16_t cid;		/* command identifier */
 
 	/* dword 1 */
 	uint32_t nsid;		/* namespace identifier */
 
 	/* dword 2-3 */
 	uint32_t rsvd2;
 	uint32_t rsvd3;
 
 	/* dword 4-5 */
 	uint64_t mptr;		/* metadata pointer */
 
 	/* dword 6-7 */
 	uint64_t prp1;		/* prp entry 1 */
 
 	/* dword 8-9 */
 	uint64_t prp2;		/* prp entry 2 */
 
 	/* dword 10-15 */
 	uint32_t cdw10;		/* command-specific */
 	uint32_t cdw11;		/* command-specific */
 	uint32_t cdw12;		/* command-specific */
 	uint32_t cdw13;		/* command-specific */
 	uint32_t cdw14;		/* command-specific */
 	uint32_t cdw15;		/* command-specific */
 } __packed;
 
 _Static_assert(sizeof(struct nvme_command) == 16 * 4, "bad size for nvme_command");
 
 struct nvme_completion {
 
 	/* dword 0 */
 	uint32_t		cdw0;	/* command-specific */
 
 	/* dword 1 */
 	uint32_t		rsvd1;
 
 	/* dword 2 */
 	uint16_t		sqhd;	/* submission queue head pointer */
 	uint16_t		sqid;	/* submission queue identifier */
 
 	/* dword 3 */
 	uint16_t		cid;	/* command identifier */
 	uint16_t		status;
 } __packed;
 
 _Static_assert(sizeof(struct nvme_completion) == 4 * 4, "bad size for nvme_completion");
 
 struct nvme_dsm_range {
 	uint32_t attributes;
 	uint32_t length;
 	uint64_t starting_lba;
 } __packed;
 
 /* Largest DSM Trim that can be done */
 #define NVME_MAX_DSM_TRIM		4096
 
 _Static_assert(sizeof(struct nvme_dsm_range) == 16, "bad size for nvme_dsm_ranage");
 
 /* status code types */
 enum nvme_status_code_type {
 	NVME_SCT_GENERIC		= 0x0,
 	NVME_SCT_COMMAND_SPECIFIC	= 0x1,
 	NVME_SCT_MEDIA_ERROR		= 0x2,
 	NVME_SCT_PATH_RELATED		= 0x3,
 	/* 0x3-0x6 - reserved */
 	NVME_SCT_VENDOR_SPECIFIC	= 0x7,
 };
 
 /* generic command status codes */
 enum nvme_generic_command_status_code {
 	NVME_SC_SUCCESS				= 0x00,
 	NVME_SC_INVALID_OPCODE			= 0x01,
 	NVME_SC_INVALID_FIELD			= 0x02,
 	NVME_SC_COMMAND_ID_CONFLICT		= 0x03,
 	NVME_SC_DATA_TRANSFER_ERROR		= 0x04,
 	NVME_SC_ABORTED_POWER_LOSS		= 0x05,
 	NVME_SC_INTERNAL_DEVICE_ERROR		= 0x06,
 	NVME_SC_ABORTED_BY_REQUEST		= 0x07,
 	NVME_SC_ABORTED_SQ_DELETION		= 0x08,
 	NVME_SC_ABORTED_FAILED_FUSED		= 0x09,
 	NVME_SC_ABORTED_MISSING_FUSED		= 0x0a,
 	NVME_SC_INVALID_NAMESPACE_OR_FORMAT	= 0x0b,
 	NVME_SC_COMMAND_SEQUENCE_ERROR		= 0x0c,
 	NVME_SC_INVALID_SGL_SEGMENT_DESCR	= 0x0d,
 	NVME_SC_INVALID_NUMBER_OF_SGL_DESCR	= 0x0e,
 	NVME_SC_DATA_SGL_LENGTH_INVALID		= 0x0f,
 	NVME_SC_METADATA_SGL_LENGTH_INVALID	= 0x10,
 	NVME_SC_SGL_DESCRIPTOR_TYPE_INVALID	= 0x11,
 	NVME_SC_INVALID_USE_OF_CMB		= 0x12,
 	NVME_SC_PRP_OFFET_INVALID		= 0x13,
 	NVME_SC_ATOMIC_WRITE_UNIT_EXCEEDED	= 0x14,
 	NVME_SC_OPERATION_DENIED		= 0x15,
 	NVME_SC_SGL_OFFSET_INVALID		= 0x16,
 	/* 0x17 - reserved */
 	NVME_SC_HOST_ID_INCONSISTENT_FORMAT	= 0x18,
 	NVME_SC_KEEP_ALIVE_TIMEOUT_EXPIRED	= 0x19,
 	NVME_SC_KEEP_ALIVE_TIMEOUT_INVALID	= 0x1a,
 	NVME_SC_ABORTED_DUE_TO_PREEMPT		= 0x1b,
 	NVME_SC_SANITIZE_FAILED			= 0x1c,
 	NVME_SC_SANITIZE_IN_PROGRESS		= 0x1d,
 	NVME_SC_SGL_DATA_BLOCK_GRAN_INVALID	= 0x1e,
 	NVME_SC_NOT_SUPPORTED_IN_CMB		= 0x1f,
 	NVME_SC_NAMESPACE_IS_WRITE_PROTECTED	= 0x20,
 	NVME_SC_COMMAND_INTERRUPTED		= 0x21,
 	NVME_SC_TRANSIENT_TRANSPORT_ERROR	= 0x22,
 
 	NVME_SC_LBA_OUT_OF_RANGE		= 0x80,
 	NVME_SC_CAPACITY_EXCEEDED		= 0x81,
 	NVME_SC_NAMESPACE_NOT_READY		= 0x82,
 	NVME_SC_RESERVATION_CONFLICT		= 0x83,
 	NVME_SC_FORMAT_IN_PROGRESS		= 0x84,
 };
 
 /* command specific status codes */
 enum nvme_command_specific_status_code {
 	NVME_SC_COMPLETION_QUEUE_INVALID	= 0x00,
 	NVME_SC_INVALID_QUEUE_IDENTIFIER	= 0x01,
 	NVME_SC_MAXIMUM_QUEUE_SIZE_EXCEEDED	= 0x02,
 	NVME_SC_ABORT_COMMAND_LIMIT_EXCEEDED	= 0x03,
 	/* 0x04 - reserved */
 	NVME_SC_ASYNC_EVENT_REQUEST_LIMIT_EXCEEDED = 0x05,
 	NVME_SC_INVALID_FIRMWARE_SLOT		= 0x06,
 	NVME_SC_INVALID_FIRMWARE_IMAGE		= 0x07,
 	NVME_SC_INVALID_INTERRUPT_VECTOR	= 0x08,
 	NVME_SC_INVALID_LOG_PAGE		= 0x09,
 	NVME_SC_INVALID_FORMAT			= 0x0a,
 	NVME_SC_FIRMWARE_REQUIRES_RESET		= 0x0b,
 	NVME_SC_INVALID_QUEUE_DELETION		= 0x0c,
 	NVME_SC_FEATURE_NOT_SAVEABLE		= 0x0d,
 	NVME_SC_FEATURE_NOT_CHANGEABLE		= 0x0e,
 	NVME_SC_FEATURE_NOT_NS_SPECIFIC		= 0x0f,
 	NVME_SC_FW_ACT_REQUIRES_NVMS_RESET	= 0x10,
 	NVME_SC_FW_ACT_REQUIRES_RESET		= 0x11,
 	NVME_SC_FW_ACT_REQUIRES_TIME		= 0x12,
 	NVME_SC_FW_ACT_PROHIBITED		= 0x13,
 	NVME_SC_OVERLAPPING_RANGE		= 0x14,
 	NVME_SC_NS_INSUFFICIENT_CAPACITY	= 0x15,
 	NVME_SC_NS_ID_UNAVAILABLE		= 0x16,
 	/* 0x17 - reserved */
 	NVME_SC_NS_ALREADY_ATTACHED		= 0x18,
 	NVME_SC_NS_IS_PRIVATE			= 0x19,
 	NVME_SC_NS_NOT_ATTACHED			= 0x1a,
 	NVME_SC_THIN_PROV_NOT_SUPPORTED		= 0x1b,
 	NVME_SC_CTRLR_LIST_INVALID		= 0x1c,
 	NVME_SC_SELT_TEST_IN_PROGRESS		= 0x1d,
 	NVME_SC_BOOT_PART_WRITE_PROHIB		= 0x1e,
 	NVME_SC_INVALID_CTRLR_ID		= 0x1f,
 	NVME_SC_INVALID_SEC_CTRLR_STATE		= 0x20,
 	NVME_SC_INVALID_NUM_OF_CTRLR_RESRC	= 0x21,
 	NVME_SC_INVALID_RESOURCE_ID		= 0x22,
 	NVME_SC_SANITIZE_PROHIBITED_WPMRE	= 0x23,
 	NVME_SC_ANA_GROUP_ID_INVALID		= 0x24,
 	NVME_SC_ANA_ATTACH_FAILED		= 0x25,
 
 	NVME_SC_CONFLICTING_ATTRIBUTES		= 0x80,
 	NVME_SC_INVALID_PROTECTION_INFO		= 0x81,
 	NVME_SC_ATTEMPTED_WRITE_TO_RO_PAGE	= 0x82,
 };
 
 /* media error status codes */
 enum nvme_media_error_status_code {
 	NVME_SC_WRITE_FAULTS			= 0x80,
 	NVME_SC_UNRECOVERED_READ_ERROR		= 0x81,
 	NVME_SC_GUARD_CHECK_ERROR		= 0x82,
 	NVME_SC_APPLICATION_TAG_CHECK_ERROR	= 0x83,
 	NVME_SC_REFERENCE_TAG_CHECK_ERROR	= 0x84,
 	NVME_SC_COMPARE_FAILURE			= 0x85,
 	NVME_SC_ACCESS_DENIED			= 0x86,
 	NVME_SC_DEALLOCATED_OR_UNWRITTEN	= 0x87,
 };
 
 /* path related status codes */
 enum nvme_path_related_status_code {
 	NVME_SC_INTERNAL_PATH_ERROR		= 0x00,
 	NVME_SC_ASYMMETRIC_ACCESS_PERSISTENT_LOSS = 0x01,
 	NVME_SC_ASYMMETRIC_ACCESS_INACCESSIBLE	= 0x02,
 	NVME_SC_ASYMMETRIC_ACCESS_TRANSITION	= 0x03,
 	NVME_SC_CONTROLLER_PATHING_ERROR	= 0x60,
 	NVME_SC_HOST_PATHING_ERROR		= 0x70,
 	NVME_SC_COMMAND_ABOTHED_BY_HOST		= 0x71,
 };
 
 /* admin opcodes */
 enum nvme_admin_opcode {
 	NVME_OPC_DELETE_IO_SQ			= 0x00,
 	NVME_OPC_CREATE_IO_SQ			= 0x01,
 	NVME_OPC_GET_LOG_PAGE			= 0x02,
 	/* 0x03 - reserved */
 	NVME_OPC_DELETE_IO_CQ			= 0x04,
 	NVME_OPC_CREATE_IO_CQ			= 0x05,
 	NVME_OPC_IDENTIFY			= 0x06,
 	/* 0x07 - reserved */
 	NVME_OPC_ABORT				= 0x08,
 	NVME_OPC_SET_FEATURES			= 0x09,
 	NVME_OPC_GET_FEATURES			= 0x0a,
 	/* 0x0b - reserved */
 	NVME_OPC_ASYNC_EVENT_REQUEST		= 0x0c,
 	NVME_OPC_NAMESPACE_MANAGEMENT		= 0x0d,
 	/* 0x0e-0x0f - reserved */
 	NVME_OPC_FIRMWARE_ACTIVATE		= 0x10,
 	NVME_OPC_FIRMWARE_IMAGE_DOWNLOAD	= 0x11,
 	/* 0x12-0x13 - reserved */
 	NVME_OPC_DEVICE_SELF_TEST		= 0x14,
 	NVME_OPC_NAMESPACE_ATTACHMENT		= 0x15,
 	/* 0x16-0x17 - reserved */
 	NVME_OPC_KEEP_ALIVE			= 0x18,
 	NVME_OPC_DIRECTIVE_SEND			= 0x19,
 	NVME_OPC_DIRECTIVE_RECEIVE		= 0x1a,
 	/* 0x1b - reserved */
 	NVME_OPC_VIRTUALIZATION_MANAGEMENT	= 0x1c,
 	NVME_OPC_NVME_MI_SEND			= 0x1d,
 	NVME_OPC_NVME_MI_RECEIVE		= 0x1e,
 	/* 0x1f-0x7b - reserved */
 	NVME_OPC_DOORBELL_BUFFER_CONFIG		= 0x7c,
 
 	NVME_OPC_FORMAT_NVM			= 0x80,
 	NVME_OPC_SECURITY_SEND			= 0x81,
 	NVME_OPC_SECURITY_RECEIVE		= 0x82,
 	/* 0x83 - reserved */
 	NVME_OPC_SANITIZE			= 0x84,
 	/* 0x85 - reserved */
 	NVME_OPC_GET_LBA_STATUS			= 0x86,
 };
 
 /* nvme nvm opcodes */
 enum nvme_nvm_opcode {
 	NVME_OPC_FLUSH				= 0x00,
 	NVME_OPC_WRITE				= 0x01,
 	NVME_OPC_READ				= 0x02,
 	/* 0x03 - reserved */
 	NVME_OPC_WRITE_UNCORRECTABLE		= 0x04,
 	NVME_OPC_COMPARE			= 0x05,
 	/* 0x06-0x07 - reserved */
 	NVME_OPC_WRITE_ZEROES			= 0x08,
 	NVME_OPC_DATASET_MANAGEMENT		= 0x09,
 	/* 0x0a-0x0b - reserved */
 	NVME_OPC_VERIFY				= 0x0c,
 	NVME_OPC_RESERVATION_REGISTER		= 0x0d,
 	NVME_OPC_RESERVATION_REPORT		= 0x0e,
 	/* 0x0f-0x10 - reserved */
 	NVME_OPC_RESERVATION_ACQUIRE		= 0x11,
 	/* 0x12-0x14 - reserved */
 	NVME_OPC_RESERVATION_RELEASE		= 0x15,
 };
 
 enum nvme_feature {
 	/* 0x00 - reserved */
 	NVME_FEAT_ARBITRATION			= 0x01,
 	NVME_FEAT_POWER_MANAGEMENT		= 0x02,
 	NVME_FEAT_LBA_RANGE_TYPE		= 0x03,
 	NVME_FEAT_TEMPERATURE_THRESHOLD		= 0x04,
 	NVME_FEAT_ERROR_RECOVERY		= 0x05,
 	NVME_FEAT_VOLATILE_WRITE_CACHE		= 0x06,
 	NVME_FEAT_NUMBER_OF_QUEUES		= 0x07,
 	NVME_FEAT_INTERRUPT_COALESCING		= 0x08,
 	NVME_FEAT_INTERRUPT_VECTOR_CONFIGURATION = 0x09,
 	NVME_FEAT_WRITE_ATOMICITY		= 0x0A,
 	NVME_FEAT_ASYNC_EVENT_CONFIGURATION	= 0x0B,
 	NVME_FEAT_AUTONOMOUS_POWER_STATE_TRANSITION = 0x0C,
 	NVME_FEAT_HOST_MEMORY_BUFFER		= 0x0D,
 	NVME_FEAT_TIMESTAMP			= 0x0E,
 	NVME_FEAT_KEEP_ALIVE_TIMER		= 0x0F,
 	NVME_FEAT_HOST_CONTROLLED_THERMAL_MGMT	= 0x10,
 	NVME_FEAT_NON_OP_POWER_STATE_CONFIG	= 0x11,
 	NVME_FEAT_READ_RECOVERY_LEVEL_CONFIG	= 0x12,
 	NVME_FEAT_PREDICTABLE_LATENCY_MODE_CONFIG = 0x13,
 	NVME_FEAT_PREDICTABLE_LATENCY_MODE_WINDOW = 0x14,
 	NVME_FEAT_LBA_STATUS_INFORMATION_ATTRIBUTES = 0x15,
 	NVME_FEAT_HOST_BEHAVIOR_SUPPORT		= 0x16,
 	NVME_FEAT_SANITIZE_CONFIG		= 0x17,
 	NVME_FEAT_ENDURANCE_GROUP_EVENT_CONFIGURATION = 0x18,
 	/* 0x19-0x77 - reserved */
 	/* 0x78-0x7f - NVMe Management Interface */
 	NVME_FEAT_SOFTWARE_PROGRESS_MARKER	= 0x80,
 	NVME_FEAT_HOST_IDENTIFIER		= 0x81,
 	NVME_FEAT_RESERVATION_NOTIFICATION_MASK	= 0x82,
 	NVME_FEAT_RESERVATION_PERSISTENCE	= 0x83,
 	NVME_FEAT_NAMESPACE_WRITE_PROTECTION_CONFIG = 0x84,
 	/* 0x85-0xBF - command set specific (reserved) */
 	/* 0xC0-0xFF - vendor specific */
 };
 
 enum nvme_dsm_attribute {
 	NVME_DSM_ATTR_INTEGRAL_READ		= 0x1,
 	NVME_DSM_ATTR_INTEGRAL_WRITE		= 0x2,
 	NVME_DSM_ATTR_DEALLOCATE		= 0x4,
 };
 
 enum nvme_activate_action {
 	NVME_AA_REPLACE_NO_ACTIVATE		= 0x0,
 	NVME_AA_REPLACE_ACTIVATE		= 0x1,
 	NVME_AA_ACTIVATE			= 0x2,
 };
 
 struct nvme_power_state {
 	/** Maximum Power */
 	uint16_t	mp;			/* Maximum Power */
 	uint8_t		ps_rsvd1;
 	uint8_t		mps_nops;		/* Max Power Scale, Non-Operational State */
 
 	uint32_t	enlat;			/* Entry Latency */
 	uint32_t	exlat;			/* Exit Latency */
 
 	uint8_t		rrt;			/* Relative Read Throughput */
 	uint8_t		rrl;			/* Relative Read Latency */
 	uint8_t		rwt;			/* Relative Write Throughput */
 	uint8_t		rwl;			/* Relative Write Latency */
 
 	uint16_t	idlp;			/* Idle Power */
 	uint8_t		ips;			/* Idle Power Scale */
 	uint8_t		ps_rsvd8;
 
 	uint16_t	actp;			/* Active Power */
 	uint8_t		apw_aps;		/* Active Power Workload, Active Power Scale */
 	uint8_t		ps_rsvd10[9];
 } __packed;
 
 _Static_assert(sizeof(struct nvme_power_state) == 32, "bad size for nvme_power_state");
 
 #define NVME_SERIAL_NUMBER_LENGTH	20
 #define NVME_MODEL_NUMBER_LENGTH	40
 #define NVME_FIRMWARE_REVISION_LENGTH	8
 
 struct nvme_controller_data {
 
 	/* bytes 0-255: controller capabilities and features */
 
 	/** pci vendor id */
 	uint16_t		vid;
 
 	/** pci subsystem vendor id */
 	uint16_t		ssvid;
 
 	/** serial number */
 	uint8_t			sn[NVME_SERIAL_NUMBER_LENGTH];
 
 	/** model number */
 	uint8_t			mn[NVME_MODEL_NUMBER_LENGTH];
 
 	/** firmware revision */
 	uint8_t			fr[NVME_FIRMWARE_REVISION_LENGTH];
 
 	/** recommended arbitration burst */
 	uint8_t			rab;
 
 	/** ieee oui identifier */
 	uint8_t			ieee[3];
 
 	/** multi-interface capabilities */
 	uint8_t			mic;
 
 	/** maximum data transfer size */
 	uint8_t			mdts;
 
 	/** Controller ID */
 	uint16_t		ctrlr_id;
 
 	/** Version */
 	uint32_t		ver;
 
 	/** RTD3 Resume Latency */
 	uint32_t		rtd3r;
 
 	/** RTD3 Enter Latency */
 	uint32_t		rtd3e;
 
 	/** Optional Asynchronous Events Supported */
 	uint32_t		oaes;	/* bitfield really */
 
 	/** Controller Attributes */
 	uint32_t		ctratt;	/* bitfield really */
 
 	/** Read Recovery Levels Supported */
 	uint16_t		rrls;
 
 	uint8_t			reserved1[9];
 
 	/** Controller Type */
 	uint8_t			cntrltype;
 
 	/** FRU Globally Unique Identifier */
 	uint8_t			fguid[16];
 
 	/** Command Retry Delay Time 1 */
 	uint16_t		crdt1;
 
 	/** Command Retry Delay Time 2 */
 	uint16_t		crdt2;
 
 	/** Command Retry Delay Time 3 */
 	uint16_t		crdt3;
 
 	uint8_t			reserved2[122];
 
 	/* bytes 256-511: admin command set attributes */
 
 	/** optional admin command support */
 	uint16_t		oacs;
 
 	/** abort command limit */
 	uint8_t			acl;
 
 	/** asynchronous event request limit */
 	uint8_t			aerl;
 
 	/** firmware updates */
 	uint8_t			frmw;
 
 	/** log page attributes */
 	uint8_t			lpa;
 
 	/** error log page entries */
 	uint8_t			elpe;
 
 	/** number of power states supported */
 	uint8_t			npss;
 
 	/** admin vendor specific command configuration */
 	uint8_t			avscc;
 
 	/** Autonomous Power State Transition Attributes */
 	uint8_t			apsta;
 
 	/** Warning Composite Temperature Threshold */
 	uint16_t		wctemp;
 
 	/** Critical Composite Temperature Threshold */
 	uint16_t		cctemp;
 
 	/** Maximum Time for Firmware Activation */
 	uint16_t		mtfa;
 
 	/** Host Memory Buffer Preferred Size */
 	uint32_t		hmpre;
 
 	/** Host Memory Buffer Minimum Size */
 	uint32_t		hmmin;
 
 	/** Name space capabilities  */
 	struct {
 		/* if nsmgmt, report tnvmcap and unvmcap */
 		uint8_t    tnvmcap[16];
 		uint8_t    unvmcap[16];
 	} __packed untncap;
 
 	/** Replay Protected Memory Block Support */
 	uint32_t		rpmbs; /* Really a bitfield */
 
 	/** Extended Device Self-test Time */
 	uint16_t		edstt;
 
 	/** Device Self-test Options */
 	uint8_t			dsto; /* Really a bitfield */
 
 	/** Firmware Update Granularity */
 	uint8_t			fwug;
 
 	/** Keep Alive Support */
 	uint16_t		kas;
 
 	/** Host Controlled Thermal Management Attributes */
 	uint16_t		hctma; /* Really a bitfield */
 
 	/** Minimum Thermal Management Temperature */
 	uint16_t		mntmt;
 
 	/** Maximum Thermal Management Temperature */
 	uint16_t		mxtmt;
 
 	/** Sanitize Capabilities */
 	uint32_t		sanicap; /* Really a bitfield */
 
 	/** Host Memory Buffer Minimum Descriptor Entry Size */
 	uint32_t		hmminds;
 
 	/** Host Memory Maximum Descriptors Entries */
 	uint16_t		hmmaxd;
 
 	/** NVM Set Identifier Maximum */
 	uint16_t		nsetidmax;
 
 	/** Endurance Group Identifier Maximum */
 	uint16_t		endgidmax;
 
 	/** ANA Transition Time */
 	uint8_t			anatt;
 
 	/** Asymmetric Namespace Access Capabilities */
 	uint8_t			anacap;
 
 	/** ANA Group Identifier Maximum */
 	uint32_t		anagrpmax;
 
 	/** Number of ANA Group Identifiers */
 	uint32_t		nanagrpid;
 
 	/** Persistent Event Log Size */
 	uint32_t		pels;
 
 	uint8_t			reserved3[156];
 	/* bytes 512-703: nvm command set attributes */
 
 	/** submission queue entry size */
 	uint8_t			sqes;
 
 	/** completion queue entry size */
 	uint8_t			cqes;
 
 	/** Maximum Outstanding Commands */
 	uint16_t		maxcmd;
 
 	/** number of namespaces */
 	uint32_t		nn;
 
 	/** optional nvm command support */
 	uint16_t		oncs;
 
 	/** fused operation support */
 	uint16_t		fuses;
 
 	/** format nvm attributes */
 	uint8_t			fna;
 
 	/** volatile write cache */
 	uint8_t			vwc;
 
 	/** Atomic Write Unit Normal */
 	uint16_t		awun;
 
 	/** Atomic Write Unit Power Fail */
 	uint16_t		awupf;
 
 	/** NVM Vendor Specific Command Configuration */
 	uint8_t			nvscc;
 
 	/** Namespace Write Protection Capabilities */
 	uint8_t			nwpc;
 
 	/** Atomic Compare & Write Unit */
 	uint16_t		acwu;
 	uint16_t		reserved6;
 
 	/** SGL Support */
 	uint32_t		sgls;
 
 	/** Maximum Number of Allowed Namespaces */
 	uint32_t		mnan;
 
 	/* bytes 540-767: Reserved */
 	uint8_t			reserved7[224];
 
 	/** NVM Subsystem NVMe Qualified Name */
 	uint8_t			subnqn[256];
 
 	/* bytes 1024-1791: Reserved */
 	uint8_t			reserved8[768];
 
 	/* bytes 1792-2047: NVMe over Fabrics specification */
 	uint8_t			reserved9[256];
 
 	/* bytes 2048-3071: power state descriptors */
 	struct nvme_power_state power_state[32];
 
 	/* bytes 3072-4095: vendor specific */
 	uint8_t			vs[1024];
 } __packed __aligned(4);
 
 _Static_assert(sizeof(struct nvme_controller_data) == 4096, "bad size for nvme_controller_data");
 
 struct nvme_namespace_data {
 
 	/** namespace size */
 	uint64_t		nsze;
 
 	/** namespace capacity */
 	uint64_t		ncap;
 
 	/** namespace utilization */
 	uint64_t		nuse;
 
 	/** namespace features */
 	uint8_t			nsfeat;
 
 	/** number of lba formats */
 	uint8_t			nlbaf;
 
 	/** formatted lba size */
 	uint8_t			flbas;
 
 	/** metadata capabilities */
 	uint8_t			mc;
 
 	/** end-to-end data protection capabilities */
 	uint8_t			dpc;
 
 	/** end-to-end data protection type settings */
 	uint8_t			dps;
 
 	/** Namespace Multi-path I/O and Namespace Sharing Capabilities */
 	uint8_t			nmic;
 
 	/** Reservation Capabilities */
 	uint8_t			rescap;
 
 	/** Format Progress Indicator */
 	uint8_t			fpi;
 
 	/** Deallocate Logical Block Features */
 	uint8_t			dlfeat;
 
 	/** Namespace Atomic Write Unit Normal  */
 	uint16_t		nawun;
 
 	/** Namespace Atomic Write Unit Power Fail */
 	uint16_t		nawupf;
 
 	/** Namespace Atomic Compare & Write Unit */
 	uint16_t		nacwu;
 
 	/** Namespace Atomic Boundary Size Normal */
 	uint16_t		nabsn;
 
 	/** Namespace Atomic Boundary Offset */
 	uint16_t		nabo;
 
 	/** Namespace Atomic Boundary Size Power Fail */
 	uint16_t		nabspf;
 
 	/** Namespace Optimal IO Boundary */
 	uint16_t		noiob;
 
 	/** NVM Capacity */
 	uint8_t			nvmcap[16];
 
 	/** Namespace Preferred Write Granularity  */
 	uint16_t		npwg;
 
 	/** Namespace Preferred Write Alignment */
 	uint16_t		npwa;
 
 	/** Namespace Preferred Deallocate Granularity */
 	uint16_t		npdg;
 
 	/** Namespace Preferred Deallocate Alignment */
 	uint16_t		npda;
 
 	/** Namespace Optimal Write Size */
 	uint16_t		nows;
 
 	/* bytes 74-91: Reserved */
 	uint8_t			reserved5[18];
 
 	/** ANA Group Identifier */
 	uint32_t		anagrpid;
 
 	/* bytes 96-98: Reserved */
 	uint8_t			reserved6[3];
 
 	/** Namespace Attributes */
 	uint8_t			nsattr;
 
 	/** NVM Set Identifier */
 	uint16_t		nvmsetid;
 
 	/** Endurance Group Identifier */
 	uint16_t		endgid;
 
 	/** Namespace Globally Unique Identifier */
 	uint8_t			nguid[16];
 
 	/** IEEE Extended Unique Identifier */
 	uint8_t			eui64[8];
 
 	/** lba format support */
 	uint32_t		lbaf[16];
 
 	uint8_t			reserved7[192];
 
 	uint8_t			vendor_specific[3712];
 } __packed __aligned(4);
 
 _Static_assert(sizeof(struct nvme_namespace_data) == 4096, "bad size for nvme_namepsace_data");
 
 enum nvme_log_page {
 
 	/* 0x00 - reserved */
 	NVME_LOG_ERROR			= 0x01,
 	NVME_LOG_HEALTH_INFORMATION	= 0x02,
 	NVME_LOG_FIRMWARE_SLOT		= 0x03,
 	NVME_LOG_CHANGED_NAMESPACE	= 0x04,
 	NVME_LOG_COMMAND_EFFECT		= 0x05,
 	NVME_LOG_DEVICE_SELF_TEST	= 0x06,
 	NVME_LOG_TELEMETRY_HOST_INITIATED = 0x07,
 	NVME_LOG_TELEMETRY_CONTROLLER_INITIATED = 0x08,
 	NVME_LOG_ENDURANCE_GROUP_INFORMATION = 0x09,
 	NVME_LOG_PREDICTABLE_LATENCY_PER_NVM_SET = 0x0a,
 	NVME_LOG_PREDICTABLE_LATENCY_EVENT_AGGREGATE = 0x0b,
 	NVME_LOG_ASYMMETRIC_NAMESPAVE_ACCESS = 0x0c,
 	NVME_LOG_PERSISTENT_EVENT_LOG	= 0x0d,
 	NVME_LOG_LBA_STATUS_INFORMATION	= 0x0e,
 	NVME_LOG_ENDURANCE_GROUP_EVENT_AGGREGATE = 0x0f,
 	/* 0x06-0x7F - reserved */
 	/* 0x80-0xBF - I/O command set specific */
 	NVME_LOG_RES_NOTIFICATION	= 0x80,
 	NVME_LOG_SANITIZE_STATUS	= 0x81,
 	/* 0x82-0xBF - reserved */
 	/* 0xC0-0xFF - vendor specific */
 
 	/*
 	 * The following are Intel Specific log pages, but they seem
 	 * to be widely implemented.
 	 */
 	INTEL_LOG_READ_LAT_LOG		= 0xc1,
 	INTEL_LOG_WRITE_LAT_LOG		= 0xc2,
 	INTEL_LOG_TEMP_STATS		= 0xc5,
 	INTEL_LOG_ADD_SMART		= 0xca,
 	INTEL_LOG_DRIVE_MKT_NAME	= 0xdd,
 
 	/*
 	 * HGST log page, with lots ofs sub pages.
 	 */
 	HGST_INFO_LOG			= 0xc1,
 };
 
 struct nvme_error_information_entry {
 
 	uint64_t		error_count;
 	uint16_t		sqid;
 	uint16_t		cid;
 	uint16_t		status;
 	uint16_t		error_location;
 	uint64_t		lba;
 	uint32_t		nsid;
 	uint8_t			vendor_specific;
 	uint8_t			trtype;
 	uint16_t		reserved30;
 	uint64_t		csi;
 	uint16_t		ttsi;
 	uint8_t			reserved[22];
 } __packed __aligned(4);
 
 _Static_assert(sizeof(struct nvme_error_information_entry) == 64, "bad size for nvme_error_information_entry");
 
 struct nvme_health_information_page {
 
 	uint8_t			critical_warning;
 	uint16_t		temperature;
 	uint8_t			available_spare;
 	uint8_t			available_spare_threshold;
 	uint8_t			percentage_used;
 
 	uint8_t			reserved[26];
 
 	/*
 	 * Note that the following are 128-bit values, but are
 	 *  defined as an array of 2 64-bit values.
 	 */
 	/* Data Units Read is always in 512-byte units. */
 	uint64_t		data_units_read[2];
 	/* Data Units Written is always in 512-byte units. */
 	uint64_t		data_units_written[2];
 	/* For NVM command set, this includes Compare commands. */
 	uint64_t		host_read_commands[2];
 	uint64_t		host_write_commands[2];
 	/* Controller Busy Time is reported in minutes. */
 	uint64_t		controller_busy_time[2];
 	uint64_t		power_cycles[2];
 	uint64_t		power_on_hours[2];
 	uint64_t		unsafe_shutdowns[2];
 	uint64_t		media_errors[2];
 	uint64_t		num_error_info_log_entries[2];
 	uint32_t		warning_temp_time;
 	uint32_t		error_temp_time;
 	uint16_t		temp_sensor[8];
 	/* Thermal Management Temperature 1 Transition Count */
 	uint32_t		tmt1tc;
 	/* Thermal Management Temperature 2 Transition Count */
 	uint32_t		tmt2tc;
 	/* Total Time For Thermal Management Temperature 1 */
 	uint32_t		ttftmt1;
 	/* Total Time For Thermal Management Temperature 2 */
 	uint32_t		ttftmt2;
 
 	uint8_t			reserved2[280];
 } __packed __aligned(4);
 
 _Static_assert(sizeof(struct nvme_health_information_page) == 512, "bad size for nvme_health_information_page");
 
 struct nvme_firmware_page {
 
 	uint8_t			afi;
 	uint8_t			reserved[7];
 	uint64_t		revision[7]; /* revisions for 7 slots */
 	uint8_t			reserved2[448];
 } __packed __aligned(4);
 
 _Static_assert(sizeof(struct nvme_firmware_page) == 512, "bad size for nvme_firmware_page");
 
 struct nvme_ns_list {
 	uint32_t		ns[1024];
 } __packed __aligned(4);
 
 _Static_assert(sizeof(struct nvme_ns_list) == 4096, "bad size for nvme_ns_list");
 
 struct nvme_command_effects_page {
 	uint32_t		acs[256];
 	uint32_t		iocs[256];
 	uint8_t			reserved[2048];
 } __packed __aligned(4);
 
 _Static_assert(sizeof(struct nvme_command_effects_page) == 4096,
     "bad size for nvme_command_effects_page");
 
 struct nvme_res_notification_page {
 	uint64_t		log_page_count;
 	uint8_t			log_page_type;
 	uint8_t			available_log_pages;
 	uint8_t			reserved2;
 	uint32_t		nsid;
 	uint8_t			reserved[48];
 } __packed __aligned(4);
 
 _Static_assert(sizeof(struct nvme_res_notification_page) == 64,
     "bad size for nvme_res_notification_page");
 
 struct nvme_sanitize_status_page {
 	uint16_t		sprog;
 	uint16_t		sstat;
 	uint32_t		scdw10;
 	uint32_t		etfo;
 	uint32_t		etfbe;
 	uint32_t		etfce;
 	uint32_t		etfownd;
 	uint32_t		etfbewnd;
 	uint32_t		etfcewnd;
 	uint8_t			reserved[480];
 } __packed __aligned(4);
 
 _Static_assert(sizeof(struct nvme_sanitize_status_page) == 512,
     "bad size for nvme_sanitize_status_page");
 
 struct intel_log_temp_stats
 {
 	uint64_t	current;
 	uint64_t	overtemp_flag_last;
 	uint64_t	overtemp_flag_life;
 	uint64_t	max_temp;
 	uint64_t	min_temp;
 	uint64_t	_rsvd[5];
 	uint64_t	max_oper_temp;
 	uint64_t	min_oper_temp;
 	uint64_t	est_offset;
 } __packed __aligned(4);
 
 _Static_assert(sizeof(struct intel_log_temp_stats) == 13 * 8, "bad size for intel_log_temp_stats");
 
 struct nvme_resv_reg_ctrlr
 {
 	uint16_t		ctrlr_id;	/* Controller ID */
 	uint8_t			rcsts;		/* Reservation Status */
 	uint8_t			reserved3[5];
 	uint64_t		hostid;		/* Host Identifier */
 	uint64_t		rkey;		/* Reservation Key */
 } __packed __aligned(4);
 
 _Static_assert(sizeof(struct nvme_resv_reg_ctrlr) == 24, "bad size for nvme_resv_reg_ctrlr");
 
 struct nvme_resv_reg_ctrlr_ext
 {
 	uint16_t		ctrlr_id;	/* Controller ID */
 	uint8_t			rcsts;		/* Reservation Status */
 	uint8_t			reserved3[5];
 	uint64_t		rkey;		/* Reservation Key */
 	uint64_t		hostid[2];	/* Host Identifier */
 	uint8_t			reserved32[32];
 } __packed __aligned(4);
 
 _Static_assert(sizeof(struct nvme_resv_reg_ctrlr_ext) == 64, "bad size for nvme_resv_reg_ctrlr_ext");
 
 struct nvme_resv_status
 {
 	uint32_t		gen;		/* Generation */
 	uint8_t			rtype;		/* Reservation Type */
 	uint8_t			regctl[2];	/* Number of Registered Controllers */
 	uint8_t			reserved7[2];
 	uint8_t			ptpls;		/* Persist Through Power Loss State */
 	uint8_t			reserved10[14];
 	struct nvme_resv_reg_ctrlr	ctrlr[0];
 } __packed __aligned(4);
 
 _Static_assert(sizeof(struct nvme_resv_status) == 24, "bad size for nvme_resv_status");
 
 struct nvme_resv_status_ext
 {
 	uint32_t		gen;		/* Generation */
 	uint8_t			rtype;		/* Reservation Type */
 	uint8_t			regctl[2];	/* Number of Registered Controllers */
 	uint8_t			reserved7[2];
 	uint8_t			ptpls;		/* Persist Through Power Loss State */
 	uint8_t			reserved10[14];
 	uint8_t			reserved24[40];
 	struct nvme_resv_reg_ctrlr_ext	ctrlr[0];
 } __packed __aligned(4);
 
 _Static_assert(sizeof(struct nvme_resv_status_ext) == 64, "bad size for nvme_resv_status_ext");
 
 #define NVME_TEST_MAX_THREADS	128
 
 struct nvme_io_test {
 
 	enum nvme_nvm_opcode	opc;
 	uint32_t		size;
 	uint32_t		time;	/* in seconds */
 	uint32_t		num_threads;
 	uint32_t		flags;
 	uint64_t		io_completed[NVME_TEST_MAX_THREADS];
 };
 
 enum nvme_io_test_flags {
 
 	/*
 	 * Specifies whether dev_refthread/dev_relthread should be
 	 *  called during NVME_BIO_TEST.  Ignored for other test
 	 *  types.
 	 */
 	NVME_TEST_FLAG_REFTHREAD =	0x1,
 };
 
 struct nvme_pt_command {
 
 	/*
 	 * cmd is used to specify a passthrough command to a controller or
 	 *  namespace.
 	 *
 	 * The following fields from cmd may be specified by the caller:
 	 *	* opc  (opcode)
 	 *	* nsid (namespace id) - for admin commands only
 	 *	* cdw10-cdw15
 	 *
 	 * Remaining fields must be set to 0 by the caller.
 	 */
 	struct nvme_command	cmd;
 
 	/*
 	 * cpl returns completion status for the passthrough command
 	 *  specified by cmd.
 	 *
 	 * The following fields will be filled out by the driver, for
 	 *  consumption by the caller:
 	 *	* cdw0
 	 *	* status (except for phase)
 	 *
 	 * Remaining fields will be set to 0 by the driver.
 	 */
 	struct nvme_completion	cpl;
 
 	/* buf is the data buffer associated with this passthrough command. */
 	void *			buf;
 
 	/*
 	 * len is the length of the data buffer associated with this
 	 *  passthrough command.
 	 */
 	uint32_t		len;
 
 	/*
 	 * is_read = 1 if the passthrough command will read data into the
 	 *  supplied buffer from the controller.
 	 *
 	 * is_read = 0 if the passthrough command will write data from the
 	 *  supplied buffer to the controller.
 	 */
 	uint32_t		is_read;
 
 	/*
 	 * driver_lock is used by the driver only.  It must be set to 0
 	 *  by the caller.
 	 */
 	struct mtx *		driver_lock;
 };
 
 struct nvme_get_nsid {
 	char		cdev[SPECNAMELEN + 1];
 	uint32_t	nsid;
 };
 
+struct nvme_hmb_desc {
+	uint64_t	addr;
+	uint32_t	size;
+	uint32_t	reserved;
+};
+
 #define nvme_completion_is_error(cpl)					\
 	(NVME_STATUS_GET_SC((cpl)->status) != 0 || NVME_STATUS_GET_SCT((cpl)->status) != 0)
 
 void	nvme_strvis(uint8_t *dst, const uint8_t *src, int dstlen, int srclen);
 
 #ifdef _KERNEL
 
 struct bio;
 struct thread;
 
 struct nvme_namespace;
 struct nvme_controller;
 struct nvme_consumer;
 
 typedef void (*nvme_cb_fn_t)(void *, const struct nvme_completion *);
 
 typedef void *(*nvme_cons_ns_fn_t)(struct nvme_namespace *, void *);
 typedef void *(*nvme_cons_ctrlr_fn_t)(struct nvme_controller *);
 typedef void (*nvme_cons_async_fn_t)(void *, const struct nvme_completion *,
 				     uint32_t, void *, uint32_t);
 typedef void (*nvme_cons_fail_fn_t)(void *);
 
 enum nvme_namespace_flags {
 	NVME_NS_DEALLOCATE_SUPPORTED	= 0x1,
 	NVME_NS_FLUSH_SUPPORTED		= 0x2,
 };
 
 int	nvme_ctrlr_passthrough_cmd(struct nvme_controller *ctrlr,
 				   struct nvme_pt_command *pt,
 				   uint32_t nsid, int is_user_buffer,
 				   int is_admin_cmd);
 
 /* Admin functions */
 void	nvme_ctrlr_cmd_set_feature(struct nvme_controller *ctrlr,
 				   uint8_t feature, uint32_t cdw11,
+				   uint32_t cdw12, uint32_t cdw13,
+				   uint32_t cdw14, uint32_t cdw15,
 				   void *payload, uint32_t payload_size,
 				   nvme_cb_fn_t cb_fn, void *cb_arg);
 void	nvme_ctrlr_cmd_get_feature(struct nvme_controller *ctrlr,
 				   uint8_t feature, uint32_t cdw11,
 				   void *payload, uint32_t payload_size,
 				   nvme_cb_fn_t cb_fn, void *cb_arg);
 void	nvme_ctrlr_cmd_get_log_page(struct nvme_controller *ctrlr,
 				    uint8_t log_page, uint32_t nsid,
 				    void *payload, uint32_t payload_size,
 				    nvme_cb_fn_t cb_fn, void *cb_arg);
 
 /* NVM I/O functions */
 int	nvme_ns_cmd_write(struct nvme_namespace *ns, void *payload,
 			  uint64_t lba, uint32_t lba_count, nvme_cb_fn_t cb_fn,
 			  void *cb_arg);
 int	nvme_ns_cmd_write_bio(struct nvme_namespace *ns, struct bio *bp,
 			      nvme_cb_fn_t cb_fn, void *cb_arg);
 int	nvme_ns_cmd_read(struct nvme_namespace *ns, void *payload,
 			 uint64_t lba, uint32_t lba_count, nvme_cb_fn_t cb_fn,
 			 void *cb_arg);
 int	nvme_ns_cmd_read_bio(struct nvme_namespace *ns, struct bio *bp,
 			      nvme_cb_fn_t cb_fn, void *cb_arg);
 int	nvme_ns_cmd_deallocate(struct nvme_namespace *ns, void *payload,
 			       uint8_t num_ranges, nvme_cb_fn_t cb_fn,
 			       void *cb_arg);
 int	nvme_ns_cmd_flush(struct nvme_namespace *ns, nvme_cb_fn_t cb_fn,
 			  void *cb_arg);
 int	nvme_ns_dump(struct nvme_namespace *ns, void *virt, off_t offset,
 		     size_t len);
 
 /* Registration functions */
 struct nvme_consumer *	nvme_register_consumer(nvme_cons_ns_fn_t    ns_fn,
 					       nvme_cons_ctrlr_fn_t ctrlr_fn,
 					       nvme_cons_async_fn_t async_fn,
 					       nvme_cons_fail_fn_t  fail_fn);
 void		nvme_unregister_consumer(struct nvme_consumer *consumer);
 
 /* Controller helper functions */
 device_t	nvme_ctrlr_get_device(struct nvme_controller *ctrlr);
 const struct nvme_controller_data *
 		nvme_ctrlr_get_data(struct nvme_controller *ctrlr);
 static inline bool
 nvme_ctrlr_has_dataset_mgmt(const struct nvme_controller_data *cd)
 {
 	/* Assumes cd was byte swapped by nvme_controller_data_swapbytes() */
 	return ((cd->oncs >> NVME_CTRLR_DATA_ONCS_DSM_SHIFT) &
 		NVME_CTRLR_DATA_ONCS_DSM_MASK);
 }
 
 /* Namespace helper functions */
 uint32_t	nvme_ns_get_max_io_xfer_size(struct nvme_namespace *ns);
 uint32_t	nvme_ns_get_sector_size(struct nvme_namespace *ns);
 uint64_t	nvme_ns_get_num_sectors(struct nvme_namespace *ns);
 uint64_t	nvme_ns_get_size(struct nvme_namespace *ns);
 uint32_t	nvme_ns_get_flags(struct nvme_namespace *ns);
 const char *	nvme_ns_get_serial_number(struct nvme_namespace *ns);
 const char *	nvme_ns_get_model_number(struct nvme_namespace *ns);
 const struct nvme_namespace_data *
 		nvme_ns_get_data(struct nvme_namespace *ns);
 uint32_t	nvme_ns_get_stripesize(struct nvme_namespace *ns);
 
 int	nvme_ns_bio_process(struct nvme_namespace *ns, struct bio *bp,
 			    nvme_cb_fn_t cb_fn);
 int	nvme_ns_ioctl_process(struct nvme_namespace *ns, u_long cmd,
     caddr_t arg, int flag, struct thread *td);
 
 /*
  * Command building helper functions -- shared with CAM
  * These functions assume allocator zeros out cmd structure
  * CAM's xpt_get_ccb and the request allocator for nvme both
  * do zero'd allocations.
  */
 static inline
 void	nvme_ns_flush_cmd(struct nvme_command *cmd, uint32_t nsid)
 {
 
 	cmd->opc = NVME_OPC_FLUSH;
 	cmd->nsid = htole32(nsid);
 }
 
 static inline
 void	nvme_ns_rw_cmd(struct nvme_command *cmd, uint32_t rwcmd, uint32_t nsid,
     uint64_t lba, uint32_t count)
 {
 	cmd->opc = rwcmd;
 	cmd->nsid = htole32(nsid);
 	cmd->cdw10 = htole32(lba & 0xffffffffu);
 	cmd->cdw11 = htole32(lba >> 32);
 	cmd->cdw12 = htole32(count-1);
 }
 
 static inline
 void	nvme_ns_write_cmd(struct nvme_command *cmd, uint32_t nsid,
     uint64_t lba, uint32_t count)
 {
 	nvme_ns_rw_cmd(cmd, NVME_OPC_WRITE, nsid, lba, count);
 }
 
 static inline
 void	nvme_ns_read_cmd(struct nvme_command *cmd, uint32_t nsid,
     uint64_t lba, uint32_t count)
 {
 	nvme_ns_rw_cmd(cmd, NVME_OPC_READ, nsid, lba, count);
 }
 
 static inline
 void	nvme_ns_trim_cmd(struct nvme_command *cmd, uint32_t nsid,
     uint32_t num_ranges)
 {
 	cmd->opc = NVME_OPC_DATASET_MANAGEMENT;
 	cmd->nsid = htole32(nsid);
 	cmd->cdw10 = htole32(num_ranges - 1);
 	cmd->cdw11 = htole32(NVME_DSM_ATTR_DEALLOCATE);
 }
 
 extern int nvme_use_nvd;
 
 #endif /* _KERNEL */
 
 /* Endianess conversion functions for NVMe structs */
 static inline
 void	nvme_completion_swapbytes(struct nvme_completion *s)
 {
 
 	s->cdw0 = le32toh(s->cdw0);
 	/* omit rsvd1 */
 	s->sqhd = le16toh(s->sqhd);
 	s->sqid = le16toh(s->sqid);
 	/* omit cid */
 	s->status = le16toh(s->status);
 }
 
 static inline
 void	nvme_power_state_swapbytes(struct nvme_power_state *s)
 {
 
 	s->mp = le16toh(s->mp);
 	s->enlat = le32toh(s->enlat);
 	s->exlat = le32toh(s->exlat);
 	s->idlp = le16toh(s->idlp);
 	s->actp = le16toh(s->actp);
 }
 
 static inline
 void	nvme_controller_data_swapbytes(struct nvme_controller_data *s)
 {
 	int i;
 
 	s->vid = le16toh(s->vid);
 	s->ssvid = le16toh(s->ssvid);
 	s->ctrlr_id = le16toh(s->ctrlr_id);
 	s->ver = le32toh(s->ver);
 	s->rtd3r = le32toh(s->rtd3r);
 	s->rtd3e = le32toh(s->rtd3e);
 	s->oaes = le32toh(s->oaes);
 	s->ctratt = le32toh(s->ctratt);
 	s->rrls = le16toh(s->rrls);
 	s->crdt1 = le16toh(s->crdt1);
 	s->crdt2 = le16toh(s->crdt2);
 	s->crdt3 = le16toh(s->crdt3);
 	s->oacs = le16toh(s->oacs);
 	s->wctemp = le16toh(s->wctemp);
 	s->cctemp = le16toh(s->cctemp);
 	s->mtfa = le16toh(s->mtfa);
 	s->hmpre = le32toh(s->hmpre);
 	s->hmmin = le32toh(s->hmmin);
 	s->rpmbs = le32toh(s->rpmbs);
 	s->edstt = le16toh(s->edstt);
 	s->kas = le16toh(s->kas);
 	s->hctma = le16toh(s->hctma);
 	s->mntmt = le16toh(s->mntmt);
 	s->mxtmt = le16toh(s->mxtmt);
 	s->sanicap = le32toh(s->sanicap);
 	s->hmminds = le32toh(s->hmminds);
 	s->hmmaxd = le16toh(s->hmmaxd);
 	s->nsetidmax = le16toh(s->nsetidmax);
 	s->endgidmax = le16toh(s->endgidmax);
 	s->anagrpmax = le32toh(s->anagrpmax);
 	s->nanagrpid = le32toh(s->nanagrpid);
 	s->pels = le32toh(s->pels);
 	s->maxcmd = le16toh(s->maxcmd);
 	s->nn = le32toh(s->nn);
 	s->oncs = le16toh(s->oncs);
 	s->fuses = le16toh(s->fuses);
 	s->awun = le16toh(s->awun);
 	s->awupf = le16toh(s->awupf);
 	s->acwu = le16toh(s->acwu);
 	s->sgls = le32toh(s->sgls);
 	s->mnan = le32toh(s->mnan);
 	for (i = 0; i < 32; i++)
 		nvme_power_state_swapbytes(&s->power_state[i]);
 }
 
 static inline
 void	nvme_namespace_data_swapbytes(struct nvme_namespace_data *s)
 {
 	int i;
 
 	s->nsze = le64toh(s->nsze);
 	s->ncap = le64toh(s->ncap);
 	s->nuse = le64toh(s->nuse);
 	s->nawun = le16toh(s->nawun);
 	s->nawupf = le16toh(s->nawupf);
 	s->nacwu = le16toh(s->nacwu);
 	s->nabsn = le16toh(s->nabsn);
 	s->nabo = le16toh(s->nabo);
 	s->nabspf = le16toh(s->nabspf);
 	s->noiob = le16toh(s->noiob);
 	s->npwg = le16toh(s->npwg);
 	s->npwa = le16toh(s->npwa);
 	s->npdg = le16toh(s->npdg);
 	s->npda = le16toh(s->npda);
 	s->nows = le16toh(s->nows);
 	s->anagrpid = le32toh(s->anagrpid);
 	s->nvmsetid = le16toh(s->nvmsetid);
 	s->endgid = le16toh(s->endgid);
 	for (i = 0; i < 16; i++)
 		s->lbaf[i] = le32toh(s->lbaf[i]);
 }
 
 static inline
 void	nvme_error_information_entry_swapbytes(struct nvme_error_information_entry *s)
 {
 
 	s->error_count = le64toh(s->error_count);
 	s->sqid = le16toh(s->sqid);
 	s->cid = le16toh(s->cid);
 	s->status = le16toh(s->status);
 	s->error_location = le16toh(s->error_location);
 	s->lba = le64toh(s->lba);
 	s->nsid = le32toh(s->nsid);
 	s->csi = le64toh(s->csi);
 	s->ttsi = le16toh(s->ttsi);
 }
 
 static inline
 void	nvme_le128toh(void *p)
 {
 #if _BYTE_ORDER != _LITTLE_ENDIAN
 	/* Swap 16 bytes in place */
 	char *tmp = (char*)p;
 	char b;
 	int i;
 	for (i = 0; i < 8; i++) {
 		b = tmp[i];
 		tmp[i] = tmp[15-i];
 		tmp[15-i] = b;
 	}
 #else
 	(void)p;
 #endif
 }
 
 static inline
 void	nvme_health_information_page_swapbytes(struct nvme_health_information_page *s)
 {
 	int i;
 
 	s->temperature = le16toh(s->temperature);
 	nvme_le128toh((void *)s->data_units_read);
 	nvme_le128toh((void *)s->data_units_written);
 	nvme_le128toh((void *)s->host_read_commands);
 	nvme_le128toh((void *)s->host_write_commands);
 	nvme_le128toh((void *)s->controller_busy_time);
 	nvme_le128toh((void *)s->power_cycles);
 	nvme_le128toh((void *)s->power_on_hours);
 	nvme_le128toh((void *)s->unsafe_shutdowns);
 	nvme_le128toh((void *)s->media_errors);
 	nvme_le128toh((void *)s->num_error_info_log_entries);
 	s->warning_temp_time = le32toh(s->warning_temp_time);
 	s->error_temp_time = le32toh(s->error_temp_time);
 	for (i = 0; i < 8; i++)
 		s->temp_sensor[i] = le16toh(s->temp_sensor[i]);
 	s->tmt1tc = le32toh(s->tmt1tc);
 	s->tmt2tc = le32toh(s->tmt2tc);
 	s->ttftmt1 = le32toh(s->ttftmt1);
 	s->ttftmt2 = le32toh(s->ttftmt2);
 }
 
 
 static inline
 void	nvme_firmware_page_swapbytes(struct nvme_firmware_page *s)
 {
 	int i;
 
 	for (i = 0; i < 7; i++)
 		s->revision[i] = le64toh(s->revision[i]);
 }
 
 static inline
 void	nvme_ns_list_swapbytes(struct nvme_ns_list *s)
 {
 	int i;
 
 	for (i = 0; i < 1024; i++)
 		s->ns[i] = le32toh(s->ns[i]);
 }
 
 static inline
 void	nvme_command_effects_page_swapbytes(struct nvme_command_effects_page *s)
 {
 	int i;
 
 	for (i = 0; i < 256; i++)
 		s->acs[i] = le32toh(s->acs[i]);
 	for (i = 0; i < 256; i++)
 		s->iocs[i] = le32toh(s->iocs[i]);
 }
 
 static inline
 void	nvme_res_notification_page_swapbytes(struct nvme_res_notification_page *s)
 {
 	s->log_page_count = le64toh(s->log_page_count);
 	s->nsid = le32toh(s->nsid);
 }
 
 static inline
 void	nvme_sanitize_status_page_swapbytes(struct nvme_sanitize_status_page *s)
 {
 	s->sprog = le16toh(s->sprog);
 	s->sstat = le16toh(s->sstat);
 	s->scdw10 = le32toh(s->scdw10);
 	s->etfo = le32toh(s->etfo);
 	s->etfbe = le32toh(s->etfbe);
 	s->etfce = le32toh(s->etfce);
 	s->etfownd = le32toh(s->etfownd);
 	s->etfbewnd = le32toh(s->etfbewnd);
 	s->etfcewnd = le32toh(s->etfcewnd);
 }
 
 static inline
 void	intel_log_temp_stats_swapbytes(struct intel_log_temp_stats *s)
 {
 
 	s->current = le64toh(s->current);
 	s->overtemp_flag_last = le64toh(s->overtemp_flag_last);
 	s->overtemp_flag_life = le64toh(s->overtemp_flag_life);
 	s->max_temp = le64toh(s->max_temp);
 	s->min_temp = le64toh(s->min_temp);
 	/* omit _rsvd[] */
 	s->max_oper_temp = le64toh(s->max_oper_temp);
 	s->min_oper_temp = le64toh(s->min_oper_temp);
 	s->est_offset = le64toh(s->est_offset);
 }
 
 static inline
 void	nvme_resv_status_swapbytes(struct nvme_resv_status *s, size_t size)
 {
 	u_int i, n;
 
 	s->gen = le32toh(s->gen);
 	n = (s->regctl[1] << 8) | s->regctl[0];
 	n = MIN(n, (size - sizeof(s)) / sizeof(s->ctrlr[0]));
 	for (i = 0; i < n; i++) {
 		s->ctrlr[i].ctrlr_id = le16toh(s->ctrlr[i].ctrlr_id);
 		s->ctrlr[i].hostid = le64toh(s->ctrlr[i].hostid);
 		s->ctrlr[i].rkey = le64toh(s->ctrlr[i].rkey);
 	}
 }
 
 static inline
 void	nvme_resv_status_ext_swapbytes(struct nvme_resv_status_ext *s, size_t size)
 {
 	u_int i, n;
 
 	s->gen = le32toh(s->gen);
 	n = (s->regctl[1] << 8) | s->regctl[0];
 	n = MIN(n, (size - sizeof(s)) / sizeof(s->ctrlr[0]));
 	for (i = 0; i < n; i++) {
 		s->ctrlr[i].ctrlr_id = le16toh(s->ctrlr[i].ctrlr_id);
 		s->ctrlr[i].rkey = le64toh(s->ctrlr[i].rkey);
 		nvme_le128toh((void *)s->ctrlr[i].hostid);
 	}
 }
 
 #endif /* __NVME_H__ */
Index: stable/12/sys/dev/nvme/nvme_ctrlr.c
===================================================================
--- stable/12/sys/dev/nvme/nvme_ctrlr.c	(revision 356960)
+++ stable/12/sys/dev/nvme/nvme_ctrlr.c	(revision 356961)
@@ -1,1427 +1,1604 @@
 /*-
  * SPDX-License-Identifier: BSD-2-Clause-FreeBSD
  *
  * Copyright (C) 2012-2016 Intel Corporation
  * All rights reserved.
  *
  * Redistribution and use in source and binary forms, with or without
  * modification, are permitted provided that the following conditions
  * are met:
  * 1. Redistributions of source code must retain the above copyright
  *    notice, this list of conditions and the following disclaimer.
  * 2. Redistributions in binary form must reproduce the above copyright
  *    notice, this list of conditions and the following disclaimer in the
  *    documentation and/or other materials provided with the distribution.
  *
  * THIS SOFTWARE IS PROVIDED BY THE AUTHOR AND CONTRIBUTORS ``AS IS'' AND
  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
  * ARE DISCLAIMED.  IN NO EVENT SHALL THE AUTHOR OR CONTRIBUTORS BE LIABLE
  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  * SUCH DAMAGE.
  */
 
 #include <sys/cdefs.h>
 __FBSDID("$FreeBSD$");
 
 #include "opt_cam.h"
 
 #include <sys/param.h>
 #include <sys/systm.h>
 #include <sys/buf.h>
 #include <sys/bus.h>
 #include <sys/conf.h>
 #include <sys/ioccom.h>
 #include <sys/proc.h>
 #include <sys/smp.h>
 #include <sys/uio.h>
 #include <sys/endian.h>
 #include <vm/vm.h>
 
 #include "nvme_private.h"
 
 #define B4_CHK_RDY_DELAY_MS	2300		/* work around controller bug */
 
 static void nvme_ctrlr_construct_and_submit_aer(struct nvme_controller *ctrlr,
 						struct nvme_async_event_request *aer);
 
 static int
 nvme_ctrlr_construct_admin_qpair(struct nvme_controller *ctrlr)
 {
 	struct nvme_qpair	*qpair;
 	uint32_t		num_entries;
 	int			error;
 
 	qpair = &ctrlr->adminq;
 	qpair->id = 0;
 	qpair->cpu = CPU_FFS(&cpuset_domain[ctrlr->domain]) - 1;
 	qpair->domain = ctrlr->domain;
 
 	num_entries = NVME_ADMIN_ENTRIES;
 	TUNABLE_INT_FETCH("hw.nvme.admin_entries", &num_entries);
 	/*
 	 * If admin_entries was overridden to an invalid value, revert it
 	 *  back to our default value.
 	 */
 	if (num_entries < NVME_MIN_ADMIN_ENTRIES ||
 	    num_entries > NVME_MAX_ADMIN_ENTRIES) {
 		nvme_printf(ctrlr, "invalid hw.nvme.admin_entries=%d "
 		    "specified\n", num_entries);
 		num_entries = NVME_ADMIN_ENTRIES;
 	}
 
 	/*
 	 * The admin queue's max xfer size is treated differently than the
 	 *  max I/O xfer size.  16KB is sufficient here - maybe even less?
 	 */
 	error = nvme_qpair_construct(qpair, num_entries, NVME_ADMIN_TRACKERS,
 	     ctrlr);
 	return (error);
 }
 
 #define QP(ctrlr, c)	((c) * (ctrlr)->num_io_queues / mp_ncpus)
 
 static int
 nvme_ctrlr_construct_io_qpairs(struct nvme_controller *ctrlr)
 {
 	struct nvme_qpair	*qpair;
 	uint32_t		cap_lo;
 	uint16_t		mqes;
 	int			c, error, i, n;
 	int			num_entries, num_trackers, max_entries;
 
 	/*
 	 * NVMe spec sets a hard limit of 64K max entries, but devices may
 	 * specify a smaller limit, so we need to check the MQES field in the
 	 * capabilities register. We have to cap the number of entries to the
 	 * current stride allows for in BAR 0/1, otherwise the remainder entries
 	 * are inaccessable. MQES should reflect this, and this is just a
 	 * fail-safe.
 	 */
 	max_entries =
 	    (rman_get_size(ctrlr->resource) - nvme_mmio_offsetof(doorbell[0])) /
 	    (1 << (ctrlr->dstrd + 1));
 	num_entries = NVME_IO_ENTRIES;
 	TUNABLE_INT_FETCH("hw.nvme.io_entries", &num_entries);
 	cap_lo = nvme_mmio_read_4(ctrlr, cap_lo);
 	mqes = NVME_CAP_LO_MQES(cap_lo);
 	num_entries = min(num_entries, mqes + 1);
 	num_entries = min(num_entries, max_entries);
 
 	num_trackers = NVME_IO_TRACKERS;
 	TUNABLE_INT_FETCH("hw.nvme.io_trackers", &num_trackers);
 
 	num_trackers = max(num_trackers, NVME_MIN_IO_TRACKERS);
 	num_trackers = min(num_trackers, NVME_MAX_IO_TRACKERS);
 	/*
 	 * No need to have more trackers than entries in the submit queue.  Note
 	 * also that for a queue size of N, we can only have (N-1) commands
 	 * outstanding, hence the "-1" here.
 	 */
 	num_trackers = min(num_trackers, (num_entries-1));
 
 	/*
 	 * Our best estimate for the maximum number of I/Os that we should
 	 * normally have in flight at one time. This should be viewed as a hint,
 	 * not a hard limit and will need to be revisited when the upper layers
 	 * of the storage system grows multi-queue support.
 	 */
 	ctrlr->max_hw_pend_io = num_trackers * ctrlr->num_io_queues * 3 / 4;
 
 	ctrlr->ioq = malloc(ctrlr->num_io_queues * sizeof(struct nvme_qpair),
 	    M_NVME, M_ZERO | M_WAITOK);
 
 	for (i = c = n = 0; i < ctrlr->num_io_queues; i++, c += n) {
 		qpair = &ctrlr->ioq[i];
 
 		/*
 		 * Admin queue has ID=0. IO queues start at ID=1 -
 		 *  hence the 'i+1' here.
 		 */
 		qpair->id = i + 1;
 		if (ctrlr->num_io_queues > 1) {
 			/* Find number of CPUs served by this queue. */
 			for (n = 1; QP(ctrlr, c + n) == i; n++)
 				;
 			/* Shuffle multiple NVMe devices between CPUs. */
 			qpair->cpu = c + (device_get_unit(ctrlr->dev)+n/2) % n;
 			qpair->domain = pcpu_find(qpair->cpu)->pc_domain;
 		} else {
 			qpair->cpu = CPU_FFS(&cpuset_domain[ctrlr->domain]) - 1;
 			qpair->domain = ctrlr->domain;
 		}
 
 		/*
 		 * For I/O queues, use the controller-wide max_xfer_size
 		 *  calculated in nvme_attach().
 		 */
 		error = nvme_qpair_construct(qpair, num_entries, num_trackers,
 		    ctrlr);
 		if (error)
 			return (error);
 
 		/*
 		 * Do not bother binding interrupts if we only have one I/O
 		 *  interrupt thread for this controller.
 		 */
 		if (ctrlr->num_io_queues > 1)
 			bus_bind_intr(ctrlr->dev, qpair->res, qpair->cpu);
 	}
 
 	return (0);
 }
 
 static void
 nvme_ctrlr_fail(struct nvme_controller *ctrlr)
 {
 	int i;
 
 	ctrlr->is_failed = true;
 	nvme_admin_qpair_disable(&ctrlr->adminq);
 	nvme_qpair_fail(&ctrlr->adminq);
 	if (ctrlr->ioq != NULL) {
 		for (i = 0; i < ctrlr->num_io_queues; i++) {
 			nvme_io_qpair_disable(&ctrlr->ioq[i]);
 			nvme_qpair_fail(&ctrlr->ioq[i]);
 		}
 	}
 	nvme_notify_fail_consumers(ctrlr);
 }
 
 void
 nvme_ctrlr_post_failed_request(struct nvme_controller *ctrlr,
     struct nvme_request *req)
 {
 
 	mtx_lock(&ctrlr->lock);
 	STAILQ_INSERT_TAIL(&ctrlr->fail_req, req, stailq);
 	mtx_unlock(&ctrlr->lock);
 	taskqueue_enqueue(ctrlr->taskqueue, &ctrlr->fail_req_task);
 }
 
 static void
 nvme_ctrlr_fail_req_task(void *arg, int pending)
 {
 	struct nvme_controller	*ctrlr = arg;
 	struct nvme_request	*req;
 
 	mtx_lock(&ctrlr->lock);
 	while ((req = STAILQ_FIRST(&ctrlr->fail_req)) != NULL) {
 		STAILQ_REMOVE_HEAD(&ctrlr->fail_req, stailq);
 		mtx_unlock(&ctrlr->lock);
 		nvme_qpair_manual_complete_request(req->qpair, req,
 		    NVME_SCT_GENERIC, NVME_SC_ABORTED_BY_REQUEST);
 		mtx_lock(&ctrlr->lock);
 	}
 	mtx_unlock(&ctrlr->lock);
 }
 
 static int
 nvme_ctrlr_wait_for_ready(struct nvme_controller *ctrlr, int desired_val)
 {
 	int ms_waited;
 	uint32_t csts;
 
 	ms_waited = 0;
 	while (1) {
 		csts = nvme_mmio_read_4(ctrlr, csts);
 		if (csts == 0xffffffff)		/* Hot unplug. */
 			return (ENXIO);
 		if (((csts >> NVME_CSTS_REG_RDY_SHIFT) & NVME_CSTS_REG_RDY_MASK)
 		    == desired_val)
 			break;
 		if (ms_waited++ > ctrlr->ready_timeout_in_ms) {
 			nvme_printf(ctrlr, "controller ready did not become %d "
 			    "within %d ms\n", desired_val, ctrlr->ready_timeout_in_ms);
 			return (ENXIO);
 		}
 		DELAY(1000);
 	}
 
 	return (0);
 }
 
 static int
 nvme_ctrlr_disable(struct nvme_controller *ctrlr)
 {
 	uint32_t cc;
 	uint32_t csts;
 	uint8_t  en, rdy;
 	int err;
 
 	cc = nvme_mmio_read_4(ctrlr, cc);
 	csts = nvme_mmio_read_4(ctrlr, csts);
 
 	en = (cc >> NVME_CC_REG_EN_SHIFT) & NVME_CC_REG_EN_MASK;
 	rdy = (csts >> NVME_CSTS_REG_RDY_SHIFT) & NVME_CSTS_REG_RDY_MASK;
 
 	/*
 	 * Per 3.1.5 in NVME 1.3 spec, transitioning CC.EN from 0 to 1
 	 * when CSTS.RDY is 1 or transitioning CC.EN from 1 to 0 when
 	 * CSTS.RDY is 0 "has undefined results" So make sure that CSTS.RDY
 	 * isn't the desired value. Short circuit if we're already disabled.
 	 */
 	if (en == 1) {
 		if (rdy == 0) {
 			/* EN == 1, wait for  RDY == 1 or fail */
 			err = nvme_ctrlr_wait_for_ready(ctrlr, 1);
 			if (err != 0)
 				return (err);
 		}
 	} else {
 		/* EN == 0 already wait for RDY == 0 */
 		if (rdy == 0)
 			return (0);
 		else
 			return (nvme_ctrlr_wait_for_ready(ctrlr, 0));
 	}
 
 	cc &= ~NVME_CC_REG_EN_MASK;
 	nvme_mmio_write_4(ctrlr, cc, cc);
 	/*
 	 * Some drives have issues with accessing the mmio after we
 	 * disable, so delay for a bit after we write the bit to
 	 * cope with these issues.
 	 */
 	if (ctrlr->quirks & QUIRK_DELAY_B4_CHK_RDY)
 		pause("nvmeR", B4_CHK_RDY_DELAY_MS * hz / 1000);
 	return (nvme_ctrlr_wait_for_ready(ctrlr, 0));
 }
 
 static int
 nvme_ctrlr_enable(struct nvme_controller *ctrlr)
 {
 	uint32_t	cc;
 	uint32_t	csts;
 	uint32_t	aqa;
 	uint32_t	qsize;
 	uint8_t		en, rdy;
 	int		err;
 
 	cc = nvme_mmio_read_4(ctrlr, cc);
 	csts = nvme_mmio_read_4(ctrlr, csts);
 
 	en = (cc >> NVME_CC_REG_EN_SHIFT) & NVME_CC_REG_EN_MASK;
 	rdy = (csts >> NVME_CSTS_REG_RDY_SHIFT) & NVME_CSTS_REG_RDY_MASK;
 
 	/*
 	 * See note in nvme_ctrlr_disable. Short circuit if we're already enabled.
 	 */
 	if (en == 1) {
 		if (rdy == 1)
 			return (0);
 		else
 			return (nvme_ctrlr_wait_for_ready(ctrlr, 1));
 	} else {
 		/* EN == 0 already wait for RDY == 0 or fail */
 		err = nvme_ctrlr_wait_for_ready(ctrlr, 0);
 		if (err != 0)
 			return (err);
 	}
 
 	nvme_mmio_write_8(ctrlr, asq, ctrlr->adminq.cmd_bus_addr);
 	DELAY(5000);
 	nvme_mmio_write_8(ctrlr, acq, ctrlr->adminq.cpl_bus_addr);
 	DELAY(5000);
 
 	/* acqs and asqs are 0-based. */
 	qsize = ctrlr->adminq.num_entries - 1;
 
 	aqa = 0;
 	aqa = (qsize & NVME_AQA_REG_ACQS_MASK) << NVME_AQA_REG_ACQS_SHIFT;
 	aqa |= (qsize & NVME_AQA_REG_ASQS_MASK) << NVME_AQA_REG_ASQS_SHIFT;
 	nvme_mmio_write_4(ctrlr, aqa, aqa);
 	DELAY(5000);
 
 	/* Initialization values for CC */
 	cc = 0;
 	cc |= 1 << NVME_CC_REG_EN_SHIFT;
 	cc |= 0 << NVME_CC_REG_CSS_SHIFT;
 	cc |= 0 << NVME_CC_REG_AMS_SHIFT;
 	cc |= 0 << NVME_CC_REG_SHN_SHIFT;
 	cc |= 6 << NVME_CC_REG_IOSQES_SHIFT; /* SQ entry size == 64 == 2^6 */
 	cc |= 4 << NVME_CC_REG_IOCQES_SHIFT; /* CQ entry size == 16 == 2^4 */
 
 	/* This evaluates to 0, which is according to spec. */
 	cc |= (PAGE_SIZE >> 13) << NVME_CC_REG_MPS_SHIFT;
 
 	nvme_mmio_write_4(ctrlr, cc, cc);
 
 	return (nvme_ctrlr_wait_for_ready(ctrlr, 1));
 }
 
 static void
 nvme_ctrlr_disable_qpairs(struct nvme_controller *ctrlr)
 {
 	int i;
 
 	nvme_admin_qpair_disable(&ctrlr->adminq);
 	/*
 	 * I/O queues are not allocated before the initial HW
 	 *  reset, so do not try to disable them.  Use is_initialized
 	 *  to determine if this is the initial HW reset.
 	 */
 	if (ctrlr->is_initialized) {
 		for (i = 0; i < ctrlr->num_io_queues; i++)
 			nvme_io_qpair_disable(&ctrlr->ioq[i]);
 	}
 }
 
 int
 nvme_ctrlr_hw_reset(struct nvme_controller *ctrlr)
 {
 	int err;
 
 	nvme_ctrlr_disable_qpairs(ctrlr);
 
 	DELAY(100*1000);
 
 	err = nvme_ctrlr_disable(ctrlr);
 	if (err != 0)
 		return err;
 	return (nvme_ctrlr_enable(ctrlr));
 }
 
 void
 nvme_ctrlr_reset(struct nvme_controller *ctrlr)
 {
 	int cmpset;
 
 	cmpset = atomic_cmpset_32(&ctrlr->is_resetting, 0, 1);
 
 	if (cmpset == 0 || ctrlr->is_failed)
 		/*
 		 * Controller is already resetting or has failed.  Return
 		 *  immediately since there is no need to kick off another
 		 *  reset in these cases.
 		 */
 		return;
 
 	taskqueue_enqueue(ctrlr->taskqueue, &ctrlr->reset_task);
 }
 
 static int
 nvme_ctrlr_identify(struct nvme_controller *ctrlr)
 {
 	struct nvme_completion_poll_status	status;
 
 	status.done = 0;
 	nvme_ctrlr_cmd_identify_controller(ctrlr, &ctrlr->cdata,
 	    nvme_completion_poll_cb, &status);
 	nvme_completion_poll(&status);
 	if (nvme_completion_is_error(&status.cpl)) {
 		nvme_printf(ctrlr, "nvme_identify_controller failed!\n");
 		return (ENXIO);
 	}
 
 	/* Convert data to host endian */
 	nvme_controller_data_swapbytes(&ctrlr->cdata);
 
 	/*
 	 * Use MDTS to ensure our default max_xfer_size doesn't exceed what the
 	 *  controller supports.
 	 */
 	if (ctrlr->cdata.mdts > 0)
 		ctrlr->max_xfer_size = min(ctrlr->max_xfer_size,
 		    ctrlr->min_page_size * (1 << (ctrlr->cdata.mdts)));
 
 	return (0);
 }
 
 static int
 nvme_ctrlr_set_num_qpairs(struct nvme_controller *ctrlr)
 {
 	struct nvme_completion_poll_status	status;
 	int					cq_allocated, sq_allocated;
 
 	status.done = 0;
 	nvme_ctrlr_cmd_set_num_queues(ctrlr, ctrlr->num_io_queues,
 	    nvme_completion_poll_cb, &status);
 	nvme_completion_poll(&status);
 	if (nvme_completion_is_error(&status.cpl)) {
 		nvme_printf(ctrlr, "nvme_ctrlr_set_num_qpairs failed!\n");
 		return (ENXIO);
 	}
 
 	/*
 	 * Data in cdw0 is 0-based.
 	 * Lower 16-bits indicate number of submission queues allocated.
 	 * Upper 16-bits indicate number of completion queues allocated.
 	 */
 	sq_allocated = (status.cpl.cdw0 & 0xFFFF) + 1;
 	cq_allocated = (status.cpl.cdw0 >> 16) + 1;
 
 	/*
 	 * Controller may allocate more queues than we requested,
 	 *  so use the minimum of the number requested and what was
 	 *  actually allocated.
 	 */
 	ctrlr->num_io_queues = min(ctrlr->num_io_queues, sq_allocated);
 	ctrlr->num_io_queues = min(ctrlr->num_io_queues, cq_allocated);
 	if (ctrlr->num_io_queues > vm_ndomains)
 		ctrlr->num_io_queues -= ctrlr->num_io_queues % vm_ndomains;
 
 	return (0);
 }
 
 static int
 nvme_ctrlr_create_qpairs(struct nvme_controller *ctrlr)
 {
 	struct nvme_completion_poll_status	status;
 	struct nvme_qpair			*qpair;
 	int					i;
 
 	for (i = 0; i < ctrlr->num_io_queues; i++) {
 		qpair = &ctrlr->ioq[i];
 
 		status.done = 0;
 		nvme_ctrlr_cmd_create_io_cq(ctrlr, qpair,
 		    nvme_completion_poll_cb, &status);
 		nvme_completion_poll(&status);
 		if (nvme_completion_is_error(&status.cpl)) {
 			nvme_printf(ctrlr, "nvme_create_io_cq failed!\n");
 			return (ENXIO);
 		}
 
 		status.done = 0;
 		nvme_ctrlr_cmd_create_io_sq(qpair->ctrlr, qpair,
 		    nvme_completion_poll_cb, &status);
 		nvme_completion_poll(&status);
 		if (nvme_completion_is_error(&status.cpl)) {
 			nvme_printf(ctrlr, "nvme_create_io_sq failed!\n");
 			return (ENXIO);
 		}
 	}
 
 	return (0);
 }
 
 static int
 nvme_ctrlr_delete_qpairs(struct nvme_controller *ctrlr)
 {
 	struct nvme_completion_poll_status	status;
 	struct nvme_qpair			*qpair;
 
 	for (int i = 0; i < ctrlr->num_io_queues; i++) {
 		qpair = &ctrlr->ioq[i];
 
 		status.done = 0;
 		nvme_ctrlr_cmd_delete_io_sq(ctrlr, qpair,
 		    nvme_completion_poll_cb, &status);
 		nvme_completion_poll(&status);
 		if (nvme_completion_is_error(&status.cpl)) {
 			nvme_printf(ctrlr, "nvme_destroy_io_sq failed!\n");
 			return (ENXIO);
 		}
 
 		status.done = 0;
 		nvme_ctrlr_cmd_delete_io_cq(ctrlr, qpair,
 		    nvme_completion_poll_cb, &status);
 		nvme_completion_poll(&status);
 		if (nvme_completion_is_error(&status.cpl)) {
 			nvme_printf(ctrlr, "nvme_destroy_io_cq failed!\n");
 			return (ENXIO);
 		}
 	}
 
 	return (0);
 }
 
 static int
 nvme_ctrlr_construct_namespaces(struct nvme_controller *ctrlr)
 {
 	struct nvme_namespace	*ns;
 	uint32_t 		i;
 
 	for (i = 0; i < min(ctrlr->cdata.nn, NVME_MAX_NAMESPACES); i++) {
 		ns = &ctrlr->ns[i];
 		nvme_ns_construct(ns, i+1, ctrlr);
 	}
 
 	return (0);
 }
 
 static bool
 is_log_page_id_valid(uint8_t page_id)
 {
 
 	switch (page_id) {
 	case NVME_LOG_ERROR:
 	case NVME_LOG_HEALTH_INFORMATION:
 	case NVME_LOG_FIRMWARE_SLOT:
 	case NVME_LOG_CHANGED_NAMESPACE:
 	case NVME_LOG_COMMAND_EFFECT:
 	case NVME_LOG_RES_NOTIFICATION:
 	case NVME_LOG_SANITIZE_STATUS:
 		return (true);
 	}
 
 	return (false);
 }
 
 static uint32_t
 nvme_ctrlr_get_log_page_size(struct nvme_controller *ctrlr, uint8_t page_id)
 {
 	uint32_t	log_page_size;
 
 	switch (page_id) {
 	case NVME_LOG_ERROR:
 		log_page_size = min(
 		    sizeof(struct nvme_error_information_entry) *
 		    (ctrlr->cdata.elpe + 1), NVME_MAX_AER_LOG_SIZE);
 		break;
 	case NVME_LOG_HEALTH_INFORMATION:
 		log_page_size = sizeof(struct nvme_health_information_page);
 		break;
 	case NVME_LOG_FIRMWARE_SLOT:
 		log_page_size = sizeof(struct nvme_firmware_page);
 		break;
 	case NVME_LOG_CHANGED_NAMESPACE:
 		log_page_size = sizeof(struct nvme_ns_list);
 		break;
 	case NVME_LOG_COMMAND_EFFECT:
 		log_page_size = sizeof(struct nvme_command_effects_page);
 		break;
 	case NVME_LOG_RES_NOTIFICATION:
 		log_page_size = sizeof(struct nvme_res_notification_page);
 		break;
 	case NVME_LOG_SANITIZE_STATUS:
 		log_page_size = sizeof(struct nvme_sanitize_status_page);
 		break;
 	default:
 		log_page_size = 0;
 		break;
 	}
 
 	return (log_page_size);
 }
 
 static void
 nvme_ctrlr_log_critical_warnings(struct nvme_controller *ctrlr,
     uint8_t state)
 {
 
 	if (state & NVME_CRIT_WARN_ST_AVAILABLE_SPARE)
 		nvme_printf(ctrlr, "available spare space below threshold\n");
 
 	if (state & NVME_CRIT_WARN_ST_TEMPERATURE)
 		nvme_printf(ctrlr, "temperature above threshold\n");
 
 	if (state & NVME_CRIT_WARN_ST_DEVICE_RELIABILITY)
 		nvme_printf(ctrlr, "device reliability degraded\n");
 
 	if (state & NVME_CRIT_WARN_ST_READ_ONLY)
 		nvme_printf(ctrlr, "media placed in read only mode\n");
 
 	if (state & NVME_CRIT_WARN_ST_VOLATILE_MEMORY_BACKUP)
 		nvme_printf(ctrlr, "volatile memory backup device failed\n");
 
 	if (state & NVME_CRIT_WARN_ST_RESERVED_MASK)
 		nvme_printf(ctrlr,
 		    "unknown critical warning(s): state = 0x%02x\n", state);
 }
 
 static void
 nvme_ctrlr_async_event_log_page_cb(void *arg, const struct nvme_completion *cpl)
 {
 	struct nvme_async_event_request		*aer = arg;
 	struct nvme_health_information_page	*health_info;
 	struct nvme_ns_list			*nsl;
 	struct nvme_error_information_entry	*err;
 	int i;
 
 	/*
 	 * If the log page fetch for some reason completed with an error,
 	 *  don't pass log page data to the consumers.  In practice, this case
 	 *  should never happen.
 	 */
 	if (nvme_completion_is_error(cpl))
 		nvme_notify_async_consumers(aer->ctrlr, &aer->cpl,
 		    aer->log_page_id, NULL, 0);
 	else {
 		/* Convert data to host endian */
 		switch (aer->log_page_id) {
 		case NVME_LOG_ERROR:
 			err = (struct nvme_error_information_entry *)aer->log_page_buffer;
 			for (i = 0; i < (aer->ctrlr->cdata.elpe + 1); i++)
 				nvme_error_information_entry_swapbytes(err++);
 			break;
 		case NVME_LOG_HEALTH_INFORMATION:
 			nvme_health_information_page_swapbytes(
 			    (struct nvme_health_information_page *)aer->log_page_buffer);
 			break;
 		case NVME_LOG_FIRMWARE_SLOT:
 			nvme_firmware_page_swapbytes(
 			    (struct nvme_firmware_page *)aer->log_page_buffer);
 			break;
 		case NVME_LOG_CHANGED_NAMESPACE:
 			nvme_ns_list_swapbytes(
 			    (struct nvme_ns_list *)aer->log_page_buffer);
 			break;
 		case NVME_LOG_COMMAND_EFFECT:
 			nvme_command_effects_page_swapbytes(
 			    (struct nvme_command_effects_page *)aer->log_page_buffer);
 			break;
 		case NVME_LOG_RES_NOTIFICATION:
 			nvme_res_notification_page_swapbytes(
 			    (struct nvme_res_notification_page *)aer->log_page_buffer);
 			break;
 		case NVME_LOG_SANITIZE_STATUS:
 			nvme_sanitize_status_page_swapbytes(
 			    (struct nvme_sanitize_status_page *)aer->log_page_buffer);
 			break;
 		case INTEL_LOG_TEMP_STATS:
 			intel_log_temp_stats_swapbytes(
 			    (struct intel_log_temp_stats *)aer->log_page_buffer);
 			break;
 		default:
 			break;
 		}
 
 		if (aer->log_page_id == NVME_LOG_HEALTH_INFORMATION) {
 			health_info = (struct nvme_health_information_page *)
 			    aer->log_page_buffer;
 			nvme_ctrlr_log_critical_warnings(aer->ctrlr,
 			    health_info->critical_warning);
 			/*
 			 * Critical warnings reported through the
 			 *  SMART/health log page are persistent, so
 			 *  clear the associated bits in the async event
 			 *  config so that we do not receive repeated
 			 *  notifications for the same event.
 			 */
 			aer->ctrlr->async_event_config &=
 			    ~health_info->critical_warning;
 			nvme_ctrlr_cmd_set_async_event_config(aer->ctrlr,
 			    aer->ctrlr->async_event_config, NULL, NULL);
 		} else if (aer->log_page_id == NVME_LOG_CHANGED_NAMESPACE &&
 		    !nvme_use_nvd) {
 			nsl = (struct nvme_ns_list *)aer->log_page_buffer;
 			for (i = 0; i < nitems(nsl->ns) && nsl->ns[i] != 0; i++) {
 				if (nsl->ns[i] > NVME_MAX_NAMESPACES)
 					break;
 				nvme_notify_ns(aer->ctrlr, nsl->ns[i]);
 			}
 		}
 
 
 		/*
 		 * Pass the cpl data from the original async event completion,
 		 *  not the log page fetch.
 		 */
 		nvme_notify_async_consumers(aer->ctrlr, &aer->cpl,
 		    aer->log_page_id, aer->log_page_buffer, aer->log_page_size);
 	}
 
 	/*
 	 * Repost another asynchronous event request to replace the one
 	 *  that just completed.
 	 */
 	nvme_ctrlr_construct_and_submit_aer(aer->ctrlr, aer);
 }
 
 static void
 nvme_ctrlr_async_event_cb(void *arg, const struct nvme_completion *cpl)
 {
 	struct nvme_async_event_request	*aer = arg;
 
 	if (nvme_completion_is_error(cpl)) {
 		/*
 		 *  Do not retry failed async event requests.  This avoids
 		 *  infinite loops where a new async event request is submitted
 		 *  to replace the one just failed, only to fail again and
 		 *  perpetuate the loop.
 		 */
 		return;
 	}
 
 	/* Associated log page is in bits 23:16 of completion entry dw0. */
 	aer->log_page_id = (cpl->cdw0 & 0xFF0000) >> 16;
 
 	nvme_printf(aer->ctrlr, "async event occurred (type 0x%x, info 0x%02x,"
 	    " page 0x%02x)\n", (cpl->cdw0 & 0x07), (cpl->cdw0 & 0xFF00) >> 8,
 	    aer->log_page_id);
 
 	if (is_log_page_id_valid(aer->log_page_id)) {
 		aer->log_page_size = nvme_ctrlr_get_log_page_size(aer->ctrlr,
 		    aer->log_page_id);
 		memcpy(&aer->cpl, cpl, sizeof(*cpl));
 		nvme_ctrlr_cmd_get_log_page(aer->ctrlr, aer->log_page_id,
 		    NVME_GLOBAL_NAMESPACE_TAG, aer->log_page_buffer,
 		    aer->log_page_size, nvme_ctrlr_async_event_log_page_cb,
 		    aer);
 		/* Wait to notify consumers until after log page is fetched. */
 	} else {
 		nvme_notify_async_consumers(aer->ctrlr, cpl, aer->log_page_id,
 		    NULL, 0);
 
 		/*
 		 * Repost another asynchronous event request to replace the one
 		 *  that just completed.
 		 */
 		nvme_ctrlr_construct_and_submit_aer(aer->ctrlr, aer);
 	}
 }
 
 static void
 nvme_ctrlr_construct_and_submit_aer(struct nvme_controller *ctrlr,
     struct nvme_async_event_request *aer)
 {
 	struct nvme_request *req;
 
 	aer->ctrlr = ctrlr;
 	req = nvme_allocate_request_null(nvme_ctrlr_async_event_cb, aer);
 	aer->req = req;
 
 	/*
 	 * Disable timeout here, since asynchronous event requests should by
 	 *  nature never be timed out.
 	 */
 	req->timeout = false;
 	req->cmd.opc = NVME_OPC_ASYNC_EVENT_REQUEST;
 	nvme_ctrlr_submit_admin_request(ctrlr, req);
 }
 
 static void
 nvme_ctrlr_configure_aer(struct nvme_controller *ctrlr)
 {
 	struct nvme_completion_poll_status	status;
 	struct nvme_async_event_request		*aer;
 	uint32_t				i;
 
 	ctrlr->async_event_config = NVME_CRIT_WARN_ST_AVAILABLE_SPARE |
 	    NVME_CRIT_WARN_ST_DEVICE_RELIABILITY |
 	    NVME_CRIT_WARN_ST_READ_ONLY |
 	    NVME_CRIT_WARN_ST_VOLATILE_MEMORY_BACKUP;
 	if (ctrlr->cdata.ver >= NVME_REV(1, 2))
 		ctrlr->async_event_config |= 0x300;
 
 	status.done = 0;
 	nvme_ctrlr_cmd_get_feature(ctrlr, NVME_FEAT_TEMPERATURE_THRESHOLD,
 	    0, NULL, 0, nvme_completion_poll_cb, &status);
 	nvme_completion_poll(&status);
 	if (nvme_completion_is_error(&status.cpl) ||
 	    (status.cpl.cdw0 & 0xFFFF) == 0xFFFF ||
 	    (status.cpl.cdw0 & 0xFFFF) == 0x0000) {
 		nvme_printf(ctrlr, "temperature threshold not supported\n");
 	} else
 		ctrlr->async_event_config |= NVME_CRIT_WARN_ST_TEMPERATURE;
 
 	nvme_ctrlr_cmd_set_async_event_config(ctrlr,
 	    ctrlr->async_event_config, NULL, NULL);
 
 	/* aerl is a zero-based value, so we need to add 1 here. */
 	ctrlr->num_aers = min(NVME_MAX_ASYNC_EVENTS, (ctrlr->cdata.aerl+1));
 
 	for (i = 0; i < ctrlr->num_aers; i++) {
 		aer = &ctrlr->aer[i];
 		nvme_ctrlr_construct_and_submit_aer(ctrlr, aer);
 	}
 }
 
 static void
 nvme_ctrlr_configure_int_coalescing(struct nvme_controller *ctrlr)
 {
 
 	ctrlr->int_coal_time = 0;
 	TUNABLE_INT_FETCH("hw.nvme.int_coal_time",
 	    &ctrlr->int_coal_time);
 
 	ctrlr->int_coal_threshold = 0;
 	TUNABLE_INT_FETCH("hw.nvme.int_coal_threshold",
 	    &ctrlr->int_coal_threshold);
 
 	nvme_ctrlr_cmd_set_interrupt_coalescing(ctrlr, ctrlr->int_coal_time,
 	    ctrlr->int_coal_threshold, NULL, NULL);
 }
 
 static void
+nvme_ctrlr_hmb_free(struct nvme_controller *ctrlr)
+{
+	struct nvme_hmb_chunk *hmbc;
+	int i;
+
+	if (ctrlr->hmb_desc_paddr) {
+		bus_dmamap_unload(ctrlr->hmb_desc_tag, ctrlr->hmb_desc_map);
+		bus_dmamem_free(ctrlr->hmb_desc_tag, ctrlr->hmb_desc_vaddr,
+		    ctrlr->hmb_desc_map);
+		ctrlr->hmb_desc_paddr = 0;
+	}
+	if (ctrlr->hmb_desc_tag) {
+		bus_dma_tag_destroy(ctrlr->hmb_desc_tag);
+		ctrlr->hmb_desc_tag = NULL;
+	}
+	for (i = 0; i < ctrlr->hmb_nchunks; i++) {
+		hmbc = &ctrlr->hmb_chunks[i];
+		bus_dmamap_unload(ctrlr->hmb_tag, hmbc->hmbc_map);
+		bus_dmamem_free(ctrlr->hmb_tag, hmbc->hmbc_vaddr,
+		    hmbc->hmbc_map);
+	}
+	ctrlr->hmb_nchunks = 0;
+	if (ctrlr->hmb_tag) {
+		bus_dma_tag_destroy(ctrlr->hmb_tag);
+		ctrlr->hmb_tag = NULL;
+	}
+	if (ctrlr->hmb_chunks) {
+		free(ctrlr->hmb_chunks, M_NVME);
+		ctrlr->hmb_chunks = NULL;
+	}
+}
+
+static void
+nvme_ctrlr_hmb_alloc(struct nvme_controller *ctrlr)
+{
+	struct nvme_hmb_chunk *hmbc;
+	size_t pref, min, minc, size;
+	int err, i;
+	uint64_t max;
+
+	/* Limit HMB to 5% of RAM size per device by default. */
+	max = (uint64_t)physmem * PAGE_SIZE / 20;
+	TUNABLE_UINT64_FETCH("hw.nvme.hmb_max", &max);
+
+	min = (long long unsigned)ctrlr->cdata.hmmin * 4096;
+	if (max == 0 || max < min)
+		return;
+	pref = MIN((long long unsigned)ctrlr->cdata.hmpre * 4096, max);
+	minc = MAX(ctrlr->cdata.hmminds * 4096, PAGE_SIZE);
+	if (min > 0 && ctrlr->cdata.hmmaxd > 0)
+		minc = MAX(minc, min / ctrlr->cdata.hmmaxd);
+	ctrlr->hmb_chunk = pref;
+
+again:
+	ctrlr->hmb_chunk = roundup2(ctrlr->hmb_chunk, PAGE_SIZE);
+	ctrlr->hmb_nchunks = howmany(pref, ctrlr->hmb_chunk);
+	if (ctrlr->cdata.hmmaxd > 0 && ctrlr->hmb_nchunks > ctrlr->cdata.hmmaxd)
+		ctrlr->hmb_nchunks = ctrlr->cdata.hmmaxd;
+	ctrlr->hmb_chunks = malloc(sizeof(struct nvme_hmb_chunk) *
+	    ctrlr->hmb_nchunks, M_NVME, M_WAITOK);
+	err = bus_dma_tag_create(bus_get_dma_tag(ctrlr->dev),
+	    PAGE_SIZE, 0, BUS_SPACE_MAXADDR, BUS_SPACE_MAXADDR, NULL, NULL,
+	    ctrlr->hmb_chunk, 1, ctrlr->hmb_chunk, 0, NULL, NULL, &ctrlr->hmb_tag);
+	if (err != 0) {
+		nvme_printf(ctrlr, "HMB tag create failed %d\n", err);
+		nvme_ctrlr_hmb_free(ctrlr);
+		return;
+	}
+
+	for (i = 0; i < ctrlr->hmb_nchunks; i++) {
+		hmbc = &ctrlr->hmb_chunks[i];
+		if (bus_dmamem_alloc(ctrlr->hmb_tag,
+		    (void **)&hmbc->hmbc_vaddr, BUS_DMA_NOWAIT,
+		    &hmbc->hmbc_map)) {
+			nvme_printf(ctrlr, "failed to alloc HMB\n");
+			break;
+		}
+		if (bus_dmamap_load(ctrlr->hmb_tag, hmbc->hmbc_map,
+		    hmbc->hmbc_vaddr, ctrlr->hmb_chunk, nvme_single_map,
+		    &hmbc->hmbc_paddr, BUS_DMA_NOWAIT) != 0) {
+			bus_dmamem_free(ctrlr->hmb_tag, hmbc->hmbc_vaddr,
+			    hmbc->hmbc_map);
+			nvme_printf(ctrlr, "failed to load HMB\n");
+			break;
+		}
+		bus_dmamap_sync(ctrlr->hmb_tag, hmbc->hmbc_map,
+		    BUS_DMASYNC_PREREAD | BUS_DMASYNC_PREWRITE);
+	}
+
+	if (i < ctrlr->hmb_nchunks && i * ctrlr->hmb_chunk < min &&
+	    ctrlr->hmb_chunk / 2 >= minc) {
+		ctrlr->hmb_nchunks = i;
+		nvme_ctrlr_hmb_free(ctrlr);
+		ctrlr->hmb_chunk /= 2;
+		goto again;
+	}
+	ctrlr->hmb_nchunks = i;
+	if (ctrlr->hmb_nchunks * ctrlr->hmb_chunk < min) {
+		nvme_ctrlr_hmb_free(ctrlr);
+		return;
+	}
+
+	size = sizeof(struct nvme_hmb_desc) * ctrlr->hmb_nchunks;
+	err = bus_dma_tag_create(bus_get_dma_tag(ctrlr->dev),
+	    16, 0, BUS_SPACE_MAXADDR, BUS_SPACE_MAXADDR, NULL, NULL,
+	    size, 1, size, 0, NULL, NULL, &ctrlr->hmb_desc_tag);
+	if (err != 0) {
+		nvme_printf(ctrlr, "HMB desc tag create failed %d\n", err);
+		nvme_ctrlr_hmb_free(ctrlr);
+		return;
+	}
+	if (bus_dmamem_alloc(ctrlr->hmb_desc_tag,
+	    (void **)&ctrlr->hmb_desc_vaddr, BUS_DMA_WAITOK,
+	    &ctrlr->hmb_desc_map)) {
+		nvme_printf(ctrlr, "failed to alloc HMB desc\n");
+		nvme_ctrlr_hmb_free(ctrlr);
+		return;
+	}
+	if (bus_dmamap_load(ctrlr->hmb_desc_tag, ctrlr->hmb_desc_map,
+	    ctrlr->hmb_desc_vaddr, size, nvme_single_map,
+	    &ctrlr->hmb_desc_paddr, BUS_DMA_NOWAIT) != 0) {
+		bus_dmamem_free(ctrlr->hmb_desc_tag, ctrlr->hmb_desc_vaddr,
+		    ctrlr->hmb_desc_map);
+		nvme_printf(ctrlr, "failed to load HMB desc\n");
+		nvme_ctrlr_hmb_free(ctrlr);
+		return;
+	}
+
+	for (i = 0; i < ctrlr->hmb_nchunks; i++) {
+		ctrlr->hmb_desc_vaddr[i].addr =
+		    htole64(ctrlr->hmb_chunks[i].hmbc_paddr);
+		ctrlr->hmb_desc_vaddr[i].size = htole32(ctrlr->hmb_chunk / 4096);
+	}
+	bus_dmamap_sync(ctrlr->hmb_desc_tag, ctrlr->hmb_desc_map,
+	    BUS_DMASYNC_PREWRITE);
+
+	nvme_printf(ctrlr, "Allocated %lluMB host memory buffer\n",
+	    (long long unsigned)ctrlr->hmb_nchunks * ctrlr->hmb_chunk
+	    / 1024 / 1024);
+}
+
+static void
+nvme_ctrlr_hmb_enable(struct nvme_controller *ctrlr, bool enable, bool memret)
+{
+	struct nvme_completion_poll_status	status;
+	uint32_t cdw11;
+
+	cdw11 = 0;
+	if (enable)
+		cdw11 |= 1;
+	if (memret)
+		cdw11 |= 2;
+	status.done = 0;
+	nvme_ctrlr_cmd_set_feature(ctrlr, NVME_FEAT_HOST_MEMORY_BUFFER, cdw11,
+	    ctrlr->hmb_nchunks * ctrlr->hmb_chunk / 4096, ctrlr->hmb_desc_paddr,
+	    ctrlr->hmb_desc_paddr >> 32, ctrlr->hmb_nchunks, NULL, 0,
+	    nvme_completion_poll_cb, &status);
+	nvme_completion_poll(&status);
+	if (nvme_completion_is_error(&status.cpl))
+		nvme_printf(ctrlr, "nvme_ctrlr_hmb_enable failed!\n");
+}
+
+static void
 nvme_ctrlr_start(void *ctrlr_arg, bool resetting)
 {
 	struct nvme_controller *ctrlr = ctrlr_arg;
 	uint32_t old_num_io_queues;
 	int i;
 
 	/*
 	 * Only reset adminq here when we are restarting the
 	 *  controller after a reset.  During initialization,
 	 *  we have already submitted admin commands to get
 	 *  the number of I/O queues supported, so cannot reset
 	 *  the adminq again here.
 	 */
 	if (resetting)
 		nvme_qpair_reset(&ctrlr->adminq);
 
 	for (i = 0; i < ctrlr->num_io_queues; i++)
 		nvme_qpair_reset(&ctrlr->ioq[i]);
 
 	nvme_admin_qpair_enable(&ctrlr->adminq);
 
 	if (nvme_ctrlr_identify(ctrlr) != 0) {
 		nvme_ctrlr_fail(ctrlr);
 		return;
 	}
 
 	/*
 	 * The number of qpairs are determined during controller initialization,
 	 *  including using NVMe SET_FEATURES/NUMBER_OF_QUEUES to determine the
 	 *  HW limit.  We call SET_FEATURES again here so that it gets called
 	 *  after any reset for controllers that depend on the driver to
 	 *  explicit specify how many queues it will use.  This value should
 	 *  never change between resets, so panic if somehow that does happen.
 	 */
 	if (resetting) {
 		old_num_io_queues = ctrlr->num_io_queues;
 		if (nvme_ctrlr_set_num_qpairs(ctrlr) != 0) {
 			nvme_ctrlr_fail(ctrlr);
 			return;
 		}
 
 		if (old_num_io_queues != ctrlr->num_io_queues) {
 			panic("num_io_queues changed from %u to %u",
 			      old_num_io_queues, ctrlr->num_io_queues);
 		}
 	}
 
+	if (ctrlr->cdata.hmpre > 0 && ctrlr->hmb_nchunks == 0) {
+		nvme_ctrlr_hmb_alloc(ctrlr);
+		if (ctrlr->hmb_nchunks > 0)
+			nvme_ctrlr_hmb_enable(ctrlr, true, false);
+	} else if (ctrlr->hmb_nchunks > 0)
+		nvme_ctrlr_hmb_enable(ctrlr, true, true);
+
 	if (nvme_ctrlr_create_qpairs(ctrlr) != 0) {
 		nvme_ctrlr_fail(ctrlr);
 		return;
 	}
 
 	if (nvme_ctrlr_construct_namespaces(ctrlr) != 0) {
 		nvme_ctrlr_fail(ctrlr);
 		return;
 	}
 
 	nvme_ctrlr_configure_aer(ctrlr);
 	nvme_ctrlr_configure_int_coalescing(ctrlr);
 
 	for (i = 0; i < ctrlr->num_io_queues; i++)
 		nvme_io_qpair_enable(&ctrlr->ioq[i]);
 }
 
 void
 nvme_ctrlr_start_config_hook(void *arg)
 {
 	struct nvme_controller *ctrlr = arg;
 	int status;
 
 	/*
 	 * Reset controller twice to ensure we do a transition from cc.en==1 to
 	 * cc.en==0.  This is because we don't really know what status the
 	 * controller was left in when boot handed off to OS.  Linux doesn't do
 	 * this, however. If we adopt that policy, see also nvme_ctrlr_resume().
 	 */
 	status = nvme_ctrlr_hw_reset(ctrlr);
 	if (status != 0) {
 		nvme_ctrlr_fail(ctrlr);
 		return;
 	}
 
 	status = nvme_ctrlr_hw_reset(ctrlr);
 	if (status != 0) {
 		nvme_ctrlr_fail(ctrlr);
 		return;
 	}
 
 	nvme_qpair_reset(&ctrlr->adminq);
 	nvme_admin_qpair_enable(&ctrlr->adminq);
 
 	if (nvme_ctrlr_set_num_qpairs(ctrlr) == 0 &&
 	    nvme_ctrlr_construct_io_qpairs(ctrlr) == 0)
 		nvme_ctrlr_start(ctrlr, false);
 	else
 		nvme_ctrlr_fail(ctrlr);
 
 	nvme_sysctl_initialize_ctrlr(ctrlr);
 	config_intrhook_disestablish(&ctrlr->config_hook);
 
 	ctrlr->is_initialized = 1;
 	nvme_notify_new_controller(ctrlr);
 }
 
 static void
 nvme_ctrlr_reset_task(void *arg, int pending)
 {
 	struct nvme_controller	*ctrlr = arg;
 	int			status;
 
 	nvme_printf(ctrlr, "resetting controller\n");
 	status = nvme_ctrlr_hw_reset(ctrlr);
 	/*
 	 * Use pause instead of DELAY, so that we yield to any nvme interrupt
 	 *  handlers on this CPU that were blocked on a qpair lock. We want
 	 *  all nvme interrupts completed before proceeding with restarting the
 	 *  controller.
 	 *
 	 * XXX - any way to guarantee the interrupt handlers have quiesced?
 	 */
 	pause("nvmereset", hz / 10);
 	if (status == 0)
 		nvme_ctrlr_start(ctrlr, true);
 	else
 		nvme_ctrlr_fail(ctrlr);
 
 	atomic_cmpset_32(&ctrlr->is_resetting, 1, 0);
 }
 
 /*
  * Poll all the queues enabled on the device for completion.
  */
 void
 nvme_ctrlr_poll(struct nvme_controller *ctrlr)
 {
 	int i;
 
 	nvme_qpair_process_completions(&ctrlr->adminq);
 
 	for (i = 0; i < ctrlr->num_io_queues; i++)
 		if (ctrlr->ioq && ctrlr->ioq[i].cpl)
 			nvme_qpair_process_completions(&ctrlr->ioq[i]);
 }
 
 /*
  * Poll the single-vector interrupt case: num_io_queues will be 1 and
  * there's only a single vector. While we're polling, we mask further
  * interrupts in the controller.
  */
 void
 nvme_ctrlr_intx_handler(void *arg)
 {
 	struct nvme_controller *ctrlr = arg;
 
 	nvme_mmio_write_4(ctrlr, intms, 1);
 	nvme_ctrlr_poll(ctrlr);
 	nvme_mmio_write_4(ctrlr, intmc, 1);
 }
 
 static void
 nvme_pt_done(void *arg, const struct nvme_completion *cpl)
 {
 	struct nvme_pt_command *pt = arg;
 	struct mtx *mtx = pt->driver_lock;
 	uint16_t status;
 
 	bzero(&pt->cpl, sizeof(pt->cpl));
 	pt->cpl.cdw0 = cpl->cdw0;
 
 	status = cpl->status;
 	status &= ~NVME_STATUS_P_MASK;
 	pt->cpl.status = status;
 
 	mtx_lock(mtx);
 	pt->driver_lock = NULL;
 	wakeup(pt);
 	mtx_unlock(mtx);
 }
 
 int
 nvme_ctrlr_passthrough_cmd(struct nvme_controller *ctrlr,
     struct nvme_pt_command *pt, uint32_t nsid, int is_user_buffer,
     int is_admin_cmd)
 {
 	struct nvme_request	*req;
 	struct mtx		*mtx;
 	struct buf		*buf = NULL;
 	int			ret = 0;
 	vm_offset_t		addr, end;
 
 	if (pt->len > 0) {
 		/*
 		 * vmapbuf calls vm_fault_quick_hold_pages which only maps full
 		 * pages. Ensure this request has fewer than MAXPHYS bytes when
 		 * extended to full pages.
 		 */
 		addr = (vm_offset_t)pt->buf;
 		end = round_page(addr + pt->len);
 		addr = trunc_page(addr);
 		if (end - addr > MAXPHYS)
 			return EIO;
 
 		if (pt->len > ctrlr->max_xfer_size) {
 			nvme_printf(ctrlr, "pt->len (%d) "
 			    "exceeds max_xfer_size (%d)\n", pt->len,
 			    ctrlr->max_xfer_size);
 			return EIO;
 		}
 		if (is_user_buffer) {
 			/*
 			 * Ensure the user buffer is wired for the duration of
 			 *  this pass-through command.
 			 */
 			PHOLD(curproc);
 			buf = getpbuf(NULL);
 			buf->b_data = pt->buf;
 			buf->b_bufsize = pt->len;
 			buf->b_iocmd = pt->is_read ? BIO_READ : BIO_WRITE;
 			if (vmapbuf(buf, 1) < 0) {
 				ret = EFAULT;
 				goto err;
 			}
 			req = nvme_allocate_request_vaddr(buf->b_data, pt->len, 
 			    nvme_pt_done, pt);
 		} else
 			req = nvme_allocate_request_vaddr(pt->buf, pt->len,
 			    nvme_pt_done, pt);
 	} else
 		req = nvme_allocate_request_null(nvme_pt_done, pt);
 
 	/* Assume user space already converted to little-endian */
 	req->cmd.opc = pt->cmd.opc;
 	req->cmd.fuse = pt->cmd.fuse;
 	req->cmd.rsvd2 = pt->cmd.rsvd2;
 	req->cmd.rsvd3 = pt->cmd.rsvd3;
 	req->cmd.cdw10 = pt->cmd.cdw10;
 	req->cmd.cdw11 = pt->cmd.cdw11;
 	req->cmd.cdw12 = pt->cmd.cdw12;
 	req->cmd.cdw13 = pt->cmd.cdw13;
 	req->cmd.cdw14 = pt->cmd.cdw14;
 	req->cmd.cdw15 = pt->cmd.cdw15;
 
 	req->cmd.nsid = htole32(nsid);
 
 	mtx = mtx_pool_find(mtxpool_sleep, pt);
 	pt->driver_lock = mtx;
 
 	if (is_admin_cmd)
 		nvme_ctrlr_submit_admin_request(ctrlr, req);
 	else
 		nvme_ctrlr_submit_io_request(ctrlr, req);
 
 	mtx_lock(mtx);
 	while (pt->driver_lock != NULL)
 		mtx_sleep(pt, mtx, PRIBIO, "nvme_pt", 0);
 	mtx_unlock(mtx);
 
 err:
 	if (buf != NULL) {
 		relpbuf(buf, NULL);
 		PRELE(curproc);
 	}
 
 	return (ret);
 }
 
 static int
 nvme_ctrlr_ioctl(struct cdev *cdev, u_long cmd, caddr_t arg, int flag,
     struct thread *td)
 {
 	struct nvme_controller			*ctrlr;
 	struct nvme_pt_command			*pt;
 
 	ctrlr = cdev->si_drv1;
 
 	switch (cmd) {
 	case NVME_RESET_CONTROLLER:
 		nvme_ctrlr_reset(ctrlr);
 		break;
 	case NVME_PASSTHROUGH_CMD:
 		pt = (struct nvme_pt_command *)arg;
 		return (nvme_ctrlr_passthrough_cmd(ctrlr, pt, le32toh(pt->cmd.nsid),
 		    1 /* is_user_buffer */, 1 /* is_admin_cmd */));
 	case NVME_GET_NSID:
 	{
 		struct nvme_get_nsid *gnsid = (struct nvme_get_nsid *)arg;
 		strncpy(gnsid->cdev, device_get_nameunit(ctrlr->dev),
 		    sizeof(gnsid->cdev));
 		gnsid->nsid = 0;
 		break;
 	}
 	default:
 		return (ENOTTY);
 	}
 
 	return (0);
 }
 
 static struct cdevsw nvme_ctrlr_cdevsw = {
 	.d_version =	D_VERSION,
 	.d_flags =	0,
 	.d_ioctl =	nvme_ctrlr_ioctl
 };
 
 int
 nvme_ctrlr_construct(struct nvme_controller *ctrlr, device_t dev)
 {
 	struct make_dev_args	md_args;
 	uint32_t	cap_lo;
 	uint32_t	cap_hi;
 	uint32_t	to;
 	uint8_t		mpsmin;
 	int		status, timeout_period;
 
 	ctrlr->dev = dev;
 
 	mtx_init(&ctrlr->lock, "nvme ctrlr lock", NULL, MTX_DEF);
 	if (bus_get_domain(dev, &ctrlr->domain) != 0)
 		ctrlr->domain = 0;
 
 	cap_hi = nvme_mmio_read_4(ctrlr, cap_hi);
 	ctrlr->dstrd = NVME_CAP_HI_DSTRD(cap_hi) + 2;
 
 	mpsmin = NVME_CAP_HI_MPSMIN(cap_hi);
 	ctrlr->min_page_size = 1 << (12 + mpsmin);
 
 	/* Get ready timeout value from controller, in units of 500ms. */
 	cap_lo = nvme_mmio_read_4(ctrlr, cap_lo);
 	to = NVME_CAP_LO_TO(cap_lo) + 1;
 	ctrlr->ready_timeout_in_ms = to * 500;
 
 	timeout_period = NVME_DEFAULT_TIMEOUT_PERIOD;
 	TUNABLE_INT_FETCH("hw.nvme.timeout_period", &timeout_period);
 	timeout_period = min(timeout_period, NVME_MAX_TIMEOUT_PERIOD);
 	timeout_period = max(timeout_period, NVME_MIN_TIMEOUT_PERIOD);
 	ctrlr->timeout_period = timeout_period;
 
 	nvme_retry_count = NVME_DEFAULT_RETRY_COUNT;
 	TUNABLE_INT_FETCH("hw.nvme.retry_count", &nvme_retry_count);
 
 	ctrlr->enable_aborts = 0;
 	TUNABLE_INT_FETCH("hw.nvme.enable_aborts", &ctrlr->enable_aborts);
 
 	ctrlr->max_xfer_size = NVME_MAX_XFER_SIZE;
 	if (nvme_ctrlr_construct_admin_qpair(ctrlr) != 0)
 		return (ENXIO);
 
 	ctrlr->taskqueue = taskqueue_create("nvme_taskq", M_WAITOK,
 	    taskqueue_thread_enqueue, &ctrlr->taskqueue);
 	taskqueue_start_threads(&ctrlr->taskqueue, 1, PI_DISK, "nvme taskq");
 
 	ctrlr->is_resetting = 0;
 	ctrlr->is_initialized = 0;
 	ctrlr->notification_sent = 0;
 	TASK_INIT(&ctrlr->reset_task, 0, nvme_ctrlr_reset_task, ctrlr);
 	TASK_INIT(&ctrlr->fail_req_task, 0, nvme_ctrlr_fail_req_task, ctrlr);
 	STAILQ_INIT(&ctrlr->fail_req);
 	ctrlr->is_failed = false;
 
 	make_dev_args_init(&md_args);
 	md_args.mda_devsw = &nvme_ctrlr_cdevsw;
 	md_args.mda_uid = UID_ROOT;
 	md_args.mda_gid = GID_WHEEL;
 	md_args.mda_mode = 0600;
 	md_args.mda_unit = device_get_unit(dev);
 	md_args.mda_si_drv1 = (void *)ctrlr;
 	status = make_dev_s(&md_args, &ctrlr->cdev, "nvme%d",
 	    device_get_unit(dev));
 	if (status != 0)
 		return (ENXIO);
 
 	return (0);
 }
 
 void
 nvme_ctrlr_destruct(struct nvme_controller *ctrlr, device_t dev)
 {
 	int	gone, i;
 
 	if (ctrlr->resource == NULL)
 		goto nores;
 
 	/*
 	 * Check whether it is a hot unplug or a clean driver detach.
 	 * If device is not there any more, skip any shutdown commands.
 	 */
 	gone = (nvme_mmio_read_4(ctrlr, csts) == 0xffffffff);
 	if (gone)
 		nvme_ctrlr_fail(ctrlr);
 	else
 		nvme_notify_fail_consumers(ctrlr);
 
 	for (i = 0; i < NVME_MAX_NAMESPACES; i++)
 		nvme_ns_destruct(&ctrlr->ns[i]);
 
 	if (ctrlr->cdev)
 		destroy_dev(ctrlr->cdev);
 
 	if (ctrlr->is_initialized) {
-		if (!gone)
+		if (!gone) {
+			if (ctrlr->hmb_nchunks > 0)
+				nvme_ctrlr_hmb_enable(ctrlr, false, false);
 			nvme_ctrlr_delete_qpairs(ctrlr);
+		}
 		for (i = 0; i < ctrlr->num_io_queues; i++)
 			nvme_io_qpair_destroy(&ctrlr->ioq[i]);
 		free(ctrlr->ioq, M_NVME);
+		nvme_ctrlr_hmb_free(ctrlr);
 		nvme_admin_qpair_destroy(&ctrlr->adminq);
 	}
 
 	/*
 	 *  Notify the controller of a shutdown, even though this is due to
 	 *   a driver unload, not a system shutdown (this path is not invoked
 	 *   during shutdown).  This ensures the controller receives a
 	 *   shutdown notification in case the system is shutdown before
 	 *   reloading the driver.
 	 */
 	if (!gone)
 		nvme_ctrlr_shutdown(ctrlr);
 
 	if (!gone)
 		nvme_ctrlr_disable(ctrlr);
 
 	if (ctrlr->taskqueue)
 		taskqueue_free(ctrlr->taskqueue);
 
 	if (ctrlr->tag)
 		bus_teardown_intr(ctrlr->dev, ctrlr->res, ctrlr->tag);
 
 	if (ctrlr->res)
 		bus_release_resource(ctrlr->dev, SYS_RES_IRQ,
 		    rman_get_rid(ctrlr->res), ctrlr->res);
 
 	if (ctrlr->bar4_resource != NULL) {
 		bus_release_resource(dev, SYS_RES_MEMORY,
 		    ctrlr->bar4_resource_id, ctrlr->bar4_resource);
 	}
 
 	bus_release_resource(dev, SYS_RES_MEMORY,
 	    ctrlr->resource_id, ctrlr->resource);
 
 nores:
 	mtx_destroy(&ctrlr->lock);
 }
 
 void
 nvme_ctrlr_shutdown(struct nvme_controller *ctrlr)
 {
 	uint32_t	cc;
 	uint32_t	csts;
 	int		ticks = 0;
 
 	cc = nvme_mmio_read_4(ctrlr, cc);
 	cc &= ~(NVME_CC_REG_SHN_MASK << NVME_CC_REG_SHN_SHIFT);
 	cc |= NVME_SHN_NORMAL << NVME_CC_REG_SHN_SHIFT;
 	nvme_mmio_write_4(ctrlr, cc, cc);
 
 	while (1) {
 		csts = nvme_mmio_read_4(ctrlr, csts);
 		if (csts == 0xffffffff)		/* Hot unplug. */
 			break;
 		if (NVME_CSTS_GET_SHST(csts) == NVME_SHST_COMPLETE)
 			break;
 		if (ticks++ > 5*hz) {
 			nvme_printf(ctrlr, "did not complete shutdown within"
 			    " 5 seconds of notification\n");
 			break;
 		}
 		pause("nvme shn", 1);
 	}
 }
 
 void
 nvme_ctrlr_submit_admin_request(struct nvme_controller *ctrlr,
     struct nvme_request *req)
 {
 
 	nvme_qpair_submit_request(&ctrlr->adminq, req);
 }
 
 void
 nvme_ctrlr_submit_io_request(struct nvme_controller *ctrlr,
     struct nvme_request *req)
 {
 	struct nvme_qpair       *qpair;
 
 	qpair = &ctrlr->ioq[QP(ctrlr, curcpu)];
 	nvme_qpair_submit_request(qpair, req);
 }
 
 device_t
 nvme_ctrlr_get_device(struct nvme_controller *ctrlr)
 {
 
 	return (ctrlr->dev);
 }
 
 const struct nvme_controller_data *
 nvme_ctrlr_get_data(struct nvme_controller *ctrlr)
 {
 
 	return (&ctrlr->cdata);
 }
 
 int
 nvme_ctrlr_suspend(struct nvme_controller *ctrlr)
 {
 	int to = hz;
 
 	/*
 	 * Can't touch failed controllers, so it's already suspended.
 	 */
 	if (ctrlr->is_failed)
 		return (0);
 
 	/*
 	 * We don't want the reset taskqueue running, since it does similar
 	 * things, so prevent it from running after we start. Wait for any reset
 	 * that may have been started to complete. The reset process we follow
 	 * will ensure that any new I/O will queue and be given to the hardware
 	 * after we resume (though there should be none).
 	 */
 	while (atomic_cmpset_32(&ctrlr->is_resetting, 0, 1) == 0 && to-- > 0)
 		pause("nvmesusp", 1);
 	if (to <= 0) {
 		nvme_printf(ctrlr,
 		    "Competing reset task didn't finish. Try again later.\n");
 		return (EWOULDBLOCK);
 	}
+
+	if (ctrlr->hmb_nchunks > 0)
+		nvme_ctrlr_hmb_enable(ctrlr, false, false);
 
 	/*
 	 * Per Section 7.6.2 of NVMe spec 1.4, to properly suspend, we need to
 	 * delete the hardware I/O queues, and then shutdown. This properly
 	 * flushes any metadata the drive may have stored so it can survive
 	 * having its power removed and prevents the unsafe shutdown count from
 	 * incriminating. Once we delete the qpairs, we have to disable them
 	 * before shutting down. The delay is out of paranoia in
 	 * nvme_ctrlr_hw_reset, and is repeated here (though we should have no
 	 * pending I/O that the delay copes with).
 	 */
 	nvme_ctrlr_delete_qpairs(ctrlr);
 	nvme_ctrlr_disable_qpairs(ctrlr);
 	DELAY(100*1000);
 	nvme_ctrlr_shutdown(ctrlr);
 
 	return (0);
 }
 
 int
 nvme_ctrlr_resume(struct nvme_controller *ctrlr)
 {
 
 	/*
 	 * Can't touch failed controllers, so nothing to do to resume.
 	 */
 	if (ctrlr->is_failed)
 		return (0);
 
 	/*
 	 * Have to reset the hardware twice, just like we do on attach. See
 	 * nmve_attach() for why.
 	 */
 	if (nvme_ctrlr_hw_reset(ctrlr) != 0)
 		goto fail;
 	if (nvme_ctrlr_hw_reset(ctrlr) != 0)
 		goto fail;
 
 	/*
 	 * Now that we're reset the hardware, we can restart the controller. Any
 	 * I/O that was pending is requeued. Any admin commands are aborted with
 	 * an error. Once we've restarted, take the controller out of reset.
 	 */
 	nvme_ctrlr_start(ctrlr, true);
 	atomic_cmpset_32(&ctrlr->is_resetting, 1, 0);
 
 	return (0);
 fail:
 	/*
 	 * Since we can't bring the controller out of reset, announce and fail
 	 * the controller. However, we have to return success for the resume
 	 * itself, due to questionable APIs.
 	 */
 	nvme_printf(ctrlr, "Failed to reset on resume, failing.\n");
 	nvme_ctrlr_fail(ctrlr);
 	atomic_cmpset_32(&ctrlr->is_resetting, 1, 0);
 	return (0);
 }
Index: stable/12/sys/dev/nvme/nvme_ctrlr_cmd.c
===================================================================
--- stable/12/sys/dev/nvme/nvme_ctrlr_cmd.c	(revision 356960)
+++ stable/12/sys/dev/nvme/nvme_ctrlr_cmd.c	(revision 356961)
@@ -1,326 +1,331 @@
 /*-
  * SPDX-License-Identifier: BSD-2-Clause-FreeBSD
  *
  * Copyright (C) 2012-2013 Intel Corporation
  * All rights reserved.
  *
  * Redistribution and use in source and binary forms, with or without
  * modification, are permitted provided that the following conditions
  * are met:
  * 1. Redistributions of source code must retain the above copyright
  *    notice, this list of conditions and the following disclaimer.
  * 2. Redistributions in binary form must reproduce the above copyright
  *    notice, this list of conditions and the following disclaimer in the
  *    documentation and/or other materials provided with the distribution.
  *
  * THIS SOFTWARE IS PROVIDED BY THE AUTHOR AND CONTRIBUTORS ``AS IS'' AND
  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
  * ARE DISCLAIMED.  IN NO EVENT SHALL THE AUTHOR OR CONTRIBUTORS BE LIABLE
  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  * SUCH DAMAGE.
  */
 
 #include <sys/cdefs.h>
 __FBSDID("$FreeBSD$");
 
 #include "nvme_private.h"
 
 void
 nvme_ctrlr_cmd_identify_controller(struct nvme_controller *ctrlr, void *payload,
 	nvme_cb_fn_t cb_fn, void *cb_arg)
 {
 	struct nvme_request *req;
 	struct nvme_command *cmd;
 
 	req = nvme_allocate_request_vaddr(payload,
 	    sizeof(struct nvme_controller_data), cb_fn, cb_arg);
 
 	cmd = &req->cmd;
 	cmd->opc = NVME_OPC_IDENTIFY;
 
 	/*
 	 * TODO: create an identify command data structure, which
 	 *  includes this CNS bit in cdw10.
 	 */
 	cmd->cdw10 = htole32(1);
 
 	nvme_ctrlr_submit_admin_request(ctrlr, req);
 }
 
 void
 nvme_ctrlr_cmd_identify_namespace(struct nvme_controller *ctrlr, uint32_t nsid,
 	void *payload, nvme_cb_fn_t cb_fn, void *cb_arg)
 {
 	struct nvme_request *req;
 	struct nvme_command *cmd;
 
 	req = nvme_allocate_request_vaddr(payload,
 	    sizeof(struct nvme_namespace_data), cb_fn, cb_arg);
 
 	cmd = &req->cmd;
 	cmd->opc = NVME_OPC_IDENTIFY;
 
 	/*
 	 * TODO: create an identify command data structure
 	 */
 	cmd->nsid = htole32(nsid);
 
 	nvme_ctrlr_submit_admin_request(ctrlr, req);
 }
 
 void
 nvme_ctrlr_cmd_create_io_cq(struct nvme_controller *ctrlr,
     struct nvme_qpair *io_que, nvme_cb_fn_t cb_fn, void *cb_arg)
 {
 	struct nvme_request *req;
 	struct nvme_command *cmd;
 
 	req = nvme_allocate_request_null(cb_fn, cb_arg);
 
 	cmd = &req->cmd;
 	cmd->opc = NVME_OPC_CREATE_IO_CQ;
 
 	/*
 	 * TODO: create a create io completion queue command data
 	 *  structure.
 	 */
 	cmd->cdw10 = htole32(((io_que->num_entries-1) << 16) | io_que->id);
 	/* 0x3 = interrupts enabled | physically contiguous */
 	cmd->cdw11 = htole32((io_que->vector << 16) | 0x3);
 	cmd->prp1 = htole64(io_que->cpl_bus_addr);
 
 	nvme_ctrlr_submit_admin_request(ctrlr, req);
 }
 
 void
 nvme_ctrlr_cmd_create_io_sq(struct nvme_controller *ctrlr,
     struct nvme_qpair *io_que, nvme_cb_fn_t cb_fn, void *cb_arg)
 {
 	struct nvme_request *req;
 	struct nvme_command *cmd;
 
 	req = nvme_allocate_request_null(cb_fn, cb_arg);
 
 	cmd = &req->cmd;
 	cmd->opc = NVME_OPC_CREATE_IO_SQ;
 
 	/*
 	 * TODO: create a create io submission queue command data
 	 *  structure.
 	 */
 	cmd->cdw10 = htole32(((io_que->num_entries-1) << 16) | io_que->id);
 	/* 0x1 = physically contiguous */
 	cmd->cdw11 = htole32((io_que->id << 16) | 0x1);
 	cmd->prp1 = htole64(io_que->cmd_bus_addr);
 
 	nvme_ctrlr_submit_admin_request(ctrlr, req);
 }
 
 void
 nvme_ctrlr_cmd_delete_io_cq(struct nvme_controller *ctrlr,
     struct nvme_qpair *io_que, nvme_cb_fn_t cb_fn, void *cb_arg)
 {
 	struct nvme_request *req;
 	struct nvme_command *cmd;
 
 	req = nvme_allocate_request_null(cb_fn, cb_arg);
 
 	cmd = &req->cmd;
 	cmd->opc = NVME_OPC_DELETE_IO_CQ;
 
 	/*
 	 * TODO: create a delete io completion queue command data
 	 *  structure.
 	 */
 	cmd->cdw10 = htole32(io_que->id);
 
 	nvme_ctrlr_submit_admin_request(ctrlr, req);
 }
 
 void
 nvme_ctrlr_cmd_delete_io_sq(struct nvme_controller *ctrlr,
     struct nvme_qpair *io_que, nvme_cb_fn_t cb_fn, void *cb_arg)
 {
 	struct nvme_request *req;
 	struct nvme_command *cmd;
 
 	req = nvme_allocate_request_null(cb_fn, cb_arg);
 
 	cmd = &req->cmd;
 	cmd->opc = NVME_OPC_DELETE_IO_SQ;
 
 	/*
 	 * TODO: create a delete io submission queue command data
 	 *  structure.
 	 */
 	cmd->cdw10 = htole32(io_que->id);
 
 	nvme_ctrlr_submit_admin_request(ctrlr, req);
 }
 
 void
 nvme_ctrlr_cmd_set_feature(struct nvme_controller *ctrlr, uint8_t feature,
-    uint32_t cdw11, void *payload, uint32_t payload_size,
+    uint32_t cdw11, uint32_t cdw12, uint32_t cdw13, uint32_t cdw14,
+    uint32_t cdw15, void *payload, uint32_t payload_size,
     nvme_cb_fn_t cb_fn, void *cb_arg)
 {
 	struct nvme_request *req;
 	struct nvme_command *cmd;
 
 	req = nvme_allocate_request_null(cb_fn, cb_arg);
 
 	cmd = &req->cmd;
 	cmd->opc = NVME_OPC_SET_FEATURES;
 	cmd->cdw10 = htole32(feature);
 	cmd->cdw11 = htole32(cdw11);
+	cmd->cdw12 = htole32(cdw12);
+	cmd->cdw13 = htole32(cdw13);
+	cmd->cdw14 = htole32(cdw14);
+	cmd->cdw15 = htole32(cdw15);
 
 	nvme_ctrlr_submit_admin_request(ctrlr, req);
 }
 
 void
 nvme_ctrlr_cmd_get_feature(struct nvme_controller *ctrlr, uint8_t feature,
     uint32_t cdw11, void *payload, uint32_t payload_size,
     nvme_cb_fn_t cb_fn, void *cb_arg)
 {
 	struct nvme_request *req;
 	struct nvme_command *cmd;
 
 	req = nvme_allocate_request_null(cb_fn, cb_arg);
 
 	cmd = &req->cmd;
 	cmd->opc = NVME_OPC_GET_FEATURES;
 	cmd->cdw10 = htole32(feature);
 	cmd->cdw11 = htole32(cdw11);
 
 	nvme_ctrlr_submit_admin_request(ctrlr, req);
 }
 
 void
 nvme_ctrlr_cmd_set_num_queues(struct nvme_controller *ctrlr,
     uint32_t num_queues, nvme_cb_fn_t cb_fn, void *cb_arg)
 {
 	uint32_t cdw11;
 
 	cdw11 = ((num_queues - 1) << 16) | (num_queues - 1);
 	nvme_ctrlr_cmd_set_feature(ctrlr, NVME_FEAT_NUMBER_OF_QUEUES, cdw11,
-	    NULL, 0, cb_fn, cb_arg);
+	    0, 0, 0, 0, NULL, 0, cb_fn, cb_arg);
 }
 
 void
 nvme_ctrlr_cmd_set_async_event_config(struct nvme_controller *ctrlr,
     uint32_t state, nvme_cb_fn_t cb_fn, void *cb_arg)
 {
 	uint32_t cdw11;
 
 	cdw11 = state;
 	nvme_ctrlr_cmd_set_feature(ctrlr,
-	    NVME_FEAT_ASYNC_EVENT_CONFIGURATION, cdw11, NULL, 0, cb_fn,
-	    cb_arg);
+	    NVME_FEAT_ASYNC_EVENT_CONFIGURATION, cdw11, 0, 0, 0, 0, NULL, 0,
+	    cb_fn, cb_arg);
 }
 
 void
 nvme_ctrlr_cmd_set_interrupt_coalescing(struct nvme_controller *ctrlr,
     uint32_t microseconds, uint32_t threshold, nvme_cb_fn_t cb_fn, void *cb_arg)
 {
 	uint32_t cdw11;
 
 	if ((microseconds/100) >= 0x100) {
 		nvme_printf(ctrlr, "invalid coal time %d, disabling\n",
 		    microseconds);
 		microseconds = 0;
 		threshold = 0;
 	}
 
 	if (threshold >= 0x100) {
 		nvme_printf(ctrlr, "invalid threshold %d, disabling\n",
 		    threshold);
 		threshold = 0;
 		microseconds = 0;
 	}
 
 	cdw11 = ((microseconds/100) << 8) | threshold;
 	nvme_ctrlr_cmd_set_feature(ctrlr, NVME_FEAT_INTERRUPT_COALESCING, cdw11,
-	    NULL, 0, cb_fn, cb_arg);
+	    0, 0, 0, 0, NULL, 0, cb_fn, cb_arg);
 }
 
 void
 nvme_ctrlr_cmd_get_log_page(struct nvme_controller *ctrlr, uint8_t log_page,
     uint32_t nsid, void *payload, uint32_t payload_size, nvme_cb_fn_t cb_fn,
     void *cb_arg)
 {
 	struct nvme_request *req;
 	struct nvme_command *cmd;
 
 	req = nvme_allocate_request_vaddr(payload, payload_size, cb_fn, cb_arg);
 
 	cmd = &req->cmd;
 	cmd->opc = NVME_OPC_GET_LOG_PAGE;
 	cmd->nsid = htole32(nsid);
 	cmd->cdw10 = ((payload_size/sizeof(uint32_t)) - 1) << 16;
 	cmd->cdw10 |= log_page;
 	cmd->cdw10 = htole32(cmd->cdw10);
 
 	nvme_ctrlr_submit_admin_request(ctrlr, req);
 }
 
 void
 nvme_ctrlr_cmd_get_error_page(struct nvme_controller *ctrlr,
     struct nvme_error_information_entry *payload, uint32_t num_entries,
     nvme_cb_fn_t cb_fn, void *cb_arg)
 {
 
 	KASSERT(num_entries > 0, ("%s called with num_entries==0\n", __func__));
 
 	/* Controller's error log page entries is 0-based. */
 	KASSERT(num_entries <= (ctrlr->cdata.elpe + 1),
 	    ("%s called with num_entries=%d but (elpe+1)=%d\n", __func__,
 	    num_entries, ctrlr->cdata.elpe + 1));
 
 	if (num_entries > (ctrlr->cdata.elpe + 1))
 		num_entries = ctrlr->cdata.elpe + 1;
 
 	nvme_ctrlr_cmd_get_log_page(ctrlr, NVME_LOG_ERROR,
 	    NVME_GLOBAL_NAMESPACE_TAG, payload, sizeof(*payload) * num_entries,
 	    cb_fn, cb_arg);
 }
 
 void
 nvme_ctrlr_cmd_get_health_information_page(struct nvme_controller *ctrlr,
     uint32_t nsid, struct nvme_health_information_page *payload,
     nvme_cb_fn_t cb_fn, void *cb_arg)
 {
 
 	nvme_ctrlr_cmd_get_log_page(ctrlr, NVME_LOG_HEALTH_INFORMATION,
 	    nsid, payload, sizeof(*payload), cb_fn, cb_arg);
 }
 
 void
 nvme_ctrlr_cmd_get_firmware_page(struct nvme_controller *ctrlr,
     struct nvme_firmware_page *payload, nvme_cb_fn_t cb_fn, void *cb_arg)
 {
 
 	nvme_ctrlr_cmd_get_log_page(ctrlr, NVME_LOG_FIRMWARE_SLOT, 
 	    NVME_GLOBAL_NAMESPACE_TAG, payload, sizeof(*payload), cb_fn,
 	    cb_arg);
 }
 
 void
 nvme_ctrlr_cmd_abort(struct nvme_controller *ctrlr, uint16_t cid,
     uint16_t sqid, nvme_cb_fn_t cb_fn, void *cb_arg)
 {
 	struct nvme_request *req;
 	struct nvme_command *cmd;
 
 	req = nvme_allocate_request_null(cb_fn, cb_arg);
 
 	cmd = &req->cmd;
 	cmd->opc = NVME_OPC_ABORT;
 	cmd->cdw10 = htole32((cid << 16) | sqid);
 
 	nvme_ctrlr_submit_admin_request(ctrlr, req);
 }
Index: stable/12/sys/dev/nvme/nvme_private.h
===================================================================
--- stable/12/sys/dev/nvme/nvme_private.h	(revision 356960)
+++ stable/12/sys/dev/nvme/nvme_private.h	(revision 356961)
@@ -1,564 +1,575 @@
 /*-
  * SPDX-License-Identifier: BSD-2-Clause-FreeBSD
  *
  * Copyright (C) 2012-2014 Intel Corporation
  * All rights reserved.
  *
  * Redistribution and use in source and binary forms, with or without
  * modification, are permitted provided that the following conditions
  * are met:
  * 1. Redistributions of source code must retain the above copyright
  *    notice, this list of conditions and the following disclaimer.
  * 2. Redistributions in binary form must reproduce the above copyright
  *    notice, this list of conditions and the following disclaimer in the
  *    documentation and/or other materials provided with the distribution.
  *
  * THIS SOFTWARE IS PROVIDED BY THE AUTHOR AND CONTRIBUTORS ``AS IS'' AND
  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
  * ARE DISCLAIMED.  IN NO EVENT SHALL THE AUTHOR OR CONTRIBUTORS BE LIABLE
  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  * SUCH DAMAGE.
  *
  * $FreeBSD$
  */
 
 #ifndef __NVME_PRIVATE_H__
 #define __NVME_PRIVATE_H__
 
 #include <sys/param.h>
 #include <sys/bio.h>
 #include <sys/bus.h>
 #include <sys/kernel.h>
 #include <sys/lock.h>
 #include <sys/malloc.h>
 #include <sys/module.h>
 #include <sys/mutex.h>
 #include <sys/rman.h>
 #include <sys/systm.h>
 #include <sys/taskqueue.h>
 
 #include <vm/uma.h>
 
 #include <machine/bus.h>
 
 #include "nvme.h"
 
 #define DEVICE2SOFTC(dev) ((struct nvme_controller *) device_get_softc(dev))
 
 MALLOC_DECLARE(M_NVME);
 
 #define IDT32_PCI_ID		0x80d0111d /* 32 channel board */
 #define IDT8_PCI_ID		0x80d2111d /* 8 channel board */
 
 /*
  * For commands requiring more than 2 PRP entries, one PRP will be
  *  embedded in the command (prp1), and the rest of the PRP entries
  *  will be in a list pointed to by the command (prp2).  This means
  *  that real max number of PRP entries we support is 32+1, which
  *  results in a max xfer size of 32*PAGE_SIZE.
  */
 #define NVME_MAX_PRP_LIST_ENTRIES	(NVME_MAX_XFER_SIZE / PAGE_SIZE)
 
 #define NVME_ADMIN_TRACKERS	(16)
 #define NVME_ADMIN_ENTRIES	(128)
 /* min and max are defined in admin queue attributes section of spec */
 #define NVME_MIN_ADMIN_ENTRIES	(2)
 #define NVME_MAX_ADMIN_ENTRIES	(4096)
 
 /*
  * NVME_IO_ENTRIES defines the size of an I/O qpair's submission and completion
  *  queues, while NVME_IO_TRACKERS defines the maximum number of I/O that we
  *  will allow outstanding on an I/O qpair at any time.  The only advantage in
  *  having IO_ENTRIES > IO_TRACKERS is for debugging purposes - when dumping
  *  the contents of the submission and completion queues, it will show a longer
  *  history of data.
  */
 #define NVME_IO_ENTRIES		(256)
 #define NVME_IO_TRACKERS	(128)
 #define NVME_MIN_IO_TRACKERS	(4)
 #define NVME_MAX_IO_TRACKERS	(1024)
 
 /*
  * NVME_MAX_IO_ENTRIES is not defined, since it is specified in CC.MQES
  *  for each controller.
  */
 
 #define NVME_INT_COAL_TIME	(0)	/* disabled */
 #define NVME_INT_COAL_THRESHOLD (0)	/* 0-based */
 
 #define NVME_MAX_NAMESPACES	(16)
 #define NVME_MAX_CONSUMERS	(2)
 #define NVME_MAX_ASYNC_EVENTS	(8)
 
 #define NVME_DEFAULT_TIMEOUT_PERIOD	(30)    /* in seconds */
 #define NVME_MIN_TIMEOUT_PERIOD		(5)
 #define NVME_MAX_TIMEOUT_PERIOD		(120)
 
 #define NVME_DEFAULT_RETRY_COUNT	(4)
 
 /* Maximum log page size to fetch for AERs. */
 #define NVME_MAX_AER_LOG_SIZE		(4096)
 
 /*
  * Define CACHE_LINE_SIZE here for older FreeBSD versions that do not define
  *  it.
  */
 #ifndef CACHE_LINE_SIZE
 #define CACHE_LINE_SIZE		(64)
 #endif
 
 extern uma_zone_t	nvme_request_zone;
 extern int32_t		nvme_retry_count;
 extern bool		nvme_verbose_cmd_dump;
 
 struct nvme_completion_poll_status {
 
 	struct nvme_completion	cpl;
 	int			done;
 };
 
 extern devclass_t nvme_devclass;
 
 #define NVME_REQUEST_VADDR	1
 #define NVME_REQUEST_NULL	2 /* For requests with no payload. */
 #define NVME_REQUEST_UIO	3
 #define NVME_REQUEST_BIO	4
 #define NVME_REQUEST_CCB        5
 
 struct nvme_request {
 
 	struct nvme_command		cmd;
 	struct nvme_qpair		*qpair;
 	union {
 		void			*payload;
 		struct bio		*bio;
 	} u;
 	uint32_t			type;
 	uint32_t			payload_size;
 	bool				timeout;
 	nvme_cb_fn_t			cb_fn;
 	void				*cb_arg;
 	int32_t				retries;
 	STAILQ_ENTRY(nvme_request)	stailq;
 };
 
 struct nvme_async_event_request {
 
 	struct nvme_controller		*ctrlr;
 	struct nvme_request		*req;
 	struct nvme_completion		cpl;
 	uint32_t			log_page_id;
 	uint32_t			log_page_size;
 	uint8_t				log_page_buffer[NVME_MAX_AER_LOG_SIZE];
 };
 
 struct nvme_tracker {
 
 	TAILQ_ENTRY(nvme_tracker)	tailq;
 	struct nvme_request		*req;
 	struct nvme_qpair		*qpair;
 	struct callout			timer;
 	bus_dmamap_t			payload_dma_map;
 	uint16_t			cid;
 
 	uint64_t			*prp;
 	bus_addr_t			prp_bus_addr;
 };
 
 struct nvme_qpair {
 
 	struct nvme_controller	*ctrlr;
 	uint32_t		id;
 	int			domain;
 	int			cpu;
 
 	uint16_t		vector;
 	int			rid;
 	struct resource		*res;
 	void 			*tag;
 
 	uint32_t		num_entries;
 	uint32_t		num_trackers;
 	uint32_t		sq_tdbl_off;
 	uint32_t		cq_hdbl_off;
 
 	uint32_t		phase;
 	uint32_t		sq_head;
 	uint32_t		sq_tail;
 	uint32_t		cq_head;
 
 	int64_t			num_cmds;
 	int64_t			num_intr_handler_calls;
 	int64_t			num_retries;
 	int64_t			num_failures;
 
 	struct nvme_command	*cmd;
 	struct nvme_completion	*cpl;
 
 	bus_dma_tag_t		dma_tag;
 	bus_dma_tag_t		dma_tag_payload;
 
 	bus_dmamap_t		queuemem_map;
 	uint64_t		cmd_bus_addr;
 	uint64_t		cpl_bus_addr;
 
 	TAILQ_HEAD(, nvme_tracker)	free_tr;
 	TAILQ_HEAD(, nvme_tracker)	outstanding_tr;
 	STAILQ_HEAD(, nvme_request)	queued_req;
 
 	struct nvme_tracker	**act_tr;
 
 	bool			is_enabled;
 
 	struct mtx		lock __aligned(CACHE_LINE_SIZE);
 
 } __aligned(CACHE_LINE_SIZE);
 
 struct nvme_namespace {
 
 	struct nvme_controller		*ctrlr;
 	struct nvme_namespace_data	data;
 	uint32_t			id;
 	uint32_t			flags;
 	struct cdev			*cdev;
 	void				*cons_cookie[NVME_MAX_CONSUMERS];
 	uint32_t			boundary;
 	struct mtx			lock;
 };
 
 /*
  * One of these per allocated PCI device.
  */
 struct nvme_controller {
 
 	device_t		dev;
 
 	struct mtx		lock;
 	int			domain;
 	uint32_t		ready_timeout_in_ms;
 	uint32_t		quirks;
 #define	QUIRK_DELAY_B4_CHK_RDY	1		/* Can't touch MMIO on disable */
 #define	QUIRK_DISABLE_TIMEOUT	2		/* Disable broken completion timeout feature */
 
 	bus_space_tag_t		bus_tag;
 	bus_space_handle_t	bus_handle;
 	int			resource_id;
 	struct resource		*resource;
 
 	/*
 	 * The NVMe spec allows for the MSI-X table to be placed in BAR 4/5,
 	 *  separate from the control registers which are in BAR 0/1.  These
 	 *  members track the mapping of BAR 4/5 for that reason.
 	 */
 	int			bar4_resource_id;
 	struct resource		*bar4_resource;
 
 	uint32_t		msix_enabled;
 	uint32_t		enable_aborts;
 
 	uint32_t		num_io_queues;
 	uint32_t		max_hw_pend_io;
 
 	/* Fields for tracking progress during controller initialization. */
 	struct intr_config_hook	config_hook;
 	uint32_t		ns_identified;
 	uint32_t		queues_created;
 
 	struct task		reset_task;
 	struct task		fail_req_task;
 	struct taskqueue	*taskqueue;
 
 	/* For shared legacy interrupt. */
 	int			rid;
 	struct resource		*res;
 	void			*tag;
 
-	bus_dma_tag_t		hw_desc_tag;
-	bus_dmamap_t		hw_desc_map;
-
 	/** maximum i/o size in bytes */
 	uint32_t		max_xfer_size;
 
 	/** minimum page size supported by this controller in bytes */
 	uint32_t		min_page_size;
 
 	/** interrupt coalescing time period (in microseconds) */
 	uint32_t		int_coal_time;
 
 	/** interrupt coalescing threshold */
 	uint32_t		int_coal_threshold;
 
 	/** timeout period in seconds */
 	uint32_t		timeout_period;
 
 	/** doorbell stride */
 	uint32_t		dstrd;
 
 	struct nvme_qpair	adminq;
 	struct nvme_qpair	*ioq;
 
 	struct nvme_registers		*regs;
 
 	struct nvme_controller_data	cdata;
 	struct nvme_namespace		ns[NVME_MAX_NAMESPACES];
 
 	struct cdev			*cdev;
 
 	/** bit mask of event types currently enabled for async events */
 	uint32_t			async_event_config;
 
 	uint32_t			num_aers;
 	struct nvme_async_event_request	aer[NVME_MAX_ASYNC_EVENTS];
 
 	void				*cons_cookie[NVME_MAX_CONSUMERS];
 
 	uint32_t			is_resetting;
 	uint32_t			is_initialized;
 	uint32_t			notification_sent;
 
 	bool				is_failed;
 	STAILQ_HEAD(, nvme_request)	fail_req;
+
+	/* Host Memory Buffer */
+	int				hmb_nchunks;
+	size_t				hmb_chunk;
+	bus_dma_tag_t			hmb_tag;
+	struct nvme_hmb_chunk {
+		bus_dmamap_t		hmbc_map;
+		void			*hmbc_vaddr;
+		uint64_t		hmbc_paddr;
+	} *hmb_chunks;
+	bus_dma_tag_t			hmb_desc_tag;
+	bus_dmamap_t			hmb_desc_map;
+	struct nvme_hmb_desc		*hmb_desc_vaddr;
+	uint64_t			hmb_desc_paddr;
 };
 
 #define nvme_mmio_offsetof(reg)						       \
 	offsetof(struct nvme_registers, reg)
 
 #define nvme_mmio_read_4(sc, reg)					       \
 	bus_space_read_4((sc)->bus_tag, (sc)->bus_handle,		       \
 	    nvme_mmio_offsetof(reg))
 
 #define nvme_mmio_write_4(sc, reg, val)					       \
 	bus_space_write_4((sc)->bus_tag, (sc)->bus_handle,		       \
 	    nvme_mmio_offsetof(reg), val)
 
 #define nvme_mmio_write_8(sc, reg, val)					       \
 	do {								       \
 		bus_space_write_4((sc)->bus_tag, (sc)->bus_handle,	       \
 		    nvme_mmio_offsetof(reg), val & 0xFFFFFFFF); 	       \
 		bus_space_write_4((sc)->bus_tag, (sc)->bus_handle,	       \
 		    nvme_mmio_offsetof(reg)+4,				       \
 		    (val & 0xFFFFFFFF00000000ULL) >> 32);		       \
 	} while (0);
 
 #define nvme_printf(ctrlr, fmt, args...)	\
     device_printf(ctrlr->dev, fmt, ##args)
 
 void	nvme_ns_test(struct nvme_namespace *ns, u_long cmd, caddr_t arg);
 
 void	nvme_ctrlr_cmd_identify_controller(struct nvme_controller *ctrlr,
 					   void *payload,
 					   nvme_cb_fn_t cb_fn, void *cb_arg);
 void	nvme_ctrlr_cmd_identify_namespace(struct nvme_controller *ctrlr,
 					  uint32_t nsid, void *payload,
 					  nvme_cb_fn_t cb_fn, void *cb_arg);
 void	nvme_ctrlr_cmd_set_interrupt_coalescing(struct nvme_controller *ctrlr,
 						uint32_t microseconds,
 						uint32_t threshold,
 						nvme_cb_fn_t cb_fn,
 						void *cb_arg);
 void	nvme_ctrlr_cmd_get_error_page(struct nvme_controller *ctrlr,
 				      struct nvme_error_information_entry *payload,
 				      uint32_t num_entries, /* 0 = max */
 				      nvme_cb_fn_t cb_fn,
 				      void *cb_arg);
 void	nvme_ctrlr_cmd_get_health_information_page(struct nvme_controller *ctrlr,
 						   uint32_t nsid,
 						   struct nvme_health_information_page *payload,
 						   nvme_cb_fn_t cb_fn,
 						   void *cb_arg);
 void	nvme_ctrlr_cmd_get_firmware_page(struct nvme_controller *ctrlr,
 					 struct nvme_firmware_page *payload,
 					 nvme_cb_fn_t cb_fn,
 					 void *cb_arg);
 void	nvme_ctrlr_cmd_create_io_cq(struct nvme_controller *ctrlr,
 				    struct nvme_qpair *io_que,
 				    nvme_cb_fn_t cb_fn, void *cb_arg);
 void	nvme_ctrlr_cmd_create_io_sq(struct nvme_controller *ctrlr,
 				    struct nvme_qpair *io_que,
 				    nvme_cb_fn_t cb_fn, void *cb_arg);
 void	nvme_ctrlr_cmd_delete_io_cq(struct nvme_controller *ctrlr,
 				    struct nvme_qpair *io_que,
 				    nvme_cb_fn_t cb_fn, void *cb_arg);
 void	nvme_ctrlr_cmd_delete_io_sq(struct nvme_controller *ctrlr,
 				    struct nvme_qpair *io_que,
 				    nvme_cb_fn_t cb_fn, void *cb_arg);
 void	nvme_ctrlr_cmd_set_num_queues(struct nvme_controller *ctrlr,
 				      uint32_t num_queues, nvme_cb_fn_t cb_fn,
 				      void *cb_arg);
 void	nvme_ctrlr_cmd_set_async_event_config(struct nvme_controller *ctrlr,
 					      uint32_t state,
 					      nvme_cb_fn_t cb_fn, void *cb_arg);
 void	nvme_ctrlr_cmd_abort(struct nvme_controller *ctrlr, uint16_t cid,
 			     uint16_t sqid, nvme_cb_fn_t cb_fn, void *cb_arg);
 
 void	nvme_completion_poll_cb(void *arg, const struct nvme_completion *cpl);
 
 int	nvme_ctrlr_construct(struct nvme_controller *ctrlr, device_t dev);
 void	nvme_ctrlr_destruct(struct nvme_controller *ctrlr, device_t dev);
 void	nvme_ctrlr_shutdown(struct nvme_controller *ctrlr);
 int	nvme_ctrlr_hw_reset(struct nvme_controller *ctrlr);
 void	nvme_ctrlr_reset(struct nvme_controller *ctrlr);
 /* ctrlr defined as void * to allow use with config_intrhook. */
 void	nvme_ctrlr_start_config_hook(void *ctrlr_arg);
 void	nvme_ctrlr_submit_admin_request(struct nvme_controller *ctrlr,
 					struct nvme_request *req);
 void	nvme_ctrlr_submit_io_request(struct nvme_controller *ctrlr,
 				     struct nvme_request *req);
 void	nvme_ctrlr_post_failed_request(struct nvme_controller *ctrlr,
 				       struct nvme_request *req);
 
 int	nvme_qpair_construct(struct nvme_qpair *qpair,
 			     uint32_t num_entries, uint32_t num_trackers,
 			     struct nvme_controller *ctrlr);
 void	nvme_qpair_submit_tracker(struct nvme_qpair *qpair,
 				  struct nvme_tracker *tr);
 bool	nvme_qpair_process_completions(struct nvme_qpair *qpair);
 void	nvme_qpair_submit_request(struct nvme_qpair *qpair,
 				  struct nvme_request *req);
 void	nvme_qpair_reset(struct nvme_qpair *qpair);
 void	nvme_qpair_fail(struct nvme_qpair *qpair);
 void	nvme_qpair_manual_complete_request(struct nvme_qpair *qpair,
 					   struct nvme_request *req,
                                            uint32_t sct, uint32_t sc);
 
 void	nvme_admin_qpair_enable(struct nvme_qpair *qpair);
 void	nvme_admin_qpair_disable(struct nvme_qpair *qpair);
 void	nvme_admin_qpair_destroy(struct nvme_qpair *qpair);
 
 void	nvme_io_qpair_enable(struct nvme_qpair *qpair);
 void	nvme_io_qpair_disable(struct nvme_qpair *qpair);
 void	nvme_io_qpair_destroy(struct nvme_qpair *qpair);
 
 int	nvme_ns_construct(struct nvme_namespace *ns, uint32_t id,
 			  struct nvme_controller *ctrlr);
 void	nvme_ns_destruct(struct nvme_namespace *ns);
 
 void	nvme_sysctl_initialize_ctrlr(struct nvme_controller *ctrlr);
 
 void	nvme_dump_command(struct nvme_command *cmd);
 void	nvme_dump_completion(struct nvme_completion *cpl);
 
 int	nvme_attach(device_t dev);
 int	nvme_shutdown(device_t dev);
 int	nvme_detach(device_t dev);
 
 /*
  * Wait for a command to complete using the nvme_completion_poll_cb.
  * Used in limited contexts where the caller knows it's OK to block
  * briefly while the command runs. The ISR will run the callback which
  * will set status->done to true.usually within microseconds. A 1s
  * pause means something is seriously AFU and we should panic to
  * provide the proper context to diagnose.
  */
 static __inline
 void
 nvme_completion_poll(struct nvme_completion_poll_status *status)
 {
 	int sanity = hz * 1;
 
 	while (!atomic_load_acq_int(&status->done) && --sanity > 0)
 		pause("nvme", 1);
 	if (sanity <= 0)
 		panic("NVME polled command failed to complete within 1s.");
 }
 
 static __inline void
 nvme_single_map(void *arg, bus_dma_segment_t *seg, int nseg, int error)
 {
 	uint64_t *bus_addr = (uint64_t *)arg;
 
 	if (error != 0)
 		printf("nvme_single_map err %d\n", error);
 	*bus_addr = seg[0].ds_addr;
 }
 
 static __inline struct nvme_request *
 _nvme_allocate_request(nvme_cb_fn_t cb_fn, void *cb_arg)
 {
 	struct nvme_request *req;
 
 	req = uma_zalloc(nvme_request_zone, M_NOWAIT | M_ZERO);
 	if (req != NULL) {
 		req->cb_fn = cb_fn;
 		req->cb_arg = cb_arg;
 		req->timeout = true;
 	}
 	return (req);
 }
 
 static __inline struct nvme_request *
 nvme_allocate_request_vaddr(void *payload, uint32_t payload_size,
     nvme_cb_fn_t cb_fn, void *cb_arg)
 {
 	struct nvme_request *req;
 
 	req = _nvme_allocate_request(cb_fn, cb_arg);
 	if (req != NULL) {
 		req->type = NVME_REQUEST_VADDR;
 		req->u.payload = payload;
 		req->payload_size = payload_size;
 	}
 	return (req);
 }
 
 static __inline struct nvme_request *
 nvme_allocate_request_null(nvme_cb_fn_t cb_fn, void *cb_arg)
 {
 	struct nvme_request *req;
 
 	req = _nvme_allocate_request(cb_fn, cb_arg);
 	if (req != NULL)
 		req->type = NVME_REQUEST_NULL;
 	return (req);
 }
 
 static __inline struct nvme_request *
 nvme_allocate_request_bio(struct bio *bio, nvme_cb_fn_t cb_fn, void *cb_arg)
 {
 	struct nvme_request *req;
 
 	req = _nvme_allocate_request(cb_fn, cb_arg);
 	if (req != NULL) {
 		req->type = NVME_REQUEST_BIO;
 		req->u.bio = bio;
 	}
 	return (req);
 }
 
 static __inline struct nvme_request *
 nvme_allocate_request_ccb(union ccb *ccb, nvme_cb_fn_t cb_fn, void *cb_arg)
 {
 	struct nvme_request *req;
 
 	req = _nvme_allocate_request(cb_fn, cb_arg);
 	if (req != NULL) {
 		req->type = NVME_REQUEST_CCB;
 		req->u.payload = ccb;
 	}
 
 	return (req);
 }
 
 #define nvme_free_request(req)	uma_zfree(nvme_request_zone, req)
 
 void	nvme_notify_async_consumers(struct nvme_controller *ctrlr,
 				    const struct nvme_completion *async_cpl,
 				    uint32_t log_page_id, void *log_page_buffer,
 				    uint32_t log_page_size);
 void	nvme_notify_fail_consumers(struct nvme_controller *ctrlr);
 void	nvme_notify_new_controller(struct nvme_controller *ctrlr);
 void	nvme_notify_ns(struct nvme_controller *ctrlr, int nsid);
 
 void	nvme_ctrlr_intx_handler(void *arg);
 void	nvme_ctrlr_poll(struct nvme_controller *ctrlr);
 
 int	nvme_ctrlr_suspend(struct nvme_controller *ctrlr);
 int	nvme_ctrlr_resume(struct nvme_controller *ctrlr);
 
 #endif /* __NVME_PRIVATE_H__ */
Index: stable/12
===================================================================
--- stable/12	(revision 356960)
+++ stable/12	(revision 356961)

Property changes on: stable/12
___________________________________________________________________
Modified: svn:mergeinfo
## -0,0 +0,1 ##
   Merged /head:r356474,356480,356482,356506