diff --git a/sys/dev/mlx4/mlx4_ib/mlx4_ib_main.c b/sys/dev/mlx4/mlx4_ib/mlx4_ib_main.c
index 62956607974b..ef23f182bc28 100644
--- a/sys/dev/mlx4/mlx4_ib/mlx4_ib_main.c
+++ b/sys/dev/mlx4/mlx4_ib/mlx4_ib_main.c
@@ -1,3344 +1,3345 @@
 /*
  * Copyright (c) 2006, 2007 Cisco Systems, Inc. All rights reserved.
  * Copyright (c) 2007, 2008 Mellanox Technologies. All rights reserved.
  *
  * This software is available to you under a choice of one of two
  * licenses.  You may choose to be licensed under the terms of the GNU
  * General Public License (GPL) Version 2, available from the file
  * COPYING in the main directory of this source tree, or the
  * OpenIB.org BSD license below:
  *
  *     Redistribution and use in source and binary forms, with or
  *     without modification, are permitted provided that the following
  *     conditions are met:
  *
  *      - Redistributions of source code must retain the above
  *        copyright notice, this list of conditions and the following
  *        disclaimer.
  *
  *      - Redistributions in binary form must reproduce the above
  *        copyright notice, this list of conditions and the following
  *        disclaimer in the documentation and/or other materials
  *        provided with the distribution.
  *
  * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
  * EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
  * MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
  * NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS
  * BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN
  * ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN
  * CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
  * SOFTWARE.
  */
 
 #define	LINUXKPI_PARAM_PREFIX mlx4_
 
 #include <linux/module.h>
 #include <linux/slab.h>
 #include <linux/errno.h>
 #include <linux/etherdevice.h>
 #include <linux/netdevice.h>
 #include <linux/if_vlan.h>
 #include <linux/fs.h>
 #include <linux/rcupdate.h>
 #include <linux/notifier.h>
 #include <linux/delay.h>
 
 #include <net/ipv6.h>
 
 #include <rdma/ib_smi.h>
 #include <rdma/ib_user_verbs.h>
 #include <rdma/ib_addr.h>
 #include <rdma/ib_cache.h>
 
 #include <dev/mlx4/driver.h>
 #include <dev/mlx4/cmd.h>
 #include <dev/mlx4/qp.h>
 #include <linux/sched.h>
 #include <linux/page.h>
 #include <linux/printk.h>
 #include "mlx4_ib.h"
 #include <rdma/mlx4-abi.h>
 #include "wc.h"
 
 #define DRV_NAME	MLX4_IB_DRV_NAME
 #ifndef DRV_VERSION
 #define DRV_VERSION	"3.6.0"
 #endif
 #define DRV_RELDATE	"December 2020"
 
 #define MLX4_IB_FLOW_MAX_PRIO 0xFFF
 #define MLX4_IB_FLOW_QPN_MASK 0xFFFFFF
 #define MLX4_IB_CARD_REV_A0   0xA0
 
 MODULE_AUTHOR("Roland Dreier");
 MODULE_DESCRIPTION("Mellanox ConnectX HCA InfiniBand driver");
 MODULE_LICENSE("Dual BSD/GPL");
 
 int mlx4_ib_sm_guid_assign = 0;
 module_param_named(sm_guid_assign, mlx4_ib_sm_guid_assign, int, 0444);
 MODULE_PARM_DESC(sm_guid_assign, "Enable SM alias_GUID assignment if sm_guid_assign > 0 (Default: 0)");
 
 static const char mlx4_ib_version[] =
 	DRV_NAME ": Mellanox ConnectX InfiniBand driver v"
 	DRV_VERSION " (" DRV_RELDATE ")\n";
 
 static void do_slave_init(struct mlx4_ib_dev *ibdev, int slave, int do_init);
 
 static struct workqueue_struct *wq;
 
 static void init_query_mad(struct ib_smp *mad)
 {
 	mad->base_version  = 1;
 	mad->mgmt_class    = IB_MGMT_CLASS_SUBN_LID_ROUTED;
 	mad->class_version = 1;
 	mad->method	   = IB_MGMT_METHOD_GET;
 }
 
 static int check_flow_steering_support(struct mlx4_dev *dev)
 {
 	int eth_num_ports = 0;
 	int ib_num_ports = 0;
 
 	int dmfs = dev->caps.steering_mode == MLX4_STEERING_MODE_DEVICE_MANAGED;
 
 	if (dmfs) {
 		int i;
 		mlx4_foreach_port(i, dev, MLX4_PORT_TYPE_ETH)
 			eth_num_ports++;
 		mlx4_foreach_port(i, dev, MLX4_PORT_TYPE_IB)
 			ib_num_ports++;
 		dmfs &= (!ib_num_ports ||
 			 (dev->caps.flags2 & MLX4_DEV_CAP_FLAG2_DMFS_IPOIB)) &&
 			(!eth_num_ports ||
 			 (dev->caps.flags2 & MLX4_DEV_CAP_FLAG2_FS_EN));
 		if (ib_num_ports && mlx4_is_mfunc(dev)) {
 			pr_warn("Device managed flow steering is unavailable for IB port in multifunction env.\n");
 			dmfs = 0;
 		}
 	}
 	return dmfs;
 }
 
 static int num_ib_ports(struct mlx4_dev *dev)
 {
 	int ib_ports = 0;
 	int i;
 
 	mlx4_foreach_port(i, dev, MLX4_PORT_TYPE_IB)
 		ib_ports++;
 
 	return ib_ports;
 }
 
 static struct ifnet *mlx4_ib_get_netdev(struct ib_device *device, u8 port_num)
 {
 	struct mlx4_ib_dev *ibdev = to_mdev(device);
 	struct ifnet *dev;
 
 	rcu_read_lock();
 	dev = mlx4_get_protocol_dev(ibdev->dev, MLX4_PROT_ETH, port_num);
 
 #if 0
 	if (dev) {
 		if (mlx4_is_bonded(ibdev->dev)) {
 			struct ifnet *upper = NULL;
 
 			upper = netdev_master_upper_dev_get_rcu(dev);
 			if (upper) {
 				struct ifnet *active;
 
 				active = bond_option_active_slave_get_rcu(netdev_priv(upper));
 				if (active)
 					dev = active;
 			}
 		}
 	}
 #endif
 	if (dev)
 		if_ref(dev);
 
 	rcu_read_unlock();
 	return dev;
 }
 
 static int mlx4_ib_update_gids_v1(struct gid_entry *gids,
 				  struct mlx4_ib_dev *ibdev,
 				  u8 port_num)
 {
 	struct mlx4_cmd_mailbox *mailbox;
 	int err;
 	struct mlx4_dev *dev = ibdev->dev;
 	int i;
 	union ib_gid *gid_tbl;
 
 	mailbox = mlx4_alloc_cmd_mailbox(dev);
 	if (IS_ERR(mailbox))
 		return -ENOMEM;
 
 	gid_tbl = mailbox->buf;
 
 	for (i = 0; i < MLX4_MAX_PORT_GIDS; ++i)
 		memcpy(&gid_tbl[i], &gids[i].gid, sizeof(union ib_gid));
 
 	err = mlx4_cmd(dev, mailbox->dma,
 		       MLX4_SET_PORT_GID_TABLE << 8 | port_num,
 		       1, MLX4_CMD_SET_PORT, MLX4_CMD_TIME_CLASS_B,
 		       MLX4_CMD_WRAPPED);
 	if (mlx4_is_bonded(dev))
 		err += mlx4_cmd(dev, mailbox->dma,
 				MLX4_SET_PORT_GID_TABLE << 8 | 2,
 				1, MLX4_CMD_SET_PORT, MLX4_CMD_TIME_CLASS_B,
 				MLX4_CMD_WRAPPED);
 
 	mlx4_free_cmd_mailbox(dev, mailbox);
 	return err;
 }
 
 static int mlx4_ib_update_gids_v1_v2(struct gid_entry *gids,
 				     struct mlx4_ib_dev *ibdev,
 				     u8 port_num)
 {
 	struct mlx4_cmd_mailbox *mailbox;
 	int err;
 	struct mlx4_dev *dev = ibdev->dev;
 	int i;
 	struct {
 		union ib_gid	gid;
 		__be32		rsrvd1[2];
 		__be16		rsrvd2;
 		u8		type;
 		u8		version;
 		__be32		rsrvd3;
 	} *gid_tbl;
 
 	mailbox = mlx4_alloc_cmd_mailbox(dev);
 	if (IS_ERR(mailbox))
 		return -ENOMEM;
 
 	gid_tbl = mailbox->buf;
 	for (i = 0; i < MLX4_MAX_PORT_GIDS; ++i) {
 		memcpy(&gid_tbl[i].gid, &gids[i].gid, sizeof(union ib_gid));
 		if (gids[i].gid_type == IB_GID_TYPE_ROCE_UDP_ENCAP) {
 			gid_tbl[i].version = 2;
 			if (!ipv6_addr_v4mapped((struct in6_addr *)&gids[i].gid))
 				gid_tbl[i].type = 1;
 			else
 				memset(&gid_tbl[i].gid, 0, 12);
 		}
 	}
 
 	err = mlx4_cmd(dev, mailbox->dma,
 		       MLX4_SET_PORT_ROCE_ADDR << 8 | port_num,
 		       1, MLX4_CMD_SET_PORT, MLX4_CMD_TIME_CLASS_B,
 		       MLX4_CMD_WRAPPED);
 	if (mlx4_is_bonded(dev))
 		err += mlx4_cmd(dev, mailbox->dma,
 				MLX4_SET_PORT_ROCE_ADDR << 8 | 2,
 				1, MLX4_CMD_SET_PORT, MLX4_CMD_TIME_CLASS_B,
 				MLX4_CMD_WRAPPED);
 
 	mlx4_free_cmd_mailbox(dev, mailbox);
 	return err;
 }
 
 static int mlx4_ib_update_gids(struct gid_entry *gids,
 			       struct mlx4_ib_dev *ibdev,
 			       u8 port_num)
 {
 	if (ibdev->dev->caps.flags2 & MLX4_DEV_CAP_FLAG2_ROCE_V1_V2)
 		return mlx4_ib_update_gids_v1_v2(gids, ibdev, port_num);
 
 	return mlx4_ib_update_gids_v1(gids, ibdev, port_num);
 }
 
 static int mlx4_ib_add_gid(struct ib_device *device,
 			   u8 port_num,
 			   unsigned int index,
 			   const union ib_gid *gid,
 			   const struct ib_gid_attr *attr,
 			   void **context)
 {
 	struct mlx4_ib_dev *ibdev = to_mdev(device);
 	struct mlx4_ib_iboe *iboe = &ibdev->iboe;
 	struct mlx4_port_gid_table   *port_gid_table;
 	int free = -1, found = -1;
 	int ret = 0;
 	int hw_update = 0;
 	int i;
 	struct gid_entry *gids = NULL;
 
 	if (!rdma_cap_roce_gid_table(device, port_num))
 		return -EINVAL;
 
 	if (port_num > MLX4_MAX_PORTS)
 		return -EINVAL;
 
 	if (!context)
 		return -EINVAL;
 
 	port_gid_table = &iboe->gids[port_num - 1];
 	spin_lock_bh(&iboe->lock);
 	for (i = 0; i < MLX4_MAX_PORT_GIDS; ++i) {
 		if (!memcmp(&port_gid_table->gids[i].gid, gid, sizeof(*gid)) &&
 		    (port_gid_table->gids[i].gid_type == attr->gid_type))  {
 			found = i;
 			break;
 		}
 		if (free < 0 && !memcmp(&port_gid_table->gids[i].gid, &zgid, sizeof(*gid)))
 			free = i; /* HW has space */
 	}
 
 	if (found < 0) {
 		if (free < 0) {
 			ret = -ENOSPC;
 		} else {
 			port_gid_table->gids[free].ctx = kmalloc(sizeof(*port_gid_table->gids[free].ctx), GFP_ATOMIC);
 			if (!port_gid_table->gids[free].ctx) {
 				ret = -ENOMEM;
 			} else {
 				*context = port_gid_table->gids[free].ctx;
 				memcpy(&port_gid_table->gids[free].gid, gid, sizeof(*gid));
 				port_gid_table->gids[free].gid_type = attr->gid_type;
 				port_gid_table->gids[free].ctx->real_index = free;
 				port_gid_table->gids[free].ctx->refcount = 1;
 				hw_update = 1;
 			}
 		}
 	} else {
 		struct gid_cache_context *ctx = port_gid_table->gids[found].ctx;
 		*context = ctx;
 		ctx->refcount++;
 	}
 	if (!ret && hw_update) {
 		gids = kmalloc(sizeof(*gids) * MLX4_MAX_PORT_GIDS, GFP_ATOMIC);
 		if (!gids) {
 			ret = -ENOMEM;
 		} else {
 			for (i = 0; i < MLX4_MAX_PORT_GIDS; i++) {
 				memcpy(&gids[i].gid, &port_gid_table->gids[i].gid, sizeof(union ib_gid));
 				gids[i].gid_type = port_gid_table->gids[i].gid_type;
 			}
 		}
 	}
 	spin_unlock_bh(&iboe->lock);
 
 	if (!ret && hw_update) {
 		ret = mlx4_ib_update_gids(gids, ibdev, port_num);
 		kfree(gids);
 	}
 
 	return ret;
 }
 
 static int mlx4_ib_del_gid(struct ib_device *device,
 			   u8 port_num,
 			   unsigned int index,
 			   void **context)
 {
 	struct gid_cache_context *ctx = *context;
 	struct mlx4_ib_dev *ibdev = to_mdev(device);
 	struct mlx4_ib_iboe *iboe = &ibdev->iboe;
 	struct mlx4_port_gid_table   *port_gid_table;
 	int ret = 0;
 	int hw_update = 0;
 	struct gid_entry *gids = NULL;
 
 	if (!rdma_cap_roce_gid_table(device, port_num))
 		return -EINVAL;
 
 	if (port_num > MLX4_MAX_PORTS)
 		return -EINVAL;
 
 	port_gid_table = &iboe->gids[port_num - 1];
 	spin_lock_bh(&iboe->lock);
 	if (ctx) {
 		ctx->refcount--;
 		if (!ctx->refcount) {
 			unsigned int real_index = ctx->real_index;
 
 			memcpy(&port_gid_table->gids[real_index].gid, &zgid, sizeof(zgid));
 			kfree(port_gid_table->gids[real_index].ctx);
 			port_gid_table->gids[real_index].ctx = NULL;
 			hw_update = 1;
 		}
 	}
 	if (!ret && hw_update) {
 		int i;
 
 		gids = kmalloc(sizeof(*gids) * MLX4_MAX_PORT_GIDS, GFP_ATOMIC);
 		if (!gids) {
 			ret = -ENOMEM;
 		} else {
 			for (i = 0; i < MLX4_MAX_PORT_GIDS; i++) {
 				memcpy(&gids[i].gid,
 				       &port_gid_table->gids[i].gid,
 				       sizeof(union ib_gid));
 				gids[i].gid_type =
 				    port_gid_table->gids[i].gid_type;
 			}
 		}
 	}
 	spin_unlock_bh(&iboe->lock);
 
 	if (!ret && hw_update) {
 		ret = mlx4_ib_update_gids(gids, ibdev, port_num);
 		kfree(gids);
 	}
 	return ret;
 }
 
 int mlx4_ib_gid_index_to_real_index(struct mlx4_ib_dev *ibdev,
 				    u8 port_num, int index)
 {
 	struct mlx4_ib_iboe *iboe = &ibdev->iboe;
 	struct gid_cache_context *ctx = NULL;
 	union ib_gid gid;
 	struct mlx4_port_gid_table   *port_gid_table;
 	int real_index = -EINVAL;
 	int i;
 	int ret;
 	unsigned long flags;
 	struct ib_gid_attr attr;
 
 	if (port_num > MLX4_MAX_PORTS)
 		return -EINVAL;
 
 	if (mlx4_is_bonded(ibdev->dev))
 		port_num = 1;
 
 	if (!rdma_cap_roce_gid_table(&ibdev->ib_dev, port_num))
 		return index;
 
 	ret = ib_get_cached_gid(&ibdev->ib_dev, port_num, index, &gid, &attr);
 	if (ret)
 		return ret;
 
 	if (attr.ndev)
 		if_rele(attr.ndev);
 
 	if (!memcmp(&gid, &zgid, sizeof(gid)))
 		return -EINVAL;
 
 	spin_lock_irqsave(&iboe->lock, flags);
 	port_gid_table = &iboe->gids[port_num - 1];
 
 	for (i = 0; i < MLX4_MAX_PORT_GIDS; ++i)
 		if (!memcmp(&port_gid_table->gids[i].gid, &gid, sizeof(gid)) &&
 		    attr.gid_type == port_gid_table->gids[i].gid_type) {
 			ctx = port_gid_table->gids[i].ctx;
 			break;
 		}
 	if (ctx)
 		real_index = ctx->real_index;
 	spin_unlock_irqrestore(&iboe->lock, flags);
 	return real_index;
 }
 
 static int mlx4_ib_query_device(struct ib_device *ibdev,
 				struct ib_device_attr *props,
 				struct ib_udata *uhw)
 {
 	struct mlx4_ib_dev *dev = to_mdev(ibdev);
 	struct ib_smp *in_mad  = NULL;
 	struct ib_smp *out_mad = NULL;
 	int err = -ENOMEM;
 	int have_ib_ports;
 	struct mlx4_uverbs_ex_query_device cmd;
 	struct mlx4_uverbs_ex_query_device_resp resp = {.comp_mask = 0};
 	struct mlx4_clock_params clock_params;
 
 	if (uhw->inlen) {
 		if (uhw->inlen < sizeof(cmd))
 			return -EINVAL;
 
 		err = ib_copy_from_udata(&cmd, uhw, sizeof(cmd));
 		if (err)
 			return err;
 
 		if (cmd.comp_mask)
 			return -EINVAL;
 
 		if (cmd.reserved)
 			return -EINVAL;
 	}
 
 	resp.response_length = offsetof(typeof(resp), response_length) +
 		sizeof(resp.response_length);
 	in_mad  = kzalloc(sizeof *in_mad, GFP_KERNEL);
 	out_mad = kmalloc(sizeof *out_mad, GFP_KERNEL);
 	if (!in_mad || !out_mad)
 		goto out;
 
 	init_query_mad(in_mad);
 	in_mad->attr_id = IB_SMP_ATTR_NODE_INFO;
 
 	err = mlx4_MAD_IFC(to_mdev(ibdev), MLX4_MAD_IFC_IGNORE_KEYS,
 			   1, NULL, NULL, in_mad, out_mad);
 	if (err)
 		goto out;
 
 	memset(props, 0, sizeof *props);
 
 	have_ib_ports = num_ib_ports(dev->dev);
 
 	props->fw_ver = dev->dev->caps.fw_ver;
 	props->device_cap_flags    = IB_DEVICE_CHANGE_PHY_PORT |
 		IB_DEVICE_PORT_ACTIVE_EVENT		|
 		IB_DEVICE_SYS_IMAGE_GUID		|
 		IB_DEVICE_RC_RNR_NAK_GEN		|
 		IB_DEVICE_BLOCK_MULTICAST_LOOPBACK;
 	if (dev->dev->caps.flags & MLX4_DEV_CAP_FLAG_BAD_PKEY_CNTR)
 		props->device_cap_flags |= IB_DEVICE_BAD_PKEY_CNTR;
 	if (dev->dev->caps.flags & MLX4_DEV_CAP_FLAG_BAD_QKEY_CNTR)
 		props->device_cap_flags |= IB_DEVICE_BAD_QKEY_CNTR;
 	if (dev->dev->caps.flags & MLX4_DEV_CAP_FLAG_APM && have_ib_ports)
 		props->device_cap_flags |= IB_DEVICE_AUTO_PATH_MIG;
 	if (dev->dev->caps.flags & MLX4_DEV_CAP_FLAG_UD_AV_PORT)
 		props->device_cap_flags |= IB_DEVICE_UD_AV_PORT_ENFORCE;
 	if (dev->dev->caps.flags & MLX4_DEV_CAP_FLAG_IPOIB_CSUM)
 		props->device_cap_flags |= IB_DEVICE_UD_IP_CSUM;
 	if (dev->dev->caps.max_gso_sz &&
 	    (dev->dev->rev_id != MLX4_IB_CARD_REV_A0) &&
 	    (dev->dev->caps.flags & MLX4_DEV_CAP_FLAG_BLH))
 		props->device_cap_flags |= IB_DEVICE_UD_TSO;
 	if (dev->dev->caps.bmme_flags & MLX4_BMME_FLAG_RESERVED_LKEY)
 		props->device_cap_flags |= IB_DEVICE_LOCAL_DMA_LKEY;
 	if ((dev->dev->caps.bmme_flags & MLX4_BMME_FLAG_LOCAL_INV) &&
 	    (dev->dev->caps.bmme_flags & MLX4_BMME_FLAG_REMOTE_INV) &&
 	    (dev->dev->caps.bmme_flags & MLX4_BMME_FLAG_FAST_REG_WR))
 		props->device_cap_flags |= IB_DEVICE_MEM_MGT_EXTENSIONS;
 	if (dev->dev->caps.flags & MLX4_DEV_CAP_FLAG_XRC)
 		props->device_cap_flags |= IB_DEVICE_XRC;
 	if (dev->dev->caps.flags & MLX4_DEV_CAP_FLAG_MEM_WINDOW)
 		props->device_cap_flags |= IB_DEVICE_MEM_WINDOW;
 	if (dev->dev->caps.bmme_flags & MLX4_BMME_FLAG_TYPE_2_WIN) {
 		if (dev->dev->caps.bmme_flags & MLX4_BMME_FLAG_WIN_TYPE_2B)
 			props->device_cap_flags |= IB_DEVICE_MEM_WINDOW_TYPE_2B;
 		else
 			props->device_cap_flags |= IB_DEVICE_MEM_WINDOW_TYPE_2A;
 	}
 	if (dev->steering_support == MLX4_STEERING_MODE_DEVICE_MANAGED)
 		props->device_cap_flags |= IB_DEVICE_MANAGED_FLOW_STEERING;
 
 	props->device_cap_flags |= IB_DEVICE_RAW_IP_CSUM;
 
 	props->vendor_id	   = be32_to_cpup((__be32 *) (out_mad->data + 36)) &
 		0xffffff;
 	props->vendor_part_id	   = dev->dev->persist->pdev->device;
 	props->hw_ver		   = be32_to_cpup((__be32 *) (out_mad->data + 32));
 	memcpy(&props->sys_image_guid, out_mad->data +	4, 8);
 
 	props->max_mr_size	   = ~0ull;
 	props->page_size_cap	   = dev->dev->caps.page_size_cap;
 	props->max_qp		   = dev->dev->quotas.qp;
 	props->max_qp_wr	   = dev->dev->caps.max_wqes - MLX4_IB_SQ_MAX_SPARE;
 	props->max_sge		   = min(dev->dev->caps.max_sq_sg,
 					 dev->dev->caps.max_rq_sg);
 	props->max_sge_rd	   = MLX4_MAX_SGE_RD;
 	props->max_cq		   = dev->dev->quotas.cq;
 	props->max_cqe		   = dev->dev->caps.max_cqes;
 	props->max_mr		   = dev->dev->quotas.mpt;
 	props->max_pd		   = dev->dev->caps.num_pds - dev->dev->caps.reserved_pds;
 	props->max_qp_rd_atom	   = dev->dev->caps.max_qp_dest_rdma;
 	props->max_qp_init_rd_atom = dev->dev->caps.max_qp_init_rdma;
 	props->max_res_rd_atom	   = props->max_qp_rd_atom * props->max_qp;
 	props->max_srq		   = dev->dev->quotas.srq;
 	props->max_srq_wr	   = dev->dev->caps.max_srq_wqes - 1;
 	props->max_srq_sge	   = dev->dev->caps.max_srq_sge;
 	props->max_fast_reg_page_list_len = MLX4_MAX_FAST_REG_PAGES;
 	props->local_ca_ack_delay  = dev->dev->caps.local_ca_ack_delay;
 	props->atomic_cap	   = dev->dev->caps.flags & MLX4_DEV_CAP_FLAG_ATOMIC ?
 		IB_ATOMIC_HCA : IB_ATOMIC_NONE;
 	props->masked_atomic_cap   = props->atomic_cap;
 	props->max_pkeys	   = dev->dev->caps.pkey_table_len[1];
 	props->max_mcast_grp	   = dev->dev->caps.num_mgms + dev->dev->caps.num_amgms;
 	props->max_mcast_qp_attach = dev->dev->caps.num_qp_per_mgm;
 	props->max_total_mcast_qp_attach = props->max_mcast_qp_attach *
 					   props->max_mcast_grp;
 	props->max_map_per_fmr = dev->dev->caps.max_fmr_maps;
 	props->hca_core_clock = dev->dev->caps.hca_core_clock * 1000UL;
 	props->timestamp_mask = 0xFFFFFFFFFFFFULL;
 
 	if (!mlx4_is_slave(dev->dev))
 		err = mlx4_get_internal_clock_params(dev->dev, &clock_params);
 
 	if (uhw->outlen >= resp.response_length + sizeof(resp.hca_core_clock_offset)) {
 		resp.response_length += sizeof(resp.hca_core_clock_offset);
 		if (!err && !mlx4_is_slave(dev->dev)) {
 			resp.comp_mask |= QUERY_DEVICE_RESP_MASK_TIMESTAMP;
 			resp.hca_core_clock_offset = clock_params.offset % PAGE_SIZE;
 		}
 	}
 
 	if (uhw->outlen) {
 		err = ib_copy_to_udata(uhw, &resp, resp.response_length);
 		if (err)
 			goto out;
 	}
 out:
 	kfree(in_mad);
 	kfree(out_mad);
 
 	return err;
 }
 
 static enum rdma_link_layer
 mlx4_ib_port_link_layer(struct ib_device *device, u8 port_num)
 {
 	struct mlx4_dev *dev = to_mdev(device)->dev;
 
 	return dev->caps.port_mask[port_num] == MLX4_PORT_TYPE_IB ?
 		IB_LINK_LAYER_INFINIBAND : IB_LINK_LAYER_ETHERNET;
 }
 
 static int ib_link_query_port(struct ib_device *ibdev, u8 port,
 			      struct ib_port_attr *props, int netw_view)
 {
 	struct ib_smp *in_mad  = NULL;
 	struct ib_smp *out_mad = NULL;
 	int ext_active_speed;
 	int mad_ifc_flags = MLX4_MAD_IFC_IGNORE_KEYS;
 	int err = -ENOMEM;
 
 	in_mad  = kzalloc(sizeof *in_mad, GFP_KERNEL);
 	out_mad = kmalloc(sizeof *out_mad, GFP_KERNEL);
 	if (!in_mad || !out_mad)
 		goto out;
 
 	init_query_mad(in_mad);
 	in_mad->attr_id  = IB_SMP_ATTR_PORT_INFO;
 	in_mad->attr_mod = cpu_to_be32(port);
 
 	if (mlx4_is_mfunc(to_mdev(ibdev)->dev) && netw_view)
 		mad_ifc_flags |= MLX4_MAD_IFC_NET_VIEW;
 
 	err = mlx4_MAD_IFC(to_mdev(ibdev), mad_ifc_flags, port, NULL, NULL,
 				in_mad, out_mad);
 	if (err)
 		goto out;
 
 
 	props->lid		= be16_to_cpup((__be16 *) (out_mad->data + 16));
 	props->lmc		= out_mad->data[34] & 0x7;
 	props->sm_lid		= be16_to_cpup((__be16 *) (out_mad->data + 18));
 	props->sm_sl		= out_mad->data[36] & 0xf;
 	props->state		= out_mad->data[32] & 0xf;
 	props->phys_state	= out_mad->data[33] >> 4;
 	props->port_cap_flags	= be32_to_cpup((__be32 *) (out_mad->data + 20));
 	if (netw_view)
 		props->gid_tbl_len = out_mad->data[50];
 	else
 		props->gid_tbl_len = to_mdev(ibdev)->dev->caps.gid_table_len[port];
 	props->max_msg_sz	= to_mdev(ibdev)->dev->caps.max_msg_sz;
 	props->pkey_tbl_len	= to_mdev(ibdev)->dev->caps.pkey_table_len[port];
 	props->bad_pkey_cntr	= be16_to_cpup((__be16 *) (out_mad->data + 46));
 	props->qkey_viol_cntr	= be16_to_cpup((__be16 *) (out_mad->data + 48));
 	props->active_width	= out_mad->data[31] & 0xf;
 	props->active_speed	= out_mad->data[35] >> 4;
 	props->max_mtu		= out_mad->data[41] & 0xf;
 	props->active_mtu	= out_mad->data[36] >> 4;
 	props->subnet_timeout	= out_mad->data[51] & 0x1f;
 	props->max_vl_num	= out_mad->data[37] >> 4;
 	props->init_type_reply	= out_mad->data[41] >> 4;
 
 	/* Check if extended speeds (EDR/FDR/...) are supported */
 	if (props->port_cap_flags & IB_PORT_EXTENDED_SPEEDS_SUP) {
 		ext_active_speed = out_mad->data[62] >> 4;
 
 		switch (ext_active_speed) {
 		case 1:
 			props->active_speed = IB_SPEED_FDR;
 			break;
 		case 2:
 			props->active_speed = IB_SPEED_EDR;
 			break;
 		}
 	}
 
 	/* If reported active speed is QDR, check if is FDR-10 */
 	if (props->active_speed == IB_SPEED_QDR) {
 		init_query_mad(in_mad);
 		in_mad->attr_id = MLX4_ATTR_EXTENDED_PORT_INFO;
 		in_mad->attr_mod = cpu_to_be32(port);
 
 		err = mlx4_MAD_IFC(to_mdev(ibdev), mad_ifc_flags, port,
 				   NULL, NULL, in_mad, out_mad);
 		if (err)
 			goto out;
 
 		/* Checking LinkSpeedActive for FDR-10 */
 		if (out_mad->data[15] & 0x1)
 			props->active_speed = IB_SPEED_FDR10;
 	}
 
 	/* Avoid wrong speed value returned by FW if the IB link is down. */
 	if (props->state == IB_PORT_DOWN)
 		 props->active_speed = IB_SPEED_SDR;
 
 out:
 	kfree(in_mad);
 	kfree(out_mad);
 	return err;
 }
 
 static u8 state_to_phys_state(enum ib_port_state state)
 {
-	return state == IB_PORT_ACTIVE ? 5 : 3;
+	return state == IB_PORT_ACTIVE ?
+		IB_PORT_PHYS_STATE_LINK_UP : IB_PORT_PHYS_STATE_DISABLED;
 }
 
 static int eth_link_query_port(struct ib_device *ibdev, u8 port,
 			       struct ib_port_attr *props, int netw_view)
 {
 
 	struct mlx4_ib_dev *mdev = to_mdev(ibdev);
 	struct mlx4_ib_iboe *iboe = &mdev->iboe;
 	struct ifnet *ndev;
 	enum ib_mtu tmp;
 	struct mlx4_cmd_mailbox *mailbox;
 	int err = 0;
 	int is_bonded = mlx4_is_bonded(mdev->dev);
 
 	mailbox = mlx4_alloc_cmd_mailbox(mdev->dev);
 	if (IS_ERR(mailbox))
 		return PTR_ERR(mailbox);
 
 	err = mlx4_cmd_box(mdev->dev, 0, mailbox->dma, port, 0,
 			   MLX4_CMD_QUERY_PORT, MLX4_CMD_TIME_CLASS_B,
 			   MLX4_CMD_WRAPPED);
 	if (err)
 		goto out;
 
 	props->active_width	=  (((u8 *)mailbox->buf)[5] == 0x40) ?
 						IB_WIDTH_4X : IB_WIDTH_1X;
 	props->active_speed	= IB_SPEED_QDR;
 	props->port_cap_flags	= IB_PORT_CM_SUP | IB_PORT_IP_BASED_GIDS;
 	props->gid_tbl_len	= mdev->dev->caps.gid_table_len[port];
 	props->max_msg_sz	= mdev->dev->caps.max_msg_sz;
 	props->pkey_tbl_len	= 1;
 	props->max_mtu		= IB_MTU_4096;
 	props->max_vl_num	= 2;
 	props->state		= IB_PORT_DOWN;
 	props->phys_state	= state_to_phys_state(props->state);
 	props->active_mtu	= IB_MTU_256;
 	spin_lock_bh(&iboe->lock);
 	ndev = iboe->netdevs[port - 1];
 	if (ndev && is_bonded) {
 #if 0
 		rcu_read_lock(); /* required to get upper dev */
 		ndev = netdev_master_upper_dev_get_rcu(ndev);
 		rcu_read_unlock();
 #endif
 	}
 	if (!ndev)
 		goto out_unlock;
 
 	tmp = iboe_get_mtu(ndev->if_mtu);
 	props->active_mtu = tmp ? min(props->max_mtu, tmp) : IB_MTU_256;
 
 	props->state		= ((ndev->if_drv_flags & IFF_DRV_RUNNING) != 0 &&
 				   ndev->if_link_state == LINK_STATE_UP) ?
 					IB_PORT_ACTIVE : IB_PORT_DOWN;
 	props->phys_state	= state_to_phys_state(props->state);
 out_unlock:
 	spin_unlock_bh(&iboe->lock);
 out:
 	mlx4_free_cmd_mailbox(mdev->dev, mailbox);
 	return err;
 }
 
 int __mlx4_ib_query_port(struct ib_device *ibdev, u8 port,
 			 struct ib_port_attr *props, int netw_view)
 {
 	int err;
 
 	memset(props, 0, sizeof *props);
 
 	err = mlx4_ib_port_link_layer(ibdev, port) == IB_LINK_LAYER_INFINIBAND ?
 		ib_link_query_port(ibdev, port, props, netw_view) :
 				eth_link_query_port(ibdev, port, props, netw_view);
 
 	return err;
 }
 
 static int mlx4_ib_query_port(struct ib_device *ibdev, u8 port,
 			      struct ib_port_attr *props)
 {
 	/* returns host view */
 	return __mlx4_ib_query_port(ibdev, port, props, 0);
 }
 
 int __mlx4_ib_query_gid(struct ib_device *ibdev, u8 port, int index,
 			union ib_gid *gid, int netw_view)
 {
 	struct ib_smp *in_mad  = NULL;
 	struct ib_smp *out_mad = NULL;
 	int err = -ENOMEM;
 	struct mlx4_ib_dev *dev = to_mdev(ibdev);
 	int clear = 0;
 	int mad_ifc_flags = MLX4_MAD_IFC_IGNORE_KEYS;
 
 	in_mad  = kzalloc(sizeof *in_mad, GFP_KERNEL);
 	out_mad = kmalloc(sizeof *out_mad, GFP_KERNEL);
 	if (!in_mad || !out_mad)
 		goto out;
 
 	init_query_mad(in_mad);
 	in_mad->attr_id  = IB_SMP_ATTR_PORT_INFO;
 	in_mad->attr_mod = cpu_to_be32(port);
 
 	if (mlx4_is_mfunc(dev->dev) && netw_view)
 		mad_ifc_flags |= MLX4_MAD_IFC_NET_VIEW;
 
 	err = mlx4_MAD_IFC(dev, mad_ifc_flags, port, NULL, NULL, in_mad, out_mad);
 	if (err)
 		goto out;
 
 	memcpy(gid->raw, out_mad->data + 8, 8);
 
 	if (mlx4_is_mfunc(dev->dev) && !netw_view) {
 		if (index) {
 			/* For any index > 0, return the null guid */
 			err = 0;
 			clear = 1;
 			goto out;
 		}
 	}
 
 	init_query_mad(in_mad);
 	in_mad->attr_id  = IB_SMP_ATTR_GUID_INFO;
 	in_mad->attr_mod = cpu_to_be32(index / 8);
 
 	err = mlx4_MAD_IFC(dev, mad_ifc_flags, port,
 			   NULL, NULL, in_mad, out_mad);
 	if (err)
 		goto out;
 
 	memcpy(gid->raw + 8, out_mad->data + (index % 8) * 8, 8);
 
 out:
 	if (clear)
 		memset(gid->raw + 8, 0, 8);
 	kfree(in_mad);
 	kfree(out_mad);
 	return err;
 }
 
 static int mlx4_ib_query_gid(struct ib_device *ibdev, u8 port, int index,
 			     union ib_gid *gid)
 {
 	int ret;
 
 	if (rdma_protocol_ib(ibdev, port))
 		return __mlx4_ib_query_gid(ibdev, port, index, gid, 0);
 
 	if (!rdma_protocol_roce(ibdev, port))
 		return -ENODEV;
 
 	if (!rdma_cap_roce_gid_table(ibdev, port))
 		return -ENODEV;
 
 	ret = ib_get_cached_gid(ibdev, port, index, gid, NULL);
 	if (ret == -EAGAIN) {
 		memcpy(gid, &zgid, sizeof(*gid));
 		return 0;
 	}
 
 	return ret;
 }
 
 static int mlx4_ib_query_sl2vl(struct ib_device *ibdev, u8 port, u64 *sl2vl_tbl)
 {
 	union sl2vl_tbl_to_u64 sl2vl64;
 	struct ib_smp *in_mad  = NULL;
 	struct ib_smp *out_mad = NULL;
 	int mad_ifc_flags = MLX4_MAD_IFC_IGNORE_KEYS;
 	int err = -ENOMEM;
 	int jj;
 
 	if (mlx4_is_slave(to_mdev(ibdev)->dev)) {
 		*sl2vl_tbl = 0;
 		return 0;
 	}
 
 	in_mad  = kzalloc(sizeof(*in_mad), GFP_KERNEL);
 	out_mad = kmalloc(sizeof(*out_mad), GFP_KERNEL);
 	if (!in_mad || !out_mad)
 		goto out;
 
 	init_query_mad(in_mad);
 	in_mad->attr_id  = IB_SMP_ATTR_SL_TO_VL_TABLE;
 	in_mad->attr_mod = 0;
 
 	if (mlx4_is_mfunc(to_mdev(ibdev)->dev))
 		mad_ifc_flags |= MLX4_MAD_IFC_NET_VIEW;
 
 	err = mlx4_MAD_IFC(to_mdev(ibdev), mad_ifc_flags, port, NULL, NULL,
 			   in_mad, out_mad);
 	if (err)
 		goto out;
 
 	for (jj = 0; jj < 8; jj++)
 		sl2vl64.sl8[jj] = ((struct ib_smp *)out_mad)->data[jj];
 	*sl2vl_tbl = sl2vl64.sl64;
 
 out:
 	kfree(in_mad);
 	kfree(out_mad);
 	return err;
 }
 
 static void mlx4_init_sl2vl_tbl(struct mlx4_ib_dev *mdev)
 {
 	u64 sl2vl;
 	int i;
 	int err;
 
 	for (i = 1; i <= mdev->dev->caps.num_ports; i++) {
 		if (mdev->dev->caps.port_type[i] == MLX4_PORT_TYPE_ETH)
 			continue;
 		err = mlx4_ib_query_sl2vl(&mdev->ib_dev, i, &sl2vl);
 		if (err) {
 			pr_err("Unable to get default sl to vl mapping for port %d.  Using all zeroes (%d)\n",
 			       i, err);
 			sl2vl = 0;
 		}
 		atomic64_set(&mdev->sl2vl[i - 1], sl2vl);
 	}
 }
 
 int __mlx4_ib_query_pkey(struct ib_device *ibdev, u8 port, u16 index,
 			 u16 *pkey, int netw_view)
 {
 	struct ib_smp *in_mad  = NULL;
 	struct ib_smp *out_mad = NULL;
 	int mad_ifc_flags = MLX4_MAD_IFC_IGNORE_KEYS;
 	int err = -ENOMEM;
 
 	in_mad  = kzalloc(sizeof *in_mad, GFP_KERNEL);
 	out_mad = kmalloc(sizeof *out_mad, GFP_KERNEL);
 	if (!in_mad || !out_mad)
 		goto out;
 
 	init_query_mad(in_mad);
 	in_mad->attr_id  = IB_SMP_ATTR_PKEY_TABLE;
 	in_mad->attr_mod = cpu_to_be32(index / 32);
 
 	if (mlx4_is_mfunc(to_mdev(ibdev)->dev) && netw_view)
 		mad_ifc_flags |= MLX4_MAD_IFC_NET_VIEW;
 
 	err = mlx4_MAD_IFC(to_mdev(ibdev), mad_ifc_flags, port, NULL, NULL,
 			   in_mad, out_mad);
 	if (err)
 		goto out;
 
 	*pkey = be16_to_cpu(((__be16 *) out_mad->data)[index % 32]);
 
 out:
 	kfree(in_mad);
 	kfree(out_mad);
 	return err;
 }
 
 static int mlx4_ib_query_pkey(struct ib_device *ibdev, u8 port, u16 index, u16 *pkey)
 {
 	return __mlx4_ib_query_pkey(ibdev, port, index, pkey, 0);
 }
 
 static int mlx4_ib_modify_device(struct ib_device *ibdev, int mask,
 				 struct ib_device_modify *props)
 {
 	struct mlx4_cmd_mailbox *mailbox;
 	unsigned long flags;
 
 	if (mask & ~IB_DEVICE_MODIFY_NODE_DESC)
 		return -EOPNOTSUPP;
 
 	if (!(mask & IB_DEVICE_MODIFY_NODE_DESC))
 		return 0;
 
 	if (mlx4_is_slave(to_mdev(ibdev)->dev))
 		return -EOPNOTSUPP;
 
 	spin_lock_irqsave(&to_mdev(ibdev)->sm_lock, flags);
 	memcpy(ibdev->node_desc, props->node_desc, IB_DEVICE_NODE_DESC_MAX);
 	spin_unlock_irqrestore(&to_mdev(ibdev)->sm_lock, flags);
 
 	/*
 	 * If possible, pass node desc to FW, so it can generate
 	 * a 144 trap.  If cmd fails, just ignore.
 	 */
 	mailbox = mlx4_alloc_cmd_mailbox(to_mdev(ibdev)->dev);
 	if (IS_ERR(mailbox))
 		return 0;
 
 	memcpy(mailbox->buf, props->node_desc, IB_DEVICE_NODE_DESC_MAX);
 	mlx4_cmd(to_mdev(ibdev)->dev, mailbox->dma, 1, 0,
 		 MLX4_CMD_SET_NODE, MLX4_CMD_TIME_CLASS_A, MLX4_CMD_NATIVE);
 
 	mlx4_free_cmd_mailbox(to_mdev(ibdev)->dev, mailbox);
 
 	return 0;
 }
 
 static int mlx4_ib_SET_PORT(struct mlx4_ib_dev *dev, u8 port, int reset_qkey_viols,
 			    u32 cap_mask)
 {
 	struct mlx4_cmd_mailbox *mailbox;
 	int err;
 
 	mailbox = mlx4_alloc_cmd_mailbox(dev->dev);
 	if (IS_ERR(mailbox))
 		return PTR_ERR(mailbox);
 
 	if (dev->dev->flags & MLX4_FLAG_OLD_PORT_CMDS) {
 		*(u8 *) mailbox->buf	     = !!reset_qkey_viols << 6;
 		((__be32 *) mailbox->buf)[2] = cpu_to_be32(cap_mask);
 	} else {
 		((u8 *) mailbox->buf)[3]     = !!reset_qkey_viols;
 		((__be32 *) mailbox->buf)[1] = cpu_to_be32(cap_mask);
 	}
 
 	err = mlx4_cmd(dev->dev, mailbox->dma, port, MLX4_SET_PORT_IB_OPCODE,
 		       MLX4_CMD_SET_PORT, MLX4_CMD_TIME_CLASS_B,
 		       MLX4_CMD_WRAPPED);
 
 	mlx4_free_cmd_mailbox(dev->dev, mailbox);
 	return err;
 }
 
 static int mlx4_ib_modify_port(struct ib_device *ibdev, u8 port, int mask,
 			       struct ib_port_modify *props)
 {
 	struct mlx4_ib_dev *mdev = to_mdev(ibdev);
 	u8 is_eth = mdev->dev->caps.port_type[port] == MLX4_PORT_TYPE_ETH;
 	struct ib_port_attr attr;
 	u32 cap_mask;
 	int err;
 
 	/* return OK if this is RoCE. CM calls ib_modify_port() regardless
 	 * of whether port link layer is ETH or IB. For ETH ports, qkey
 	 * violations and port capabilities are not meaningful.
 	 */
 	if (is_eth)
 		return 0;
 
 	mutex_lock(&mdev->cap_mask_mutex);
 
 	err = mlx4_ib_query_port(ibdev, port, &attr);
 	if (err)
 		goto out;
 
 	cap_mask = (attr.port_cap_flags | props->set_port_cap_mask) &
 		~props->clr_port_cap_mask;
 
 	err = mlx4_ib_SET_PORT(mdev, port,
 			       !!(mask & IB_PORT_RESET_QKEY_CNTR),
 			       cap_mask);
 
 out:
 	mutex_unlock(&to_mdev(ibdev)->cap_mask_mutex);
 	return err;
 }
 
 static struct ib_ucontext *mlx4_ib_alloc_ucontext(struct ib_device *ibdev,
 						  struct ib_udata *udata)
 {
 	struct mlx4_ib_dev *dev = to_mdev(ibdev);
 	struct mlx4_ib_ucontext *context;
 	struct mlx4_ib_alloc_ucontext_resp_v3 resp_v3;
 	struct mlx4_ib_alloc_ucontext_resp resp;
 	int err;
 
 	if (!dev->ib_active)
 		return ERR_PTR(-EAGAIN);
 
 	if (ibdev->uverbs_abi_ver == MLX4_IB_UVERBS_NO_DEV_CAPS_ABI_VERSION) {
 		resp_v3.qp_tab_size      = dev->dev->caps.num_qps;
 		resp_v3.bf_reg_size      = dev->dev->caps.bf_reg_size;
 		resp_v3.bf_regs_per_page = dev->dev->caps.bf_regs_per_page;
 	} else {
 		resp.dev_caps	      = dev->dev->caps.userspace_caps;
 		resp.qp_tab_size      = dev->dev->caps.num_qps;
 		resp.bf_reg_size      = dev->dev->caps.bf_reg_size;
 		resp.bf_regs_per_page = dev->dev->caps.bf_regs_per_page;
 		resp.cqe_size	      = dev->dev->caps.cqe_size;
 	}
 
 	context = kzalloc(sizeof(*context), GFP_KERNEL);
 	if (!context)
 		return ERR_PTR(-ENOMEM);
 
 	err = mlx4_uar_alloc(to_mdev(ibdev)->dev, &context->uar);
 	if (err) {
 		kfree(context);
 		return ERR_PTR(err);
 	}
 
 	INIT_LIST_HEAD(&context->db_page_list);
 	mutex_init(&context->db_page_mutex);
 
 	if (ibdev->uverbs_abi_ver == MLX4_IB_UVERBS_NO_DEV_CAPS_ABI_VERSION)
 		err = ib_copy_to_udata(udata, &resp_v3, sizeof(resp_v3));
 	else
 		err = ib_copy_to_udata(udata, &resp, sizeof(resp));
 
 	if (err) {
 		mlx4_uar_free(to_mdev(ibdev)->dev, &context->uar);
 		kfree(context);
 		return ERR_PTR(-EFAULT);
 	}
 
 	return &context->ibucontext;
 }
 
 static int mlx4_ib_dealloc_ucontext(struct ib_ucontext *ibcontext)
 {
 	struct mlx4_ib_ucontext *context = to_mucontext(ibcontext);
 
 	mlx4_uar_free(to_mdev(ibcontext->device)->dev, &context->uar);
 	kfree(context);
 
 	return 0;
 }
 
 static void  mlx4_ib_vma_open(struct vm_area_struct *area)
 {
 	/* vma_open is called when a new VMA is created on top of our VMA.
 	 * This is done through either mremap flow or split_vma (usually due
 	 * to mlock, madvise, munmap, etc.). We do not support a clone of the
 	 * vma, as this VMA is strongly hardware related. Therefore we set the
 	 * vm_ops of the newly created/cloned VMA to NULL, to prevent it from
 	 * calling us again and trying to do incorrect actions. We assume that
 	 * the original vma size is exactly a single page that there will be no
 	 * "splitting" operations on.
 	 */
 	area->vm_ops = NULL;
 }
 
 static void  mlx4_ib_vma_close(struct vm_area_struct *area)
 {
 	struct mlx4_ib_vma_private_data *mlx4_ib_vma_priv_data;
 
 	/* It's guaranteed that all VMAs opened on a FD are closed before the
 	 * file itself is closed, therefore no sync is needed with the regular
 	 * closing flow. (e.g. mlx4_ib_dealloc_ucontext) However need a sync
 	 * with accessing the vma as part of mlx4_ib_disassociate_ucontext.
 	 * The close operation is usually called under mm->mmap_sem except when
 	 * process is exiting.  The exiting case is handled explicitly as part
 	 * of mlx4_ib_disassociate_ucontext.
 	 */
 	mlx4_ib_vma_priv_data = (struct mlx4_ib_vma_private_data *)
 				area->vm_private_data;
 
 	/* set the vma context pointer to null in the mlx4_ib driver's private
 	 * data to protect against a race condition in mlx4_ib_dissassociate_ucontext().
 	 */
 	mlx4_ib_vma_priv_data->vma = NULL;
 }
 
 static const struct vm_operations_struct mlx4_ib_vm_ops = {
 	.open = mlx4_ib_vma_open,
 	.close = mlx4_ib_vma_close
 };
 
 static void mlx4_ib_set_vma_data(struct vm_area_struct *vma,
 				 struct mlx4_ib_vma_private_data *vma_private_data)
 {
 	vma_private_data->vma = vma;
 	vma->vm_private_data = vma_private_data;
 	vma->vm_ops =  &mlx4_ib_vm_ops;
 }
 
 static int mlx4_ib_mmap(struct ib_ucontext *context, struct vm_area_struct *vma)
 {
 	struct mlx4_ib_dev *dev = to_mdev(context->device);
 	struct mlx4_ib_ucontext *mucontext = to_mucontext(context);
 
 	if (vma->vm_end - vma->vm_start != PAGE_SIZE)
 		return -EINVAL;
 
 	if (vma->vm_pgoff == 0) {
 		/* We prevent double mmaping on same context */
 		if (mucontext->hw_bar_info[HW_BAR_DB].vma)
 			return -EINVAL;
 
 		vma->vm_page_prot = pgprot_noncached(vma->vm_page_prot);
 
 		if (io_remap_pfn_range(vma, vma->vm_start,
 				       to_mucontext(context)->uar.pfn,
 				       PAGE_SIZE, vma->vm_page_prot))
 			return -EAGAIN;
 
 		mlx4_ib_set_vma_data(vma, &mucontext->hw_bar_info[HW_BAR_DB]);
 
 	} else if (vma->vm_pgoff == 1 && dev->dev->caps.bf_reg_size != 0) {
 		/* We prevent double mmaping on same context */
 		if (mucontext->hw_bar_info[HW_BAR_BF].vma)
 			return -EINVAL;
 
 		vma->vm_page_prot = pgprot_writecombine(vma->vm_page_prot);
 
 		if (io_remap_pfn_range(vma, vma->vm_start,
 				       to_mucontext(context)->uar.pfn +
 				       dev->dev->caps.num_uars,
 				       PAGE_SIZE, vma->vm_page_prot))
 			return -EAGAIN;
 
 		mlx4_ib_set_vma_data(vma, &mucontext->hw_bar_info[HW_BAR_BF]);
 
 	} else if (vma->vm_pgoff == 3) {
 		struct mlx4_clock_params params;
 		int ret;
 
 		/* We prevent double mmaping on same context */
 		if (mucontext->hw_bar_info[HW_BAR_CLOCK].vma)
 			return -EINVAL;
 
 		ret = mlx4_get_internal_clock_params(dev->dev, &params);
 
 		if (ret)
 			return ret;
 
 		vma->vm_page_prot = pgprot_noncached(vma->vm_page_prot);
 		if (io_remap_pfn_range(vma, vma->vm_start,
 				       (pci_resource_start(dev->dev->persist->pdev,
 							   params.bar) +
 					params.offset)
 				       >> PAGE_SHIFT,
 				       PAGE_SIZE, vma->vm_page_prot))
 			return -EAGAIN;
 
 		mlx4_ib_set_vma_data(vma,
 				     &mucontext->hw_bar_info[HW_BAR_CLOCK]);
 	} else {
 		return -EINVAL;
 	}
 
 	return 0;
 }
 
 static struct ib_pd *mlx4_ib_alloc_pd(struct ib_device *ibdev,
 				      struct ib_ucontext *context,
 				      struct ib_udata *udata)
 {
 	struct mlx4_ib_pd *pd;
 	int err;
 
 	pd = kmalloc(sizeof *pd, GFP_KERNEL);
 	if (!pd)
 		return ERR_PTR(-ENOMEM);
 
 	err = mlx4_pd_alloc(to_mdev(ibdev)->dev, &pd->pdn);
 	if (err) {
 		kfree(pd);
 		return ERR_PTR(err);
 	}
 
 	if (context)
 		if (ib_copy_to_udata(udata, &pd->pdn, sizeof (__u32))) {
 			mlx4_pd_free(to_mdev(ibdev)->dev, pd->pdn);
 			kfree(pd);
 			return ERR_PTR(-EFAULT);
 		}
 
 	return &pd->ibpd;
 }
 
 static int mlx4_ib_dealloc_pd(struct ib_pd *pd)
 {
 	mlx4_pd_free(to_mdev(pd->device)->dev, to_mpd(pd)->pdn);
 	kfree(pd);
 
 	return 0;
 }
 
 static struct ib_xrcd *mlx4_ib_alloc_xrcd(struct ib_device *ibdev,
 					  struct ib_ucontext *context,
 					  struct ib_udata *udata)
 {
 	struct mlx4_ib_xrcd *xrcd;
 	struct ib_cq_init_attr cq_attr = {};
 	int err;
 
 	if (!(to_mdev(ibdev)->dev->caps.flags & MLX4_DEV_CAP_FLAG_XRC))
 		return ERR_PTR(-ENOSYS);
 
 	xrcd = kmalloc(sizeof *xrcd, GFP_KERNEL);
 	if (!xrcd)
 		return ERR_PTR(-ENOMEM);
 
 	err = mlx4_xrcd_alloc(to_mdev(ibdev)->dev, &xrcd->xrcdn);
 	if (err)
 		goto err1;
 
 	xrcd->pd = ib_alloc_pd(ibdev, 0);
 	if (IS_ERR(xrcd->pd)) {
 		err = PTR_ERR(xrcd->pd);
 		goto err2;
 	}
 
 	cq_attr.cqe = 1;
 	xrcd->cq = ib_create_cq(ibdev, NULL, NULL, xrcd, &cq_attr);
 	if (IS_ERR(xrcd->cq)) {
 		err = PTR_ERR(xrcd->cq);
 		goto err3;
 	}
 
 	return &xrcd->ibxrcd;
 
 err3:
 	ib_dealloc_pd(xrcd->pd);
 err2:
 	mlx4_xrcd_free(to_mdev(ibdev)->dev, xrcd->xrcdn);
 err1:
 	kfree(xrcd);
 	return ERR_PTR(err);
 }
 
 static int mlx4_ib_dealloc_xrcd(struct ib_xrcd *xrcd)
 {
 	ib_destroy_cq(to_mxrcd(xrcd)->cq);
 	ib_dealloc_pd(to_mxrcd(xrcd)->pd);
 	mlx4_xrcd_free(to_mdev(xrcd->device)->dev, to_mxrcd(xrcd)->xrcdn);
 	kfree(xrcd);
 
 	return 0;
 }
 
 static int add_gid_entry(struct ib_qp *ibqp, union ib_gid *gid)
 {
 	struct mlx4_ib_qp *mqp = to_mqp(ibqp);
 	struct mlx4_ib_dev *mdev = to_mdev(ibqp->device);
 	struct mlx4_ib_gid_entry *ge;
 
 	ge = kzalloc(sizeof *ge, GFP_KERNEL);
 	if (!ge)
 		return -ENOMEM;
 
 	ge->gid = *gid;
 	if (mlx4_ib_add_mc(mdev, mqp, gid)) {
 		ge->port = mqp->port;
 		ge->added = 1;
 	}
 
 	mutex_lock(&mqp->mutex);
 	list_add_tail(&ge->list, &mqp->gid_list);
 	mutex_unlock(&mqp->mutex);
 
 	return 0;
 }
 
 static void mlx4_ib_delete_counters_table(struct mlx4_ib_dev *ibdev,
 					  struct mlx4_ib_counters *ctr_table)
 {
 	struct counter_index *counter, *tmp_count;
 
 	mutex_lock(&ctr_table->mutex);
 	list_for_each_entry_safe(counter, tmp_count, &ctr_table->counters_list,
 				 list) {
 		if (counter->allocated)
 			mlx4_counter_free(ibdev->dev, counter->index);
 		list_del(&counter->list);
 		kfree(counter);
 	}
 	mutex_unlock(&ctr_table->mutex);
 }
 
 int mlx4_ib_add_mc(struct mlx4_ib_dev *mdev, struct mlx4_ib_qp *mqp,
 		   union ib_gid *gid)
 {
 	struct ifnet *ndev;
 	int ret = 0;
 
 	if (!mqp->port)
 		return 0;
 
 	spin_lock_bh(&mdev->iboe.lock);
 	ndev = mdev->iboe.netdevs[mqp->port - 1];
 	if (ndev)
 		if_ref(ndev);
 	spin_unlock_bh(&mdev->iboe.lock);
 
 	if (ndev) {
 		ret = 1;
 		if_rele(ndev);
 	}
 
 	return ret;
 }
 
 struct mlx4_ib_steering {
 	struct list_head list;
 	struct mlx4_flow_reg_id reg_id;
 	union ib_gid gid;
 };
 
 #define LAST_ETH_FIELD vlan_tag
 #define LAST_IB_FIELD sl
 #define LAST_IPV4_FIELD dst_ip
 #define LAST_TCP_UDP_FIELD src_port
 
 /* Field is the last supported field */
 #define FIELDS_NOT_SUPPORTED(filter, field)\
 	memchr_inv((void *)&filter.field  +\
 		   sizeof(filter.field), 0,\
 		   sizeof(filter) -\
 		   offsetof(typeof(filter), field) -\
 		   sizeof(filter.field))
 
 static int parse_flow_attr(struct mlx4_dev *dev,
 			   u32 qp_num,
 			   union ib_flow_spec *ib_spec,
 			   struct _rule_hw *mlx4_spec)
 {
 	enum mlx4_net_trans_rule_id type;
 
 	switch (ib_spec->type) {
 	case IB_FLOW_SPEC_ETH:
 		if (FIELDS_NOT_SUPPORTED(ib_spec->eth.mask, LAST_ETH_FIELD))
 			return -ENOTSUPP;
 
 		type = MLX4_NET_TRANS_RULE_ID_ETH;
 		memcpy(mlx4_spec->eth.dst_mac, ib_spec->eth.val.dst_mac,
 		       ETH_ALEN);
 		memcpy(mlx4_spec->eth.dst_mac_msk, ib_spec->eth.mask.dst_mac,
 		       ETH_ALEN);
 		mlx4_spec->eth.vlan_tag = ib_spec->eth.val.vlan_tag;
 		mlx4_spec->eth.vlan_tag_msk = ib_spec->eth.mask.vlan_tag;
 		break;
 	case IB_FLOW_SPEC_IB:
 		if (FIELDS_NOT_SUPPORTED(ib_spec->ib.mask, LAST_IB_FIELD))
 			return -ENOTSUPP;
 
 		type = MLX4_NET_TRANS_RULE_ID_IB;
 		mlx4_spec->ib.l3_qpn =
 			cpu_to_be32(qp_num);
 		mlx4_spec->ib.qpn_mask =
 			cpu_to_be32(MLX4_IB_FLOW_QPN_MASK);
 		break;
 
 
 	case IB_FLOW_SPEC_IPV4:
 		if (FIELDS_NOT_SUPPORTED(ib_spec->ipv4.mask, LAST_IPV4_FIELD))
 			return -ENOTSUPP;
 
 		type = MLX4_NET_TRANS_RULE_ID_IPV4;
 		mlx4_spec->ipv4.src_ip = ib_spec->ipv4.val.src_ip;
 		mlx4_spec->ipv4.src_ip_msk = ib_spec->ipv4.mask.src_ip;
 		mlx4_spec->ipv4.dst_ip = ib_spec->ipv4.val.dst_ip;
 		mlx4_spec->ipv4.dst_ip_msk = ib_spec->ipv4.mask.dst_ip;
 		break;
 
 	case IB_FLOW_SPEC_TCP:
 	case IB_FLOW_SPEC_UDP:
 		if (FIELDS_NOT_SUPPORTED(ib_spec->tcp_udp.mask, LAST_TCP_UDP_FIELD))
 			return -ENOTSUPP;
 
 		type = ib_spec->type == IB_FLOW_SPEC_TCP ?
 					MLX4_NET_TRANS_RULE_ID_TCP :
 					MLX4_NET_TRANS_RULE_ID_UDP;
 		mlx4_spec->tcp_udp.dst_port = ib_spec->tcp_udp.val.dst_port;
 		mlx4_spec->tcp_udp.dst_port_msk = ib_spec->tcp_udp.mask.dst_port;
 		mlx4_spec->tcp_udp.src_port = ib_spec->tcp_udp.val.src_port;
 		mlx4_spec->tcp_udp.src_port_msk = ib_spec->tcp_udp.mask.src_port;
 		break;
 
 	default:
 		return -EINVAL;
 	}
 	if (mlx4_map_sw_to_hw_steering_id(dev, type) < 0 ||
 	    mlx4_hw_rule_sz(dev, type) < 0)
 		return -EINVAL;
 	mlx4_spec->id = cpu_to_be16(mlx4_map_sw_to_hw_steering_id(dev, type));
 	mlx4_spec->size = mlx4_hw_rule_sz(dev, type) >> 2;
 	return mlx4_hw_rule_sz(dev, type);
 }
 
 struct default_rules {
 	__u32 mandatory_fields[IB_FLOW_SPEC_SUPPORT_LAYERS];
 	__u32 mandatory_not_fields[IB_FLOW_SPEC_SUPPORT_LAYERS];
 	__u32 rules_create_list[IB_FLOW_SPEC_SUPPORT_LAYERS];
 	__u8  link_layer;
 };
 static const struct default_rules default_table[] = {
 	{
 		.mandatory_fields = {IB_FLOW_SPEC_IPV4},
 		.mandatory_not_fields = {IB_FLOW_SPEC_ETH},
 		.rules_create_list = {IB_FLOW_SPEC_IB},
 		.link_layer = IB_LINK_LAYER_INFINIBAND
 	}
 };
 
 static int __mlx4_ib_default_rules_match(struct ib_qp *qp,
 					 struct ib_flow_attr *flow_attr)
 {
 	int i, j, k;
 	void *ib_flow;
 	const struct default_rules *pdefault_rules = default_table;
 	u8 link_layer = rdma_port_get_link_layer(qp->device, flow_attr->port);
 
 	for (i = 0; i < ARRAY_SIZE(default_table); i++, pdefault_rules++) {
 		__u32 field_types[IB_FLOW_SPEC_SUPPORT_LAYERS];
 		memset(&field_types, 0, sizeof(field_types));
 
 		if (link_layer != pdefault_rules->link_layer)
 			continue;
 
 		ib_flow = flow_attr + 1;
 		/* we assume the specs are sorted */
 		for (j = 0, k = 0; k < IB_FLOW_SPEC_SUPPORT_LAYERS &&
 		     j < flow_attr->num_of_specs; k++) {
 			union ib_flow_spec *current_flow =
 				(union ib_flow_spec *)ib_flow;
 
 			/* same layer but different type */
 			if (((current_flow->type & IB_FLOW_SPEC_LAYER_MASK) ==
 			     (pdefault_rules->mandatory_fields[k] &
 			      IB_FLOW_SPEC_LAYER_MASK)) &&
 			    (current_flow->type !=
 			     pdefault_rules->mandatory_fields[k]))
 				goto out;
 
 			/* same layer, try match next one */
 			if (current_flow->type ==
 			    pdefault_rules->mandatory_fields[k]) {
 				j++;
 				ib_flow +=
 					((union ib_flow_spec *)ib_flow)->size;
 			}
 		}
 
 		ib_flow = flow_attr + 1;
 		for (j = 0; j < flow_attr->num_of_specs;
 		     j++, ib_flow += ((union ib_flow_spec *)ib_flow)->size)
 			for (k = 0; k < IB_FLOW_SPEC_SUPPORT_LAYERS; k++)
 				/* same layer and same type */
 				if (((union ib_flow_spec *)ib_flow)->type ==
 				    pdefault_rules->mandatory_not_fields[k])
 					goto out;
 
 		return i;
 	}
 out:
 	return -1;
 }
 
 static int __mlx4_ib_create_default_rules(
 		struct mlx4_ib_dev *mdev,
 		struct ib_qp *qp,
 		const struct default_rules *pdefault_rules,
 		struct _rule_hw *mlx4_spec) {
 	int size = 0;
 	int i;
 
 	for (i = 0; i < ARRAY_SIZE(pdefault_rules->rules_create_list); i++) {
 		int ret;
 		union ib_flow_spec ib_spec;
 		switch (pdefault_rules->rules_create_list[i]) {
 		case 0:
 			/* no rule */
 			continue;
 		case IB_FLOW_SPEC_IB:
 			ib_spec.type = IB_FLOW_SPEC_IB;
 			ib_spec.size = sizeof(struct ib_flow_spec_ib);
 
 			break;
 		default:
 			/* invalid rule */
 			return -EINVAL;
 		}
 		/* We must put empty rule, qpn is being ignored */
 		ret = parse_flow_attr(mdev->dev, 0, &ib_spec,
 				      mlx4_spec);
 		if (ret < 0) {
 			pr_info("invalid parsing\n");
 			return -EINVAL;
 		}
 
 		mlx4_spec = (void *)mlx4_spec + ret;
 		size += ret;
 	}
 	return size;
 }
 
 static int __mlx4_ib_create_flow(struct ib_qp *qp, struct ib_flow_attr *flow_attr,
 			  int domain,
 			  enum mlx4_net_trans_promisc_mode flow_type,
 			  u64 *reg_id)
 {
 	int ret, i;
 	int size = 0;
 	void *ib_flow;
 	struct mlx4_ib_dev *mdev = to_mdev(qp->device);
 	struct mlx4_cmd_mailbox *mailbox;
 	struct mlx4_net_trans_rule_hw_ctrl *ctrl;
 	int default_flow;
 
 	static const u16 __mlx4_domain[] = {
 		[IB_FLOW_DOMAIN_USER] = MLX4_DOMAIN_UVERBS,
 		[IB_FLOW_DOMAIN_ETHTOOL] = MLX4_DOMAIN_ETHTOOL,
 		[IB_FLOW_DOMAIN_RFS] = MLX4_DOMAIN_RFS,
 		[IB_FLOW_DOMAIN_NIC] = MLX4_DOMAIN_NIC,
 	};
 
 	if (flow_attr->priority > MLX4_IB_FLOW_MAX_PRIO) {
 		pr_err("Invalid priority value %d\n", flow_attr->priority);
 		return -EINVAL;
 	}
 
 	if (domain >= IB_FLOW_DOMAIN_NUM) {
 		pr_err("Invalid domain value %d\n", domain);
 		return -EINVAL;
 	}
 
 	if (mlx4_map_sw_to_hw_steering_mode(mdev->dev, flow_type) < 0)
 		return -EINVAL;
 
 	mailbox = mlx4_alloc_cmd_mailbox(mdev->dev);
 	if (IS_ERR(mailbox))
 		return PTR_ERR(mailbox);
 	ctrl = mailbox->buf;
 
 	ctrl->prio = cpu_to_be16(__mlx4_domain[domain] |
 				 flow_attr->priority);
 	ctrl->type = mlx4_map_sw_to_hw_steering_mode(mdev->dev, flow_type);
 	ctrl->port = flow_attr->port;
 	ctrl->qpn = cpu_to_be32(qp->qp_num);
 
 	ib_flow = flow_attr + 1;
 	size += sizeof(struct mlx4_net_trans_rule_hw_ctrl);
 	/* Add default flows */
 	default_flow = __mlx4_ib_default_rules_match(qp, flow_attr);
 	if (default_flow >= 0) {
 		ret = __mlx4_ib_create_default_rules(
 				mdev, qp, default_table + default_flow,
 				mailbox->buf + size);
 		if (ret < 0) {
 			mlx4_free_cmd_mailbox(mdev->dev, mailbox);
 			return -EINVAL;
 		}
 		size += ret;
 	}
 	for (i = 0; i < flow_attr->num_of_specs; i++) {
 		ret = parse_flow_attr(mdev->dev, qp->qp_num, ib_flow,
 				      mailbox->buf + size);
 		if (ret < 0) {
 			mlx4_free_cmd_mailbox(mdev->dev, mailbox);
 			return -EINVAL;
 		}
 		ib_flow += ((union ib_flow_spec *) ib_flow)->size;
 		size += ret;
 	}
 
 	ret = mlx4_cmd_imm(mdev->dev, mailbox->dma, reg_id, size >> 2, 0,
 			   MLX4_QP_FLOW_STEERING_ATTACH, MLX4_CMD_TIME_CLASS_A,
 			   MLX4_CMD_WRAPPED);
 	if (ret == -ENOMEM)
 		pr_err("mcg table is full. Fail to register network rule.\n");
 	else if (ret == -ENXIO)
 		pr_err("Device managed flow steering is disabled. Fail to register network rule.\n");
 	else if (ret)
 		pr_err("Invalid argument. Fail to register network rule.\n");
 
 	mlx4_free_cmd_mailbox(mdev->dev, mailbox);
 	return ret;
 }
 
 static int __mlx4_ib_destroy_flow(struct mlx4_dev *dev, u64 reg_id)
 {
 	int err;
 	err = mlx4_cmd(dev, reg_id, 0, 0,
 		       MLX4_QP_FLOW_STEERING_DETACH, MLX4_CMD_TIME_CLASS_A,
 		       MLX4_CMD_WRAPPED);
 	if (err)
 		pr_err("Fail to detach network rule. registration id = 0x%llx\n",
 		       (long long)reg_id);
 	return err;
 }
 
 static int mlx4_ib_tunnel_steer_add(struct ib_qp *qp, struct ib_flow_attr *flow_attr,
 				    u64 *reg_id)
 {
 	void *ib_flow;
 	union ib_flow_spec *ib_spec;
 	struct mlx4_dev	*dev = to_mdev(qp->device)->dev;
 	int err = 0;
 
 	if (dev->caps.tunnel_offload_mode != MLX4_TUNNEL_OFFLOAD_MODE_VXLAN ||
 	    dev->caps.dmfs_high_steer_mode == MLX4_STEERING_DMFS_A0_STATIC)
 		return 0; /* do nothing */
 
 	ib_flow = flow_attr + 1;
 	ib_spec = (union ib_flow_spec *)ib_flow;
 
 	if (ib_spec->type !=  IB_FLOW_SPEC_ETH || flow_attr->num_of_specs != 1)
 		return 0; /* do nothing */
 
 	err = mlx4_tunnel_steer_add(to_mdev(qp->device)->dev, ib_spec->eth.val.dst_mac,
 				    flow_attr->port, qp->qp_num,
 				    MLX4_DOMAIN_UVERBS | (flow_attr->priority & 0xff),
 				    reg_id);
 	return err;
 }
 
 static int mlx4_ib_add_dont_trap_rule(struct mlx4_dev *dev,
 				      struct ib_flow_attr *flow_attr,
 				      enum mlx4_net_trans_promisc_mode *type)
 {
 	int err = 0;
 
 	if (!(dev->caps.flags2 & MLX4_DEV_CAP_FLAG2_DMFS_UC_MC_SNIFFER) ||
 	    (dev->caps.dmfs_high_steer_mode == MLX4_STEERING_DMFS_A0_STATIC) ||
 	    (flow_attr->num_of_specs > 1) || (flow_attr->priority != 0)) {
 		return -EOPNOTSUPP;
 	}
 
 	if (flow_attr->num_of_specs == 0) {
 		type[0] = MLX4_FS_MC_SNIFFER;
 		type[1] = MLX4_FS_UC_SNIFFER;
 	} else {
 		union ib_flow_spec *ib_spec;
 
 		ib_spec = (union ib_flow_spec *)(flow_attr + 1);
 		if (ib_spec->type !=  IB_FLOW_SPEC_ETH)
 			return -EINVAL;
 
 		/* if all is zero than MC and UC */
 		if (is_zero_ether_addr(ib_spec->eth.mask.dst_mac)) {
 			type[0] = MLX4_FS_MC_SNIFFER;
 			type[1] = MLX4_FS_UC_SNIFFER;
 		} else {
 			u8 mac[ETH_ALEN] = {ib_spec->eth.mask.dst_mac[0] ^ 0x01,
 					    ib_spec->eth.mask.dst_mac[1],
 					    ib_spec->eth.mask.dst_mac[2],
 					    ib_spec->eth.mask.dst_mac[3],
 					    ib_spec->eth.mask.dst_mac[4],
 					    ib_spec->eth.mask.dst_mac[5]};
 
 			/* Above xor was only on MC bit, non empty mask is valid
 			 * only if this bit is set and rest are zero.
 			 */
 			if (!is_zero_ether_addr(&mac[0]))
 				return -EINVAL;
 
 			if (is_multicast_ether_addr(ib_spec->eth.val.dst_mac))
 				type[0] = MLX4_FS_MC_SNIFFER;
 			else
 				type[0] = MLX4_FS_UC_SNIFFER;
 		}
 	}
 
 	return err;
 }
 
 static struct ib_flow *mlx4_ib_create_flow(struct ib_qp *qp,
 				    struct ib_flow_attr *flow_attr,
 				    int domain)
 {
 	int err = 0, i = 0, j = 0;
 	struct mlx4_ib_flow *mflow;
 	enum mlx4_net_trans_promisc_mode type[2];
 	struct mlx4_dev *dev = (to_mdev(qp->device))->dev;
 	int is_bonded = mlx4_is_bonded(dev);
 
 	if (flow_attr->port < 1 || flow_attr->port > qp->device->phys_port_cnt)
 		return ERR_PTR(-EINVAL);
 
 	if ((flow_attr->flags & IB_FLOW_ATTR_FLAGS_DONT_TRAP) &&
 	    (flow_attr->type != IB_FLOW_ATTR_NORMAL))
 		return ERR_PTR(-EOPNOTSUPP);
 
 	memset(type, 0, sizeof(type));
 
 	mflow = kzalloc(sizeof(*mflow), GFP_KERNEL);
 	if (!mflow) {
 		err = -ENOMEM;
 		goto err_free;
 	}
 
 	switch (flow_attr->type) {
 	case IB_FLOW_ATTR_NORMAL:
 		/* If dont trap flag (continue match) is set, under specific
 		 * condition traffic be replicated to given qp,
 		 * without stealing it
 		 */
 		if (unlikely(flow_attr->flags & IB_FLOW_ATTR_FLAGS_DONT_TRAP)) {
 			err = mlx4_ib_add_dont_trap_rule(dev,
 							 flow_attr,
 							 type);
 			if (err)
 				goto err_free;
 		} else {
 			type[0] = MLX4_FS_REGULAR;
 		}
 		break;
 
 	case IB_FLOW_ATTR_ALL_DEFAULT:
 		type[0] = MLX4_FS_ALL_DEFAULT;
 		break;
 
 	case IB_FLOW_ATTR_MC_DEFAULT:
 		type[0] = MLX4_FS_MC_DEFAULT;
 		break;
 
 	case IB_FLOW_ATTR_SNIFFER:
 		type[0] = MLX4_FS_MIRROR_RX_PORT;
 		type[1] = MLX4_FS_MIRROR_SX_PORT;
 		break;
 
 	default:
 		err = -EINVAL;
 		goto err_free;
 	}
 
 	while (i < ARRAY_SIZE(type) && type[i]) {
 		err = __mlx4_ib_create_flow(qp, flow_attr, domain, type[i],
 					    &mflow->reg_id[i].id);
 		if (err)
 			goto err_create_flow;
 		if (is_bonded) {
 			/* Application always sees one port so the mirror rule
 			 * must be on port #2
 			 */
 			flow_attr->port = 2;
 			err = __mlx4_ib_create_flow(qp, flow_attr,
 						    domain, type[j],
 						    &mflow->reg_id[j].mirror);
 			flow_attr->port = 1;
 			if (err)
 				goto err_create_flow;
 			j++;
 		}
 
 		i++;
 	}
 
 	if (i < ARRAY_SIZE(type) && flow_attr->type == IB_FLOW_ATTR_NORMAL) {
 		err = mlx4_ib_tunnel_steer_add(qp, flow_attr,
 					       &mflow->reg_id[i].id);
 		if (err)
 			goto err_create_flow;
 
 		if (is_bonded) {
 			flow_attr->port = 2;
 			err = mlx4_ib_tunnel_steer_add(qp, flow_attr,
 						       &mflow->reg_id[j].mirror);
 			flow_attr->port = 1;
 			if (err)
 				goto err_create_flow;
 			j++;
 		}
 		/* function to create mirror rule */
 		i++;
 	}
 
 	return &mflow->ibflow;
 
 err_create_flow:
 	while (i) {
 		(void)__mlx4_ib_destroy_flow(to_mdev(qp->device)->dev,
 					     mflow->reg_id[i].id);
 		i--;
 	}
 
 	while (j) {
 		(void)__mlx4_ib_destroy_flow(to_mdev(qp->device)->dev,
 					     mflow->reg_id[j].mirror);
 		j--;
 	}
 err_free:
 	kfree(mflow);
 	return ERR_PTR(err);
 }
 
 static int mlx4_ib_destroy_flow(struct ib_flow *flow_id)
 {
 	int err, ret = 0;
 	int i = 0;
 	struct mlx4_ib_dev *mdev = to_mdev(flow_id->qp->device);
 	struct mlx4_ib_flow *mflow = to_mflow(flow_id);
 
 	while (i < ARRAY_SIZE(mflow->reg_id) && mflow->reg_id[i].id) {
 		err = __mlx4_ib_destroy_flow(mdev->dev, mflow->reg_id[i].id);
 		if (err)
 			ret = err;
 		if (mflow->reg_id[i].mirror) {
 			err = __mlx4_ib_destroy_flow(mdev->dev,
 						     mflow->reg_id[i].mirror);
 			if (err)
 				ret = err;
 		}
 		i++;
 	}
 
 	kfree(mflow);
 	return ret;
 }
 
 static int mlx4_ib_mcg_attach(struct ib_qp *ibqp, union ib_gid *gid, u16 lid)
 {
 	int err;
 	struct mlx4_ib_dev *mdev = to_mdev(ibqp->device);
 	struct mlx4_dev	*dev = mdev->dev;
 	struct mlx4_ib_qp *mqp = to_mqp(ibqp);
 	struct mlx4_ib_steering *ib_steering = NULL;
 	enum mlx4_protocol prot = MLX4_PROT_IB_IPV6;
 	struct mlx4_flow_reg_id	reg_id;
 
 	if (mdev->dev->caps.steering_mode ==
 	    MLX4_STEERING_MODE_DEVICE_MANAGED) {
 		ib_steering = kmalloc(sizeof(*ib_steering), GFP_KERNEL);
 		if (!ib_steering)
 			return -ENOMEM;
 	}
 
 	err = mlx4_multicast_attach(mdev->dev, &mqp->mqp, gid->raw, mqp->port,
 				    !!(mqp->flags &
 				       MLX4_IB_QP_BLOCK_MULTICAST_LOOPBACK),
 				    prot, &reg_id.id);
 	if (err) {
 		pr_err("multicast attach op failed, err %d\n", err);
 		goto err_malloc;
 	}
 
 	reg_id.mirror = 0;
 	if (mlx4_is_bonded(dev)) {
 		err = mlx4_multicast_attach(mdev->dev, &mqp->mqp, gid->raw,
 					    (mqp->port == 1) ? 2 : 1,
 					    !!(mqp->flags &
 					    MLX4_IB_QP_BLOCK_MULTICAST_LOOPBACK),
 					    prot, &reg_id.mirror);
 		if (err)
 			goto err_add;
 	}
 
 	err = add_gid_entry(ibqp, gid);
 	if (err)
 		goto err_add;
 
 	if (ib_steering) {
 		memcpy(ib_steering->gid.raw, gid->raw, 16);
 		ib_steering->reg_id = reg_id;
 		mutex_lock(&mqp->mutex);
 		list_add(&ib_steering->list, &mqp->steering_rules);
 		mutex_unlock(&mqp->mutex);
 	}
 	return 0;
 
 err_add:
 	mlx4_multicast_detach(mdev->dev, &mqp->mqp, gid->raw,
 			      prot, reg_id.id);
 	if (reg_id.mirror)
 		mlx4_multicast_detach(mdev->dev, &mqp->mqp, gid->raw,
 				      prot, reg_id.mirror);
 err_malloc:
 	kfree(ib_steering);
 
 	return err;
 }
 
 static struct mlx4_ib_gid_entry *find_gid_entry(struct mlx4_ib_qp *qp, u8 *raw)
 {
 	struct mlx4_ib_gid_entry *ge;
 	struct mlx4_ib_gid_entry *tmp;
 	struct mlx4_ib_gid_entry *ret = NULL;
 
 	list_for_each_entry_safe(ge, tmp, &qp->gid_list, list) {
 		if (!memcmp(raw, ge->gid.raw, 16)) {
 			ret = ge;
 			break;
 		}
 	}
 
 	return ret;
 }
 
 static int mlx4_ib_mcg_detach(struct ib_qp *ibqp, union ib_gid *gid, u16 lid)
 {
 	int err;
 	struct mlx4_ib_dev *mdev = to_mdev(ibqp->device);
 	struct mlx4_dev *dev = mdev->dev;
 	struct mlx4_ib_qp *mqp = to_mqp(ibqp);
 	struct ifnet *ndev;
 	struct mlx4_ib_gid_entry *ge;
 	struct mlx4_flow_reg_id reg_id = {0, 0};
 	enum mlx4_protocol prot =  MLX4_PROT_IB_IPV6;
 
 	if (mdev->dev->caps.steering_mode ==
 	    MLX4_STEERING_MODE_DEVICE_MANAGED) {
 		struct mlx4_ib_steering *ib_steering;
 
 		mutex_lock(&mqp->mutex);
 		list_for_each_entry(ib_steering, &mqp->steering_rules, list) {
 			if (!memcmp(ib_steering->gid.raw, gid->raw, 16)) {
 				list_del(&ib_steering->list);
 				break;
 			}
 		}
 		mutex_unlock(&mqp->mutex);
 		if (&ib_steering->list == &mqp->steering_rules) {
 			pr_err("Couldn't find reg_id for mgid. Steering rule is left attached\n");
 			return -EINVAL;
 		}
 		reg_id = ib_steering->reg_id;
 		kfree(ib_steering);
 	}
 
 	err = mlx4_multicast_detach(mdev->dev, &mqp->mqp, gid->raw,
 				    prot, reg_id.id);
 	if (err)
 		return err;
 
 	if (mlx4_is_bonded(dev)) {
 		err = mlx4_multicast_detach(mdev->dev, &mqp->mqp, gid->raw,
 					    prot, reg_id.mirror);
 		if (err)
 			return err;
 	}
 
 	mutex_lock(&mqp->mutex);
 	ge = find_gid_entry(mqp, gid->raw);
 	if (ge) {
 		spin_lock_bh(&mdev->iboe.lock);
 		ndev = ge->added ? mdev->iboe.netdevs[ge->port - 1] : NULL;
 		if (ndev)
 			if_ref(ndev);
 		spin_unlock_bh(&mdev->iboe.lock);
 		if (ndev)
 			if_rele(ndev);
 		list_del(&ge->list);
 		kfree(ge);
 	} else
 		pr_warn("could not find mgid entry\n");
 
 	mutex_unlock(&mqp->mutex);
 
 	return 0;
 }
 
 static int init_node_data(struct mlx4_ib_dev *dev)
 {
 	struct ib_smp *in_mad  = NULL;
 	struct ib_smp *out_mad = NULL;
 	int mad_ifc_flags = MLX4_MAD_IFC_IGNORE_KEYS;
 	int err = -ENOMEM;
 
 	in_mad  = kzalloc(sizeof *in_mad, GFP_KERNEL);
 	out_mad = kmalloc(sizeof *out_mad, GFP_KERNEL);
 	if (!in_mad || !out_mad)
 		goto out;
 
 	init_query_mad(in_mad);
 	in_mad->attr_id = IB_SMP_ATTR_NODE_DESC;
 	if (mlx4_is_master(dev->dev))
 		mad_ifc_flags |= MLX4_MAD_IFC_NET_VIEW;
 
 	err = mlx4_MAD_IFC(dev, mad_ifc_flags, 1, NULL, NULL, in_mad, out_mad);
 	if (err)
 		goto out;
 
 	memcpy(dev->ib_dev.node_desc, out_mad->data, IB_DEVICE_NODE_DESC_MAX);
 
 	in_mad->attr_id = IB_SMP_ATTR_NODE_INFO;
 
 	err = mlx4_MAD_IFC(dev, mad_ifc_flags, 1, NULL, NULL, in_mad, out_mad);
 	if (err)
 		goto out;
 
 	dev->dev->rev_id = be32_to_cpup((__be32 *) (out_mad->data + 32));
 	memcpy(&dev->ib_dev.node_guid, out_mad->data + 12, 8);
 
 out:
 	kfree(in_mad);
 	kfree(out_mad);
 	return err;
 }
 
 static ssize_t show_hca(struct device *device, struct device_attribute *attr,
 			char *buf)
 {
 	struct mlx4_ib_dev *dev =
 		container_of(device, struct mlx4_ib_dev, ib_dev.dev);
 	return sprintf(buf, "MT%d\n", dev->dev->persist->pdev->device);
 }
 
 static ssize_t show_rev(struct device *device, struct device_attribute *attr,
 			char *buf)
 {
 	struct mlx4_ib_dev *dev =
 		container_of(device, struct mlx4_ib_dev, ib_dev.dev);
 	return sprintf(buf, "%x\n", dev->dev->rev_id);
 }
 
 static ssize_t show_board(struct device *device, struct device_attribute *attr,
 			  char *buf)
 {
 	struct mlx4_ib_dev *dev =
 		container_of(device, struct mlx4_ib_dev, ib_dev.dev);
 	return sprintf(buf, "%.*s\n", MLX4_BOARD_ID_LEN,
 		       dev->dev->board_id);
 }
 
 static DEVICE_ATTR(hw_rev,   S_IRUGO, show_rev,    NULL);
 static DEVICE_ATTR(hca_type, S_IRUGO, show_hca,    NULL);
 static DEVICE_ATTR(board_id, S_IRUGO, show_board,  NULL);
 
 static struct device_attribute *mlx4_class_attributes[] = {
 	&dev_attr_hw_rev,
 	&dev_attr_hca_type,
 	&dev_attr_board_id
 };
 
 struct diag_counter {
 	const char *name;
 	u32 offset;
 };
 
 #define DIAG_COUNTER(_name, _offset)			\
 	{ .name = #_name, .offset = _offset }
 
 static const struct diag_counter diag_basic[] = {
 	DIAG_COUNTER(rq_num_lle, 0x00),
 	DIAG_COUNTER(sq_num_lle, 0x04),
 	DIAG_COUNTER(rq_num_lqpoe, 0x08),
 	DIAG_COUNTER(sq_num_lqpoe, 0x0C),
 	DIAG_COUNTER(rq_num_lpe, 0x18),
 	DIAG_COUNTER(sq_num_lpe, 0x1C),
 	DIAG_COUNTER(rq_num_wrfe, 0x20),
 	DIAG_COUNTER(sq_num_wrfe, 0x24),
 	DIAG_COUNTER(sq_num_mwbe, 0x2C),
 	DIAG_COUNTER(sq_num_bre, 0x34),
 	DIAG_COUNTER(sq_num_rire, 0x44),
 	DIAG_COUNTER(rq_num_rire, 0x48),
 	DIAG_COUNTER(sq_num_rae, 0x4C),
 	DIAG_COUNTER(rq_num_rae, 0x50),
 	DIAG_COUNTER(sq_num_roe, 0x54),
 	DIAG_COUNTER(sq_num_tree, 0x5C),
 	DIAG_COUNTER(sq_num_rree, 0x64),
 	DIAG_COUNTER(rq_num_rnr, 0x68),
 	DIAG_COUNTER(sq_num_rnr, 0x6C),
 	DIAG_COUNTER(rq_num_oos, 0x100),
 	DIAG_COUNTER(sq_num_oos, 0x104),
 };
 
 static const struct diag_counter diag_ext[] = {
 	DIAG_COUNTER(rq_num_dup, 0x130),
 	DIAG_COUNTER(sq_num_to, 0x134),
 };
 
 static const struct diag_counter diag_device_only[] = {
 	DIAG_COUNTER(num_cqovf, 0x1A0),
 	DIAG_COUNTER(rq_num_udsdprd, 0x118),
 };
 
 static struct rdma_hw_stats *mlx4_ib_alloc_hw_stats(struct ib_device *ibdev,
 						    u8 port_num)
 {
 	struct mlx4_ib_dev *dev = to_mdev(ibdev);
 	struct mlx4_ib_diag_counters *diag = dev->diag_counters;
 
 	if (!diag[!!port_num].name)
 		return NULL;
 
 	return rdma_alloc_hw_stats_struct(diag[!!port_num].name,
 					  diag[!!port_num].num_counters,
 					  RDMA_HW_STATS_DEFAULT_LIFESPAN);
 }
 
 static int mlx4_ib_get_hw_stats(struct ib_device *ibdev,
 				struct rdma_hw_stats *stats,
 				u8 port, int index)
 {
 	struct mlx4_ib_dev *dev = to_mdev(ibdev);
 	struct mlx4_ib_diag_counters *diag = dev->diag_counters;
 	u32 hw_value[ARRAY_SIZE(diag_device_only) +
 		ARRAY_SIZE(diag_ext) + ARRAY_SIZE(diag_basic)] = {};
 	int ret;
 	int i;
 
 	ret = mlx4_query_diag_counters(dev->dev,
 				       MLX4_OP_MOD_QUERY_TRANSPORT_CI_ERRORS,
 				       diag[!!port].offset, hw_value,
 				       diag[!!port].num_counters, port);
 
 	if (ret)
 		return ret;
 
 	for (i = 0; i < diag[!!port].num_counters; i++)
 		stats->value[i] = hw_value[i];
 
 	return diag[!!port].num_counters;
 }
 
 static int __mlx4_ib_alloc_diag_counters(struct mlx4_ib_dev *ibdev,
 					 const char ***name,
 					 u32 **offset,
 					 u32 *num,
 					 bool port)
 {
 	u32 num_counters;
 
 	num_counters = ARRAY_SIZE(diag_basic);
 
 	if (ibdev->dev->caps.flags2 & MLX4_DEV_CAP_FLAG2_DIAG_PER_PORT)
 		num_counters += ARRAY_SIZE(diag_ext);
 
 	if (!port)
 		num_counters += ARRAY_SIZE(diag_device_only);
 
 	*name = kcalloc(num_counters, sizeof(**name), GFP_KERNEL);
 	if (!*name)
 		return -ENOMEM;
 
 	*offset = kcalloc(num_counters, sizeof(**offset), GFP_KERNEL);
 	if (!*offset)
 		goto err_name;
 
 	*num = num_counters;
 
 	return 0;
 
 err_name:
 	kfree(*name);
 	return -ENOMEM;
 }
 
 static void mlx4_ib_fill_diag_counters(struct mlx4_ib_dev *ibdev,
 				       const char **name,
 				       u32 *offset,
 				       bool port)
 {
 	int i;
 	int j;
 
 	for (i = 0, j = 0; i < ARRAY_SIZE(diag_basic); i++, j++) {
 		name[i] = diag_basic[i].name;
 		offset[i] = diag_basic[i].offset;
 	}
 
 	if (ibdev->dev->caps.flags2 & MLX4_DEV_CAP_FLAG2_DIAG_PER_PORT) {
 		for (i = 0; i < ARRAY_SIZE(diag_ext); i++, j++) {
 			name[j] = diag_ext[i].name;
 			offset[j] = diag_ext[i].offset;
 		}
 	}
 
 	if (!port) {
 		for (i = 0; i < ARRAY_SIZE(diag_device_only); i++, j++) {
 			name[j] = diag_device_only[i].name;
 			offset[j] = diag_device_only[i].offset;
 		}
 	}
 }
 
 static int mlx4_ib_alloc_diag_counters(struct mlx4_ib_dev *ibdev)
 {
 	struct mlx4_ib_diag_counters *diag = ibdev->diag_counters;
 	int i;
 	int ret;
 	bool per_port = !!(ibdev->dev->caps.flags2 &
 		MLX4_DEV_CAP_FLAG2_DIAG_PER_PORT);
 
 	if (mlx4_is_slave(ibdev->dev))
 		return 0;
 
 	for (i = 0; i < MLX4_DIAG_COUNTERS_TYPES; i++) {
 		/* i == 1 means we are building port counters */
 		if (i && !per_port)
 			continue;
 
 		ret = __mlx4_ib_alloc_diag_counters(ibdev, &diag[i].name,
 						    &diag[i].offset,
 						    &diag[i].num_counters, i);
 		if (ret)
 			goto err_alloc;
 
 		mlx4_ib_fill_diag_counters(ibdev, diag[i].name,
 					   diag[i].offset, i);
 	}
 
 	ibdev->ib_dev.get_hw_stats	= mlx4_ib_get_hw_stats;
 	ibdev->ib_dev.alloc_hw_stats	= mlx4_ib_alloc_hw_stats;
 
 	return 0;
 
 err_alloc:
 	if (i) {
 		kfree(diag[i - 1].name);
 		kfree(diag[i - 1].offset);
 	}
 
 	return ret;
 }
 
 static void mlx4_ib_diag_cleanup(struct mlx4_ib_dev *ibdev)
 {
 	int i;
 
 	for (i = 0; i < MLX4_DIAG_COUNTERS_TYPES; i++) {
 		kfree(ibdev->diag_counters[i].offset);
 		kfree(ibdev->diag_counters[i].name);
 	}
 }
 
 #define MLX4_IB_INVALID_MAC	((u64)-1)
 static void mlx4_ib_update_qps(struct mlx4_ib_dev *ibdev,
 			       struct ifnet *dev,
 			       int port)
 {
 	u64 new_smac = 0;
 	u64 release_mac = MLX4_IB_INVALID_MAC;
 	struct mlx4_ib_qp *qp;
 
 	new_smac = mlx4_mac_to_u64(IF_LLADDR(dev));
 
 	atomic64_set(&ibdev->iboe.mac[port - 1], new_smac);
 
 	/* no need for update QP1 and mac registration in non-SRIOV */
 	if (!mlx4_is_mfunc(ibdev->dev))
 		return;
 
 	mutex_lock(&ibdev->qp1_proxy_lock[port - 1]);
 	qp = ibdev->qp1_proxy[port - 1];
 	if (qp) {
 		int new_smac_index;
 		u64 old_smac;
 		struct mlx4_update_qp_params update_params;
 
 		mutex_lock(&qp->mutex);
 		old_smac = qp->pri.smac;
 		if (new_smac == old_smac)
 			goto unlock;
 
 		new_smac_index = mlx4_register_mac(ibdev->dev, port, new_smac);
 
 		if (new_smac_index < 0)
 			goto unlock;
 
 		update_params.smac_index = new_smac_index;
 		if (mlx4_update_qp(ibdev->dev, qp->mqp.qpn, MLX4_UPDATE_QP_SMAC,
 				   &update_params)) {
 			release_mac = new_smac;
 			goto unlock;
 		}
 		/* if old port was zero, no mac was yet registered for this QP */
 		if (qp->pri.smac_port)
 			release_mac = old_smac;
 		qp->pri.smac = new_smac;
 		qp->pri.smac_port = port;
 		qp->pri.smac_index = new_smac_index;
 	}
 
 unlock:
 	if (release_mac != MLX4_IB_INVALID_MAC)
 		mlx4_unregister_mac(ibdev->dev, port, release_mac);
 	if (qp)
 		mutex_unlock(&qp->mutex);
 	mutex_unlock(&ibdev->qp1_proxy_lock[port - 1]);
 }
 
 static void mlx4_ib_scan_netdevs(struct mlx4_ib_dev *ibdev,
 				 struct ifnet *dev,
 				 unsigned long event)
 
 {
 	struct mlx4_ib_iboe *iboe;
 	int update_qps_port = -1;
 	int port;
 
 	iboe = &ibdev->iboe;
 
 	spin_lock_bh(&iboe->lock);
 	mlx4_foreach_ib_transport_port(port, ibdev->dev) {
 
 		iboe->netdevs[port - 1] =
 			mlx4_get_protocol_dev(ibdev->dev, MLX4_PROT_ETH, port);
 
 		if (dev == iboe->netdevs[port - 1] &&
 		    (event == NETDEV_CHANGEADDR || event == NETDEV_REGISTER ||
 		     event == NETDEV_UP || event == NETDEV_CHANGE))
 			update_qps_port = port;
 
 	}
 	spin_unlock_bh(&iboe->lock);
 
 	if (update_qps_port > 0)
 		mlx4_ib_update_qps(ibdev, dev, update_qps_port);
 }
 
 static int mlx4_ib_netdev_event(struct notifier_block *this,
 				unsigned long event, void *ptr)
 {
 	struct ifnet *dev = netdev_notifier_info_to_ifp(ptr);
 	struct mlx4_ib_dev *ibdev;
 
 	if (dev->if_vnet != &init_net)
 		return NOTIFY_DONE;
 
 	ibdev = container_of(this, struct mlx4_ib_dev, iboe.nb);
 	mlx4_ib_scan_netdevs(ibdev, dev, event);
 
 	return NOTIFY_DONE;
 }
 
 static void init_pkeys(struct mlx4_ib_dev *ibdev)
 {
 	int port;
 	int slave;
 	int i;
 
 	if (mlx4_is_master(ibdev->dev)) {
 		for (slave = 0; slave <= ibdev->dev->persist->num_vfs;
 		     ++slave) {
 			for (port = 1; port <= ibdev->dev->caps.num_ports; ++port) {
 				for (i = 0;
 				     i < ibdev->dev->phys_caps.pkey_phys_table_len[port];
 				     ++i) {
 					ibdev->pkeys.virt2phys_pkey[slave][port - 1][i] =
 					/* master has the identity virt2phys pkey mapping */
 						(slave == mlx4_master_func_num(ibdev->dev) || !i) ? i :
 							ibdev->dev->phys_caps.pkey_phys_table_len[port] - 1;
 					mlx4_sync_pkey_table(ibdev->dev, slave, port, i,
 							     ibdev->pkeys.virt2phys_pkey[slave][port - 1][i]);
 				}
 			}
 		}
 		/* initialize pkey cache */
 		for (port = 1; port <= ibdev->dev->caps.num_ports; ++port) {
 			for (i = 0;
 			     i < ibdev->dev->phys_caps.pkey_phys_table_len[port];
 			     ++i)
 				ibdev->pkeys.phys_pkey_cache[port-1][i] =
 					(i) ? 0 : 0xFFFF;
 		}
 	}
 }
 
 static void mlx4_ib_alloc_eqs(struct mlx4_dev *dev, struct mlx4_ib_dev *ibdev)
 {
 	int i, j, eq = 0, total_eqs = 0;
 
 	ibdev->eq_table = kcalloc(dev->caps.num_comp_vectors,
 				  sizeof(ibdev->eq_table[0]), GFP_KERNEL);
 	if (!ibdev->eq_table)
 		return;
 
 	for (i = 1; i <= dev->caps.num_ports; i++) {
 		for (j = 0; j < mlx4_get_eqs_per_port(dev, i);
 		     j++, total_eqs++) {
 			if (i > 1 &&  mlx4_is_eq_shared(dev, total_eqs))
 				continue;
 			ibdev->eq_table[eq] = total_eqs;
 			if (!mlx4_assign_eq(dev, i,
 					    &ibdev->eq_table[eq]))
 				eq++;
 			else
 				ibdev->eq_table[eq] = -1;
 		}
 	}
 
 	for (i = eq; i < dev->caps.num_comp_vectors;
 	     ibdev->eq_table[i++] = -1)
 		;
 
 	/* Advertise the new number of EQs to clients */
 	ibdev->ib_dev.num_comp_vectors = eq;
 }
 
 static void mlx4_ib_free_eqs(struct mlx4_dev *dev, struct mlx4_ib_dev *ibdev)
 {
 	int i;
 	int total_eqs = ibdev->ib_dev.num_comp_vectors;
 
 	/* no eqs were allocated */
 	if (!ibdev->eq_table)
 		return;
 
 	/* Reset the advertised EQ number */
 	ibdev->ib_dev.num_comp_vectors = 0;
 
 	for (i = 0; i < total_eqs; i++)
 		mlx4_release_eq(dev, ibdev->eq_table[i]);
 
 	kfree(ibdev->eq_table);
 	ibdev->eq_table = NULL;
 }
 
 static int mlx4_port_immutable(struct ib_device *ibdev, u8 port_num,
 			       struct ib_port_immutable *immutable)
 {
 	struct ib_port_attr attr;
 	struct mlx4_ib_dev *mdev = to_mdev(ibdev);
 	int err;
 
 	err = mlx4_ib_query_port(ibdev, port_num, &attr);
 	if (err)
 		return err;
 
 	immutable->pkey_tbl_len = attr.pkey_tbl_len;
 	immutable->gid_tbl_len = attr.gid_tbl_len;
 
 	if (mlx4_ib_port_link_layer(ibdev, port_num) == IB_LINK_LAYER_INFINIBAND) {
 		immutable->core_cap_flags = RDMA_CORE_PORT_IBA_IB;
 	} else {
 		if (mdev->dev->caps.flags & MLX4_DEV_CAP_FLAG_IBOE)
 			immutable->core_cap_flags = RDMA_CORE_PORT_IBA_ROCE;
 		if (mdev->dev->caps.flags2 & MLX4_DEV_CAP_FLAG2_ROCE_V1_V2)
 			immutable->core_cap_flags = RDMA_CORE_PORT_IBA_ROCE |
 				RDMA_CORE_PORT_IBA_ROCE_UDP_ENCAP;
 	}
 
 	immutable->max_mad_size = IB_MGMT_MAD_SIZE;
 
 	return 0;
 }
 
 static void get_fw_ver_str(struct ib_device *device, char *str,
 			   size_t str_len)
 {
 	struct mlx4_ib_dev *dev =
 		container_of(device, struct mlx4_ib_dev, ib_dev);
 	snprintf(str, str_len, "%d.%d.%d",
 		 (int) (dev->dev->caps.fw_ver >> 32),
 		 (int) (dev->dev->caps.fw_ver >> 16) & 0xffff,
 		 (int) dev->dev->caps.fw_ver & 0xffff);
 }
 
 static void *mlx4_ib_add(struct mlx4_dev *dev)
 {
 	struct mlx4_ib_dev *ibdev;
 	int num_ports;
 	int i, j;
 	int err;
 	struct mlx4_ib_iboe *iboe;
 	int ib_num_ports = 0;
 	int num_req_counters;
 	int allocated;
 	u32 counter_index;
 	struct counter_index *new_counter_index = NULL;
 
 	pr_info_once("%s", mlx4_ib_version);
 
 	num_ports = 0;
 	mlx4_foreach_ib_transport_port(i, dev)
 		num_ports++;
 
 	/* No point in registering a device with no ports... */
 	if (num_ports == 0)
 		return NULL;
 
 	ibdev = (struct mlx4_ib_dev *) ib_alloc_device(sizeof *ibdev);
 	if (!ibdev) {
 		dev_err(&dev->persist->pdev->dev,
 			"Device struct alloc failed\n");
 		return NULL;
 	}
 
 	iboe = &ibdev->iboe;
 
 	if (mlx4_pd_alloc(dev, &ibdev->priv_pdn))
 		goto err_dealloc;
 
 	if (mlx4_uar_alloc(dev, &ibdev->priv_uar))
 		goto err_pd;
 
 	ibdev->uar_map = ioremap((phys_addr_t) ibdev->priv_uar.pfn << PAGE_SHIFT,
 				 PAGE_SIZE);
 	if (!ibdev->uar_map)
 		goto err_uar;
 	MLX4_INIT_DOORBELL_LOCK(&ibdev->uar_lock);
 
 	ibdev->dev = dev;
 	ibdev->bond_next_port	= 0;
 
 	strlcpy(ibdev->ib_dev.name, "mlx4_%d", IB_DEVICE_NAME_MAX);
 	ibdev->ib_dev.owner		= THIS_MODULE;
 	ibdev->ib_dev.node_type		= RDMA_NODE_IB_CA;
 	ibdev->ib_dev.local_dma_lkey	= dev->caps.reserved_lkey;
 	ibdev->num_ports		= num_ports;
 	ibdev->ib_dev.phys_port_cnt     = mlx4_is_bonded(dev) ?
 						1 : ibdev->num_ports;
 	ibdev->ib_dev.num_comp_vectors	= dev->caps.num_comp_vectors;
 	ibdev->ib_dev.dma_device	= &dev->persist->pdev->dev;
 	ibdev->ib_dev.get_netdev	= mlx4_ib_get_netdev;
 	ibdev->ib_dev.add_gid		= mlx4_ib_add_gid;
 	ibdev->ib_dev.del_gid		= mlx4_ib_del_gid;
 
 	if (dev->caps.userspace_caps)
 		ibdev->ib_dev.uverbs_abi_ver = MLX4_IB_UVERBS_ABI_VERSION;
 	else
 		ibdev->ib_dev.uverbs_abi_ver = MLX4_IB_UVERBS_NO_DEV_CAPS_ABI_VERSION;
 
 	ibdev->ib_dev.uverbs_cmd_mask	=
 		(1ull << IB_USER_VERBS_CMD_GET_CONTEXT)		|
 		(1ull << IB_USER_VERBS_CMD_QUERY_DEVICE)	|
 		(1ull << IB_USER_VERBS_CMD_QUERY_PORT)		|
 		(1ull << IB_USER_VERBS_CMD_ALLOC_PD)		|
 		(1ull << IB_USER_VERBS_CMD_DEALLOC_PD)		|
 		(1ull << IB_USER_VERBS_CMD_REG_MR)		|
 		(1ull << IB_USER_VERBS_CMD_REREG_MR)		|
 		(1ull << IB_USER_VERBS_CMD_DEREG_MR)		|
 		(1ull << IB_USER_VERBS_CMD_CREATE_COMP_CHANNEL)	|
 		(1ull << IB_USER_VERBS_CMD_CREATE_CQ)		|
 		(1ull << IB_USER_VERBS_CMD_RESIZE_CQ)		|
 		(1ull << IB_USER_VERBS_CMD_DESTROY_CQ)		|
 		(1ull << IB_USER_VERBS_CMD_CREATE_QP)		|
 		(1ull << IB_USER_VERBS_CMD_MODIFY_QP)		|
 		(1ull << IB_USER_VERBS_CMD_QUERY_QP)		|
 		(1ull << IB_USER_VERBS_CMD_DESTROY_QP)		|
 		(1ull << IB_USER_VERBS_CMD_ATTACH_MCAST)	|
 		(1ull << IB_USER_VERBS_CMD_DETACH_MCAST)	|
 		(1ull << IB_USER_VERBS_CMD_CREATE_SRQ)		|
 		(1ull << IB_USER_VERBS_CMD_MODIFY_SRQ)		|
 		(1ull << IB_USER_VERBS_CMD_QUERY_SRQ)		|
 		(1ull << IB_USER_VERBS_CMD_DESTROY_SRQ)		|
 		(1ull << IB_USER_VERBS_CMD_CREATE_XSRQ)		|
 		(1ull << IB_USER_VERBS_CMD_OPEN_QP);
 
 	ibdev->ib_dev.query_device	= mlx4_ib_query_device;
 	ibdev->ib_dev.query_port	= mlx4_ib_query_port;
 	ibdev->ib_dev.get_link_layer	= mlx4_ib_port_link_layer;
 	ibdev->ib_dev.query_gid		= mlx4_ib_query_gid;
 	ibdev->ib_dev.query_pkey	= mlx4_ib_query_pkey;
 	ibdev->ib_dev.modify_device	= mlx4_ib_modify_device;
 	ibdev->ib_dev.modify_port	= mlx4_ib_modify_port;
 	ibdev->ib_dev.alloc_ucontext	= mlx4_ib_alloc_ucontext;
 	ibdev->ib_dev.dealloc_ucontext	= mlx4_ib_dealloc_ucontext;
 	ibdev->ib_dev.mmap		= mlx4_ib_mmap;
 	ibdev->ib_dev.alloc_pd		= mlx4_ib_alloc_pd;
 	ibdev->ib_dev.dealloc_pd	= mlx4_ib_dealloc_pd;
 	ibdev->ib_dev.create_ah		= mlx4_ib_create_ah;
 	ibdev->ib_dev.query_ah		= mlx4_ib_query_ah;
 	ibdev->ib_dev.destroy_ah	= mlx4_ib_destroy_ah;
 	ibdev->ib_dev.create_srq	= mlx4_ib_create_srq;
 	ibdev->ib_dev.modify_srq	= mlx4_ib_modify_srq;
 	ibdev->ib_dev.query_srq		= mlx4_ib_query_srq;
 	ibdev->ib_dev.destroy_srq	= mlx4_ib_destroy_srq;
 	ibdev->ib_dev.post_srq_recv	= mlx4_ib_post_srq_recv;
 	ibdev->ib_dev.create_qp		= mlx4_ib_create_qp;
 	ibdev->ib_dev.modify_qp		= mlx4_ib_modify_qp;
 	ibdev->ib_dev.query_qp		= mlx4_ib_query_qp;
 	ibdev->ib_dev.destroy_qp	= mlx4_ib_destroy_qp;
 	ibdev->ib_dev.post_send		= mlx4_ib_post_send;
 	ibdev->ib_dev.post_recv		= mlx4_ib_post_recv;
 	ibdev->ib_dev.create_cq		= mlx4_ib_create_cq;
 	ibdev->ib_dev.modify_cq		= mlx4_ib_modify_cq;
 	ibdev->ib_dev.resize_cq		= mlx4_ib_resize_cq;
 	ibdev->ib_dev.destroy_cq	= mlx4_ib_destroy_cq;
 	ibdev->ib_dev.poll_cq		= mlx4_ib_poll_cq;
 	ibdev->ib_dev.req_notify_cq	= mlx4_ib_arm_cq;
 	ibdev->ib_dev.get_dma_mr	= mlx4_ib_get_dma_mr;
 	ibdev->ib_dev.reg_user_mr	= mlx4_ib_reg_user_mr;
 	ibdev->ib_dev.rereg_user_mr	= mlx4_ib_rereg_user_mr;
 	ibdev->ib_dev.dereg_mr		= mlx4_ib_dereg_mr;
 	ibdev->ib_dev.alloc_mr		= mlx4_ib_alloc_mr;
 	ibdev->ib_dev.map_mr_sg		= mlx4_ib_map_mr_sg;
 	ibdev->ib_dev.attach_mcast	= mlx4_ib_mcg_attach;
 	ibdev->ib_dev.detach_mcast	= mlx4_ib_mcg_detach;
 	ibdev->ib_dev.process_mad	= mlx4_ib_process_mad;
 	ibdev->ib_dev.get_port_immutable = mlx4_port_immutable;
 	ibdev->ib_dev.get_dev_fw_str    = get_fw_ver_str;
 
 	if (!mlx4_is_slave(ibdev->dev)) {
 		ibdev->ib_dev.alloc_fmr		= mlx4_ib_fmr_alloc;
 		ibdev->ib_dev.map_phys_fmr	= mlx4_ib_map_phys_fmr;
 		ibdev->ib_dev.unmap_fmr		= mlx4_ib_unmap_fmr;
 		ibdev->ib_dev.dealloc_fmr	= mlx4_ib_fmr_dealloc;
 	}
 
 	if (dev->caps.flags & MLX4_DEV_CAP_FLAG_MEM_WINDOW ||
 	    dev->caps.bmme_flags & MLX4_BMME_FLAG_TYPE_2_WIN) {
 		ibdev->ib_dev.alloc_mw = mlx4_ib_alloc_mw;
 		ibdev->ib_dev.dealloc_mw = mlx4_ib_dealloc_mw;
 
 		ibdev->ib_dev.uverbs_cmd_mask |=
 			(1ull << IB_USER_VERBS_CMD_ALLOC_MW) |
 			(1ull << IB_USER_VERBS_CMD_DEALLOC_MW);
 	}
 
 	if (dev->caps.flags & MLX4_DEV_CAP_FLAG_XRC) {
 		ibdev->ib_dev.alloc_xrcd = mlx4_ib_alloc_xrcd;
 		ibdev->ib_dev.dealloc_xrcd = mlx4_ib_dealloc_xrcd;
 		ibdev->ib_dev.uverbs_cmd_mask |=
 			(1ull << IB_USER_VERBS_CMD_OPEN_XRCD) |
 			(1ull << IB_USER_VERBS_CMD_CLOSE_XRCD);
 	}
 
 	if (check_flow_steering_support(dev)) {
 		ibdev->steering_support = MLX4_STEERING_MODE_DEVICE_MANAGED;
 		ibdev->ib_dev.create_flow	= mlx4_ib_create_flow;
 		ibdev->ib_dev.destroy_flow	= mlx4_ib_destroy_flow;
 
 		ibdev->ib_dev.uverbs_ex_cmd_mask	|=
 			(1ull << IB_USER_VERBS_EX_CMD_CREATE_FLOW) |
 			(1ull << IB_USER_VERBS_EX_CMD_DESTROY_FLOW);
 	}
 
 	ibdev->ib_dev.uverbs_ex_cmd_mask |=
 		(1ull << IB_USER_VERBS_EX_CMD_QUERY_DEVICE) |
 		(1ull << IB_USER_VERBS_EX_CMD_CREATE_CQ) |
 		(1ull << IB_USER_VERBS_EX_CMD_CREATE_QP);
 
 	mlx4_ib_alloc_eqs(dev, ibdev);
 
 	spin_lock_init(&iboe->lock);
 
 	if (init_node_data(ibdev))
 		goto err_map;
 	mlx4_init_sl2vl_tbl(ibdev);
 
 	for (i = 0; i < ibdev->num_ports; ++i) {
 		mutex_init(&ibdev->counters_table[i].mutex);
 		INIT_LIST_HEAD(&ibdev->counters_table[i].counters_list);
 	}
 
 	num_req_counters = mlx4_is_bonded(dev) ? 1 : ibdev->num_ports;
 	for (i = 0; i < num_req_counters; ++i) {
 		mutex_init(&ibdev->qp1_proxy_lock[i]);
 		allocated = 0;
 		if (mlx4_ib_port_link_layer(&ibdev->ib_dev, i + 1) ==
 						IB_LINK_LAYER_ETHERNET) {
 			err = mlx4_counter_alloc(ibdev->dev, &counter_index);
 			/* if failed to allocate a new counter, use default */
 			if (err)
 				counter_index =
 					mlx4_get_default_counter_index(dev,
 								       i + 1);
 			else
 				allocated = 1;
 		} else { /* IB_LINK_LAYER_INFINIBAND use the default counter */
 			counter_index = mlx4_get_default_counter_index(dev,
 								       i + 1);
 		}
 		new_counter_index = kmalloc(sizeof(*new_counter_index),
 					    GFP_KERNEL);
 		if (!new_counter_index) {
 			if (allocated)
 				mlx4_counter_free(ibdev->dev, counter_index);
 			goto err_counter;
 		}
 		new_counter_index->index = counter_index;
 		new_counter_index->allocated = allocated;
 		list_add_tail(&new_counter_index->list,
 			      &ibdev->counters_table[i].counters_list);
 		ibdev->counters_table[i].default_counter = counter_index;
 		pr_info("counter index %d for port %d allocated %d\n",
 			counter_index, i + 1, allocated);
 	}
 	if (mlx4_is_bonded(dev))
 		for (i = 1; i < ibdev->num_ports ; ++i) {
 			new_counter_index =
 					kmalloc(sizeof(struct counter_index),
 						GFP_KERNEL);
 			if (!new_counter_index)
 				goto err_counter;
 			new_counter_index->index = counter_index;
 			new_counter_index->allocated = 0;
 			list_add_tail(&new_counter_index->list,
 				      &ibdev->counters_table[i].counters_list);
 			ibdev->counters_table[i].default_counter =
 								counter_index;
 		}
 
 	mlx4_foreach_port(i, dev, MLX4_PORT_TYPE_IB)
 		ib_num_ports++;
 
 	spin_lock_init(&ibdev->sm_lock);
 	mutex_init(&ibdev->cap_mask_mutex);
 	INIT_LIST_HEAD(&ibdev->qp_list);
 	spin_lock_init(&ibdev->reset_flow_resource_lock);
 
 	if (ibdev->steering_support == MLX4_STEERING_MODE_DEVICE_MANAGED &&
 	    ib_num_ports) {
 		ibdev->steer_qpn_count = MLX4_IB_UC_MAX_NUM_QPS;
 		err = mlx4_qp_reserve_range(dev, ibdev->steer_qpn_count,
 					    MLX4_IB_UC_STEER_QPN_ALIGN,
 					    &ibdev->steer_qpn_base, 0);
 		if (err)
 			goto err_counter;
 
 		ibdev->ib_uc_qpns_bitmap =
 			kmalloc(BITS_TO_LONGS(ibdev->steer_qpn_count) *
 				sizeof(long),
 				GFP_KERNEL);
 		if (!ibdev->ib_uc_qpns_bitmap) {
 			dev_err(&dev->persist->pdev->dev,
 				"bit map alloc failed\n");
 			goto err_steer_qp_release;
 		}
 
 		bitmap_zero(ibdev->ib_uc_qpns_bitmap, ibdev->steer_qpn_count);
 
 		err = mlx4_FLOW_STEERING_IB_UC_QP_RANGE(
 				dev, ibdev->steer_qpn_base,
 				ibdev->steer_qpn_base +
 				ibdev->steer_qpn_count - 1);
 		if (err)
 			goto err_steer_free_bitmap;
 	}
 
 	for (j = 1; j <= ibdev->dev->caps.num_ports; j++)
 		atomic64_set(&iboe->mac[j - 1], ibdev->dev->caps.def_mac[j]);
 
 	if (mlx4_ib_alloc_diag_counters(ibdev))
 		goto err_steer_free_bitmap;
 
 	if (ib_register_device(&ibdev->ib_dev, NULL))
 		goto err_diag_counters;
 
 	if (mlx4_ib_mad_init(ibdev))
 		goto err_reg;
 
 	if (mlx4_ib_init_sriov(ibdev))
 		goto err_mad;
 
 	if (dev->caps.flags & MLX4_DEV_CAP_FLAG_IBOE ||
 	    dev->caps.flags2 & MLX4_DEV_CAP_FLAG2_ROCE_V1_V2) {
 		if (!iboe->nb.notifier_call) {
 			iboe->nb.notifier_call = mlx4_ib_netdev_event;
 			err = register_netdevice_notifier(&iboe->nb);
 			if (err) {
 				iboe->nb.notifier_call = NULL;
 				goto err_notif;
 			}
 		}
 		if (dev->caps.flags2 & MLX4_DEV_CAP_FLAG2_ROCE_V1_V2) {
 			err = mlx4_config_roce_v2_port(dev, ROCE_V2_UDP_DPORT);
 			if (err) {
 				goto err_notif;
 			}
 		}
 	}
 
 	for (j = 0; j < ARRAY_SIZE(mlx4_class_attributes); ++j) {
 		if (device_create_file(&ibdev->ib_dev.dev,
 				       mlx4_class_attributes[j]))
 			goto err_notif;
 	}
 
 	ibdev->ib_active = true;
 
 	if (mlx4_is_mfunc(ibdev->dev))
 		init_pkeys(ibdev);
 
 	/* create paravirt contexts for any VFs which are active */
 	if (mlx4_is_master(ibdev->dev)) {
 		for (j = 0; j < MLX4_MFUNC_MAX; j++) {
 			if (j == mlx4_master_func_num(ibdev->dev))
 				continue;
 			if (mlx4_is_slave_active(ibdev->dev, j))
 				do_slave_init(ibdev, j, 1);
 		}
 	}
 	return ibdev;
 
 err_notif:
 	if (ibdev->iboe.nb.notifier_call) {
 		if (unregister_netdevice_notifier(&ibdev->iboe.nb))
 			pr_warn("failure unregistering notifier\n");
 		ibdev->iboe.nb.notifier_call = NULL;
 	}
 	flush_workqueue(wq);
 
 	mlx4_ib_close_sriov(ibdev);
 
 err_mad:
 	mlx4_ib_mad_cleanup(ibdev);
 
 err_reg:
 	ib_unregister_device(&ibdev->ib_dev);
 
 err_diag_counters:
 	mlx4_ib_diag_cleanup(ibdev);
 
 err_steer_free_bitmap:
 	kfree(ibdev->ib_uc_qpns_bitmap);
 
 err_steer_qp_release:
 	if (ibdev->steering_support == MLX4_STEERING_MODE_DEVICE_MANAGED)
 		mlx4_qp_release_range(dev, ibdev->steer_qpn_base,
 				      ibdev->steer_qpn_count);
 err_counter:
 	for (i = 0; i < ibdev->num_ports; ++i)
 		mlx4_ib_delete_counters_table(ibdev, &ibdev->counters_table[i]);
 
 err_map:
 	iounmap(ibdev->uar_map);
 
 err_uar:
 	mlx4_uar_free(dev, &ibdev->priv_uar);
 
 err_pd:
 	mlx4_pd_free(dev, ibdev->priv_pdn);
 
 err_dealloc:
 	ib_dealloc_device(&ibdev->ib_dev);
 
 	return NULL;
 }
 
 int mlx4_ib_steer_qp_alloc(struct mlx4_ib_dev *dev, int count, int *qpn)
 {
 	int offset;
 
 	WARN_ON(!dev->ib_uc_qpns_bitmap);
 
 	offset = bitmap_find_free_region(dev->ib_uc_qpns_bitmap,
 					 dev->steer_qpn_count,
 					 get_count_order(count));
 	if (offset < 0)
 		return offset;
 
 	*qpn = dev->steer_qpn_base + offset;
 	return 0;
 }
 
 void mlx4_ib_steer_qp_free(struct mlx4_ib_dev *dev, u32 qpn, int count)
 {
 	if (!qpn ||
 	    dev->steering_support != MLX4_STEERING_MODE_DEVICE_MANAGED)
 		return;
 
 	BUG_ON(qpn < dev->steer_qpn_base);
 
 	bitmap_release_region(dev->ib_uc_qpns_bitmap,
 			      qpn - dev->steer_qpn_base,
 			      get_count_order(count));
 }
 
 int mlx4_ib_steer_qp_reg(struct mlx4_ib_dev *mdev, struct mlx4_ib_qp *mqp,
 			 int is_attach)
 {
 	int err;
 	size_t flow_size;
 	struct ib_flow_attr *flow = NULL;
 	struct ib_flow_spec_ib *ib_spec;
 
 	if (is_attach) {
 		flow_size = sizeof(struct ib_flow_attr) +
 			    sizeof(struct ib_flow_spec_ib);
 		flow = kzalloc(flow_size, GFP_KERNEL);
 		if (!flow)
 			return -ENOMEM;
 		flow->port = mqp->port;
 		flow->num_of_specs = 1;
 		flow->size = flow_size;
 		ib_spec = (struct ib_flow_spec_ib *)(flow + 1);
 		ib_spec->type = IB_FLOW_SPEC_IB;
 		ib_spec->size = sizeof(struct ib_flow_spec_ib);
 		/* Add an empty rule for IB L2 */
 		memset(&ib_spec->mask, 0, sizeof(ib_spec->mask));
 
 		err = __mlx4_ib_create_flow(&mqp->ibqp, flow,
 					    IB_FLOW_DOMAIN_NIC,
 					    MLX4_FS_REGULAR,
 					    &mqp->reg_id);
 	} else {
 		err = __mlx4_ib_destroy_flow(mdev->dev, mqp->reg_id);
 	}
 	kfree(flow);
 	return err;
 }
 
 static void mlx4_ib_remove(struct mlx4_dev *dev, void *ibdev_ptr)
 {
 	struct mlx4_ib_dev *ibdev = ibdev_ptr;
 	int p;
 
 	ibdev->ib_active = false;
 	flush_workqueue(wq);
 
 	mlx4_ib_close_sriov(ibdev);
 	mlx4_ib_mad_cleanup(ibdev);
 	ib_unregister_device(&ibdev->ib_dev);
 	mlx4_ib_diag_cleanup(ibdev);
 	if (ibdev->iboe.nb.notifier_call) {
 		if (unregister_netdevice_notifier(&ibdev->iboe.nb))
 			pr_warn("failure unregistering notifier\n");
 		ibdev->iboe.nb.notifier_call = NULL;
 	}
 
 	if (ibdev->steering_support == MLX4_STEERING_MODE_DEVICE_MANAGED) {
 		mlx4_qp_release_range(dev, ibdev->steer_qpn_base,
 				      ibdev->steer_qpn_count);
 		kfree(ibdev->ib_uc_qpns_bitmap);
 	}
 
 	iounmap(ibdev->uar_map);
 	for (p = 0; p < ibdev->num_ports; ++p)
 		mlx4_ib_delete_counters_table(ibdev, &ibdev->counters_table[p]);
 
 	mlx4_foreach_port(p, dev, MLX4_PORT_TYPE_IB)
 		mlx4_CLOSE_PORT(dev, p);
 
 	mlx4_ib_free_eqs(dev, ibdev);
 
 	mlx4_uar_free(dev, &ibdev->priv_uar);
 	mlx4_pd_free(dev, ibdev->priv_pdn);
 	ib_dealloc_device(&ibdev->ib_dev);
 }
 
 static void do_slave_init(struct mlx4_ib_dev *ibdev, int slave, int do_init)
 {
 	struct mlx4_ib_demux_work **dm = NULL;
 	struct mlx4_dev *dev = ibdev->dev;
 	int i;
 	unsigned long flags;
 	struct mlx4_active_ports actv_ports;
 	unsigned int ports;
 	unsigned int first_port;
 
 	if (!mlx4_is_master(dev))
 		return;
 
 	actv_ports = mlx4_get_active_ports(dev, slave);
 	ports = bitmap_weight(actv_ports.ports, dev->caps.num_ports);
 	first_port = find_first_bit(actv_ports.ports, dev->caps.num_ports);
 
 	dm = kcalloc(ports, sizeof(*dm), GFP_ATOMIC);
 	if (!dm) {
 		pr_err("failed to allocate memory for tunneling qp update\n");
 		return;
 	}
 
 	for (i = 0; i < ports; i++) {
 		dm[i] = kmalloc(sizeof (struct mlx4_ib_demux_work), GFP_ATOMIC);
 		if (!dm[i]) {
 			pr_err("failed to allocate memory for tunneling qp update work struct\n");
 			while (--i >= 0)
 				kfree(dm[i]);
 			goto out;
 		}
 		INIT_WORK(&dm[i]->work, mlx4_ib_tunnels_update_work);
 		dm[i]->port = first_port + i + 1;
 		dm[i]->slave = slave;
 		dm[i]->do_init = do_init;
 		dm[i]->dev = ibdev;
 	}
 	/* initialize or tear down tunnel QPs for the slave */
 	spin_lock_irqsave(&ibdev->sriov.going_down_lock, flags);
 	if (!ibdev->sriov.is_going_down) {
 		for (i = 0; i < ports; i++)
 			queue_work(ibdev->sriov.demux[i].ud_wq, &dm[i]->work);
 		spin_unlock_irqrestore(&ibdev->sriov.going_down_lock, flags);
 	} else {
 		spin_unlock_irqrestore(&ibdev->sriov.going_down_lock, flags);
 		for (i = 0; i < ports; i++)
 			kfree(dm[i]);
 	}
 out:
 	kfree(dm);
 	return;
 }
 
 static void mlx4_ib_handle_catas_error(struct mlx4_ib_dev *ibdev)
 {
 	struct mlx4_ib_qp *mqp;
 	unsigned long flags_qp;
 	unsigned long flags_cq;
 	struct mlx4_ib_cq *send_mcq, *recv_mcq;
 	struct list_head    cq_notify_list;
 	struct mlx4_cq *mcq;
 	unsigned long flags;
 
 	pr_warn("mlx4_ib_handle_catas_error was started\n");
 	INIT_LIST_HEAD(&cq_notify_list);
 
 	/* Go over qp list reside on that ibdev, sync with create/destroy qp.*/
 	spin_lock_irqsave(&ibdev->reset_flow_resource_lock, flags);
 
 	list_for_each_entry(mqp, &ibdev->qp_list, qps_list) {
 		spin_lock_irqsave(&mqp->sq.lock, flags_qp);
 		if (mqp->sq.tail != mqp->sq.head) {
 			send_mcq = to_mcq(mqp->ibqp.send_cq);
 			spin_lock_irqsave(&send_mcq->lock, flags_cq);
 			if (send_mcq->mcq.comp &&
 			    mqp->ibqp.send_cq->comp_handler) {
 				if (!send_mcq->mcq.reset_notify_added) {
 					send_mcq->mcq.reset_notify_added = 1;
 					list_add_tail(&send_mcq->mcq.reset_notify,
 						      &cq_notify_list);
 				}
 			}
 			spin_unlock_irqrestore(&send_mcq->lock, flags_cq);
 		}
 		spin_unlock_irqrestore(&mqp->sq.lock, flags_qp);
 		/* Now, handle the QP's receive queue */
 		spin_lock_irqsave(&mqp->rq.lock, flags_qp);
 		/* no handling is needed for SRQ */
 		if (!mqp->ibqp.srq) {
 			if (mqp->rq.tail != mqp->rq.head) {
 				recv_mcq = to_mcq(mqp->ibqp.recv_cq);
 				spin_lock_irqsave(&recv_mcq->lock, flags_cq);
 				if (recv_mcq->mcq.comp &&
 				    mqp->ibqp.recv_cq->comp_handler) {
 					if (!recv_mcq->mcq.reset_notify_added) {
 						recv_mcq->mcq.reset_notify_added = 1;
 						list_add_tail(&recv_mcq->mcq.reset_notify,
 							      &cq_notify_list);
 					}
 				}
 				spin_unlock_irqrestore(&recv_mcq->lock,
 						       flags_cq);
 			}
 		}
 		spin_unlock_irqrestore(&mqp->rq.lock, flags_qp);
 	}
 
 	list_for_each_entry(mcq, &cq_notify_list, reset_notify) {
 		mcq->comp(mcq);
 	}
 	spin_unlock_irqrestore(&ibdev->reset_flow_resource_lock, flags);
 	pr_warn("mlx4_ib_handle_catas_error ended\n");
 }
 
 static void handle_bonded_port_state_event(struct work_struct *work)
 {
 	struct ib_event_work *ew =
 		container_of(work, struct ib_event_work, work);
 	struct mlx4_ib_dev *ibdev = ew->ib_dev;
 	enum ib_port_state bonded_port_state = IB_PORT_NOP;
 	int i;
 	struct ib_event ibev;
 
 	kfree(ew);
 	spin_lock_bh(&ibdev->iboe.lock);
 	for (i = 0; i < MLX4_MAX_PORTS; ++i) {
 		struct ifnet *curr_netdev = ibdev->iboe.netdevs[i];
 		enum ib_port_state curr_port_state;
 
 		if (!curr_netdev)
 			continue;
 
 		curr_port_state =
 			((curr_netdev->if_drv_flags & IFF_DRV_RUNNING) != 0 &&
 			 curr_netdev->if_link_state == LINK_STATE_UP) ?
 			IB_PORT_ACTIVE : IB_PORT_DOWN;
 
 		bonded_port_state = (bonded_port_state != IB_PORT_ACTIVE) ?
 			curr_port_state : IB_PORT_ACTIVE;
 	}
 	spin_unlock_bh(&ibdev->iboe.lock);
 
 	ibev.device = &ibdev->ib_dev;
 	ibev.element.port_num = 1;
 	ibev.event = (bonded_port_state == IB_PORT_ACTIVE) ?
 		IB_EVENT_PORT_ACTIVE : IB_EVENT_PORT_ERR;
 
 	ib_dispatch_event(&ibev);
 }
 
 void mlx4_ib_sl2vl_update(struct mlx4_ib_dev *mdev, int port)
 {
 	u64 sl2vl;
 	int err;
 
 	err = mlx4_ib_query_sl2vl(&mdev->ib_dev, port, &sl2vl);
 	if (err) {
 		pr_err("Unable to get current sl to vl mapping for port %d.  Using all zeroes (%d)\n",
 		       port, err);
 		sl2vl = 0;
 	}
 	atomic64_set(&mdev->sl2vl[port - 1], sl2vl);
 }
 
 static void ib_sl2vl_update_work(struct work_struct *work)
 {
 	struct ib_event_work *ew = container_of(work, struct ib_event_work, work);
 	struct mlx4_ib_dev *mdev = ew->ib_dev;
 	int port = ew->port;
 
 	mlx4_ib_sl2vl_update(mdev, port);
 
 	kfree(ew);
 }
 
 void mlx4_sched_ib_sl2vl_update_work(struct mlx4_ib_dev *ibdev,
 				     int port)
 {
 	struct ib_event_work *ew;
 
 	ew = kmalloc(sizeof(*ew), GFP_ATOMIC);
 	if (ew) {
 		INIT_WORK(&ew->work, ib_sl2vl_update_work);
 		ew->port = port;
 		ew->ib_dev = ibdev;
 		queue_work(wq, &ew->work);
 	} else {
 		pr_err("failed to allocate memory for sl2vl update work\n");
 	}
 }
 
 static void mlx4_ib_event(struct mlx4_dev *dev, void *ibdev_ptr,
 			  enum mlx4_dev_event event, unsigned long param)
 {
 	struct ib_event ibev;
 	struct mlx4_ib_dev *ibdev = to_mdev((struct ib_device *) ibdev_ptr);
 	struct mlx4_eqe *eqe = NULL;
 	struct ib_event_work *ew;
 	int p = 0;
 
 	if (mlx4_is_bonded(dev) &&
 	    ((event == MLX4_DEV_EVENT_PORT_UP) ||
 	    (event == MLX4_DEV_EVENT_PORT_DOWN))) {
 		ew = kmalloc(sizeof(*ew), GFP_ATOMIC);
 		if (!ew)
 			return;
 		INIT_WORK(&ew->work, handle_bonded_port_state_event);
 		ew->ib_dev = ibdev;
 		queue_work(wq, &ew->work);
 		return;
 	}
 
 	if (event == MLX4_DEV_EVENT_PORT_MGMT_CHANGE)
 		eqe = (struct mlx4_eqe *)param;
 	else
 		p = (int) param;
 
 	switch (event) {
 	case MLX4_DEV_EVENT_PORT_UP:
 		if (p > ibdev->num_ports)
 			return;
 		if (!mlx4_is_slave(dev) &&
 		    rdma_port_get_link_layer(&ibdev->ib_dev, p) ==
 			IB_LINK_LAYER_INFINIBAND) {
 			if (mlx4_is_master(dev))
 				mlx4_ib_invalidate_all_guid_record(ibdev, p);
 			if (ibdev->dev->flags & MLX4_FLAG_SECURE_HOST &&
 			    !(ibdev->dev->caps.flags2 & MLX4_DEV_CAP_FLAG2_SL_TO_VL_CHANGE_EVENT))
 				mlx4_sched_ib_sl2vl_update_work(ibdev, p);
 		}
 		ibev.event = IB_EVENT_PORT_ACTIVE;
 		break;
 
 	case MLX4_DEV_EVENT_PORT_DOWN:
 		if (p > ibdev->num_ports)
 			return;
 		ibev.event = IB_EVENT_PORT_ERR;
 		break;
 
 	case MLX4_DEV_EVENT_CATASTROPHIC_ERROR:
 		ibdev->ib_active = false;
 		ibev.event = IB_EVENT_DEVICE_FATAL;
 		mlx4_ib_handle_catas_error(ibdev);
 		break;
 
 	case MLX4_DEV_EVENT_PORT_MGMT_CHANGE:
 		ew = kmalloc(sizeof *ew, GFP_ATOMIC);
 		if (!ew) {
 			pr_err("failed to allocate memory for events work\n");
 			break;
 		}
 
 		INIT_WORK(&ew->work, handle_port_mgmt_change_event);
 		memcpy(&ew->ib_eqe, eqe, sizeof *eqe);
 		ew->ib_dev = ibdev;
 		/* need to queue only for port owner, which uses GEN_EQE */
 		if (mlx4_is_master(dev))
 			queue_work(wq, &ew->work);
 		else
 			handle_port_mgmt_change_event(&ew->work);
 		return;
 
 	case MLX4_DEV_EVENT_SLAVE_INIT:
 		/* here, p is the slave id */
 		do_slave_init(ibdev, p, 1);
 		if (mlx4_is_master(dev)) {
 			int i;
 
 			for (i = 1; i <= ibdev->num_ports; i++) {
 				if (rdma_port_get_link_layer(&ibdev->ib_dev, i)
 					== IB_LINK_LAYER_INFINIBAND)
 					mlx4_ib_slave_alias_guid_event(ibdev,
 								       p, i,
 								       1);
 			}
 		}
 		return;
 
 	case MLX4_DEV_EVENT_SLAVE_SHUTDOWN:
 		if (mlx4_is_master(dev)) {
 			int i;
 
 			for (i = 1; i <= ibdev->num_ports; i++) {
 				if (rdma_port_get_link_layer(&ibdev->ib_dev, i)
 					== IB_LINK_LAYER_INFINIBAND)
 					mlx4_ib_slave_alias_guid_event(ibdev,
 								       p, i,
 								       0);
 			}
 		}
 		/* here, p is the slave id */
 		do_slave_init(ibdev, p, 0);
 		return;
 
 	default:
 		return;
 	}
 
 	ibev.device	      = ibdev_ptr;
 	ibev.element.port_num = mlx4_is_bonded(ibdev->dev) ? 1 : (u8)p;
 
 	ib_dispatch_event(&ibev);
 }
 
 static struct mlx4_interface mlx4_ib_interface = {
 	.add		= mlx4_ib_add,
 	.remove		= mlx4_ib_remove,
 	.event		= mlx4_ib_event,
 	.protocol	= MLX4_PROT_IB_IPV6,
 	.flags		= MLX4_INTFF_BONDING
 };
 
 static int __init mlx4_ib_init(void)
 {
 	int err;
 
 	wq = alloc_ordered_workqueue("mlx4_ib", WQ_MEM_RECLAIM);
 	if (!wq)
 		return -ENOMEM;
 
 	err = mlx4_ib_mcg_init();
 	if (err)
 		goto clean_wq;
 
 	err = mlx4_register_interface(&mlx4_ib_interface);
 	if (err)
 		goto clean_mcg;
 
 	return 0;
 
 clean_mcg:
 	mlx4_ib_mcg_destroy();
 
 clean_wq:
 	destroy_workqueue(wq);
 	return err;
 }
 
 static void __exit mlx4_ib_cleanup(void)
 {
 	mlx4_unregister_interface(&mlx4_ib_interface);
 	mlx4_ib_mcg_destroy();
 	destroy_workqueue(wq);
 }
 
 module_init_order(mlx4_ib_init, SI_ORDER_SEVENTH);
 module_exit_order(mlx4_ib_cleanup, SI_ORDER_SEVENTH);
 
 static int
 mlx4ib_evhand(module_t mod, int event, void *arg)
 {
 	return (0);
 }
 
 static moduledata_t mlx4ib_mod = {
 	.name = "mlx4ib",
 	.evhand = mlx4ib_evhand,
 };
 
 DECLARE_MODULE(mlx4ib, mlx4ib_mod, SI_SUB_LAST, SI_ORDER_ANY);
 MODULE_DEPEND(mlx4ib, mlx4, 1, 1, 1);
 MODULE_DEPEND(mlx4ib, ibcore, 1, 1, 1);
 MODULE_DEPEND(mlx4ib, linuxkpi, 1, 1, 1);
diff --git a/sys/dev/mlx5/mlx5_ib/mlx5_ib_main.c b/sys/dev/mlx5/mlx5_ib/mlx5_ib_main.c
index b97d40ca8b99..d614ec048f60 100644
--- a/sys/dev/mlx5/mlx5_ib/mlx5_ib_main.c
+++ b/sys/dev/mlx5/mlx5_ib/mlx5_ib_main.c
@@ -1,3588 +1,3588 @@
 /*-
  * Copyright (c) 2013-2021, Mellanox Technologies, Ltd.  All rights reserved.
  *
  * Redistribution and use in source and binary forms, with or without
  * modification, are permitted provided that the following conditions
  * are met:
  * 1. Redistributions of source code must retain the above copyright
  *    notice, this list of conditions and the following disclaimer.
  * 2. Redistributions in binary form must reproduce the above copyright
  *    notice, this list of conditions and the following disclaimer in the
  *    documentation and/or other materials provided with the distribution.
  *
  * THIS SOFTWARE IS PROVIDED BY AUTHOR AND CONTRIBUTORS `AS IS' AND
  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
  * ARE DISCLAIMED.  IN NO EVENT SHALL AUTHOR OR CONTRIBUTORS BE LIABLE
  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  * SUCH DAMAGE.
  *
  * $FreeBSD$
  */
 
 #include <linux/module.h>
 #include <linux/errno.h>
 #include <linux/pci.h>
 #include <linux/dma-mapping.h>
 #include <linux/slab.h>
 #if defined(CONFIG_X86)
 #include <asm/pat.h>
 #endif
 #include <linux/sched.h>
 #include <linux/delay.h>
 #include <linux/fs.h>
 #undef inode
 #include <rdma/ib_user_verbs.h>
 #include <rdma/ib_addr.h>
 #include <rdma/ib_cache.h>
 #include <dev/mlx5/port.h>
 #include <dev/mlx5/vport.h>
 #include <linux/list.h>
 #include <rdma/ib_smi.h>
 #include <rdma/ib_umem.h>
 #include <linux/in.h>
 #include <linux/etherdevice.h>
 #include <dev/mlx5/fs.h>
 #include "mlx5_ib.h"
 
 #define DRIVER_NAME "mlx5ib"
 #ifndef DRIVER_VERSION
 #define DRIVER_VERSION "3.6.0"
 #endif
 #define DRIVER_RELDATE	"December 2020"
 
 MODULE_DESCRIPTION("Mellanox Connect-IB HCA IB driver");
 MODULE_LICENSE("Dual BSD/GPL");
 MODULE_DEPEND(mlx5ib, linuxkpi, 1, 1, 1);
 MODULE_DEPEND(mlx5ib, mlx5, 1, 1, 1);
 MODULE_DEPEND(mlx5ib, ibcore, 1, 1, 1);
 MODULE_VERSION(mlx5ib, 1);
 
 static const char mlx5_version[] =
 	DRIVER_NAME ": Mellanox Connect-IB Infiniband driver "
 	DRIVER_VERSION " (" DRIVER_RELDATE ")\n";
 
 enum {
 	MLX5_ATOMIC_SIZE_QP_8BYTES = 1 << 3,
 };
 
 static enum rdma_link_layer
 mlx5_port_type_cap_to_rdma_ll(int port_type_cap)
 {
 	switch (port_type_cap) {
 	case MLX5_CAP_PORT_TYPE_IB:
 		return IB_LINK_LAYER_INFINIBAND;
 	case MLX5_CAP_PORT_TYPE_ETH:
 		return IB_LINK_LAYER_ETHERNET;
 	default:
 		return IB_LINK_LAYER_UNSPECIFIED;
 	}
 }
 
 static enum rdma_link_layer
 mlx5_ib_port_link_layer(struct ib_device *device, u8 port_num)
 {
 	struct mlx5_ib_dev *dev = to_mdev(device);
 	int port_type_cap = MLX5_CAP_GEN(dev->mdev, port_type);
 
 	return mlx5_port_type_cap_to_rdma_ll(port_type_cap);
 }
 
 static bool mlx5_netdev_match(struct ifnet *ndev,
 			      struct mlx5_core_dev *mdev,
 			      const char *dname)
 {
 	return ndev->if_type == IFT_ETHER &&
 	  ndev->if_dname != NULL &&
 	  strcmp(ndev->if_dname, dname) == 0 &&
 	  ndev->if_softc != NULL &&
 	  *(struct mlx5_core_dev **)ndev->if_softc == mdev;
 }
 
 static int mlx5_netdev_event(struct notifier_block *this,
 			     unsigned long event, void *ptr)
 {
 	struct ifnet *ndev = netdev_notifier_info_to_ifp(ptr);
 	struct mlx5_ib_dev *ibdev = container_of(this, struct mlx5_ib_dev,
 						 roce.nb);
 
 	switch (event) {
 	case NETDEV_REGISTER:
 	case NETDEV_UNREGISTER:
 		write_lock(&ibdev->roce.netdev_lock);
 		/* check if network interface belongs to mlx5en */
 		if (mlx5_netdev_match(ndev, ibdev->mdev, "mce"))
 			ibdev->roce.netdev = (event == NETDEV_UNREGISTER) ?
 					     NULL : ndev;
 		write_unlock(&ibdev->roce.netdev_lock);
 		break;
 
 	case NETDEV_UP:
 	case NETDEV_DOWN: {
 		struct ifnet *upper = NULL;
 
 		if ((upper == ndev || (!upper && ndev == ibdev->roce.netdev))
 		    && ibdev->ib_active) {
 			struct ib_event ibev = {0};
 
 			ibev.device = &ibdev->ib_dev;
 			ibev.event = (event == NETDEV_UP) ?
 				     IB_EVENT_PORT_ACTIVE : IB_EVENT_PORT_ERR;
 			ibev.element.port_num = 1;
 			ib_dispatch_event(&ibev);
 		}
 		break;
 	}
 
 	default:
 		break;
 	}
 
 	return NOTIFY_DONE;
 }
 
 static struct ifnet *mlx5_ib_get_netdev(struct ib_device *device,
 					     u8 port_num)
 {
 	struct mlx5_ib_dev *ibdev = to_mdev(device);
 	struct ifnet *ndev;
 
 	/* Ensure ndev does not disappear before we invoke if_ref()
 	 */
 	read_lock(&ibdev->roce.netdev_lock);
 	ndev = ibdev->roce.netdev;
 	if (ndev)
 		if_ref(ndev);
 	read_unlock(&ibdev->roce.netdev_lock);
 
 	return ndev;
 }
 
 static int translate_eth_proto_oper(u32 eth_proto_oper, u8 *active_speed,
 				    u8 *active_width)
 {
 	switch (eth_proto_oper) {
 	case MLX5E_PROT_MASK(MLX5E_1000BASE_CX_SGMII):
 	case MLX5E_PROT_MASK(MLX5E_1000BASE_KX):
 	case MLX5E_PROT_MASK(MLX5E_100BASE_TX):
 	case MLX5E_PROT_MASK(MLX5E_1000BASE_T):
 		*active_width = IB_WIDTH_1X;
 		*active_speed = IB_SPEED_SDR;
 		break;
 	case MLX5E_PROT_MASK(MLX5E_10GBASE_T):
 	case MLX5E_PROT_MASK(MLX5E_10GBASE_CX4):
 	case MLX5E_PROT_MASK(MLX5E_10GBASE_KX4):
 	case MLX5E_PROT_MASK(MLX5E_10GBASE_KR):
 	case MLX5E_PROT_MASK(MLX5E_10GBASE_CR):
 	case MLX5E_PROT_MASK(MLX5E_10GBASE_SR):
 	case MLX5E_PROT_MASK(MLX5E_10GBASE_ER_LR):
 		*active_width = IB_WIDTH_1X;
 		*active_speed = IB_SPEED_QDR;
 		break;
 	case MLX5E_PROT_MASK(MLX5E_25GBASE_CR):
 	case MLX5E_PROT_MASK(MLX5E_25GBASE_KR):
 	case MLX5E_PROT_MASK(MLX5E_25GBASE_SR):
 		*active_width = IB_WIDTH_1X;
 		*active_speed = IB_SPEED_EDR;
 		break;
 	case MLX5E_PROT_MASK(MLX5E_40GBASE_CR4):
 	case MLX5E_PROT_MASK(MLX5E_40GBASE_KR4):
 	case MLX5E_PROT_MASK(MLX5E_40GBASE_SR4):
 	case MLX5E_PROT_MASK(MLX5E_40GBASE_LR4_ER4):
 		*active_width = IB_WIDTH_4X;
 		*active_speed = IB_SPEED_QDR;
 		break;
 	case MLX5E_PROT_MASK(MLX5E_50GBASE_CR2):
 	case MLX5E_PROT_MASK(MLX5E_50GBASE_KR2):
 	case MLX5E_PROT_MASK(MLX5E_50GBASE_KR4):
 	case MLX5E_PROT_MASK(MLX5E_50GBASE_SR2):
 		*active_width = IB_WIDTH_1X;
 		*active_speed = IB_SPEED_HDR;
 		break;
 	case MLX5E_PROT_MASK(MLX5E_56GBASE_R4):
 		*active_width = IB_WIDTH_4X;
 		*active_speed = IB_SPEED_FDR;
 		break;
 	case MLX5E_PROT_MASK(MLX5E_100GBASE_CR4):
 	case MLX5E_PROT_MASK(MLX5E_100GBASE_SR4):
 	case MLX5E_PROT_MASK(MLX5E_100GBASE_KR4):
 	case MLX5E_PROT_MASK(MLX5E_100GBASE_LR4):
 		*active_width = IB_WIDTH_4X;
 		*active_speed = IB_SPEED_EDR;
 		break;
 	default:
 		*active_width = IB_WIDTH_4X;
 		*active_speed = IB_SPEED_QDR;
 		return -EINVAL;
 	}
 
 	return 0;
 }
 
 static int translate_eth_ext_proto_oper(u32 eth_proto_oper, u8 *active_speed,
 					u8 *active_width)
 {
 	switch (eth_proto_oper) {
 	case MLX5E_PROT_MASK(MLX5E_SGMII_100M):
 	case MLX5E_PROT_MASK(MLX5E_1000BASE_X_SGMII):
 		*active_width = IB_WIDTH_1X;
 		*active_speed = IB_SPEED_SDR;
 		break;
 	case MLX5E_PROT_MASK(MLX5E_5GBASE_R):
 		*active_width = IB_WIDTH_1X;
 		*active_speed = IB_SPEED_DDR;
 		break;
 	case MLX5E_PROT_MASK(MLX5E_10GBASE_XFI_XAUI_1):
 		*active_width = IB_WIDTH_1X;
 		*active_speed = IB_SPEED_QDR;
 		break;
 	case MLX5E_PROT_MASK(MLX5E_40GBASE_XLAUI_4_XLPPI_4):
 		*active_width = IB_WIDTH_4X;
 		*active_speed = IB_SPEED_QDR;
 		break;
 	case MLX5E_PROT_MASK(MLX5E_25GAUI_1_25GBASE_CR_KR):
 		*active_width = IB_WIDTH_1X;
 		*active_speed = IB_SPEED_EDR;
 		break;
 	case MLX5E_PROT_MASK(MLX5E_50GAUI_2_LAUI_2_50GBASE_CR2_KR2):
 		*active_width = IB_WIDTH_2X;
 		*active_speed = IB_SPEED_EDR;
 		break;
 	case MLX5E_PROT_MASK(MLX5E_50GAUI_1_LAUI_1_50GBASE_CR_KR):
 		*active_width = IB_WIDTH_1X;
 		*active_speed = IB_SPEED_HDR;
 		break;
 	case MLX5E_PROT_MASK(MLX5E_CAUI_4_100GBASE_CR4_KR4):
 		*active_width = IB_WIDTH_4X;
 		*active_speed = IB_SPEED_EDR;
 		break;
 	case MLX5E_PROT_MASK(MLX5E_100GAUI_2_100GBASE_CR2_KR2):
 		*active_width = IB_WIDTH_2X;
 		*active_speed = IB_SPEED_HDR;
 		break;
 	case MLX5E_PROT_MASK(MLX5E_200GAUI_4_200GBASE_CR4_KR4):
 		*active_width = IB_WIDTH_4X;
 		*active_speed = IB_SPEED_HDR;
 		break;
 	default:
 		*active_width = IB_WIDTH_4X;
 		*active_speed = IB_SPEED_QDR;
 		return -EINVAL;
 	}
 
 	return 0;
 }
 
 static int mlx5_query_port_roce(struct ib_device *device, u8 port_num,
 				struct ib_port_attr *props)
 {
 	struct mlx5_ib_dev *dev = to_mdev(device);
 	u32 out[MLX5_ST_SZ_DW(ptys_reg)] = {};
 	struct ifnet *ndev;
 	enum ib_mtu ndev_ib_mtu;
 	u16 qkey_viol_cntr;
 	u32 eth_prot_oper;
 	bool ext;
 	int err;
 
 	memset(props, 0, sizeof(*props));
 
 	/* Possible bad flows are checked before filling out props so in case
 	 * of an error it will still be zeroed out.
 	 */
 	err = mlx5_query_port_ptys(dev->mdev, out, sizeof(out), MLX5_PTYS_EN,
 	    port_num);
 	if (err)
 		return err;
 
 	ext = MLX5_CAP_PCAM_FEATURE(dev->mdev, ptys_extended_ethernet);
 	eth_prot_oper = MLX5_GET_ETH_PROTO(ptys_reg, out, ext, eth_proto_oper);
 
 	if (ext)
 		translate_eth_ext_proto_oper(eth_prot_oper, &props->active_speed,
 		    &props->active_width);
 	else
 		translate_eth_proto_oper(eth_prot_oper, &props->active_speed,
 		    &props->active_width);
 
 	props->port_cap_flags  |= IB_PORT_CM_SUP;
 	props->port_cap_flags  |= IB_PORT_IP_BASED_GIDS;
 
 	props->gid_tbl_len      = MLX5_CAP_ROCE(dev->mdev,
 						roce_address_table_size);
 	props->max_mtu          = IB_MTU_4096;
 	props->max_msg_sz       = 1 << MLX5_CAP_GEN(dev->mdev, log_max_msg);
 	props->pkey_tbl_len     = 1;
 	props->state            = IB_PORT_DOWN;
-	props->phys_state       = 3;
+	props->phys_state       = IB_PORT_PHYS_STATE_DISABLED;
 
 	mlx5_query_nic_vport_qkey_viol_cntr(dev->mdev, &qkey_viol_cntr);
 	props->qkey_viol_cntr = qkey_viol_cntr;
 
 	ndev = mlx5_ib_get_netdev(device, port_num);
 	if (!ndev)
 		return 0;
 
 	if (ndev->if_drv_flags & IFF_DRV_RUNNING &&
 	    ndev->if_link_state == LINK_STATE_UP) {
 		props->state      = IB_PORT_ACTIVE;
-		props->phys_state = 5;
+		props->phys_state = IB_PORT_PHYS_STATE_LINK_UP;
 	}
 
 	ndev_ib_mtu = iboe_get_mtu(ndev->if_mtu);
 
 	if_rele(ndev);
 
 	props->active_mtu	= min(props->max_mtu, ndev_ib_mtu);
 	return 0;
 }
 
 static void ib_gid_to_mlx5_roce_addr(const union ib_gid *gid,
 				     const struct ib_gid_attr *attr,
 				     void *mlx5_addr)
 {
 #define MLX5_SET_RA(p, f, v) MLX5_SET(roce_addr_layout, p, f, v)
 	char *mlx5_addr_l3_addr	= MLX5_ADDR_OF(roce_addr_layout, mlx5_addr,
 					       source_l3_address);
 	void *mlx5_addr_mac	= MLX5_ADDR_OF(roce_addr_layout, mlx5_addr,
 					       source_mac_47_32);
 	u16 vlan_id;
 
 	if (!gid)
 		return;
 	ether_addr_copy(mlx5_addr_mac, IF_LLADDR(attr->ndev));
 
 	vlan_id = rdma_vlan_dev_vlan_id(attr->ndev);
 	if (vlan_id != 0xffff) {
 		MLX5_SET_RA(mlx5_addr, vlan_valid, 1);
 		MLX5_SET_RA(mlx5_addr, vlan_id, vlan_id);
 	}
 
 	switch (attr->gid_type) {
 	case IB_GID_TYPE_IB:
 		MLX5_SET_RA(mlx5_addr, roce_version, MLX5_ROCE_VERSION_1);
 		break;
 	case IB_GID_TYPE_ROCE_UDP_ENCAP:
 		MLX5_SET_RA(mlx5_addr, roce_version, MLX5_ROCE_VERSION_2);
 		break;
 
 	default:
 		WARN_ON(true);
 	}
 
 	if (attr->gid_type != IB_GID_TYPE_IB) {
 		if (ipv6_addr_v4mapped((void *)gid))
 			MLX5_SET_RA(mlx5_addr, roce_l3_type,
 				    MLX5_ROCE_L3_TYPE_IPV4);
 		else
 			MLX5_SET_RA(mlx5_addr, roce_l3_type,
 				    MLX5_ROCE_L3_TYPE_IPV6);
 	}
 
 	if ((attr->gid_type == IB_GID_TYPE_IB) ||
 	    !ipv6_addr_v4mapped((void *)gid))
 		memcpy(mlx5_addr_l3_addr, gid, sizeof(*gid));
 	else
 		memcpy(&mlx5_addr_l3_addr[12], &gid->raw[12], 4);
 }
 
 static int set_roce_addr(struct ib_device *device, u8 port_num,
 			 unsigned int index,
 			 const union ib_gid *gid,
 			 const struct ib_gid_attr *attr)
 {
 	struct mlx5_ib_dev *dev = to_mdev(device);
 	u32  in[MLX5_ST_SZ_DW(set_roce_address_in)]  = {0};
 	u32 out[MLX5_ST_SZ_DW(set_roce_address_out)] = {0};
 	void *in_addr = MLX5_ADDR_OF(set_roce_address_in, in, roce_address);
 	enum rdma_link_layer ll = mlx5_ib_port_link_layer(device, port_num);
 
 	if (ll != IB_LINK_LAYER_ETHERNET)
 		return -EINVAL;
 
 	ib_gid_to_mlx5_roce_addr(gid, attr, in_addr);
 
 	MLX5_SET(set_roce_address_in, in, roce_address_index, index);
 	MLX5_SET(set_roce_address_in, in, opcode, MLX5_CMD_OP_SET_ROCE_ADDRESS);
 	return mlx5_cmd_exec(dev->mdev, in, sizeof(in), out, sizeof(out));
 }
 
 static int mlx5_ib_add_gid(struct ib_device *device, u8 port_num,
 			   unsigned int index, const union ib_gid *gid,
 			   const struct ib_gid_attr *attr,
 			   __always_unused void **context)
 {
 	return set_roce_addr(device, port_num, index, gid, attr);
 }
 
 static int mlx5_ib_del_gid(struct ib_device *device, u8 port_num,
 			   unsigned int index, __always_unused void **context)
 {
 	return set_roce_addr(device, port_num, index, NULL, NULL);
 }
 
 __be16 mlx5_get_roce_udp_sport(struct mlx5_ib_dev *dev, u8 port_num,
 			       int index)
 {
 	struct ib_gid_attr attr;
 	union ib_gid gid;
 
 	if (ib_get_cached_gid(&dev->ib_dev, port_num, index, &gid, &attr))
 		return 0;
 
 	if (!attr.ndev)
 		return 0;
 
 	if_rele(attr.ndev);
 
 	if (attr.gid_type != IB_GID_TYPE_ROCE_UDP_ENCAP)
 		return 0;
 
 	return cpu_to_be16(MLX5_CAP_ROCE(dev->mdev, r_roce_min_src_udp_port));
 }
 
 int mlx5_get_roce_gid_type(struct mlx5_ib_dev *dev, u8 port_num,
 			   int index, enum ib_gid_type *gid_type)
 {
 	struct ib_gid_attr attr;
 	union ib_gid gid;
 	int ret;
 
 	ret = ib_get_cached_gid(&dev->ib_dev, port_num, index, &gid, &attr);
 	if (ret)
 		return ret;
 
 	if (!attr.ndev)
 		return -ENODEV;
 
 	if_rele(attr.ndev);
 
 	*gid_type = attr.gid_type;
 
 	return 0;
 }
 
 static int mlx5_use_mad_ifc(struct mlx5_ib_dev *dev)
 {
 	if (MLX5_CAP_GEN(dev->mdev, port_type) == MLX5_CAP_PORT_TYPE_IB)
 		return !MLX5_CAP_GEN(dev->mdev, ib_virt);
 	return 0;
 }
 
 enum {
 	MLX5_VPORT_ACCESS_METHOD_MAD,
 	MLX5_VPORT_ACCESS_METHOD_HCA,
 	MLX5_VPORT_ACCESS_METHOD_NIC,
 };
 
 static int mlx5_get_vport_access_method(struct ib_device *ibdev)
 {
 	if (mlx5_use_mad_ifc(to_mdev(ibdev)))
 		return MLX5_VPORT_ACCESS_METHOD_MAD;
 
 	if (mlx5_ib_port_link_layer(ibdev, 1) ==
 	    IB_LINK_LAYER_ETHERNET)
 		return MLX5_VPORT_ACCESS_METHOD_NIC;
 
 	return MLX5_VPORT_ACCESS_METHOD_HCA;
 }
 
 static void get_atomic_caps(struct mlx5_ib_dev *dev,
 			    struct ib_device_attr *props)
 {
 	u8 tmp;
 	u8 atomic_operations = MLX5_CAP_ATOMIC(dev->mdev, atomic_operations);
 	u8 atomic_size_qp = MLX5_CAP_ATOMIC(dev->mdev, atomic_size_qp);
 	u8 atomic_req_8B_endianness_mode =
 		MLX5_CAP_ATOMIC(dev->mdev, atomic_req_8B_endianess_mode);
 
 	/* Check if HW supports 8 bytes standard atomic operations and capable
 	 * of host endianness respond
 	 */
 	tmp = MLX5_ATOMIC_OPS_CMP_SWAP | MLX5_ATOMIC_OPS_FETCH_ADD;
 	if (((atomic_operations & tmp) == tmp) &&
 	    (atomic_size_qp & MLX5_ATOMIC_SIZE_QP_8BYTES) &&
 	    (atomic_req_8B_endianness_mode)) {
 		props->atomic_cap = IB_ATOMIC_HCA;
 	} else {
 		props->atomic_cap = IB_ATOMIC_NONE;
 	}
 }
 
 static int mlx5_query_system_image_guid(struct ib_device *ibdev,
 					__be64 *sys_image_guid)
 {
 	struct mlx5_ib_dev *dev = to_mdev(ibdev);
 	struct mlx5_core_dev *mdev = dev->mdev;
 	u64 tmp;
 	int err;
 
 	switch (mlx5_get_vport_access_method(ibdev)) {
 	case MLX5_VPORT_ACCESS_METHOD_MAD:
 		return mlx5_query_mad_ifc_system_image_guid(ibdev,
 							    sys_image_guid);
 
 	case MLX5_VPORT_ACCESS_METHOD_HCA:
 		err = mlx5_query_hca_vport_system_image_guid(mdev, &tmp);
 		break;
 
 	case MLX5_VPORT_ACCESS_METHOD_NIC:
 		err = mlx5_query_nic_vport_system_image_guid(mdev, &tmp);
 		break;
 
 	default:
 		return -EINVAL;
 	}
 
 	if (!err)
 		*sys_image_guid = cpu_to_be64(tmp);
 
 	return err;
 
 }
 
 static int mlx5_query_max_pkeys(struct ib_device *ibdev,
 				u16 *max_pkeys)
 {
 	struct mlx5_ib_dev *dev = to_mdev(ibdev);
 	struct mlx5_core_dev *mdev = dev->mdev;
 
 	switch (mlx5_get_vport_access_method(ibdev)) {
 	case MLX5_VPORT_ACCESS_METHOD_MAD:
 		return mlx5_query_mad_ifc_max_pkeys(ibdev, max_pkeys);
 
 	case MLX5_VPORT_ACCESS_METHOD_HCA:
 	case MLX5_VPORT_ACCESS_METHOD_NIC:
 		*max_pkeys = mlx5_to_sw_pkey_sz(MLX5_CAP_GEN(mdev,
 						pkey_table_size));
 		return 0;
 
 	default:
 		return -EINVAL;
 	}
 }
 
 static int mlx5_query_vendor_id(struct ib_device *ibdev,
 				u32 *vendor_id)
 {
 	struct mlx5_ib_dev *dev = to_mdev(ibdev);
 
 	switch (mlx5_get_vport_access_method(ibdev)) {
 	case MLX5_VPORT_ACCESS_METHOD_MAD:
 		return mlx5_query_mad_ifc_vendor_id(ibdev, vendor_id);
 
 	case MLX5_VPORT_ACCESS_METHOD_HCA:
 	case MLX5_VPORT_ACCESS_METHOD_NIC:
 		return mlx5_core_query_vendor_id(dev->mdev, vendor_id);
 
 	default:
 		return -EINVAL;
 	}
 }
 
 static int mlx5_query_node_guid(struct mlx5_ib_dev *dev,
 				__be64 *node_guid)
 {
 	u64 tmp;
 	int err;
 
 	switch (mlx5_get_vport_access_method(&dev->ib_dev)) {
 	case MLX5_VPORT_ACCESS_METHOD_MAD:
 		return mlx5_query_mad_ifc_node_guid(dev, node_guid);
 
 	case MLX5_VPORT_ACCESS_METHOD_HCA:
 		err = mlx5_query_hca_vport_node_guid(dev->mdev, &tmp);
 		break;
 
 	case MLX5_VPORT_ACCESS_METHOD_NIC:
 		err = mlx5_query_nic_vport_node_guid(dev->mdev, &tmp);
 		break;
 
 	default:
 		return -EINVAL;
 	}
 
 	if (!err)
 		*node_guid = cpu_to_be64(tmp);
 
 	return err;
 }
 
 struct mlx5_reg_node_desc {
 	u8	desc[IB_DEVICE_NODE_DESC_MAX];
 };
 
 static int mlx5_query_node_desc(struct mlx5_ib_dev *dev, char *node_desc)
 {
 	struct mlx5_reg_node_desc in;
 
 	if (mlx5_use_mad_ifc(dev))
 		return mlx5_query_mad_ifc_node_desc(dev, node_desc);
 
 	memset(&in, 0, sizeof(in));
 
 	return mlx5_core_access_reg(dev->mdev, &in, sizeof(in), node_desc,
 				    sizeof(struct mlx5_reg_node_desc),
 				    MLX5_REG_NODE_DESC, 0, 0);
 }
 
 static int mlx5_ib_query_device(struct ib_device *ibdev,
 				struct ib_device_attr *props,
 				struct ib_udata *uhw)
 {
 	struct mlx5_ib_dev *dev = to_mdev(ibdev);
 	struct mlx5_core_dev *mdev = dev->mdev;
 	int err = -ENOMEM;
 	int max_sq_desc;
 	int max_rq_sg;
 	int max_sq_sg;
 	u64 min_page_size = 1ull << MLX5_CAP_GEN(mdev, log_pg_sz);
 	struct mlx5_ib_query_device_resp resp = {};
 	size_t resp_len;
 	u64 max_tso;
 
 	resp_len = sizeof(resp.comp_mask) + sizeof(resp.response_length);
 	if (uhw->outlen && uhw->outlen < resp_len)
 		return -EINVAL;
 	else
 		resp.response_length = resp_len;
 
 	if (uhw->inlen && !ib_is_udata_cleared(uhw, 0, uhw->inlen))
 		return -EINVAL;
 
 	memset(props, 0, sizeof(*props));
 	err = mlx5_query_system_image_guid(ibdev,
 					   &props->sys_image_guid);
 	if (err)
 		return err;
 
 	err = mlx5_query_max_pkeys(ibdev, &props->max_pkeys);
 	if (err)
 		return err;
 
 	err = mlx5_query_vendor_id(ibdev, &props->vendor_id);
 	if (err)
 		return err;
 
 	props->fw_ver = ((u64)fw_rev_maj(dev->mdev) << 32) |
 		((u32)fw_rev_min(dev->mdev) << 16) |
 		fw_rev_sub(dev->mdev);
 	props->device_cap_flags    = IB_DEVICE_CHANGE_PHY_PORT |
 		IB_DEVICE_PORT_ACTIVE_EVENT		|
 		IB_DEVICE_SYS_IMAGE_GUID		|
 		IB_DEVICE_RC_RNR_NAK_GEN;
 
 	if (MLX5_CAP_GEN(mdev, pkv))
 		props->device_cap_flags |= IB_DEVICE_BAD_PKEY_CNTR;
 	if (MLX5_CAP_GEN(mdev, qkv))
 		props->device_cap_flags |= IB_DEVICE_BAD_QKEY_CNTR;
 	if (MLX5_CAP_GEN(mdev, apm))
 		props->device_cap_flags |= IB_DEVICE_AUTO_PATH_MIG;
 	if (MLX5_CAP_GEN(mdev, xrc))
 		props->device_cap_flags |= IB_DEVICE_XRC;
 	if (MLX5_CAP_GEN(mdev, imaicl)) {
 		props->device_cap_flags |= IB_DEVICE_MEM_WINDOW |
 					   IB_DEVICE_MEM_WINDOW_TYPE_2B;
 		props->max_mw = 1 << MLX5_CAP_GEN(mdev, log_max_mkey);
 		/* We support 'Gappy' memory registration too */
 		props->device_cap_flags |= IB_DEVICE_SG_GAPS_REG;
 	}
 	props->device_cap_flags |= IB_DEVICE_MEM_MGT_EXTENSIONS;
 	if (MLX5_CAP_GEN(mdev, sho)) {
 		props->device_cap_flags |= IB_DEVICE_SIGNATURE_HANDOVER;
 		/* At this stage no support for signature handover */
 		props->sig_prot_cap = IB_PROT_T10DIF_TYPE_1 |
 				      IB_PROT_T10DIF_TYPE_2 |
 				      IB_PROT_T10DIF_TYPE_3;
 		props->sig_guard_cap = IB_GUARD_T10DIF_CRC |
 				       IB_GUARD_T10DIF_CSUM;
 	}
 	if (MLX5_CAP_GEN(mdev, block_lb_mc))
 		props->device_cap_flags |= IB_DEVICE_BLOCK_MULTICAST_LOOPBACK;
 
 	if (MLX5_CAP_GEN(dev->mdev, eth_net_offloads)) {
 		if (MLX5_CAP_ETH(mdev, csum_cap))
 			props->device_cap_flags |= IB_DEVICE_RAW_IP_CSUM;
 
 		if (field_avail(typeof(resp), tso_caps, uhw->outlen)) {
 			max_tso = MLX5_CAP_ETH(mdev, max_lso_cap);
 			if (max_tso) {
 				resp.tso_caps.max_tso = 1 << max_tso;
 				resp.tso_caps.supported_qpts |=
 					1 << IB_QPT_RAW_PACKET;
 				resp.response_length += sizeof(resp.tso_caps);
 			}
 		}
 
 		if (field_avail(typeof(resp), rss_caps, uhw->outlen)) {
 			resp.rss_caps.rx_hash_function =
 						MLX5_RX_HASH_FUNC_TOEPLITZ;
 			resp.rss_caps.rx_hash_fields_mask =
 						MLX5_RX_HASH_SRC_IPV4 |
 						MLX5_RX_HASH_DST_IPV4 |
 						MLX5_RX_HASH_SRC_IPV6 |
 						MLX5_RX_HASH_DST_IPV6 |
 						MLX5_RX_HASH_SRC_PORT_TCP |
 						MLX5_RX_HASH_DST_PORT_TCP |
 						MLX5_RX_HASH_SRC_PORT_UDP |
 						MLX5_RX_HASH_DST_PORT_UDP;
 			resp.response_length += sizeof(resp.rss_caps);
 		}
 	} else {
 		if (field_avail(typeof(resp), tso_caps, uhw->outlen))
 			resp.response_length += sizeof(resp.tso_caps);
 		if (field_avail(typeof(resp), rss_caps, uhw->outlen))
 			resp.response_length += sizeof(resp.rss_caps);
 	}
 
 	if (MLX5_CAP_GEN(mdev, ipoib_ipoib_offloads)) {
 		props->device_cap_flags |= IB_DEVICE_UD_IP_CSUM;
 		props->device_cap_flags |= IB_DEVICE_UD_TSO;
 	}
 
 	if (MLX5_CAP_GEN(dev->mdev, eth_net_offloads) &&
 	    MLX5_CAP_ETH(dev->mdev, scatter_fcs))
 		props->device_cap_flags |= IB_DEVICE_RAW_SCATTER_FCS;
 
 	if (mlx5_get_flow_namespace(dev->mdev, MLX5_FLOW_NAMESPACE_BYPASS))
 		props->device_cap_flags |= IB_DEVICE_MANAGED_FLOW_STEERING;
 
 	props->vendor_part_id	   = mdev->pdev->device;
 	props->hw_ver		   = mdev->pdev->revision;
 
 	props->max_mr_size	   = ~0ull;
 	props->page_size_cap	   = ~(min_page_size - 1);
 	props->max_qp		   = 1 << MLX5_CAP_GEN(mdev, log_max_qp);
 	props->max_qp_wr	   = 1 << MLX5_CAP_GEN(mdev, log_max_qp_sz);
 	max_rq_sg =  MLX5_CAP_GEN(mdev, max_wqe_sz_rq) /
 		     sizeof(struct mlx5_wqe_data_seg);
 	max_sq_desc = min_t(int, MLX5_CAP_GEN(mdev, max_wqe_sz_sq), 512);
 	max_sq_sg = (max_sq_desc - sizeof(struct mlx5_wqe_ctrl_seg) -
 		     sizeof(struct mlx5_wqe_raddr_seg)) /
 		sizeof(struct mlx5_wqe_data_seg);
 	props->max_sge = min(max_rq_sg, max_sq_sg);
 	props->max_sge_rd	   = MLX5_MAX_SGE_RD;
 	props->max_cq		   = 1 << MLX5_CAP_GEN(mdev, log_max_cq);
 	props->max_cqe = (1 << MLX5_CAP_GEN(mdev, log_max_cq_sz)) - 1;
 	props->max_mr		   = 1 << MLX5_CAP_GEN(mdev, log_max_mkey);
 	props->max_pd		   = 1 << MLX5_CAP_GEN(mdev, log_max_pd);
 	props->max_qp_rd_atom	   = 1 << MLX5_CAP_GEN(mdev, log_max_ra_req_qp);
 	props->max_qp_init_rd_atom = 1 << MLX5_CAP_GEN(mdev, log_max_ra_res_qp);
 	props->max_srq		   = 1 << MLX5_CAP_GEN(mdev, log_max_srq);
 	props->max_srq_wr = (1 << MLX5_CAP_GEN(mdev, log_max_srq_sz)) - 1;
 	props->local_ca_ack_delay  = MLX5_CAP_GEN(mdev, local_ca_ack_delay);
 	props->max_res_rd_atom	   = props->max_qp_rd_atom * props->max_qp;
 	props->max_srq_sge	   = max_rq_sg - 1;
 	props->max_fast_reg_page_list_len =
 		1 << MLX5_CAP_GEN(mdev, log_max_klm_list_size);
 	get_atomic_caps(dev, props);
 	props->masked_atomic_cap   = IB_ATOMIC_NONE;
 	props->max_mcast_grp	   = 1 << MLX5_CAP_GEN(mdev, log_max_mcg);
 	props->max_mcast_qp_attach = MLX5_CAP_GEN(mdev, max_qp_mcg);
 	props->max_total_mcast_qp_attach = props->max_mcast_qp_attach *
 					   props->max_mcast_grp;
 	props->max_map_per_fmr = INT_MAX; /* no limit in ConnectIB */
 	props->hca_core_clock = MLX5_CAP_GEN(mdev, device_frequency_khz);
 	props->timestamp_mask = 0x7FFFFFFFFFFFFFFFULL;
 
 #ifdef CONFIG_INFINIBAND_ON_DEMAND_PAGING
 	if (MLX5_CAP_GEN(mdev, pg))
 		props->device_cap_flags |= IB_DEVICE_ON_DEMAND_PAGING;
 	props->odp_caps = dev->odp_caps;
 #endif
 
 	if (MLX5_CAP_GEN(mdev, cd))
 		props->device_cap_flags |= IB_DEVICE_CROSS_CHANNEL;
 
 	if (!mlx5_core_is_pf(mdev))
 		props->device_cap_flags |= IB_DEVICE_VIRTUAL_FUNCTION;
 
 	if (mlx5_ib_port_link_layer(ibdev, 1) ==
 	    IB_LINK_LAYER_ETHERNET) {
 		props->rss_caps.max_rwq_indirection_tables =
 			1 << MLX5_CAP_GEN(dev->mdev, log_max_rqt);
 		props->rss_caps.max_rwq_indirection_table_size =
 			1 << MLX5_CAP_GEN(dev->mdev, log_max_rqt_size);
 		props->rss_caps.supported_qpts = 1 << IB_QPT_RAW_PACKET;
 		props->max_wq_type_rq =
 			1 << MLX5_CAP_GEN(dev->mdev, log_max_rq);
 	}
 
 	if (uhw->outlen) {
 		err = ib_copy_to_udata(uhw, &resp, resp.response_length);
 
 		if (err)
 			return err;
 	}
 
 	return 0;
 }
 
 enum mlx5_ib_width {
 	MLX5_IB_WIDTH_1X	= 1 << 0,
 	MLX5_IB_WIDTH_2X	= 1 << 1,
 	MLX5_IB_WIDTH_4X	= 1 << 2,
 	MLX5_IB_WIDTH_8X	= 1 << 3,
 	MLX5_IB_WIDTH_12X	= 1 << 4
 };
 
 static int translate_active_width(struct ib_device *ibdev, u8 active_width,
 				  u8 *ib_width)
 {
 	struct mlx5_ib_dev *dev = to_mdev(ibdev);
 	int err = 0;
 
 	if (active_width & MLX5_IB_WIDTH_1X) {
 		*ib_width = IB_WIDTH_1X;
 	} else if (active_width & MLX5_IB_WIDTH_2X) {
 		*ib_width = IB_WIDTH_2X;
 	} else if (active_width & MLX5_IB_WIDTH_4X) {
 		*ib_width = IB_WIDTH_4X;
 	} else if (active_width & MLX5_IB_WIDTH_8X) {
 		*ib_width = IB_WIDTH_8X;
 	} else if (active_width & MLX5_IB_WIDTH_12X) {
 		*ib_width = IB_WIDTH_12X;
 	} else {
 		mlx5_ib_dbg(dev, "Invalid active_width %d\n",
 			    (int)active_width);
 		err = -EINVAL;
 	}
 
 	return err;
 }
 
 enum ib_max_vl_num {
 	__IB_MAX_VL_0		= 1,
 	__IB_MAX_VL_0_1		= 2,
 	__IB_MAX_VL_0_3		= 3,
 	__IB_MAX_VL_0_7		= 4,
 	__IB_MAX_VL_0_14	= 5,
 };
 
 enum mlx5_vl_hw_cap {
 	MLX5_VL_HW_0	= 1,
 	MLX5_VL_HW_0_1	= 2,
 	MLX5_VL_HW_0_2	= 3,
 	MLX5_VL_HW_0_3	= 4,
 	MLX5_VL_HW_0_4	= 5,
 	MLX5_VL_HW_0_5	= 6,
 	MLX5_VL_HW_0_6	= 7,
 	MLX5_VL_HW_0_7	= 8,
 	MLX5_VL_HW_0_14	= 15
 };
 
 static int translate_max_vl_num(struct ib_device *ibdev, u8 vl_hw_cap,
 				u8 *max_vl_num)
 {
 	switch (vl_hw_cap) {
 	case MLX5_VL_HW_0:
 		*max_vl_num = __IB_MAX_VL_0;
 		break;
 	case MLX5_VL_HW_0_1:
 		*max_vl_num = __IB_MAX_VL_0_1;
 		break;
 	case MLX5_VL_HW_0_3:
 		*max_vl_num = __IB_MAX_VL_0_3;
 		break;
 	case MLX5_VL_HW_0_7:
 		*max_vl_num = __IB_MAX_VL_0_7;
 		break;
 	case MLX5_VL_HW_0_14:
 		*max_vl_num = __IB_MAX_VL_0_14;
 		break;
 
 	default:
 		return -EINVAL;
 	}
 
 	return 0;
 }
 
 static int mlx5_query_hca_port(struct ib_device *ibdev, u8 port,
 			       struct ib_port_attr *props)
 {
 	struct mlx5_ib_dev *dev = to_mdev(ibdev);
 	struct mlx5_core_dev *mdev = dev->mdev;
 	u32 *rep;
 	int replen = MLX5_ST_SZ_BYTES(query_hca_vport_context_out);
 	struct mlx5_ptys_reg *ptys;
 	struct mlx5_pmtu_reg *pmtu;
 	struct mlx5_pvlc_reg pvlc;
 	void *ctx;
 	int err;
 
 	rep = mlx5_vzalloc(replen);
 	ptys = kzalloc(sizeof(*ptys), GFP_KERNEL);
 	pmtu = kzalloc(sizeof(*pmtu), GFP_KERNEL);
 	if (!rep || !ptys || !pmtu) {
 		err = -ENOMEM;
 		goto out;
 	}
 
 	memset(props, 0, sizeof(*props));
 
 	err = mlx5_query_hca_vport_context(mdev, port, 0, rep, replen);
 	if (err)
 		goto out;
 
 	ctx = MLX5_ADDR_OF(query_hca_vport_context_out, rep, hca_vport_context);
 
 	props->lid		= MLX5_GET(hca_vport_context, ctx, lid);
 	props->lmc		= MLX5_GET(hca_vport_context, ctx, lmc);
 	props->sm_lid		= MLX5_GET(hca_vport_context, ctx, sm_lid);
 	props->sm_sl		= MLX5_GET(hca_vport_context, ctx, sm_sl);
 	props->state		= MLX5_GET(hca_vport_context, ctx, vport_state);
 	props->phys_state	= MLX5_GET(hca_vport_context, ctx,
 					port_physical_state);
 	props->port_cap_flags	= MLX5_GET(hca_vport_context, ctx, cap_mask1);
 	props->gid_tbl_len	= mlx5_get_gid_table_len(MLX5_CAP_GEN(mdev, gid_table_size));
 	props->max_msg_sz	= 1 << MLX5_CAP_GEN(mdev, log_max_msg);
 	props->pkey_tbl_len	= mlx5_to_sw_pkey_sz(MLX5_CAP_GEN(mdev, pkey_table_size));
 	props->bad_pkey_cntr	= MLX5_GET(hca_vport_context, ctx,
 					pkey_violation_counter);
 	props->qkey_viol_cntr	= MLX5_GET(hca_vport_context, ctx,
 					qkey_violation_counter);
 	props->subnet_timeout	= MLX5_GET(hca_vport_context, ctx,
 					subnet_timeout);
 	props->init_type_reply	= MLX5_GET(hca_vport_context, ctx,
 					init_type_reply);
 	props->grh_required	= MLX5_GET(hca_vport_context, ctx, grh_required);
 
 	ptys->proto_mask |= MLX5_PTYS_IB;
 	ptys->local_port = port;
 	err = mlx5_core_access_ptys(mdev, ptys, 0);
 	if (err)
 		goto out;
 
 	err = translate_active_width(ibdev, ptys->ib_link_width_oper,
 				     &props->active_width);
 	if (err)
 		goto out;
 
 	props->active_speed	= (u8)ptys->ib_proto_oper;
 
 	pmtu->local_port = port;
 	err = mlx5_core_access_pmtu(mdev, pmtu, 0);
 	if (err)
 		goto out;
 
 	props->max_mtu		= pmtu->max_mtu;
 	props->active_mtu	= pmtu->oper_mtu;
 
 	memset(&pvlc, 0, sizeof(pvlc));
 	pvlc.local_port = port;
 	err = mlx5_core_access_pvlc(mdev, &pvlc, 0);
 	if (err)
 		goto out;
 
 	err = translate_max_vl_num(ibdev, pvlc.vl_hw_cap,
 				   &props->max_vl_num);
 out:
 	kvfree(rep);
 	kfree(ptys);
 	kfree(pmtu);
 	return err;
 }
 
 int mlx5_ib_query_port(struct ib_device *ibdev, u8 port,
 		       struct ib_port_attr *props)
 {
 	switch (mlx5_get_vport_access_method(ibdev)) {
 	case MLX5_VPORT_ACCESS_METHOD_MAD:
 		return mlx5_query_mad_ifc_port(ibdev, port, props);
 
 	case MLX5_VPORT_ACCESS_METHOD_HCA:
 		return mlx5_query_hca_port(ibdev, port, props);
 
 	case MLX5_VPORT_ACCESS_METHOD_NIC:
 		return mlx5_query_port_roce(ibdev, port, props);
 
 	default:
 		return -EINVAL;
 	}
 }
 
 static int mlx5_ib_query_gid(struct ib_device *ibdev, u8 port, int index,
 			     union ib_gid *gid)
 {
 	struct mlx5_ib_dev *dev = to_mdev(ibdev);
 	struct mlx5_core_dev *mdev = dev->mdev;
 
 	switch (mlx5_get_vport_access_method(ibdev)) {
 	case MLX5_VPORT_ACCESS_METHOD_MAD:
 		return mlx5_query_mad_ifc_gids(ibdev, port, index, gid);
 
 	case MLX5_VPORT_ACCESS_METHOD_HCA:
 		return mlx5_query_hca_vport_gid(mdev, port, 0, index, gid);
 
 	default:
 		return -EINVAL;
 	}
 
 }
 
 static int mlx5_ib_query_pkey(struct ib_device *ibdev, u8 port, u16 index,
 			      u16 *pkey)
 {
 	struct mlx5_ib_dev *dev = to_mdev(ibdev);
 	struct mlx5_core_dev *mdev = dev->mdev;
 
 	switch (mlx5_get_vport_access_method(ibdev)) {
 	case MLX5_VPORT_ACCESS_METHOD_MAD:
 		return mlx5_query_mad_ifc_pkey(ibdev, port, index, pkey);
 
 	case MLX5_VPORT_ACCESS_METHOD_HCA:
 	case MLX5_VPORT_ACCESS_METHOD_NIC:
 		return mlx5_query_hca_vport_pkey(mdev, 0, port,  0, index,
 						 pkey);
 	default:
 		return -EINVAL;
 	}
 }
 
 static int mlx5_ib_modify_device(struct ib_device *ibdev, int mask,
 				 struct ib_device_modify *props)
 {
 	struct mlx5_ib_dev *dev = to_mdev(ibdev);
 	struct mlx5_reg_node_desc in;
 	struct mlx5_reg_node_desc out;
 	int err;
 
 	if (mask & ~IB_DEVICE_MODIFY_NODE_DESC)
 		return -EOPNOTSUPP;
 
 	if (!(mask & IB_DEVICE_MODIFY_NODE_DESC))
 		return 0;
 
 	/*
 	 * If possible, pass node desc to FW, so it can generate
 	 * a 144 trap.  If cmd fails, just ignore.
 	 */
 	memcpy(&in, props->node_desc, IB_DEVICE_NODE_DESC_MAX);
 	err = mlx5_core_access_reg(dev->mdev, &in, sizeof(in), &out,
 				   sizeof(out), MLX5_REG_NODE_DESC, 0, 1);
 	if (err)
 		return err;
 
 	memcpy(ibdev->node_desc, props->node_desc, IB_DEVICE_NODE_DESC_MAX);
 
 	return err;
 }
 
 static int mlx5_ib_modify_port(struct ib_device *ibdev, u8 port, int mask,
 			       struct ib_port_modify *props)
 {
 	struct mlx5_ib_dev *dev = to_mdev(ibdev);
 	struct ib_port_attr attr;
 	u32 tmp;
 	int err;
 
 	/*
 	 * CM layer calls ib_modify_port() regardless of the link
 	 * layer. For Ethernet ports, qkey violation and Port
 	 * capabilities are meaningless.
 	 */
 	if (mlx5_ib_port_link_layer(ibdev, port) == IB_LINK_LAYER_ETHERNET)
 		return 0;
 
 	mutex_lock(&dev->cap_mask_mutex);
 
 	err = mlx5_ib_query_port(ibdev, port, &attr);
 	if (err)
 		goto out;
 
 	tmp = (attr.port_cap_flags | props->set_port_cap_mask) &
 		~props->clr_port_cap_mask;
 
 	err = mlx5_set_port_caps(dev->mdev, port, tmp);
 
 out:
 	mutex_unlock(&dev->cap_mask_mutex);
 	return err;
 }
 
 static u16 calc_dynamic_bfregs(int uars_per_sys_page)
 {
 	/* Large page with non 4k uar support might limit the dynamic size */
 	if (uars_per_sys_page == 1  && PAGE_SIZE > 4096)
 		return MLX5_MIN_DYN_BFREGS;
 
 	return MLX5_MAX_DYN_BFREGS;
 }
 
 static int calc_total_bfregs(struct mlx5_ib_dev *dev, bool lib_uar_4k,
 			     struct mlx5_ib_alloc_ucontext_req_v2 *req,
 			     struct mlx5_bfreg_info *bfregi)
 {
 	int uars_per_sys_page;
 	int bfregs_per_sys_page;
 	int ref_bfregs = req->total_num_bfregs;
 
 	if (req->total_num_bfregs == 0)
 		return -EINVAL;
 
 	BUILD_BUG_ON(MLX5_MAX_BFREGS % MLX5_NON_FP_BFREGS_IN_PAGE);
 	BUILD_BUG_ON(MLX5_MAX_BFREGS < MLX5_NON_FP_BFREGS_IN_PAGE);
 
 	if (req->total_num_bfregs > MLX5_MAX_BFREGS)
 		return -ENOMEM;
 
 	uars_per_sys_page = get_uars_per_sys_page(dev, lib_uar_4k);
 	bfregs_per_sys_page = uars_per_sys_page * MLX5_NON_FP_BFREGS_PER_UAR;
 	/* This holds the required static allocation asked by the user */
 	req->total_num_bfregs = ALIGN(req->total_num_bfregs, bfregs_per_sys_page);
 	if (req->num_low_latency_bfregs > req->total_num_bfregs - 1)
 		return -EINVAL;
 
 	bfregi->num_static_sys_pages = req->total_num_bfregs / bfregs_per_sys_page;
 	bfregi->num_dyn_bfregs = ALIGN(calc_dynamic_bfregs(uars_per_sys_page), bfregs_per_sys_page);
 	bfregi->total_num_bfregs = req->total_num_bfregs + bfregi->num_dyn_bfregs;
 	bfregi->num_sys_pages = bfregi->total_num_bfregs / bfregs_per_sys_page;
 
 	mlx5_ib_dbg(dev, "uar_4k: fw support %s, lib support %s, user requested %d bfregs, allocated %d, total bfregs %d, using %d sys pages\n",
 		    MLX5_CAP_GEN(dev->mdev, uar_4k) ? "yes" : "no",
 		    lib_uar_4k ? "yes" : "no", ref_bfregs,
 		    req->total_num_bfregs, bfregi->total_num_bfregs,
 		    bfregi->num_sys_pages);
 
 	return 0;
 }
 
 static int allocate_uars(struct mlx5_ib_dev *dev, struct mlx5_ib_ucontext *context)
 {
 	struct mlx5_bfreg_info *bfregi;
 	int err;
 	int i;
 
 	bfregi = &context->bfregi;
 	for (i = 0; i < bfregi->num_static_sys_pages; i++) {
 		err = mlx5_cmd_alloc_uar(dev->mdev, &bfregi->sys_pages[i]);
 		if (err)
 			goto error;
 
 		mlx5_ib_dbg(dev, "allocated uar %d\n", bfregi->sys_pages[i]);
 	}
 
 	for (i = bfregi->num_static_sys_pages; i < bfregi->num_sys_pages; i++)
 		bfregi->sys_pages[i] = MLX5_IB_INVALID_UAR_INDEX;
 
 	return 0;
 
 error:
 	for (--i; i >= 0; i--)
 		if (mlx5_cmd_free_uar(dev->mdev, bfregi->sys_pages[i]))
 			mlx5_ib_warn(dev, "failed to free uar %d\n", i);
 
 	return err;
 }
 
 static void deallocate_uars(struct mlx5_ib_dev *dev,
 			    struct mlx5_ib_ucontext *context)
 {
 	struct mlx5_bfreg_info *bfregi;
 	int i;
 
 	bfregi = &context->bfregi;
 	for (i = 0; i < bfregi->num_sys_pages; i++)
 		if (i < bfregi->num_static_sys_pages ||
 		    bfregi->sys_pages[i] != MLX5_IB_INVALID_UAR_INDEX)
 			mlx5_cmd_free_uar(dev->mdev, bfregi->sys_pages[i]);
 }
 
 static struct ib_ucontext *mlx5_ib_alloc_ucontext(struct ib_device *ibdev,
 						  struct ib_udata *udata)
 {
 	struct mlx5_ib_dev *dev = to_mdev(ibdev);
 	struct mlx5_ib_alloc_ucontext_req_v2 req = {};
 	struct mlx5_ib_alloc_ucontext_resp resp = {};
 	struct mlx5_ib_ucontext *context;
 	struct mlx5_bfreg_info *bfregi;
 	int ver;
 	int err;
 	size_t reqlen;
 	size_t min_req_v2 = offsetof(struct mlx5_ib_alloc_ucontext_req_v2,
 				     max_cqe_version);
 	bool lib_uar_4k;
 	bool lib_uar_dyn;
 
 	if (!dev->ib_active)
 		return ERR_PTR(-EAGAIN);
 
 	if (udata->inlen < sizeof(struct ib_uverbs_cmd_hdr))
 		return ERR_PTR(-EINVAL);
 
 	reqlen = udata->inlen - sizeof(struct ib_uverbs_cmd_hdr);
 	if (reqlen == sizeof(struct mlx5_ib_alloc_ucontext_req))
 		ver = 0;
 	else if (reqlen >= min_req_v2)
 		ver = 2;
 	else
 		return ERR_PTR(-EINVAL);
 
 	err = ib_copy_from_udata(&req, udata, min(reqlen, sizeof(req)));
 	if (err)
 		return ERR_PTR(err);
 
 	if (req.flags)
 		return ERR_PTR(-EINVAL);
 
 	if (req.comp_mask || req.reserved0 || req.reserved1 || req.reserved2)
 		return ERR_PTR(-EOPNOTSUPP);
 
 	req.total_num_bfregs = ALIGN(req.total_num_bfregs,
 				    MLX5_NON_FP_BFREGS_PER_UAR);
 	if (req.num_low_latency_bfregs > req.total_num_bfregs - 1)
 		return ERR_PTR(-EINVAL);
 
 	if (reqlen > sizeof(req) &&
 	    !ib_is_udata_cleared(udata, sizeof(req),
 				 reqlen - sizeof(req)))
 		return ERR_PTR(-EOPNOTSUPP);
 
 	resp.qp_tab_size = 1 << MLX5_CAP_GEN(dev->mdev, log_max_qp);
 	if (mlx5_core_is_pf(dev->mdev) && MLX5_CAP_GEN(dev->mdev, bf))
 		resp.bf_reg_size = 1 << MLX5_CAP_GEN(dev->mdev, log_bf_reg_size);
 	resp.cache_line_size = cache_line_size();
 	resp.max_sq_desc_sz = MLX5_CAP_GEN(dev->mdev, max_wqe_sz_sq);
 	resp.max_rq_desc_sz = MLX5_CAP_GEN(dev->mdev, max_wqe_sz_rq);
 	resp.max_send_wqebb = 1 << MLX5_CAP_GEN(dev->mdev, log_max_qp_sz);
 	resp.max_recv_wr = 1 << MLX5_CAP_GEN(dev->mdev, log_max_qp_sz);
 	resp.max_srq_recv_wr = 1 << MLX5_CAP_GEN(dev->mdev, log_max_srq_sz);
 	resp.cqe_version = min_t(__u8,
 				 (__u8)MLX5_CAP_GEN(dev->mdev, cqe_version),
 				 req.max_cqe_version);
 	resp.log_uar_size = MLX5_CAP_GEN(dev->mdev, uar_4k) ?
 				MLX5_ADAPTER_PAGE_SHIFT : PAGE_SHIFT;
 	resp.num_uars_per_page = MLX5_CAP_GEN(dev->mdev, uar_4k) ?
 					MLX5_CAP_GEN(dev->mdev, num_of_uars_per_page) : 1;
 	resp.response_length = min(offsetof(typeof(resp), response_length) +
 				   sizeof(resp.response_length), udata->outlen);
 
 	context = kzalloc(sizeof(*context), GFP_KERNEL);
 	if (!context)
 		return ERR_PTR(-ENOMEM);
 
 	lib_uar_4k = req.lib_caps & MLX5_LIB_CAP_4K_UAR;
 	lib_uar_dyn = req.lib_caps & MLX5_LIB_CAP_DYN_UAR;
 	bfregi = &context->bfregi;
 
 	if (lib_uar_dyn) {
 		bfregi->lib_uar_dyn = lib_uar_dyn;
 		goto uar_done;
 	}
 
 	/* updates req->total_num_bfregs */
 	err = calc_total_bfregs(dev, lib_uar_4k, &req, bfregi);
 	if (err)
 		goto out_ctx;
 
 	mutex_init(&bfregi->lock);
 	bfregi->lib_uar_4k = lib_uar_4k;
 	bfregi->count = kcalloc(bfregi->total_num_bfregs, sizeof(*bfregi->count),
 				GFP_KERNEL);
 	if (!bfregi->count) {
 		err = -ENOMEM;
 		goto out_ctx;
 	}
 
 	bfregi->sys_pages = kcalloc(bfregi->num_sys_pages,
 				    sizeof(*bfregi->sys_pages),
 				    GFP_KERNEL);
 	if (!bfregi->sys_pages) {
 		err = -ENOMEM;
 		goto out_count;
 	}
 
 	err = allocate_uars(dev, context);
 	if (err)
 		goto out_sys_pages;
 
 uar_done:
 
 #ifdef CONFIG_INFINIBAND_ON_DEMAND_PAGING
 	context->ibucontext.invalidate_range = &mlx5_ib_invalidate_range;
 #endif
 
 	if (MLX5_CAP_GEN(dev->mdev, log_max_transport_domain)) {
 		err = mlx5_alloc_transport_domain(dev->mdev,
 						       &context->tdn);
 		if (err)
 			goto out_uars;
 	}
 
 	INIT_LIST_HEAD(&context->vma_private_list);
 	INIT_LIST_HEAD(&context->db_page_list);
 	mutex_init(&context->db_page_mutex);
 
 	resp.tot_bfregs = lib_uar_dyn ? 0 : req.total_num_bfregs;
 	resp.num_ports = MLX5_CAP_GEN(dev->mdev, num_ports);
 
 	if (field_avail(typeof(resp), cqe_version, udata->outlen))
 		resp.response_length += sizeof(resp.cqe_version);
 
 	if (field_avail(typeof(resp), cmds_supp_uhw, udata->outlen)) {
 		resp.cmds_supp_uhw |= MLX5_USER_CMDS_SUPP_UHW_QUERY_DEVICE |
 				      MLX5_USER_CMDS_SUPP_UHW_CREATE_AH;
 		resp.response_length += sizeof(resp.cmds_supp_uhw);
 	}
 
 	/*
 	 * We don't want to expose information from the PCI bar that is located
 	 * after 4096 bytes, so if the arch only supports larger pages, let's
 	 * pretend we don't support reading the HCA's core clock. This is also
 	 * forced by mmap function.
 	 */
 	if (offsetofend(typeof(resp), hca_core_clock_offset) <= udata->outlen) {
 		if (PAGE_SIZE <= 4096) {
 			resp.comp_mask |=
 				MLX5_IB_ALLOC_UCONTEXT_RESP_MASK_CORE_CLOCK_OFFSET;
 			resp.hca_core_clock_offset =
 				offsetof(struct mlx5_init_seg, internal_timer_h) % PAGE_SIZE;
 		}
 		resp.response_length += sizeof(resp.hca_core_clock_offset);
 	}
 
 	if (offsetofend(typeof(resp), log_uar_size) <= udata->outlen)
 		resp.response_length += sizeof(resp.log_uar_size);
 
 	if (offsetofend(typeof(resp), num_uars_per_page) <= udata->outlen)
 		resp.response_length += sizeof(resp.num_uars_per_page);
 
 	if (offsetofend(typeof(resp), num_dyn_bfregs) <= udata->outlen) {
 		resp.num_dyn_bfregs = bfregi->num_dyn_bfregs;
 		resp.response_length += sizeof(resp.num_dyn_bfregs);
 	}
 
 	err = ib_copy_to_udata(udata, &resp, resp.response_length);
 	if (err)
 		goto out_td;
 
 	bfregi->ver = ver;
 	bfregi->num_low_latency_bfregs = req.num_low_latency_bfregs;
 	context->cqe_version = resp.cqe_version;
 
 	return &context->ibucontext;
 
 out_td:
 	if (MLX5_CAP_GEN(dev->mdev, log_max_transport_domain))
 		mlx5_dealloc_transport_domain(dev->mdev, context->tdn);
 
 out_uars:
 	deallocate_uars(dev, context);
 
 out_sys_pages:
 	kfree(bfregi->sys_pages);
 
 out_count:
 	kfree(bfregi->count);
 
 out_ctx:
 	kfree(context);
 	return ERR_PTR(err);
 }
 
 static int mlx5_ib_dealloc_ucontext(struct ib_ucontext *ibcontext)
 {
 	struct mlx5_ib_ucontext *context = to_mucontext(ibcontext);
 	struct mlx5_ib_dev *dev = to_mdev(ibcontext->device);
 	struct mlx5_bfreg_info *bfregi;
 
 	bfregi = &context->bfregi;
 	if (MLX5_CAP_GEN(dev->mdev, log_max_transport_domain))
 		mlx5_dealloc_transport_domain(dev->mdev, context->tdn);
 
 	deallocate_uars(dev, context);
 	kfree(bfregi->sys_pages);
 	kfree(bfregi->count);
 	kfree(context);
 
 	return 0;
 }
 
 static phys_addr_t uar_index2pfn(struct mlx5_ib_dev *dev,
 				 int uar_idx)
 {
 	int fw_uars_per_page;
 
 	fw_uars_per_page = MLX5_CAP_GEN(dev->mdev, uar_4k) ? MLX5_UARS_IN_PAGE : 1;
 
 	return (pci_resource_start(dev->mdev->pdev, 0) >> PAGE_SHIFT) + uar_idx / fw_uars_per_page;
 }
 
 static int get_command(unsigned long offset)
 {
 	return (offset >> MLX5_IB_MMAP_CMD_SHIFT) & MLX5_IB_MMAP_CMD_MASK;
 }
 
 static int get_arg(unsigned long offset)
 {
 	return offset & ((1 << MLX5_IB_MMAP_CMD_SHIFT) - 1);
 }
 
 static int get_index(unsigned long offset)
 {
 	return get_arg(offset);
 }
 
 /* Index resides in an extra byte to enable larger values than 255 */
 static int get_extended_index(unsigned long offset)
 {
 	return get_arg(offset) | ((offset >> 16) & 0xff) << 8;
 }
 
 static void  mlx5_ib_vma_open(struct vm_area_struct *area)
 {
 	/* vma_open is called when a new VMA is created on top of our VMA.  This
 	 * is done through either mremap flow or split_vma (usually due to
 	 * mlock, madvise, munmap, etc.) We do not support a clone of the VMA,
 	 * as this VMA is strongly hardware related.  Therefore we set the
 	 * vm_ops of the newly created/cloned VMA to NULL, to prevent it from
 	 * calling us again and trying to do incorrect actions.  We assume that
 	 * the original VMA size is exactly a single page, and therefore all
 	 * "splitting" operation will not happen to it.
 	 */
 	area->vm_ops = NULL;
 }
 
 static void  mlx5_ib_vma_close(struct vm_area_struct *area)
 {
 	struct mlx5_ib_vma_private_data *mlx5_ib_vma_priv_data;
 
 	/* It's guaranteed that all VMAs opened on a FD are closed before the
 	 * file itself is closed, therefore no sync is needed with the regular
 	 * closing flow. (e.g. mlx5 ib_dealloc_ucontext)
 	 * However need a sync with accessing the vma as part of
 	 * mlx5_ib_disassociate_ucontext.
 	 * The close operation is usually called under mm->mmap_sem except when
 	 * process is exiting.
 	 * The exiting case is handled explicitly as part of
 	 * mlx5_ib_disassociate_ucontext.
 	 */
 	mlx5_ib_vma_priv_data = (struct mlx5_ib_vma_private_data *)area->vm_private_data;
 
 	/* setting the vma context pointer to null in the mlx5_ib driver's
 	 * private data, to protect a race condition in
 	 * mlx5_ib_disassociate_ucontext().
 	 */
 	mlx5_ib_vma_priv_data->vma = NULL;
 	list_del(&mlx5_ib_vma_priv_data->list);
 	kfree(mlx5_ib_vma_priv_data);
 }
 
 static const struct vm_operations_struct mlx5_ib_vm_ops = {
 	.open = mlx5_ib_vma_open,
 	.close = mlx5_ib_vma_close
 };
 
 static int mlx5_ib_set_vma_data(struct vm_area_struct *vma,
 				struct mlx5_ib_ucontext *ctx)
 {
 	struct mlx5_ib_vma_private_data *vma_prv;
 	struct list_head *vma_head = &ctx->vma_private_list;
 
 	vma_prv = kzalloc(sizeof(*vma_prv), GFP_KERNEL);
 	if (!vma_prv)
 		return -ENOMEM;
 
 	vma_prv->vma = vma;
 	vma->vm_private_data = vma_prv;
 	vma->vm_ops =  &mlx5_ib_vm_ops;
 
 	list_add(&vma_prv->list, vma_head);
 
 	return 0;
 }
 
 static void mlx5_ib_disassociate_ucontext(struct ib_ucontext *ibcontext)
 {
 	int ret;
 	struct vm_area_struct *vma;
 	struct mlx5_ib_vma_private_data *vma_private, *n;
 	struct mlx5_ib_ucontext *context = to_mucontext(ibcontext);
 	struct task_struct *owning_process  = NULL;
 	struct mm_struct   *owning_mm       = NULL;
 
 	owning_process = get_pid_task(ibcontext->tgid, PIDTYPE_PID);
 	if (!owning_process)
 		return;
 
 	owning_mm = get_task_mm(owning_process);
 	if (!owning_mm) {
 		pr_info("no mm, disassociate ucontext is pending task termination\n");
 		while (1) {
 			put_task_struct(owning_process);
 			usleep_range(1000, 2000);
 			owning_process = get_pid_task(ibcontext->tgid,
 						      PIDTYPE_PID);
 			if (!owning_process || owning_process->task_thread->
 			    td_proc->p_state == PRS_ZOMBIE) {
 				pr_info("disassociate ucontext done, task was terminated\n");
 				/* in case task was dead need to release the
 				 * task struct.
 				 */
 				if (owning_process)
 					put_task_struct(owning_process);
 				return;
 			}
 		}
 	}
 
 	/* need to protect from a race on closing the vma as part of
 	 * mlx5_ib_vma_close.
 	 */
 	down_write(&owning_mm->mmap_sem);
 	list_for_each_entry_safe(vma_private, n, &context->vma_private_list,
 				 list) {
 		vma = vma_private->vma;
 		ret = zap_vma_ptes(vma, vma->vm_start,
 				   PAGE_SIZE);
 		if (ret == -ENOTSUP) {
 			if (bootverbose)
 				WARN_ONCE(
 	"%s: zap_vma_ptes not implemented for unmanaged mappings", __func__);
 		} else {
 			WARN(ret, "%s: zap_vma_ptes failed, error %d",
 			    __func__, -ret);
 		}
 		/* context going to be destroyed, should
 		 * not access ops any more.
 		 */
 		/* XXXKIB vma->vm_flags &= ~(VM_SHARED | VM_MAYSHARE); */
 		vma->vm_ops = NULL;
 		list_del(&vma_private->list);
 		kfree(vma_private);
 	}
 	up_write(&owning_mm->mmap_sem);
 	mmput(owning_mm);
 	put_task_struct(owning_process);
 }
 
 static inline char *mmap_cmd2str(enum mlx5_ib_mmap_cmd cmd)
 {
 	switch (cmd) {
 	case MLX5_IB_MMAP_WC_PAGE:
 		return "WC";
 	case MLX5_IB_MMAP_REGULAR_PAGE:
 		return "best effort WC";
 	case MLX5_IB_MMAP_NC_PAGE:
 		return "NC";
 	default:
 		return NULL;
 	}
 }
 
 static int uar_mmap(struct mlx5_ib_dev *dev, enum mlx5_ib_mmap_cmd cmd,
 		    struct vm_area_struct *vma,
 		    struct mlx5_ib_ucontext *context)
 {
 	struct mlx5_bfreg_info *bfregi = &context->bfregi;
 	int err;
 	unsigned long idx;
 	phys_addr_t pfn;
 	pgprot_t prot;
 	u32 bfreg_dyn_idx = 0;
 	u32 uar_index;
 	int dyn_uar = (cmd == MLX5_IB_MMAP_WC_PAGE);
 	int max_valid_idx = dyn_uar ? bfregi->num_sys_pages :
 				bfregi->num_static_sys_pages;
 
 	if (bfregi->lib_uar_dyn)
 		return -EINVAL;
 
 	if (vma->vm_end - vma->vm_start != PAGE_SIZE)
 		return -EINVAL;
 
 	if (dyn_uar)
 		idx = get_extended_index(vma->vm_pgoff) + bfregi->num_static_sys_pages;
 	else
 		idx = get_index(vma->vm_pgoff);
 
 	if (idx >= max_valid_idx) {
 		mlx5_ib_warn(dev, "invalid uar index %lu, max=%d\n",
 			     idx, max_valid_idx);
 		return -EINVAL;
 	}
 
 	switch (cmd) {
 	case MLX5_IB_MMAP_WC_PAGE:
 	case MLX5_IB_MMAP_REGULAR_PAGE:
 		/* For MLX5_IB_MMAP_REGULAR_PAGE do the best effort to get WC */
 		prot = pgprot_writecombine(vma->vm_page_prot);
 		break;
 	case MLX5_IB_MMAP_NC_PAGE:
 		prot = pgprot_noncached(vma->vm_page_prot);
 		break;
 	default:
 		return -EINVAL;
 	}
 
 	if (dyn_uar) {
 		int uars_per_page;
 
 		uars_per_page = get_uars_per_sys_page(dev, bfregi->lib_uar_4k);
 		bfreg_dyn_idx = idx * (uars_per_page * MLX5_NON_FP_BFREGS_PER_UAR);
 		if (bfreg_dyn_idx >= bfregi->total_num_bfregs) {
 			mlx5_ib_warn(dev, "invalid bfreg_dyn_idx %u, max=%u\n",
 				     bfreg_dyn_idx, bfregi->total_num_bfregs);
 			return -EINVAL;
 		}
 
 		mutex_lock(&bfregi->lock);
 		/* Fail if uar already allocated, first bfreg index of each
 		 * page holds its count.
 		 */
 		if (bfregi->count[bfreg_dyn_idx]) {
 			mlx5_ib_warn(dev, "wrong offset, idx %lu is busy, bfregn=%u\n", idx, bfreg_dyn_idx);
 			mutex_unlock(&bfregi->lock);
 			return -EINVAL;
 		}
 
 		bfregi->count[bfreg_dyn_idx]++;
 		mutex_unlock(&bfregi->lock);
 
 		err = mlx5_cmd_alloc_uar(dev->mdev, &uar_index);
 		if (err) {
 			mlx5_ib_warn(dev, "UAR alloc failed\n");
 			goto free_bfreg;
 		}
 	} else {
 		uar_index = bfregi->sys_pages[idx];
 	}
 
 	pfn = uar_index2pfn(dev, uar_index);
 	mlx5_ib_dbg(dev, "uar idx 0x%lx, pfn %pa\n", idx, &pfn);
 
 	vma->vm_page_prot = prot;
 	err = io_remap_pfn_range(vma, vma->vm_start, pfn,
 				 PAGE_SIZE, vma->vm_page_prot);
 	if (err) {
 		mlx5_ib_err(dev, "io_remap_pfn_range failed with error=%d, vm_start=0x%llx, pfn=%pa, mmap_cmd=%s\n",
 			    err, (unsigned long long)vma->vm_start, &pfn, mmap_cmd2str(cmd));
 		goto err;
 	}
 
 	if (dyn_uar)
 		bfregi->sys_pages[idx] = uar_index;
 	return mlx5_ib_set_vma_data(vma, context);
 
 err:
 	if (!dyn_uar)
 		return err;
 
 	mlx5_cmd_free_uar(dev->mdev, idx);
 
 free_bfreg:
 	mlx5_ib_free_bfreg(dev, bfregi, bfreg_dyn_idx);
 
 	return err;
 }
 
 static int mlx5_ib_mmap(struct ib_ucontext *ibcontext, struct vm_area_struct *vma)
 {
 	struct mlx5_ib_ucontext *context = to_mucontext(ibcontext);
 	struct mlx5_ib_dev *dev = to_mdev(ibcontext->device);
 	unsigned long command;
 	phys_addr_t pfn;
 
 	command = get_command(vma->vm_pgoff);
 	switch (command) {
 	case MLX5_IB_MMAP_WC_PAGE:
 	case MLX5_IB_MMAP_NC_PAGE:
 	case MLX5_IB_MMAP_REGULAR_PAGE:
 		return uar_mmap(dev, command, vma, context);
 
 	case MLX5_IB_MMAP_GET_CONTIGUOUS_PAGES:
 		return -ENOSYS;
 
 	case MLX5_IB_MMAP_CORE_CLOCK:
 		if (vma->vm_end - vma->vm_start != PAGE_SIZE)
 			return -EINVAL;
 
 		if (vma->vm_flags & VM_WRITE)
 			return -EPERM;
 
 		/* Don't expose to user-space information it shouldn't have */
 		if (PAGE_SIZE > 4096)
 			return -EOPNOTSUPP;
 
 		vma->vm_page_prot = pgprot_noncached(vma->vm_page_prot);
 		pfn = (dev->mdev->iseg_base +
 		       offsetof(struct mlx5_init_seg, internal_timer_h)) >>
 			PAGE_SHIFT;
 		if (io_remap_pfn_range(vma, vma->vm_start, pfn,
 				       PAGE_SIZE, vma->vm_page_prot))
 			return -EAGAIN;
 
 		mlx5_ib_dbg(dev, "mapped internal timer at 0x%llx, PA 0x%llx\n",
 			    (unsigned long long)vma->vm_start,
 			    (unsigned long long)pfn << PAGE_SHIFT);
 		break;
 
 	default:
 		return -EINVAL;
 	}
 
 	return 0;
 }
 
 static struct ib_pd *mlx5_ib_alloc_pd(struct ib_device *ibdev,
 				      struct ib_ucontext *context,
 				      struct ib_udata *udata)
 {
 	struct mlx5_ib_alloc_pd_resp resp;
 	struct mlx5_ib_pd *pd;
 	int err;
 
 	pd = kmalloc(sizeof(*pd), GFP_KERNEL);
 	if (!pd)
 		return ERR_PTR(-ENOMEM);
 
 	err = mlx5_core_alloc_pd(to_mdev(ibdev)->mdev, &pd->pdn);
 	if (err) {
 		kfree(pd);
 		return ERR_PTR(err);
 	}
 
 	if (context) {
 		resp.pdn = pd->pdn;
 		if (ib_copy_to_udata(udata, &resp, sizeof(resp))) {
 			mlx5_core_dealloc_pd(to_mdev(ibdev)->mdev, pd->pdn);
 			kfree(pd);
 			return ERR_PTR(-EFAULT);
 		}
 	}
 
 	return &pd->ibpd;
 }
 
 static int mlx5_ib_dealloc_pd(struct ib_pd *pd)
 {
 	struct mlx5_ib_dev *mdev = to_mdev(pd->device);
 	struct mlx5_ib_pd *mpd = to_mpd(pd);
 
 	mlx5_core_dealloc_pd(mdev->mdev, mpd->pdn);
 	kfree(mpd);
 
 	return 0;
 }
 
 enum {
 	MATCH_CRITERIA_ENABLE_OUTER_BIT,
 	MATCH_CRITERIA_ENABLE_MISC_BIT,
 	MATCH_CRITERIA_ENABLE_INNER_BIT
 };
 
 #define HEADER_IS_ZERO(match_criteria, headers)			           \
 	!(memchr_inv(MLX5_ADDR_OF(fte_match_param, match_criteria, headers), \
 		    0, MLX5_FLD_SZ_BYTES(fte_match_param, headers)))       \
 
 static u8 get_match_criteria_enable(u32 *match_criteria)
 {
 	u8 match_criteria_enable;
 
 	match_criteria_enable =
 		(!HEADER_IS_ZERO(match_criteria, outer_headers)) <<
 		MATCH_CRITERIA_ENABLE_OUTER_BIT;
 	match_criteria_enable |=
 		(!HEADER_IS_ZERO(match_criteria, misc_parameters)) <<
 		MATCH_CRITERIA_ENABLE_MISC_BIT;
 	match_criteria_enable |=
 		(!HEADER_IS_ZERO(match_criteria, inner_headers)) <<
 		MATCH_CRITERIA_ENABLE_INNER_BIT;
 
 	return match_criteria_enable;
 }
 
 static void set_proto(void *outer_c, void *outer_v, u8 mask, u8 val)
 {
 	MLX5_SET(fte_match_set_lyr_2_4, outer_c, ip_protocol, mask);
 	MLX5_SET(fte_match_set_lyr_2_4, outer_v, ip_protocol, val);
 }
 
 static void set_tos(void *outer_c, void *outer_v, u8 mask, u8 val)
 {
 	MLX5_SET(fte_match_set_lyr_2_4, outer_c, ip_ecn, mask);
 	MLX5_SET(fte_match_set_lyr_2_4, outer_v, ip_ecn, val);
 	MLX5_SET(fte_match_set_lyr_2_4, outer_c, ip_dscp, mask >> 2);
 	MLX5_SET(fte_match_set_lyr_2_4, outer_v, ip_dscp, val >> 2);
 }
 
 #define LAST_ETH_FIELD vlan_tag
 #define LAST_IB_FIELD sl
 #define LAST_IPV4_FIELD tos
 #define LAST_IPV6_FIELD traffic_class
 #define LAST_TCP_UDP_FIELD src_port
 
 /* Field is the last supported field */
 #define FIELDS_NOT_SUPPORTED(filter, field)\
 	memchr_inv((void *)&filter.field  +\
 		   sizeof(filter.field), 0,\
 		   sizeof(filter) -\
 		   offsetof(typeof(filter), field) -\
 		   sizeof(filter.field))
 
 static int parse_flow_attr(u32 *match_c, u32 *match_v,
 			   const union ib_flow_spec *ib_spec)
 {
 	void *outer_headers_c = MLX5_ADDR_OF(fte_match_param, match_c,
 					     outer_headers);
 	void *outer_headers_v = MLX5_ADDR_OF(fte_match_param, match_v,
 					     outer_headers);
 	void *misc_params_c = MLX5_ADDR_OF(fte_match_param, match_c,
 					   misc_parameters);
 	void *misc_params_v = MLX5_ADDR_OF(fte_match_param, match_v,
 					   misc_parameters);
 
 	switch (ib_spec->type) {
 	case IB_FLOW_SPEC_ETH:
 		if (FIELDS_NOT_SUPPORTED(ib_spec->eth.mask, LAST_ETH_FIELD))
 			return -ENOTSUPP;
 
 		ether_addr_copy(MLX5_ADDR_OF(fte_match_set_lyr_2_4, outer_headers_c,
 					     dmac_47_16),
 				ib_spec->eth.mask.dst_mac);
 		ether_addr_copy(MLX5_ADDR_OF(fte_match_set_lyr_2_4, outer_headers_v,
 					     dmac_47_16),
 				ib_spec->eth.val.dst_mac);
 
 		ether_addr_copy(MLX5_ADDR_OF(fte_match_set_lyr_2_4, outer_headers_c,
 					     smac_47_16),
 				ib_spec->eth.mask.src_mac);
 		ether_addr_copy(MLX5_ADDR_OF(fte_match_set_lyr_2_4, outer_headers_v,
 					     smac_47_16),
 				ib_spec->eth.val.src_mac);
 
 		if (ib_spec->eth.mask.vlan_tag) {
 			MLX5_SET(fte_match_set_lyr_2_4, outer_headers_c,
 				 cvlan_tag, 1);
 			MLX5_SET(fte_match_set_lyr_2_4, outer_headers_v,
 				 cvlan_tag, 1);
 
 			MLX5_SET(fte_match_set_lyr_2_4, outer_headers_c,
 				 first_vid, ntohs(ib_spec->eth.mask.vlan_tag));
 			MLX5_SET(fte_match_set_lyr_2_4, outer_headers_v,
 				 first_vid, ntohs(ib_spec->eth.val.vlan_tag));
 
 			MLX5_SET(fte_match_set_lyr_2_4, outer_headers_c,
 				 first_cfi,
 				 ntohs(ib_spec->eth.mask.vlan_tag) >> 12);
 			MLX5_SET(fte_match_set_lyr_2_4, outer_headers_v,
 				 first_cfi,
 				 ntohs(ib_spec->eth.val.vlan_tag) >> 12);
 
 			MLX5_SET(fte_match_set_lyr_2_4, outer_headers_c,
 				 first_prio,
 				 ntohs(ib_spec->eth.mask.vlan_tag) >> 13);
 			MLX5_SET(fte_match_set_lyr_2_4, outer_headers_v,
 				 first_prio,
 				 ntohs(ib_spec->eth.val.vlan_tag) >> 13);
 		}
 		MLX5_SET(fte_match_set_lyr_2_4, outer_headers_c,
 			 ethertype, ntohs(ib_spec->eth.mask.ether_type));
 		MLX5_SET(fte_match_set_lyr_2_4, outer_headers_v,
 			 ethertype, ntohs(ib_spec->eth.val.ether_type));
 		break;
 	case IB_FLOW_SPEC_IPV4:
 		if (FIELDS_NOT_SUPPORTED(ib_spec->ipv4.mask, LAST_IPV4_FIELD))
 			return -ENOTSUPP;
 
 		MLX5_SET(fte_match_set_lyr_2_4, outer_headers_c,
 			 ethertype, 0xffff);
 		MLX5_SET(fte_match_set_lyr_2_4, outer_headers_v,
 			 ethertype, ETH_P_IP);
 
 		memcpy(MLX5_ADDR_OF(fte_match_set_lyr_2_4, outer_headers_c,
 				    src_ipv4_src_ipv6.ipv4_layout.ipv4),
 		       &ib_spec->ipv4.mask.src_ip,
 		       sizeof(ib_spec->ipv4.mask.src_ip));
 		memcpy(MLX5_ADDR_OF(fte_match_set_lyr_2_4, outer_headers_v,
 				    src_ipv4_src_ipv6.ipv4_layout.ipv4),
 		       &ib_spec->ipv4.val.src_ip,
 		       sizeof(ib_spec->ipv4.val.src_ip));
 		memcpy(MLX5_ADDR_OF(fte_match_set_lyr_2_4, outer_headers_c,
 				    dst_ipv4_dst_ipv6.ipv4_layout.ipv4),
 		       &ib_spec->ipv4.mask.dst_ip,
 		       sizeof(ib_spec->ipv4.mask.dst_ip));
 		memcpy(MLX5_ADDR_OF(fte_match_set_lyr_2_4, outer_headers_v,
 				    dst_ipv4_dst_ipv6.ipv4_layout.ipv4),
 		       &ib_spec->ipv4.val.dst_ip,
 		       sizeof(ib_spec->ipv4.val.dst_ip));
 
 		set_tos(outer_headers_c, outer_headers_v,
 			ib_spec->ipv4.mask.tos, ib_spec->ipv4.val.tos);
 
 		set_proto(outer_headers_c, outer_headers_v,
 			  ib_spec->ipv4.mask.proto, ib_spec->ipv4.val.proto);
 		break;
 	case IB_FLOW_SPEC_IPV6:
 		if (FIELDS_NOT_SUPPORTED(ib_spec->ipv6.mask, LAST_IPV6_FIELD))
 			return -ENOTSUPP;
 
 		MLX5_SET(fte_match_set_lyr_2_4, outer_headers_c,
 			 ethertype, 0xffff);
 		MLX5_SET(fte_match_set_lyr_2_4, outer_headers_v,
 			 ethertype, IPPROTO_IPV6);
 
 		memcpy(MLX5_ADDR_OF(fte_match_set_lyr_2_4, outer_headers_c,
 				    src_ipv4_src_ipv6.ipv6_layout.ipv6),
 		       &ib_spec->ipv6.mask.src_ip,
 		       sizeof(ib_spec->ipv6.mask.src_ip));
 		memcpy(MLX5_ADDR_OF(fte_match_set_lyr_2_4, outer_headers_v,
 				    src_ipv4_src_ipv6.ipv6_layout.ipv6),
 		       &ib_spec->ipv6.val.src_ip,
 		       sizeof(ib_spec->ipv6.val.src_ip));
 		memcpy(MLX5_ADDR_OF(fte_match_set_lyr_2_4, outer_headers_c,
 				    dst_ipv4_dst_ipv6.ipv6_layout.ipv6),
 		       &ib_spec->ipv6.mask.dst_ip,
 		       sizeof(ib_spec->ipv6.mask.dst_ip));
 		memcpy(MLX5_ADDR_OF(fte_match_set_lyr_2_4, outer_headers_v,
 				    dst_ipv4_dst_ipv6.ipv6_layout.ipv6),
 		       &ib_spec->ipv6.val.dst_ip,
 		       sizeof(ib_spec->ipv6.val.dst_ip));
 
 		set_tos(outer_headers_c, outer_headers_v,
 			ib_spec->ipv6.mask.traffic_class,
 			ib_spec->ipv6.val.traffic_class);
 
 		set_proto(outer_headers_c, outer_headers_v,
 			  ib_spec->ipv6.mask.next_hdr,
 			  ib_spec->ipv6.val.next_hdr);
 
 		MLX5_SET(fte_match_set_misc, misc_params_c,
 			 outer_ipv6_flow_label,
 			 ntohl(ib_spec->ipv6.mask.flow_label));
 		MLX5_SET(fte_match_set_misc, misc_params_v,
 			 outer_ipv6_flow_label,
 			 ntohl(ib_spec->ipv6.val.flow_label));
 		break;
 	case IB_FLOW_SPEC_TCP:
 		if (FIELDS_NOT_SUPPORTED(ib_spec->tcp_udp.mask,
 					 LAST_TCP_UDP_FIELD))
 			return -ENOTSUPP;
 
 		MLX5_SET(fte_match_set_lyr_2_4, outer_headers_c, ip_protocol,
 			 0xff);
 		MLX5_SET(fte_match_set_lyr_2_4, outer_headers_v, ip_protocol,
 			 IPPROTO_TCP);
 
 		MLX5_SET(fte_match_set_lyr_2_4, outer_headers_c, tcp_sport,
 			 ntohs(ib_spec->tcp_udp.mask.src_port));
 		MLX5_SET(fte_match_set_lyr_2_4, outer_headers_v, tcp_sport,
 			 ntohs(ib_spec->tcp_udp.val.src_port));
 
 		MLX5_SET(fte_match_set_lyr_2_4, outer_headers_c, tcp_dport,
 			 ntohs(ib_spec->tcp_udp.mask.dst_port));
 		MLX5_SET(fte_match_set_lyr_2_4, outer_headers_v, tcp_dport,
 			 ntohs(ib_spec->tcp_udp.val.dst_port));
 		break;
 	case IB_FLOW_SPEC_UDP:
 		if (FIELDS_NOT_SUPPORTED(ib_spec->tcp_udp.mask,
 					 LAST_TCP_UDP_FIELD))
 			return -ENOTSUPP;
 
 		MLX5_SET(fte_match_set_lyr_2_4, outer_headers_c, ip_protocol,
 			 0xff);
 		MLX5_SET(fte_match_set_lyr_2_4, outer_headers_v, ip_protocol,
 			 IPPROTO_UDP);
 
 		MLX5_SET(fte_match_set_lyr_2_4, outer_headers_c, udp_sport,
 			 ntohs(ib_spec->tcp_udp.mask.src_port));
 		MLX5_SET(fte_match_set_lyr_2_4, outer_headers_v, udp_sport,
 			 ntohs(ib_spec->tcp_udp.val.src_port));
 
 		MLX5_SET(fte_match_set_lyr_2_4, outer_headers_c, udp_dport,
 			 ntohs(ib_spec->tcp_udp.mask.dst_port));
 		MLX5_SET(fte_match_set_lyr_2_4, outer_headers_v, udp_dport,
 			 ntohs(ib_spec->tcp_udp.val.dst_port));
 		break;
 	default:
 		return -EINVAL;
 	}
 
 	return 0;
 }
 
 /* If a flow could catch both multicast and unicast packets,
  * it won't fall into the multicast flow steering table and this rule
  * could steal other multicast packets.
  */
 static bool flow_is_multicast_only(struct ib_flow_attr *ib_attr)
 {
 	struct ib_flow_spec_eth *eth_spec;
 
 	if (ib_attr->type != IB_FLOW_ATTR_NORMAL ||
 	    ib_attr->size < sizeof(struct ib_flow_attr) +
 	    sizeof(struct ib_flow_spec_eth) ||
 	    ib_attr->num_of_specs < 1)
 		return false;
 
 	eth_spec = (struct ib_flow_spec_eth *)(ib_attr + 1);
 	if (eth_spec->type != IB_FLOW_SPEC_ETH ||
 	    eth_spec->size != sizeof(*eth_spec))
 		return false;
 
 	return is_multicast_ether_addr(eth_spec->mask.dst_mac) &&
 	       is_multicast_ether_addr(eth_spec->val.dst_mac);
 }
 
 static bool is_valid_attr(const struct ib_flow_attr *flow_attr)
 {
 	union ib_flow_spec *ib_spec = (union ib_flow_spec *)(flow_attr + 1);
 	bool has_ipv4_spec = false;
 	bool eth_type_ipv4 = true;
 	unsigned int spec_index;
 
 	/* Validate that ethertype is correct */
 	for (spec_index = 0; spec_index < flow_attr->num_of_specs; spec_index++) {
 		if (ib_spec->type == IB_FLOW_SPEC_ETH &&
 		    ib_spec->eth.mask.ether_type) {
 			if (!((ib_spec->eth.mask.ether_type == htons(0xffff)) &&
 			      ib_spec->eth.val.ether_type == htons(ETH_P_IP)))
 				eth_type_ipv4 = false;
 		} else if (ib_spec->type == IB_FLOW_SPEC_IPV4) {
 			has_ipv4_spec = true;
 		}
 		ib_spec = (void *)ib_spec + ib_spec->size;
 	}
 	return !has_ipv4_spec || eth_type_ipv4;
 }
 
 static void put_flow_table(struct mlx5_ib_dev *dev,
 			   struct mlx5_ib_flow_prio *prio, bool ft_added)
 {
 	prio->refcount -= !!ft_added;
 	if (!prio->refcount) {
 		mlx5_destroy_flow_table(prio->flow_table);
 		prio->flow_table = NULL;
 	}
 }
 
 static int mlx5_ib_destroy_flow(struct ib_flow *flow_id)
 {
 	struct mlx5_ib_dev *dev = to_mdev(flow_id->qp->device);
 	struct mlx5_ib_flow_handler *handler = container_of(flow_id,
 							  struct mlx5_ib_flow_handler,
 							  ibflow);
 	struct mlx5_ib_flow_handler *iter, *tmp;
 
 	mutex_lock(&dev->flow_db.lock);
 
 	list_for_each_entry_safe(iter, tmp, &handler->list, list) {
 		mlx5_del_flow_rule(iter->rule);
 		put_flow_table(dev, iter->prio, true);
 		list_del(&iter->list);
 		kfree(iter);
 	}
 
 	mlx5_del_flow_rule(handler->rule);
 	put_flow_table(dev, handler->prio, true);
 	mutex_unlock(&dev->flow_db.lock);
 
 	kfree(handler);
 
 	return 0;
 }
 
 static int ib_prio_to_core_prio(unsigned int priority, bool dont_trap)
 {
 	priority *= 2;
 	if (!dont_trap)
 		priority++;
 	return priority;
 }
 
 enum flow_table_type {
 	MLX5_IB_FT_RX,
 	MLX5_IB_FT_TX
 };
 
 #define MLX5_FS_MAX_TYPES	 10
 #define MLX5_FS_MAX_ENTRIES	 32000UL
 static struct mlx5_ib_flow_prio *get_flow_table(struct mlx5_ib_dev *dev,
 						struct ib_flow_attr *flow_attr,
 						enum flow_table_type ft_type)
 {
 	bool dont_trap = flow_attr->flags & IB_FLOW_ATTR_FLAGS_DONT_TRAP;
 	struct mlx5_flow_namespace *ns = NULL;
 	struct mlx5_ib_flow_prio *prio;
 	struct mlx5_flow_table *ft;
 	int num_entries;
 	int num_groups;
 	int priority;
 	int err = 0;
 
 	if (flow_attr->type == IB_FLOW_ATTR_NORMAL) {
 		if (flow_is_multicast_only(flow_attr) &&
 		    !dont_trap)
 			priority = MLX5_IB_FLOW_MCAST_PRIO;
 		else
 			priority = ib_prio_to_core_prio(flow_attr->priority,
 							dont_trap);
 		ns = mlx5_get_flow_namespace(dev->mdev,
 					     MLX5_FLOW_NAMESPACE_BYPASS);
 		num_entries = MLX5_FS_MAX_ENTRIES;
 		num_groups = MLX5_FS_MAX_TYPES;
 		prio = &dev->flow_db.prios[priority];
 	} else if (flow_attr->type == IB_FLOW_ATTR_ALL_DEFAULT ||
 		   flow_attr->type == IB_FLOW_ATTR_MC_DEFAULT) {
 		ns = mlx5_get_flow_namespace(dev->mdev,
 					     MLX5_FLOW_NAMESPACE_LEFTOVERS);
 		build_leftovers_ft_param("bypass", &priority,
 					 &num_entries,
 					 &num_groups);
 		prio = &dev->flow_db.prios[MLX5_IB_FLOW_LEFTOVERS_PRIO];
 	} else if (flow_attr->type == IB_FLOW_ATTR_SNIFFER) {
 		if (!MLX5_CAP_FLOWTABLE(dev->mdev,
 					allow_sniffer_and_nic_rx_shared_tir))
 			return ERR_PTR(-ENOTSUPP);
 
 		ns = mlx5_get_flow_namespace(dev->mdev, ft_type == MLX5_IB_FT_RX ?
 					     MLX5_FLOW_NAMESPACE_SNIFFER_RX :
 					     MLX5_FLOW_NAMESPACE_SNIFFER_TX);
 
 		prio = &dev->flow_db.sniffer[ft_type];
 		priority = 0;
 		num_entries = 1;
 		num_groups = 1;
 	}
 
 	if (!ns)
 		return ERR_PTR(-ENOTSUPP);
 
 	ft = prio->flow_table;
 	if (!ft) {
 		ft = mlx5_create_auto_grouped_flow_table(ns, priority, "bypass",
 							 num_entries,
 							 num_groups);
 
 		if (!IS_ERR(ft)) {
 			prio->refcount = 0;
 			prio->flow_table = ft;
 		} else {
 			err = PTR_ERR(ft);
 		}
 	}
 
 	return err ? ERR_PTR(err) : prio;
 }
 
 static struct mlx5_ib_flow_handler *create_flow_rule(struct mlx5_ib_dev *dev,
 						     struct mlx5_ib_flow_prio *ft_prio,
 						     const struct ib_flow_attr *flow_attr,
 						     struct mlx5_flow_destination *dst)
 {
 	struct mlx5_flow_table	*ft = ft_prio->flow_table;
 	struct mlx5_ib_flow_handler *handler;
 	struct mlx5_flow_spec *spec;
 	const void *ib_flow = (const void *)flow_attr + sizeof(*flow_attr);
 	unsigned int spec_index;
 	u32 action;
 	int err = 0;
 
 	if (!is_valid_attr(flow_attr))
 		return ERR_PTR(-EINVAL);
 
 	spec = mlx5_vzalloc(sizeof(*spec));
 	handler = kzalloc(sizeof(*handler), GFP_KERNEL);
 	if (!handler || !spec) {
 		err = -ENOMEM;
 		goto free;
 	}
 
 	INIT_LIST_HEAD(&handler->list);
 
 	for (spec_index = 0; spec_index < flow_attr->num_of_specs; spec_index++) {
 		err = parse_flow_attr(spec->match_criteria,
 				      spec->match_value, ib_flow);
 		if (err < 0)
 			goto free;
 
 		ib_flow += ((union ib_flow_spec *)ib_flow)->size;
 	}
 
 	spec->match_criteria_enable = get_match_criteria_enable(spec->match_criteria);
 	action = dst ? MLX5_FLOW_CONTEXT_ACTION_FWD_DEST :
 		MLX5_FLOW_CONTEXT_ACTION_FWD_NEXT_PRIO;
 	handler->rule = mlx5_add_flow_rule(ft, spec->match_criteria_enable,
 					   spec->match_criteria,
 					   spec->match_value,
 					   action,
 					   MLX5_FS_DEFAULT_FLOW_TAG,
 					   dst);
 
 	if (IS_ERR(handler->rule)) {
 		err = PTR_ERR(handler->rule);
 		goto free;
 	}
 
 	ft_prio->refcount++;
 	handler->prio = ft_prio;
 
 	ft_prio->flow_table = ft;
 free:
 	if (err)
 		kfree(handler);
 	kvfree(spec);
 	return err ? ERR_PTR(err) : handler;
 }
 
 static struct mlx5_ib_flow_handler *create_dont_trap_rule(struct mlx5_ib_dev *dev,
 							  struct mlx5_ib_flow_prio *ft_prio,
 							  struct ib_flow_attr *flow_attr,
 							  struct mlx5_flow_destination *dst)
 {
 	struct mlx5_ib_flow_handler *handler_dst = NULL;
 	struct mlx5_ib_flow_handler *handler = NULL;
 
 	handler = create_flow_rule(dev, ft_prio, flow_attr, NULL);
 	if (!IS_ERR(handler)) {
 		handler_dst = create_flow_rule(dev, ft_prio,
 					       flow_attr, dst);
 		if (IS_ERR(handler_dst)) {
 			mlx5_del_flow_rule(handler->rule);
 			ft_prio->refcount--;
 			kfree(handler);
 			handler = handler_dst;
 		} else {
 			list_add(&handler_dst->list, &handler->list);
 		}
 	}
 
 	return handler;
 }
 enum {
 	LEFTOVERS_MC,
 	LEFTOVERS_UC,
 };
 
 static struct mlx5_ib_flow_handler *create_leftovers_rule(struct mlx5_ib_dev *dev,
 							  struct mlx5_ib_flow_prio *ft_prio,
 							  struct ib_flow_attr *flow_attr,
 							  struct mlx5_flow_destination *dst)
 {
 	struct mlx5_ib_flow_handler *handler_ucast = NULL;
 	struct mlx5_ib_flow_handler *handler = NULL;
 
 	static struct {
 		struct ib_flow_attr	flow_attr;
 		struct ib_flow_spec_eth eth_flow;
 	} leftovers_specs[] = {
 		[LEFTOVERS_MC] = {
 			.flow_attr = {
 				.num_of_specs = 1,
 				.size = sizeof(leftovers_specs[0])
 			},
 			.eth_flow = {
 				.type = IB_FLOW_SPEC_ETH,
 				.size = sizeof(struct ib_flow_spec_eth),
 				.mask = {.dst_mac = {0x1} },
 				.val =  {.dst_mac = {0x1} }
 			}
 		},
 		[LEFTOVERS_UC] = {
 			.flow_attr = {
 				.num_of_specs = 1,
 				.size = sizeof(leftovers_specs[0])
 			},
 			.eth_flow = {
 				.type = IB_FLOW_SPEC_ETH,
 				.size = sizeof(struct ib_flow_spec_eth),
 				.mask = {.dst_mac = {0x1} },
 				.val = {.dst_mac = {} }
 			}
 		}
 	};
 
 	handler = create_flow_rule(dev, ft_prio,
 				   &leftovers_specs[LEFTOVERS_MC].flow_attr,
 				   dst);
 	if (!IS_ERR(handler) &&
 	    flow_attr->type == IB_FLOW_ATTR_ALL_DEFAULT) {
 		handler_ucast = create_flow_rule(dev, ft_prio,
 						 &leftovers_specs[LEFTOVERS_UC].flow_attr,
 						 dst);
 		if (IS_ERR(handler_ucast)) {
 			mlx5_del_flow_rule(handler->rule);
 			ft_prio->refcount--;
 			kfree(handler);
 			handler = handler_ucast;
 		} else {
 			list_add(&handler_ucast->list, &handler->list);
 		}
 	}
 
 	return handler;
 }
 
 static struct mlx5_ib_flow_handler *create_sniffer_rule(struct mlx5_ib_dev *dev,
 							struct mlx5_ib_flow_prio *ft_rx,
 							struct mlx5_ib_flow_prio *ft_tx,
 							struct mlx5_flow_destination *dst)
 {
 	struct mlx5_ib_flow_handler *handler_rx;
 	struct mlx5_ib_flow_handler *handler_tx;
 	int err;
 	static const struct ib_flow_attr flow_attr  = {
 		.num_of_specs = 0,
 		.size = sizeof(flow_attr)
 	};
 
 	handler_rx = create_flow_rule(dev, ft_rx, &flow_attr, dst);
 	if (IS_ERR(handler_rx)) {
 		err = PTR_ERR(handler_rx);
 		goto err;
 	}
 
 	handler_tx = create_flow_rule(dev, ft_tx, &flow_attr, dst);
 	if (IS_ERR(handler_tx)) {
 		err = PTR_ERR(handler_tx);
 		goto err_tx;
 	}
 
 	list_add(&handler_tx->list, &handler_rx->list);
 
 	return handler_rx;
 
 err_tx:
 	mlx5_del_flow_rule(handler_rx->rule);
 	ft_rx->refcount--;
 	kfree(handler_rx);
 err:
 	return ERR_PTR(err);
 }
 
 static struct ib_flow *mlx5_ib_create_flow(struct ib_qp *qp,
 					   struct ib_flow_attr *flow_attr,
 					   int domain)
 {
 	struct mlx5_ib_dev *dev = to_mdev(qp->device);
 	struct mlx5_ib_qp *mqp = to_mqp(qp);
 	struct mlx5_ib_flow_handler *handler = NULL;
 	struct mlx5_flow_destination *dst = NULL;
 	struct mlx5_ib_flow_prio *ft_prio_tx = NULL;
 	struct mlx5_ib_flow_prio *ft_prio;
 	int err;
 
 	if (flow_attr->priority > MLX5_IB_FLOW_LAST_PRIO)
 		return ERR_PTR(-ENOSPC);
 
 	if (domain != IB_FLOW_DOMAIN_USER ||
 	    flow_attr->port > MLX5_CAP_GEN(dev->mdev, num_ports) ||
 	    (flow_attr->flags & ~IB_FLOW_ATTR_FLAGS_DONT_TRAP))
 		return ERR_PTR(-EINVAL);
 
 	dst = kzalloc(sizeof(*dst), GFP_KERNEL);
 	if (!dst)
 		return ERR_PTR(-ENOMEM);
 
 	mutex_lock(&dev->flow_db.lock);
 
 	ft_prio = get_flow_table(dev, flow_attr, MLX5_IB_FT_RX);
 	if (IS_ERR(ft_prio)) {
 		err = PTR_ERR(ft_prio);
 		goto unlock;
 	}
 	if (flow_attr->type == IB_FLOW_ATTR_SNIFFER) {
 		ft_prio_tx = get_flow_table(dev, flow_attr, MLX5_IB_FT_TX);
 		if (IS_ERR(ft_prio_tx)) {
 			err = PTR_ERR(ft_prio_tx);
 			ft_prio_tx = NULL;
 			goto destroy_ft;
 		}
 	}
 
 	dst->type = MLX5_FLOW_DESTINATION_TYPE_TIR;
 	if (mqp->flags & MLX5_IB_QP_RSS)
 		dst->tir_num = mqp->rss_qp.tirn;
 	else
 		dst->tir_num = mqp->raw_packet_qp.rq.tirn;
 
 	if (flow_attr->type == IB_FLOW_ATTR_NORMAL) {
 		if (flow_attr->flags & IB_FLOW_ATTR_FLAGS_DONT_TRAP)  {
 			handler = create_dont_trap_rule(dev, ft_prio,
 							flow_attr, dst);
 		} else {
 			handler = create_flow_rule(dev, ft_prio, flow_attr,
 						   dst);
 		}
 	} else if (flow_attr->type == IB_FLOW_ATTR_ALL_DEFAULT ||
 		   flow_attr->type == IB_FLOW_ATTR_MC_DEFAULT) {
 		handler = create_leftovers_rule(dev, ft_prio, flow_attr,
 						dst);
 	} else if (flow_attr->type == IB_FLOW_ATTR_SNIFFER) {
 		handler = create_sniffer_rule(dev, ft_prio, ft_prio_tx, dst);
 	} else {
 		err = -EINVAL;
 		goto destroy_ft;
 	}
 
 	if (IS_ERR(handler)) {
 		err = PTR_ERR(handler);
 		handler = NULL;
 		goto destroy_ft;
 	}
 
 	mutex_unlock(&dev->flow_db.lock);
 	kfree(dst);
 
 	return &handler->ibflow;
 
 destroy_ft:
 	put_flow_table(dev, ft_prio, false);
 	if (ft_prio_tx)
 		put_flow_table(dev, ft_prio_tx, false);
 unlock:
 	mutex_unlock(&dev->flow_db.lock);
 	kfree(dst);
 	kfree(handler);
 	return ERR_PTR(err);
 }
 
 static int mlx5_ib_mcg_attach(struct ib_qp *ibqp, union ib_gid *gid, u16 lid)
 {
 	struct mlx5_ib_dev *dev = to_mdev(ibqp->device);
 	int err;
 
 	err = mlx5_core_attach_mcg(dev->mdev, gid, ibqp->qp_num);
 	if (err)
 		mlx5_ib_warn(dev, "failed attaching QPN 0x%x, MGID %pI6\n",
 			     ibqp->qp_num, gid->raw);
 
 	return err;
 }
 
 static int mlx5_ib_mcg_detach(struct ib_qp *ibqp, union ib_gid *gid, u16 lid)
 {
 	struct mlx5_ib_dev *dev = to_mdev(ibqp->device);
 	int err;
 
 	err = mlx5_core_detach_mcg(dev->mdev, gid, ibqp->qp_num);
 	if (err)
 		mlx5_ib_warn(dev, "failed detaching QPN 0x%x, MGID %pI6\n",
 			     ibqp->qp_num, gid->raw);
 
 	return err;
 }
 
 static int init_node_data(struct mlx5_ib_dev *dev)
 {
 	int err;
 
 	err = mlx5_query_node_desc(dev, dev->ib_dev.node_desc);
 	if (err)
 		return err;
 
 	return mlx5_query_node_guid(dev, &dev->ib_dev.node_guid);
 }
 
 static ssize_t show_fw_pages(struct device *device, struct device_attribute *attr,
 			     char *buf)
 {
 	struct mlx5_ib_dev *dev =
 		container_of(device, struct mlx5_ib_dev, ib_dev.dev);
 
 	return sprintf(buf, "%lld\n", (long long)dev->mdev->priv.fw_pages);
 }
 
 static ssize_t show_reg_pages(struct device *device,
 			      struct device_attribute *attr, char *buf)
 {
 	struct mlx5_ib_dev *dev =
 		container_of(device, struct mlx5_ib_dev, ib_dev.dev);
 
 	return sprintf(buf, "%d\n", atomic_read(&dev->mdev->priv.reg_pages));
 }
 
 static ssize_t show_hca(struct device *device, struct device_attribute *attr,
 			char *buf)
 {
 	struct mlx5_ib_dev *dev =
 		container_of(device, struct mlx5_ib_dev, ib_dev.dev);
 	return sprintf(buf, "MT%d\n", dev->mdev->pdev->device);
 }
 
 static ssize_t show_rev(struct device *device, struct device_attribute *attr,
 			char *buf)
 {
 	struct mlx5_ib_dev *dev =
 		container_of(device, struct mlx5_ib_dev, ib_dev.dev);
 	return sprintf(buf, "%x\n", dev->mdev->pdev->revision);
 }
 
 static ssize_t show_board(struct device *device, struct device_attribute *attr,
 			  char *buf)
 {
 	struct mlx5_ib_dev *dev =
 		container_of(device, struct mlx5_ib_dev, ib_dev.dev);
 	return sprintf(buf, "%.*s\n", MLX5_BOARD_ID_LEN,
 		       dev->mdev->board_id);
 }
 
 static DEVICE_ATTR(hw_rev,   S_IRUGO, show_rev,    NULL);
 static DEVICE_ATTR(hca_type, S_IRUGO, show_hca,    NULL);
 static DEVICE_ATTR(board_id, S_IRUGO, show_board,  NULL);
 static DEVICE_ATTR(fw_pages, S_IRUGO, show_fw_pages, NULL);
 static DEVICE_ATTR(reg_pages, S_IRUGO, show_reg_pages, NULL);
 
 static struct device_attribute *mlx5_class_attributes[] = {
 	&dev_attr_hw_rev,
 	&dev_attr_hca_type,
 	&dev_attr_board_id,
 	&dev_attr_fw_pages,
 	&dev_attr_reg_pages,
 };
 
 static void pkey_change_handler(struct work_struct *work)
 {
 	struct mlx5_ib_port_resources *ports =
 		container_of(work, struct mlx5_ib_port_resources,
 			     pkey_change_work);
 
 	mutex_lock(&ports->devr->mutex);
 	mlx5_ib_gsi_pkey_change(ports->gsi);
 	mutex_unlock(&ports->devr->mutex);
 }
 
 static void mlx5_ib_handle_internal_error(struct mlx5_ib_dev *ibdev)
 {
 	struct mlx5_ib_qp *mqp;
 	struct mlx5_ib_cq *send_mcq, *recv_mcq;
 	struct mlx5_core_cq *mcq;
 	struct list_head cq_armed_list;
 	unsigned long flags_qp;
 	unsigned long flags_cq;
 	unsigned long flags;
 
 	INIT_LIST_HEAD(&cq_armed_list);
 
 	/* Go over qp list reside on that ibdev, sync with create/destroy qp.*/
 	spin_lock_irqsave(&ibdev->reset_flow_resource_lock, flags);
 	list_for_each_entry(mqp, &ibdev->qp_list, qps_list) {
 		spin_lock_irqsave(&mqp->sq.lock, flags_qp);
 		if (mqp->sq.tail != mqp->sq.head) {
 			send_mcq = to_mcq(mqp->ibqp.send_cq);
 			spin_lock_irqsave(&send_mcq->lock, flags_cq);
 			if (send_mcq->mcq.comp &&
 			    mqp->ibqp.send_cq->comp_handler) {
 				if (!send_mcq->mcq.reset_notify_added) {
 					send_mcq->mcq.reset_notify_added = 1;
 					list_add_tail(&send_mcq->mcq.reset_notify,
 						      &cq_armed_list);
 				}
 			}
 			spin_unlock_irqrestore(&send_mcq->lock, flags_cq);
 		}
 		spin_unlock_irqrestore(&mqp->sq.lock, flags_qp);
 		spin_lock_irqsave(&mqp->rq.lock, flags_qp);
 		/* no handling is needed for SRQ */
 		if (!mqp->ibqp.srq) {
 			if (mqp->rq.tail != mqp->rq.head) {
 				recv_mcq = to_mcq(mqp->ibqp.recv_cq);
 				spin_lock_irqsave(&recv_mcq->lock, flags_cq);
 				if (recv_mcq->mcq.comp &&
 				    mqp->ibqp.recv_cq->comp_handler) {
 					if (!recv_mcq->mcq.reset_notify_added) {
 						recv_mcq->mcq.reset_notify_added = 1;
 						list_add_tail(&recv_mcq->mcq.reset_notify,
 							      &cq_armed_list);
 					}
 				}
 				spin_unlock_irqrestore(&recv_mcq->lock,
 						       flags_cq);
 			}
 		}
 		spin_unlock_irqrestore(&mqp->rq.lock, flags_qp);
 	}
 	/*At that point all inflight post send were put to be executed as of we
 	 * lock/unlock above locks Now need to arm all involved CQs.
 	 */
 	list_for_each_entry(mcq, &cq_armed_list, reset_notify) {
 		mcq->comp(mcq, NULL);
 	}
 	spin_unlock_irqrestore(&ibdev->reset_flow_resource_lock, flags);
 }
 
 static void mlx5_ib_event(struct mlx5_core_dev *dev, void *context,
 			  enum mlx5_dev_event event, unsigned long param)
 {
 	struct mlx5_ib_dev *ibdev = (struct mlx5_ib_dev *)context;
 	struct ib_event ibev;
 	bool fatal = false;
 	u8 port = (u8)param;
 
 	switch (event) {
 	case MLX5_DEV_EVENT_SYS_ERROR:
 		ibev.event = IB_EVENT_DEVICE_FATAL;
 		mlx5_ib_handle_internal_error(ibdev);
 		fatal = true;
 		break;
 
 	case MLX5_DEV_EVENT_PORT_UP:
 	case MLX5_DEV_EVENT_PORT_DOWN:
 	case MLX5_DEV_EVENT_PORT_INITIALIZED:
 		/* In RoCE, port up/down events are handled in
 		 * mlx5_netdev_event().
 		 */
 		if (mlx5_ib_port_link_layer(&ibdev->ib_dev, port) ==
 			IB_LINK_LAYER_ETHERNET)
 			return;
 
 		ibev.event = (event == MLX5_DEV_EVENT_PORT_UP) ?
 			     IB_EVENT_PORT_ACTIVE : IB_EVENT_PORT_ERR;
 		break;
 
 	case MLX5_DEV_EVENT_LID_CHANGE:
 		ibev.event = IB_EVENT_LID_CHANGE;
 		break;
 
 	case MLX5_DEV_EVENT_PKEY_CHANGE:
 		ibev.event = IB_EVENT_PKEY_CHANGE;
 
 		schedule_work(&ibdev->devr.ports[port - 1].pkey_change_work);
 		break;
 
 	case MLX5_DEV_EVENT_GUID_CHANGE:
 		ibev.event = IB_EVENT_GID_CHANGE;
 		break;
 
 	case MLX5_DEV_EVENT_CLIENT_REREG:
 		ibev.event = IB_EVENT_CLIENT_REREGISTER;
 		break;
 
 	default:
 		/* unsupported event */
 		return;
 	}
 
 	ibev.device	      = &ibdev->ib_dev;
 	ibev.element.port_num = port;
 
 	if (!rdma_is_port_valid(&ibdev->ib_dev, port)) {
 		mlx5_ib_warn(ibdev, "warning: event(%d) on port %d\n", event, port);
 		return;
 	}
 
 	if (ibdev->ib_active)
 		ib_dispatch_event(&ibev);
 
 	if (fatal)
 		ibdev->ib_active = false;
 }
 
 static void get_ext_port_caps(struct mlx5_ib_dev *dev)
 {
 	int port;
 
 	for (port = 1; port <= MLX5_CAP_GEN(dev->mdev, num_ports); port++)
 		mlx5_query_ext_port_caps(dev, port);
 }
 
 static int get_port_caps(struct mlx5_ib_dev *dev)
 {
 	struct ib_device_attr *dprops = NULL;
 	struct ib_port_attr *pprops = NULL;
 	int err = -ENOMEM;
 	int port;
 	struct ib_udata uhw = {.inlen = 0, .outlen = 0};
 
 	pprops = kmalloc(sizeof(*pprops), GFP_KERNEL);
 	if (!pprops)
 		goto out;
 
 	dprops = kmalloc(sizeof(*dprops), GFP_KERNEL);
 	if (!dprops)
 		goto out;
 
 	err = mlx5_ib_query_device(&dev->ib_dev, dprops, &uhw);
 	if (err) {
 		mlx5_ib_warn(dev, "query_device failed %d\n", err);
 		goto out;
 	}
 
 	for (port = 1; port <= MLX5_CAP_GEN(dev->mdev, num_ports); port++) {
 		err = mlx5_ib_query_port(&dev->ib_dev, port, pprops);
 		if (err) {
 			mlx5_ib_warn(dev, "query_port %d failed %d\n",
 				     port, err);
 			break;
 		}
 		dev->mdev->port_caps[port - 1].pkey_table_len =
 						dprops->max_pkeys;
 		dev->mdev->port_caps[port - 1].gid_table_len =
 						pprops->gid_tbl_len;
 		mlx5_ib_dbg(dev, "pkey_table_len %d, gid_table_len %d\n",
 			    dprops->max_pkeys, pprops->gid_tbl_len);
 	}
 
 out:
 	kfree(pprops);
 	kfree(dprops);
 
 	return err;
 }
 
 static void destroy_umrc_res(struct mlx5_ib_dev *dev)
 {
 	int err;
 
 	err = mlx5_mr_cache_cleanup(dev);
 	if (err)
 		mlx5_ib_warn(dev, "mr cache cleanup failed\n");
 
 	mlx5_ib_destroy_qp(dev->umrc.qp);
 	ib_free_cq(dev->umrc.cq);
 	ib_dealloc_pd(dev->umrc.pd);
 }
 
 enum {
 	MAX_UMR_WR = 128,
 };
 
 static int create_umr_res(struct mlx5_ib_dev *dev)
 {
 	struct ib_qp_init_attr *init_attr = NULL;
 	struct ib_qp_attr *attr = NULL;
 	struct ib_pd *pd;
 	struct ib_cq *cq;
 	struct ib_qp *qp;
 	int ret;
 
 	attr = kzalloc(sizeof(*attr), GFP_KERNEL);
 	init_attr = kzalloc(sizeof(*init_attr), GFP_KERNEL);
 	if (!attr || !init_attr) {
 		ret = -ENOMEM;
 		goto error_0;
 	}
 
 	pd = ib_alloc_pd(&dev->ib_dev, 0);
 	if (IS_ERR(pd)) {
 		mlx5_ib_dbg(dev, "Couldn't create PD for sync UMR QP\n");
 		ret = PTR_ERR(pd);
 		goto error_0;
 	}
 
 	cq = ib_alloc_cq(&dev->ib_dev, NULL, 128, 0, IB_POLL_SOFTIRQ);
 	if (IS_ERR(cq)) {
 		mlx5_ib_dbg(dev, "Couldn't create CQ for sync UMR QP\n");
 		ret = PTR_ERR(cq);
 		goto error_2;
 	}
 
 	init_attr->send_cq = cq;
 	init_attr->recv_cq = cq;
 	init_attr->sq_sig_type = IB_SIGNAL_ALL_WR;
 	init_attr->cap.max_send_wr = MAX_UMR_WR;
 	init_attr->cap.max_send_sge = 1;
 	init_attr->qp_type = MLX5_IB_QPT_REG_UMR;
 	init_attr->port_num = 1;
 	qp = mlx5_ib_create_qp(pd, init_attr, NULL);
 	if (IS_ERR(qp)) {
 		mlx5_ib_dbg(dev, "Couldn't create sync UMR QP\n");
 		ret = PTR_ERR(qp);
 		goto error_3;
 	}
 	qp->device     = &dev->ib_dev;
 	qp->real_qp    = qp;
 	qp->uobject    = NULL;
 	qp->qp_type    = MLX5_IB_QPT_REG_UMR;
 
 	attr->qp_state = IB_QPS_INIT;
 	attr->port_num = 1;
 	ret = mlx5_ib_modify_qp(qp, attr, IB_QP_STATE | IB_QP_PKEY_INDEX |
 				IB_QP_PORT, NULL);
 	if (ret) {
 		mlx5_ib_dbg(dev, "Couldn't modify UMR QP\n");
 		goto error_4;
 	}
 
 	memset(attr, 0, sizeof(*attr));
 	attr->qp_state = IB_QPS_RTR;
 	attr->path_mtu = IB_MTU_256;
 
 	ret = mlx5_ib_modify_qp(qp, attr, IB_QP_STATE, NULL);
 	if (ret) {
 		mlx5_ib_dbg(dev, "Couldn't modify umr QP to rtr\n");
 		goto error_4;
 	}
 
 	memset(attr, 0, sizeof(*attr));
 	attr->qp_state = IB_QPS_RTS;
 	ret = mlx5_ib_modify_qp(qp, attr, IB_QP_STATE, NULL);
 	if (ret) {
 		mlx5_ib_dbg(dev, "Couldn't modify umr QP to rts\n");
 		goto error_4;
 	}
 
 	dev->umrc.qp = qp;
 	dev->umrc.cq = cq;
 	dev->umrc.pd = pd;
 
 	sema_init(&dev->umrc.sem, MAX_UMR_WR);
 	ret = mlx5_mr_cache_init(dev);
 	if (ret) {
 		mlx5_ib_warn(dev, "mr cache init failed %d\n", ret);
 		goto error_4;
 	}
 
 	kfree(attr);
 	kfree(init_attr);
 
 	return 0;
 
 error_4:
 	mlx5_ib_destroy_qp(qp);
 
 error_3:
 	ib_free_cq(cq);
 
 error_2:
 	ib_dealloc_pd(pd);
 
 error_0:
 	kfree(attr);
 	kfree(init_attr);
 	return ret;
 }
 
 static int create_dev_resources(struct mlx5_ib_resources *devr)
 {
 	struct ib_srq_init_attr attr;
 	struct mlx5_ib_dev *dev;
 	struct ib_cq_init_attr cq_attr = {.cqe = 1};
 	int port;
 	int ret = 0;
 
 	dev = container_of(devr, struct mlx5_ib_dev, devr);
 
 	mutex_init(&devr->mutex);
 
 	devr->p0 = mlx5_ib_alloc_pd(&dev->ib_dev, NULL, NULL);
 	if (IS_ERR(devr->p0)) {
 		ret = PTR_ERR(devr->p0);
 		goto error0;
 	}
 	devr->p0->device  = &dev->ib_dev;
 	devr->p0->uobject = NULL;
 	atomic_set(&devr->p0->usecnt, 0);
 
 	devr->c0 = mlx5_ib_create_cq(&dev->ib_dev, &cq_attr, NULL, NULL);
 	if (IS_ERR(devr->c0)) {
 		ret = PTR_ERR(devr->c0);
 		goto error1;
 	}
 	devr->c0->device        = &dev->ib_dev;
 	devr->c0->uobject       = NULL;
 	devr->c0->comp_handler  = NULL;
 	devr->c0->event_handler = NULL;
 	devr->c0->cq_context    = NULL;
 	atomic_set(&devr->c0->usecnt, 0);
 
 	devr->x0 = mlx5_ib_alloc_xrcd(&dev->ib_dev, NULL, NULL);
 	if (IS_ERR(devr->x0)) {
 		ret = PTR_ERR(devr->x0);
 		goto error2;
 	}
 	devr->x0->device = &dev->ib_dev;
 	devr->x0->inode = NULL;
 	atomic_set(&devr->x0->usecnt, 0);
 	mutex_init(&devr->x0->tgt_qp_mutex);
 	INIT_LIST_HEAD(&devr->x0->tgt_qp_list);
 
 	devr->x1 = mlx5_ib_alloc_xrcd(&dev->ib_dev, NULL, NULL);
 	if (IS_ERR(devr->x1)) {
 		ret = PTR_ERR(devr->x1);
 		goto error3;
 	}
 	devr->x1->device = &dev->ib_dev;
 	devr->x1->inode = NULL;
 	atomic_set(&devr->x1->usecnt, 0);
 	mutex_init(&devr->x1->tgt_qp_mutex);
 	INIT_LIST_HEAD(&devr->x1->tgt_qp_list);
 
 	memset(&attr, 0, sizeof(attr));
 	attr.attr.max_sge = 1;
 	attr.attr.max_wr = 1;
 	attr.srq_type = IB_SRQT_XRC;
 	attr.ext.xrc.cq = devr->c0;
 	attr.ext.xrc.xrcd = devr->x0;
 
 	devr->s0 = mlx5_ib_create_srq(devr->p0, &attr, NULL);
 	if (IS_ERR(devr->s0)) {
 		ret = PTR_ERR(devr->s0);
 		goto error4;
 	}
 	devr->s0->device	= &dev->ib_dev;
 	devr->s0->pd		= devr->p0;
 	devr->s0->uobject       = NULL;
 	devr->s0->event_handler = NULL;
 	devr->s0->srq_context   = NULL;
 	devr->s0->srq_type      = IB_SRQT_XRC;
 	devr->s0->ext.xrc.xrcd	= devr->x0;
 	devr->s0->ext.xrc.cq	= devr->c0;
 	atomic_inc(&devr->s0->ext.xrc.xrcd->usecnt);
 	atomic_inc(&devr->s0->ext.xrc.cq->usecnt);
 	atomic_inc(&devr->p0->usecnt);
 	atomic_set(&devr->s0->usecnt, 0);
 
 	memset(&attr, 0, sizeof(attr));
 	attr.attr.max_sge = 1;
 	attr.attr.max_wr = 1;
 	attr.srq_type = IB_SRQT_BASIC;
 	devr->s1 = mlx5_ib_create_srq(devr->p0, &attr, NULL);
 	if (IS_ERR(devr->s1)) {
 		ret = PTR_ERR(devr->s1);
 		goto error5;
 	}
 	devr->s1->device	= &dev->ib_dev;
 	devr->s1->pd		= devr->p0;
 	devr->s1->uobject       = NULL;
 	devr->s1->event_handler = NULL;
 	devr->s1->srq_context   = NULL;
 	devr->s1->srq_type      = IB_SRQT_BASIC;
 	devr->s1->ext.xrc.cq	= devr->c0;
 	atomic_inc(&devr->p0->usecnt);
 	atomic_set(&devr->s0->usecnt, 0);
 
 	for (port = 0; port < ARRAY_SIZE(devr->ports); ++port) {
 		INIT_WORK(&devr->ports[port].pkey_change_work,
 			  pkey_change_handler);
 		devr->ports[port].devr = devr;
 	}
 
 	return 0;
 
 error5:
 	mlx5_ib_destroy_srq(devr->s0);
 error4:
 	mlx5_ib_dealloc_xrcd(devr->x1);
 error3:
 	mlx5_ib_dealloc_xrcd(devr->x0);
 error2:
 	mlx5_ib_destroy_cq(devr->c0);
 error1:
 	mlx5_ib_dealloc_pd(devr->p0);
 error0:
 	return ret;
 }
 
 static void destroy_dev_resources(struct mlx5_ib_resources *devr)
 {
 	struct mlx5_ib_dev *dev =
 		container_of(devr, struct mlx5_ib_dev, devr);
 	int port;
 
 	mlx5_ib_destroy_srq(devr->s1);
 	mlx5_ib_destroy_srq(devr->s0);
 	mlx5_ib_dealloc_xrcd(devr->x0);
 	mlx5_ib_dealloc_xrcd(devr->x1);
 	mlx5_ib_destroy_cq(devr->c0);
 	mlx5_ib_dealloc_pd(devr->p0);
 
 	/* Make sure no change P_Key work items are still executing */
 	for (port = 0; port < dev->num_ports; ++port)
 		cancel_work_sync(&devr->ports[port].pkey_change_work);
 }
 
 static u32 get_core_cap_flags(struct ib_device *ibdev)
 {
 	struct mlx5_ib_dev *dev = to_mdev(ibdev);
 	enum rdma_link_layer ll = mlx5_ib_port_link_layer(ibdev, 1);
 	u8 l3_type_cap = MLX5_CAP_ROCE(dev->mdev, l3_type);
 	u8 roce_version_cap = MLX5_CAP_ROCE(dev->mdev, roce_version);
 	u32 ret = 0;
 
 	if (ll == IB_LINK_LAYER_INFINIBAND)
 		return RDMA_CORE_PORT_IBA_IB;
 
 	if (!(l3_type_cap & MLX5_ROCE_L3_TYPE_IPV4_CAP))
 		return 0;
 
 	if (!(l3_type_cap & MLX5_ROCE_L3_TYPE_IPV6_CAP))
 		return 0;
 
 	if (roce_version_cap & MLX5_ROCE_VERSION_1_CAP)
 		ret |= RDMA_CORE_PORT_IBA_ROCE;
 
 	if (roce_version_cap & MLX5_ROCE_VERSION_2_CAP)
 		ret |= RDMA_CORE_PORT_IBA_ROCE_UDP_ENCAP;
 
 	return ret;
 }
 
 static int mlx5_port_immutable(struct ib_device *ibdev, u8 port_num,
 			       struct ib_port_immutable *immutable)
 {
 	struct ib_port_attr attr;
 	struct mlx5_ib_dev *dev = to_mdev(ibdev);
 	enum rdma_link_layer ll = mlx5_ib_port_link_layer(ibdev, port_num);
 	int err;
 
 	err = mlx5_ib_query_port(ibdev, port_num, &attr);
 	if (err)
 		return err;
 
 	immutable->pkey_tbl_len = attr.pkey_tbl_len;
 	immutable->gid_tbl_len = attr.gid_tbl_len;
 	immutable->core_cap_flags = get_core_cap_flags(ibdev);
 	if ((ll == IB_LINK_LAYER_INFINIBAND) || MLX5_CAP_GEN(dev->mdev, roce))
 		immutable->max_mad_size = IB_MGMT_MAD_SIZE;
 
 	return 0;
 }
 
 static void get_dev_fw_str(struct ib_device *ibdev, char *str,
 			   size_t str_len)
 {
 	struct mlx5_ib_dev *dev =
 		container_of(ibdev, struct mlx5_ib_dev, ib_dev);
 	snprintf(str, str_len, "%d.%d.%04d", fw_rev_maj(dev->mdev),
 		       fw_rev_min(dev->mdev), fw_rev_sub(dev->mdev));
 }
 
 static int mlx5_roce_lag_init(struct mlx5_ib_dev *dev)
 {
 	return 0;
 }
 
 static void mlx5_roce_lag_cleanup(struct mlx5_ib_dev *dev)
 {
 }
 
 static void mlx5_remove_roce_notifier(struct mlx5_ib_dev *dev)
 {
 	if (dev->roce.nb.notifier_call) {
 		unregister_netdevice_notifier(&dev->roce.nb);
 		dev->roce.nb.notifier_call = NULL;
 	}
 }
 
 static int mlx5_enable_roce(struct mlx5_ib_dev *dev)
 {
 	VNET_ITERATOR_DECL(vnet_iter);
 	struct ifnet *idev;
 	int err;
 
 	/* Check if mlx5en net device already exists */
 	VNET_LIST_RLOCK();
 	VNET_FOREACH(vnet_iter) {
 		IFNET_RLOCK();
 		CURVNET_SET_QUIET(vnet_iter);
 		CK_STAILQ_FOREACH(idev, &V_ifnet, if_link) {
 			/* check if network interface belongs to mlx5en */
 			if (!mlx5_netdev_match(idev, dev->mdev, "mce"))
 				continue;
 			write_lock(&dev->roce.netdev_lock);
 			dev->roce.netdev = idev;
 			write_unlock(&dev->roce.netdev_lock);
 		}
 		CURVNET_RESTORE();
 		IFNET_RUNLOCK();
 	}
 	VNET_LIST_RUNLOCK();
 
 	dev->roce.nb.notifier_call = mlx5_netdev_event;
 	err = register_netdevice_notifier(&dev->roce.nb);
 	if (err) {
 		dev->roce.nb.notifier_call = NULL;
 		return err;
 	}
 
 	if (MLX5_CAP_GEN(dev->mdev, roce)) {
 		err = mlx5_nic_vport_enable_roce(dev->mdev);
 		if (err)
 			goto err_unregister_netdevice_notifier;
 	}
 
 	err = mlx5_roce_lag_init(dev);
 	if (err)
 		goto err_disable_roce;
 
 	return 0;
 
 err_disable_roce:
 	if (MLX5_CAP_GEN(dev->mdev, roce))
 		mlx5_nic_vport_disable_roce(dev->mdev);
 
 err_unregister_netdevice_notifier:
 	mlx5_remove_roce_notifier(dev);
 	return err;
 }
 
 static void mlx5_disable_roce(struct mlx5_ib_dev *dev)
 {
 	mlx5_roce_lag_cleanup(dev);
 	if (MLX5_CAP_GEN(dev->mdev, roce))
 		mlx5_nic_vport_disable_roce(dev->mdev);
 }
 
 static void mlx5_ib_dealloc_q_port_counter(struct mlx5_ib_dev *dev, u8 port_num)
 {
 	mlx5_vport_dealloc_q_counter(dev->mdev,
 				     MLX5_INTERFACE_PROTOCOL_IB,
 				     dev->port[port_num].q_cnt_id);
 	dev->port[port_num].q_cnt_id = 0;
 }
 
 static void mlx5_ib_dealloc_q_counters(struct mlx5_ib_dev *dev)
 {
 	unsigned int i;
 
 	for (i = 0; i < dev->num_ports; i++)
 		mlx5_ib_dealloc_q_port_counter(dev, i);
 }
 
 static int mlx5_ib_alloc_q_counters(struct mlx5_ib_dev *dev)
 {
 	int i;
 	int ret;
 
 	for (i = 0; i < dev->num_ports; i++) {
 		ret = mlx5_vport_alloc_q_counter(dev->mdev,
 						 MLX5_INTERFACE_PROTOCOL_IB,
 						 &dev->port[i].q_cnt_id);
 		if (ret) {
 			mlx5_ib_warn(dev,
 				     "couldn't allocate queue counter for port %d, err %d\n",
 				     i + 1, ret);
 			goto dealloc_counters;
 		}
 	}
 
 	return 0;
 
 dealloc_counters:
 	while (--i >= 0)
 		mlx5_ib_dealloc_q_port_counter(dev, i);
 
 	return ret;
 }
 
 static const char * const names[] = {
 	"rx_write_requests",
 	"rx_read_requests",
 	"rx_atomic_requests",
 	"out_of_buffer",
 	"out_of_sequence",
 	"duplicate_request",
 	"rnr_nak_retry_err",
 	"packet_seq_err",
 	"implied_nak_seq_err",
 	"local_ack_timeout_err",
 };
 
 static const size_t stats_offsets[] = {
 	MLX5_BYTE_OFF(query_q_counter_out, rx_write_requests),
 	MLX5_BYTE_OFF(query_q_counter_out, rx_read_requests),
 	MLX5_BYTE_OFF(query_q_counter_out, rx_atomic_requests),
 	MLX5_BYTE_OFF(query_q_counter_out, out_of_buffer),
 	MLX5_BYTE_OFF(query_q_counter_out, out_of_sequence),
 	MLX5_BYTE_OFF(query_q_counter_out, duplicate_request),
 	MLX5_BYTE_OFF(query_q_counter_out, rnr_nak_retry_err),
 	MLX5_BYTE_OFF(query_q_counter_out, packet_seq_err),
 	MLX5_BYTE_OFF(query_q_counter_out, implied_nak_seq_err),
 	MLX5_BYTE_OFF(query_q_counter_out, local_ack_timeout_err),
 };
 
 static struct rdma_hw_stats *mlx5_ib_alloc_hw_stats(struct ib_device *ibdev,
 						    u8 port_num)
 {
 	BUILD_BUG_ON(ARRAY_SIZE(names) != ARRAY_SIZE(stats_offsets));
 
 	/* We support only per port stats */
 	if (port_num == 0)
 		return NULL;
 
 	return rdma_alloc_hw_stats_struct(names, ARRAY_SIZE(names),
 					  RDMA_HW_STATS_DEFAULT_LIFESPAN);
 }
 
 static int mlx5_ib_get_hw_stats(struct ib_device *ibdev,
 				struct rdma_hw_stats *stats,
 				u8 port, int index)
 {
 	struct mlx5_ib_dev *dev = to_mdev(ibdev);
 	int outlen = MLX5_ST_SZ_BYTES(query_q_counter_out);
 	void *out;
 	__be32 val;
 	int ret;
 	int i;
 
 	if (!port || !stats)
 		return -ENOSYS;
 
 	out = mlx5_vzalloc(outlen);
 	if (!out)
 		return -ENOMEM;
 
 	ret = mlx5_vport_query_q_counter(dev->mdev,
 					dev->port[port - 1].q_cnt_id, 0,
 					out, outlen);
 	if (ret)
 		goto free;
 
 	for (i = 0; i < ARRAY_SIZE(names); i++) {
 		val = *(__be32 *)(out + stats_offsets[i]);
 		stats->value[i] = (u64)be32_to_cpu(val);
 	}
 free:
 	kvfree(out);
 	return ARRAY_SIZE(names);
 }
 
 static int mlx5_ib_stage_bfreg_init(struct mlx5_ib_dev *dev)
 {
 	int err;
 
 	err = mlx5_alloc_bfreg(dev->mdev, &dev->bfreg, false, false);
 	if (err)
 		return err;
 
 	err = mlx5_alloc_bfreg(dev->mdev, &dev->fp_bfreg, false, true);
 	if (err) {
 		mlx5_free_bfreg(dev->mdev, &dev->bfreg);
 		return err;
 	}
 
 	err = mlx5_alloc_bfreg(dev->mdev, &dev->wc_bfreg, true, false);
 	if (err) {
 		mlx5_free_bfreg(dev->mdev, &dev->fp_bfreg);
 		mlx5_free_bfreg(dev->mdev, &dev->bfreg);
 	}
 
 	return err;
 }
 
 static void mlx5_ib_stage_bfreg_cleanup(struct mlx5_ib_dev *dev)
 {
 	mlx5_free_bfreg(dev->mdev, &dev->wc_bfreg);
 	mlx5_free_bfreg(dev->mdev, &dev->fp_bfreg);
 	mlx5_free_bfreg(dev->mdev, &dev->bfreg);
 }
 
 static void *mlx5_ib_add(struct mlx5_core_dev *mdev)
 {
 	struct mlx5_ib_dev *dev;
 	enum rdma_link_layer ll;
 	int port_type_cap;
 	int err;
 	int i;
 
 	port_type_cap = MLX5_CAP_GEN(mdev, port_type);
 	ll = mlx5_port_type_cap_to_rdma_ll(port_type_cap);
 
 	dev = (struct mlx5_ib_dev *)ib_alloc_device(sizeof(*dev));
 	if (!dev)
 		return NULL;
 
 	dev->mdev = mdev;
 
 	dev->port = kcalloc(MLX5_CAP_GEN(mdev, num_ports), sizeof(*dev->port),
 			    GFP_KERNEL);
 	if (!dev->port)
 		goto err_dealloc;
 
 	rwlock_init(&dev->roce.netdev_lock);
 	err = get_port_caps(dev);
 	if (err)
 		goto err_free_port;
 
 	if (mlx5_use_mad_ifc(dev))
 		get_ext_port_caps(dev);
 
 	MLX5_INIT_DOORBELL_LOCK(&dev->uar_lock);
 
 	snprintf(dev->ib_dev.name, IB_DEVICE_NAME_MAX, "mlx5_%d", device_get_unit(mdev->pdev->dev.bsddev));
 	dev->ib_dev.owner		= THIS_MODULE;
 	dev->ib_dev.node_type		= RDMA_NODE_IB_CA;
 	dev->ib_dev.local_dma_lkey	= 0 /* not supported for now */;
 	dev->num_ports		= MLX5_CAP_GEN(mdev, num_ports);
 	dev->ib_dev.phys_port_cnt     = dev->num_ports;
 	dev->ib_dev.num_comp_vectors    =
 		dev->mdev->priv.eq_table.num_comp_vectors;
 	dev->ib_dev.dma_device	= &mdev->pdev->dev;
 
 	dev->ib_dev.uverbs_abi_ver	= MLX5_IB_UVERBS_ABI_VERSION;
 	dev->ib_dev.uverbs_cmd_mask	=
 		(1ull << IB_USER_VERBS_CMD_GET_CONTEXT)		|
 		(1ull << IB_USER_VERBS_CMD_QUERY_DEVICE)	|
 		(1ull << IB_USER_VERBS_CMD_QUERY_PORT)		|
 		(1ull << IB_USER_VERBS_CMD_ALLOC_PD)		|
 		(1ull << IB_USER_VERBS_CMD_DEALLOC_PD)		|
 		(1ull << IB_USER_VERBS_CMD_CREATE_AH)		|
 		(1ull << IB_USER_VERBS_CMD_DESTROY_AH)		|
 		(1ull << IB_USER_VERBS_CMD_REG_MR)		|
 		(1ull << IB_USER_VERBS_CMD_REREG_MR)		|
 		(1ull << IB_USER_VERBS_CMD_DEREG_MR)		|
 		(1ull << IB_USER_VERBS_CMD_CREATE_COMP_CHANNEL)	|
 		(1ull << IB_USER_VERBS_CMD_CREATE_CQ)		|
 		(1ull << IB_USER_VERBS_CMD_RESIZE_CQ)		|
 		(1ull << IB_USER_VERBS_CMD_DESTROY_CQ)		|
 		(1ull << IB_USER_VERBS_CMD_CREATE_QP)		|
 		(1ull << IB_USER_VERBS_CMD_MODIFY_QP)		|
 		(1ull << IB_USER_VERBS_CMD_QUERY_QP)		|
 		(1ull << IB_USER_VERBS_CMD_DESTROY_QP)		|
 		(1ull << IB_USER_VERBS_CMD_ATTACH_MCAST)	|
 		(1ull << IB_USER_VERBS_CMD_DETACH_MCAST)	|
 		(1ull << IB_USER_VERBS_CMD_CREATE_SRQ)		|
 		(1ull << IB_USER_VERBS_CMD_MODIFY_SRQ)		|
 		(1ull << IB_USER_VERBS_CMD_QUERY_SRQ)		|
 		(1ull << IB_USER_VERBS_CMD_DESTROY_SRQ)		|
 		(1ull << IB_USER_VERBS_CMD_CREATE_XSRQ)		|
 		(1ull << IB_USER_VERBS_CMD_OPEN_QP);
 	dev->ib_dev.uverbs_ex_cmd_mask =
 		(1ull << IB_USER_VERBS_EX_CMD_QUERY_DEVICE)	|
 		(1ull << IB_USER_VERBS_EX_CMD_CREATE_CQ)	|
 		(1ull << IB_USER_VERBS_EX_CMD_CREATE_QP);
 
 	dev->ib_dev.query_device	= mlx5_ib_query_device;
 	dev->ib_dev.query_port		= mlx5_ib_query_port;
 	dev->ib_dev.get_link_layer	= mlx5_ib_port_link_layer;
 	if (ll == IB_LINK_LAYER_ETHERNET)
 		dev->ib_dev.get_netdev	= mlx5_ib_get_netdev;
 	dev->ib_dev.query_gid		= mlx5_ib_query_gid;
 	dev->ib_dev.add_gid		= mlx5_ib_add_gid;
 	dev->ib_dev.del_gid		= mlx5_ib_del_gid;
 	dev->ib_dev.query_pkey		= mlx5_ib_query_pkey;
 	dev->ib_dev.modify_device	= mlx5_ib_modify_device;
 	dev->ib_dev.modify_port		= mlx5_ib_modify_port;
 	dev->ib_dev.alloc_ucontext	= mlx5_ib_alloc_ucontext;
 	dev->ib_dev.dealloc_ucontext	= mlx5_ib_dealloc_ucontext;
 	dev->ib_dev.mmap		= mlx5_ib_mmap;
 	dev->ib_dev.alloc_pd		= mlx5_ib_alloc_pd;
 	dev->ib_dev.dealloc_pd		= mlx5_ib_dealloc_pd;
 	dev->ib_dev.create_ah		= mlx5_ib_create_ah;
 	dev->ib_dev.query_ah		= mlx5_ib_query_ah;
 	dev->ib_dev.destroy_ah		= mlx5_ib_destroy_ah;
 	dev->ib_dev.create_srq		= mlx5_ib_create_srq;
 	dev->ib_dev.modify_srq		= mlx5_ib_modify_srq;
 	dev->ib_dev.query_srq		= mlx5_ib_query_srq;
 	dev->ib_dev.destroy_srq		= mlx5_ib_destroy_srq;
 	dev->ib_dev.post_srq_recv	= mlx5_ib_post_srq_recv;
 	dev->ib_dev.create_qp		= mlx5_ib_create_qp;
 	dev->ib_dev.modify_qp		= mlx5_ib_modify_qp;
 	dev->ib_dev.query_qp		= mlx5_ib_query_qp;
 	dev->ib_dev.destroy_qp		= mlx5_ib_destroy_qp;
 	dev->ib_dev.post_send		= mlx5_ib_post_send;
 	dev->ib_dev.post_recv		= mlx5_ib_post_recv;
 	dev->ib_dev.create_cq		= mlx5_ib_create_cq;
 	dev->ib_dev.modify_cq		= mlx5_ib_modify_cq;
 	dev->ib_dev.resize_cq		= mlx5_ib_resize_cq;
 	dev->ib_dev.destroy_cq		= mlx5_ib_destroy_cq;
 	dev->ib_dev.poll_cq		= mlx5_ib_poll_cq;
 	dev->ib_dev.req_notify_cq	= mlx5_ib_arm_cq;
 	dev->ib_dev.get_dma_mr		= mlx5_ib_get_dma_mr;
 	dev->ib_dev.reg_user_mr		= mlx5_ib_reg_user_mr;
 	dev->ib_dev.rereg_user_mr	= mlx5_ib_rereg_user_mr;
 	dev->ib_dev.dereg_mr		= mlx5_ib_dereg_mr;
 	dev->ib_dev.attach_mcast	= mlx5_ib_mcg_attach;
 	dev->ib_dev.detach_mcast	= mlx5_ib_mcg_detach;
 	dev->ib_dev.process_mad		= mlx5_ib_process_mad;
 	dev->ib_dev.alloc_mr		= mlx5_ib_alloc_mr;
 	dev->ib_dev.map_mr_sg		= mlx5_ib_map_mr_sg;
 	dev->ib_dev.check_mr_status	= mlx5_ib_check_mr_status;
 	dev->ib_dev.get_port_immutable  = mlx5_port_immutable;
 	dev->ib_dev.get_dev_fw_str      = get_dev_fw_str;
 	if (mlx5_core_is_pf(mdev)) {
 		dev->ib_dev.get_vf_config	= mlx5_ib_get_vf_config;
 		dev->ib_dev.set_vf_link_state	= mlx5_ib_set_vf_link_state;
 		dev->ib_dev.get_vf_stats	= mlx5_ib_get_vf_stats;
 		dev->ib_dev.set_vf_guid		= mlx5_ib_set_vf_guid;
 	}
 
 	dev->ib_dev.disassociate_ucontext = mlx5_ib_disassociate_ucontext;
 
 	mlx5_ib_internal_fill_odp_caps(dev);
 
 	if (MLX5_CAP_GEN(mdev, imaicl)) {
 		dev->ib_dev.alloc_mw		= mlx5_ib_alloc_mw;
 		dev->ib_dev.dealloc_mw		= mlx5_ib_dealloc_mw;
 		dev->ib_dev.uverbs_cmd_mask |=
 			(1ull << IB_USER_VERBS_CMD_ALLOC_MW)	|
 			(1ull << IB_USER_VERBS_CMD_DEALLOC_MW);
 	}
 
 	if (MLX5_CAP_GEN(dev->mdev, out_of_seq_cnt) &&
 	    MLX5_CAP_GEN(dev->mdev, retransmission_q_counters)) {
 		dev->ib_dev.get_hw_stats	= mlx5_ib_get_hw_stats;
 		dev->ib_dev.alloc_hw_stats	= mlx5_ib_alloc_hw_stats;
 	}
 
 	if (MLX5_CAP_GEN(mdev, xrc)) {
 		dev->ib_dev.alloc_xrcd = mlx5_ib_alloc_xrcd;
 		dev->ib_dev.dealloc_xrcd = mlx5_ib_dealloc_xrcd;
 		dev->ib_dev.uverbs_cmd_mask |=
 			(1ull << IB_USER_VERBS_CMD_OPEN_XRCD) |
 			(1ull << IB_USER_VERBS_CMD_CLOSE_XRCD);
 	}
 
 	if (mlx5_ib_port_link_layer(&dev->ib_dev, 1) ==
 	    IB_LINK_LAYER_ETHERNET) {
 		dev->ib_dev.create_flow	= mlx5_ib_create_flow;
 		dev->ib_dev.destroy_flow = mlx5_ib_destroy_flow;
 		dev->ib_dev.create_wq	 = mlx5_ib_create_wq;
 		dev->ib_dev.modify_wq	 = mlx5_ib_modify_wq;
 		dev->ib_dev.destroy_wq	 = mlx5_ib_destroy_wq;
 		dev->ib_dev.create_rwq_ind_table = mlx5_ib_create_rwq_ind_table;
 		dev->ib_dev.destroy_rwq_ind_table = mlx5_ib_destroy_rwq_ind_table;
 		dev->ib_dev.uverbs_ex_cmd_mask |=
 			(1ull << IB_USER_VERBS_EX_CMD_CREATE_FLOW) |
 			(1ull << IB_USER_VERBS_EX_CMD_DESTROY_FLOW) |
 			(1ull << IB_USER_VERBS_EX_CMD_CREATE_WQ) |
 			(1ull << IB_USER_VERBS_EX_CMD_MODIFY_WQ) |
 			(1ull << IB_USER_VERBS_EX_CMD_DESTROY_WQ) |
 			(1ull << IB_USER_VERBS_EX_CMD_CREATE_RWQ_IND_TBL) |
 			(1ull << IB_USER_VERBS_EX_CMD_DESTROY_RWQ_IND_TBL);
 	}
 	err = init_node_data(dev);
 	if (err)
 		goto err_free_port;
 
 	mutex_init(&dev->flow_db.lock);
 	mutex_init(&dev->cap_mask_mutex);
 	INIT_LIST_HEAD(&dev->qp_list);
 	spin_lock_init(&dev->reset_flow_resource_lock);
 
 	if (ll == IB_LINK_LAYER_ETHERNET) {
 		err = mlx5_enable_roce(dev);
 		if (err)
 			goto err_free_port;
 	}
 
 	err = create_dev_resources(&dev->devr);
 	if (err)
 		goto err_disable_roce;
 
 	err = mlx5_ib_odp_init_one(dev);
 	if (err)
 		goto err_rsrc;
 
 	err = mlx5_ib_alloc_q_counters(dev);
 	if (err)
 		goto err_odp;
 
 	err = mlx5_ib_stage_bfreg_init(dev);
 	if (err)
 		goto err_q_cnt;
 
 	err = ib_register_device(&dev->ib_dev, NULL);
 	if (err)
 		goto err_bfreg;
 
 	err = create_umr_res(dev);
 	if (err)
 		goto err_dev;
 
 	for (i = 0; i < ARRAY_SIZE(mlx5_class_attributes); i++) {
 		err = device_create_file(&dev->ib_dev.dev,
 					 mlx5_class_attributes[i]);
 		if (err)
 			goto err_umrc;
 	}
 
 	err = mlx5_ib_init_congestion(dev);
 	if (err)
 		goto err_umrc;
 
 	dev->ib_active = true;
 
 	return dev;
 
 err_umrc:
 	destroy_umrc_res(dev);
 
 err_dev:
 	ib_unregister_device(&dev->ib_dev);
 
 err_bfreg:
 	mlx5_ib_stage_bfreg_cleanup(dev);
 
 err_q_cnt:
 	mlx5_ib_dealloc_q_counters(dev);
 
 err_odp:
 	mlx5_ib_odp_remove_one(dev);
 
 err_rsrc:
 	destroy_dev_resources(&dev->devr);
 
 err_disable_roce:
 	if (ll == IB_LINK_LAYER_ETHERNET) {
 		mlx5_disable_roce(dev);
 		mlx5_remove_roce_notifier(dev);
 	}
 
 err_free_port:
 	kfree(dev->port);
 
 err_dealloc:
 	ib_dealloc_device((struct ib_device *)dev);
 
 	return NULL;
 }
 
 static void mlx5_ib_remove(struct mlx5_core_dev *mdev, void *context)
 {
 	struct mlx5_ib_dev *dev = context;
 	enum rdma_link_layer ll = mlx5_ib_port_link_layer(&dev->ib_dev, 1);
 
 	mlx5_ib_cleanup_congestion(dev);
 	mlx5_remove_roce_notifier(dev);
 	ib_unregister_device(&dev->ib_dev);
 	mlx5_ib_stage_bfreg_cleanup(dev);
 	mlx5_ib_dealloc_q_counters(dev);
 	destroy_umrc_res(dev);
 	mlx5_ib_odp_remove_one(dev);
 	destroy_dev_resources(&dev->devr);
 	if (ll == IB_LINK_LAYER_ETHERNET)
 		mlx5_disable_roce(dev);
 	kfree(dev->port);
 	ib_dealloc_device(&dev->ib_dev);
 }
 
 static struct mlx5_interface mlx5_ib_interface = {
 	.add            = mlx5_ib_add,
 	.remove         = mlx5_ib_remove,
 	.event          = mlx5_ib_event,
 	.protocol	= MLX5_INTERFACE_PROTOCOL_IB,
 };
 
 static int __init mlx5_ib_init(void)
 {
 	int err;
 
 	err = mlx5_ib_odp_init();
 	if (err)
 		return err;
 
 	err = mlx5_register_interface(&mlx5_ib_interface);
 	if (err)
 		goto clean_odp;
 
 	return err;
 
 clean_odp:
 	mlx5_ib_odp_cleanup();
 	return err;
 }
 
 static void __exit mlx5_ib_cleanup(void)
 {
 	mlx5_unregister_interface(&mlx5_ib_interface);
 	mlx5_ib_odp_cleanup();
 }
 
 static void
 mlx5_ib_show_version(void __unused *arg)
 {
 
 	printf("%s", mlx5_version);
 }
 SYSINIT(mlx5_ib_show_version, SI_SUB_DRIVERS, SI_ORDER_ANY, mlx5_ib_show_version, NULL);
 
 module_init_order(mlx5_ib_init, SI_ORDER_SEVENTH);
 module_exit_order(mlx5_ib_cleanup, SI_ORDER_SEVENTH);
diff --git a/sys/ofed/drivers/infiniband/core/ib_sysfs.c b/sys/ofed/drivers/infiniband/core/ib_sysfs.c
index 55e7b5395b8e..64ef4c4aefdb 100644
--- a/sys/ofed/drivers/infiniband/core/ib_sysfs.c
+++ b/sys/ofed/drivers/infiniband/core/ib_sysfs.c
@@ -1,1397 +1,1407 @@
 /*-
  * SPDX-License-Identifier: BSD-2-Clause OR GPL-2.0
  *
  * Copyright (c) 2004, 2005 Topspin Communications.  All rights reserved.
  * Copyright (c) 2005 Mellanox Technologies Ltd.  All rights reserved.
  * Copyright (c) 2005 Sun Microsystems, Inc. All rights reserved.
  *
  * This software is available to you under a choice of one of two
  * licenses.  You may choose to be licensed under the terms of the GNU
  * General Public License (GPL) Version 2, available from the file
  * COPYING in the main directory of this source tree, or the
  * OpenIB.org BSD license below:
  *
  *     Redistribution and use in source and binary forms, with or
  *     without modification, are permitted provided that the following
  *     conditions are met:
  *
  *      - Redistributions of source code must retain the above
  *        copyright notice, this list of conditions and the following
  *        disclaimer.
  *
  *      - Redistributions in binary form must reproduce the above
  *        copyright notice, this list of conditions and the following
  *        disclaimer in the documentation and/or other materials
  *        provided with the distribution.
  *
  * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
  * EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
  * MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
  * NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS
  * BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN
  * ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN
  * CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
  * SOFTWARE.
  */
 
 #include <sys/cdefs.h>
 __FBSDID("$FreeBSD$");
 
 #include "core_priv.h"
 
 #include <linux/slab.h>
 #include <linux/string.h>
 #include <linux/netdevice.h>
 #include <linux/fs.h>
 #include <linux/printk.h>
 
 #include <rdma/ib_addr.h>
 #include <rdma/ib_mad.h>
 #include <rdma/ib_pma.h>
 
 struct ib_port;
 
 struct gid_attr_group {
 	struct ib_port		*port;
 	struct kobject		kobj;
 	struct attribute_group	ndev;
 	struct attribute_group	type;
 };
 struct ib_port {
 	struct kobject         kobj;
 	struct ib_device      *ibdev;
 	struct gid_attr_group *gid_attr_group;
 	struct attribute_group gid_group;
 	struct attribute_group pkey_group;
 	struct attribute_group *pma_table;
 	struct attribute_group *hw_stats_ag;
 	struct rdma_hw_stats   *hw_stats;
 	u8                     port_num;
 };
 
 struct port_attribute {
 	struct attribute attr;
 	ssize_t (*show)(struct ib_port *, struct port_attribute *, char *buf);
 	ssize_t (*store)(struct ib_port *, struct port_attribute *,
 			 const char *buf, size_t count);
 };
 
 #define PORT_ATTR(_name, _mode, _show, _store) \
 struct port_attribute port_attr_##_name = __ATTR(_name, _mode, _show, _store)
 
 #define PORT_ATTR_RO(_name) \
 struct port_attribute port_attr_##_name = __ATTR_RO(_name)
 
 struct port_table_attribute {
 	struct port_attribute	attr;
 	char			name[8];
 	int			index;
 	__be16			attr_id;
 };
 
 struct hw_stats_attribute {
 	struct attribute	attr;
 	ssize_t			(*show)(struct kobject *kobj,
 					struct attribute *attr, char *buf);
 	ssize_t			(*store)(struct kobject *kobj,
 					 struct attribute *attr,
 					 const char *buf,
 					 size_t count);
 	int			index;
 	u8			port_num;
 };
 
 static ssize_t port_attr_show(struct kobject *kobj,
 			      struct attribute *attr, char *buf)
 {
 	struct port_attribute *port_attr =
 		container_of(attr, struct port_attribute, attr);
 	struct ib_port *p = container_of(kobj, struct ib_port, kobj);
 
 	if (!port_attr->show)
 		return -EIO;
 
 	return port_attr->show(p, port_attr, buf);
 }
 
 static ssize_t port_attr_store(struct kobject *kobj,
 			       struct attribute *attr,
 			       const char *buf, size_t count)
 {
 	struct port_attribute *port_attr =
 		container_of(attr, struct port_attribute, attr);
 	struct ib_port *p = container_of(kobj, struct ib_port, kobj);
 
 	if (!port_attr->store)
 		return -EIO;
 	return port_attr->store(p, port_attr, buf, count);
 }
 
 static const struct sysfs_ops port_sysfs_ops = {
 	.show	= port_attr_show,
 	.store	= port_attr_store
 };
 
 static ssize_t gid_attr_show(struct kobject *kobj,
 			     struct attribute *attr, char *buf)
 {
 	struct port_attribute *port_attr =
 		container_of(attr, struct port_attribute, attr);
 	struct ib_port *p = container_of(kobj, struct gid_attr_group,
 					 kobj)->port;
 
 	if (!port_attr->show)
 		return -EIO;
 
 	return port_attr->show(p, port_attr, buf);
 }
 
 static const struct sysfs_ops gid_attr_sysfs_ops = {
 	.show = gid_attr_show
 };
 
 static ssize_t state_show(struct ib_port *p, struct port_attribute *unused,
 			  char *buf)
 {
 	struct ib_port_attr attr;
 	ssize_t ret;
 
 	static const char *state_name[] = {
 		[IB_PORT_NOP]		= "NOP",
 		[IB_PORT_DOWN]		= "DOWN",
 		[IB_PORT_INIT]		= "INIT",
 		[IB_PORT_ARMED]		= "ARMED",
 		[IB_PORT_ACTIVE]	= "ACTIVE",
 		[IB_PORT_ACTIVE_DEFER]	= "ACTIVE_DEFER"
 	};
 
 	ret = ib_query_port(p->ibdev, p->port_num, &attr);
 	if (ret)
 		return ret;
 
 	return sprintf(buf, "%d: %s\n", attr.state,
 		       attr.state >= 0 && attr.state < ARRAY_SIZE(state_name) ?
 		       state_name[attr.state] : "UNKNOWN");
 }
 
 static ssize_t lid_show(struct ib_port *p, struct port_attribute *unused,
 			char *buf)
 {
 	struct ib_port_attr attr;
 	ssize_t ret;
 
 	ret = ib_query_port(p->ibdev, p->port_num, &attr);
 	if (ret)
 		return ret;
 
 	return sprintf(buf, "0x%x\n", attr.lid);
 }
 
 static ssize_t lid_mask_count_show(struct ib_port *p,
 				   struct port_attribute *unused,
 				   char *buf)
 {
 	struct ib_port_attr attr;
 	ssize_t ret;
 
 	ret = ib_query_port(p->ibdev, p->port_num, &attr);
 	if (ret)
 		return ret;
 
 	return sprintf(buf, "%d\n", attr.lmc);
 }
 
 static ssize_t sm_lid_show(struct ib_port *p, struct port_attribute *unused,
 			   char *buf)
 {
 	struct ib_port_attr attr;
 	ssize_t ret;
 
 	ret = ib_query_port(p->ibdev, p->port_num, &attr);
 	if (ret)
 		return ret;
 
 	return sprintf(buf, "0x%x\n", attr.sm_lid);
 }
 
 static ssize_t sm_sl_show(struct ib_port *p, struct port_attribute *unused,
 			  char *buf)
 {
 	struct ib_port_attr attr;
 	ssize_t ret;
 
 	ret = ib_query_port(p->ibdev, p->port_num, &attr);
 	if (ret)
 		return ret;
 
 	return sprintf(buf, "%d\n", attr.sm_sl);
 }
 
 static ssize_t cap_mask_show(struct ib_port *p, struct port_attribute *unused,
 			     char *buf)
 {
 	struct ib_port_attr attr;
 	ssize_t ret;
 
 	ret = ib_query_port(p->ibdev, p->port_num, &attr);
 	if (ret)
 		return ret;
 
 	return sprintf(buf, "0x%08x\n", attr.port_cap_flags);
 }
 
 static ssize_t rate_show(struct ib_port *p, struct port_attribute *unused,
 			 char *buf)
 {
 	struct ib_port_attr attr;
 	char *speed = "";
 	int rate;		/* in deci-Gb/sec */
 	ssize_t ret;
 
 	ret = ib_query_port(p->ibdev, p->port_num, &attr);
 	if (ret)
 		return ret;
 
 	switch (attr.active_speed) {
 	case IB_SPEED_DDR:
 		speed = " DDR";
 		rate = 50;
 		break;
 	case IB_SPEED_QDR:
 		speed = " QDR";
 		rate = 100;
 		break;
 	case IB_SPEED_FDR10:
 		speed = " FDR10";
 		rate = 100;
 		break;
 	case IB_SPEED_FDR:
 		speed = " FDR";
 		rate = 140;
 		break;
 	case IB_SPEED_EDR:
 		speed = " EDR";
 		rate = 250;
 		break;
 	case IB_SPEED_HDR:
 		speed = " HDR";
 		rate = 500;
 		break;
 	case IB_SPEED_SDR:
 	default:		/* default to SDR for invalid rates */
 		speed = " SDR";
 		rate = 25;
 		break;
 	}
 
 	rate *= ib_width_enum_to_int(attr.active_width);
 	if (rate < 0)
 		return -EINVAL;
 
 	return sprintf(buf, "%d%s Gb/sec (%dX%s)\n",
 		       rate / 10, rate % 10 ? ".5" : "",
 		       ib_width_enum_to_int(attr.active_width), speed);
 }
 
+static const char *phys_state_to_str(enum ib_port_phys_state phys_state)
+{
+	static const char * phys_state_str[] = {
+		"<unknown>",
+		"Sleep",
+		"Polling",
+		"Disabled",
+		"PortConfigurationTraining",
+		"LinkUp",
+		"LinkErrorRecovery",
+		"Phy Test",
+	};
+
+	if (phys_state < ARRAY_SIZE(phys_state_str))
+		return phys_state_str[phys_state];
+	return "<unknown>";
+}
+
 static ssize_t phys_state_show(struct ib_port *p, struct port_attribute *unused,
 			       char *buf)
 {
 	struct ib_port_attr attr;
 
 	ssize_t ret;
 
 	ret = ib_query_port(p->ibdev, p->port_num, &attr);
 	if (ret)
 		return ret;
 
-	switch (attr.phys_state) {
-	case 1:  return sprintf(buf, "1: Sleep\n");
-	case 2:  return sprintf(buf, "2: Polling\n");
-	case 3:  return sprintf(buf, "3: Disabled\n");
-	case 4:  return sprintf(buf, "4: PortConfigurationTraining\n");
-	case 5:  return sprintf(buf, "5: LinkUp\n");
-	case 6:  return sprintf(buf, "6: LinkErrorRecovery\n");
-	case 7:  return sprintf(buf, "7: Phy Test\n");
-	default: return sprintf(buf, "%d: <unknown>\n", attr.phys_state);
-	}
+	return sprintf(buf, "%d: %s\n", attr.phys_state,
+		       phys_state_to_str(attr.phys_state));
 }
 
 static ssize_t link_layer_show(struct ib_port *p, struct port_attribute *unused,
 			       char *buf)
 {
 	switch (rdma_port_get_link_layer(p->ibdev, p->port_num)) {
 	case IB_LINK_LAYER_INFINIBAND:
 		return sprintf(buf, "%s\n", "InfiniBand");
 	case IB_LINK_LAYER_ETHERNET:
 		return sprintf(buf, "%s\n", "Ethernet");
 	default:
 		return sprintf(buf, "%s\n", "Unknown");
 	}
 }
 
 static PORT_ATTR_RO(state);
 static PORT_ATTR_RO(lid);
 static PORT_ATTR_RO(lid_mask_count);
 static PORT_ATTR_RO(sm_lid);
 static PORT_ATTR_RO(sm_sl);
 static PORT_ATTR_RO(cap_mask);
 static PORT_ATTR_RO(rate);
 static PORT_ATTR_RO(phys_state);
 static PORT_ATTR_RO(link_layer);
 
 static struct attribute *port_default_attrs[] = {
 	&port_attr_state.attr,
 	&port_attr_lid.attr,
 	&port_attr_lid_mask_count.attr,
 	&port_attr_sm_lid.attr,
 	&port_attr_sm_sl.attr,
 	&port_attr_cap_mask.attr,
 	&port_attr_rate.attr,
 	&port_attr_phys_state.attr,
 	&port_attr_link_layer.attr,
 	NULL
 };
 
 static size_t print_ndev(struct ib_gid_attr *gid_attr, char *buf)
 {
 	if (!gid_attr->ndev)
 		return -EINVAL;
 
 	return sprintf(buf, "%s\n", if_name(gid_attr->ndev));
 }
 
 static size_t print_gid_type(struct ib_gid_attr *gid_attr, char *buf)
 {
 	return sprintf(buf, "%s\n", ib_cache_gid_type_str(gid_attr->gid_type));
 }
 
 static ssize_t _show_port_gid_attr(struct ib_port *p,
 				   struct port_attribute *attr,
 				   char *buf,
 				   size_t (*print)(struct ib_gid_attr *gid_attr,
 						   char *buf))
 {
 	struct port_table_attribute *tab_attr =
 		container_of(attr, struct port_table_attribute, attr);
 	union ib_gid gid;
 	struct ib_gid_attr gid_attr = {};
 	ssize_t ret;
 
 	ret = ib_query_gid(p->ibdev, p->port_num, tab_attr->index, &gid,
 			   &gid_attr);
 	if (ret)
 		goto err;
 
 	ret = print(&gid_attr, buf);
 
 err:
 	if (gid_attr.ndev)
 		dev_put(gid_attr.ndev);
 	return ret;
 }
 
 static ssize_t show_port_gid(struct ib_port *p, struct port_attribute *attr,
 			     char *buf)
 {
 	struct port_table_attribute *tab_attr =
 		container_of(attr, struct port_table_attribute, attr);
 	union ib_gid gid;
 	ssize_t ret;
 
 	ret = ib_query_gid(p->ibdev, p->port_num, tab_attr->index, &gid, NULL);
 	if (ret)
 		return ret;
 
 	return sprintf(buf, GID_PRINT_FMT"\n", GID_PRINT_ARGS(gid.raw));
 }
 
 static ssize_t show_port_gid_attr_ndev(struct ib_port *p,
 				       struct port_attribute *attr, char *buf)
 {
 	return _show_port_gid_attr(p, attr, buf, print_ndev);
 }
 
 static ssize_t show_port_gid_attr_gid_type(struct ib_port *p,
 					   struct port_attribute *attr,
 					   char *buf)
 {
 	return _show_port_gid_attr(p, attr, buf, print_gid_type);
 }
 
 static ssize_t show_port_pkey(struct ib_port *p, struct port_attribute *attr,
 			      char *buf)
 {
 	struct port_table_attribute *tab_attr =
 		container_of(attr, struct port_table_attribute, attr);
 	u16 pkey;
 	ssize_t ret;
 
 	ret = ib_query_pkey(p->ibdev, p->port_num, tab_attr->index, &pkey);
 	if (ret)
 		return ret;
 
 	return sprintf(buf, "0x%04x\n", pkey);
 }
 
 #define PORT_PMA_ATTR(_name, _counter, _width, _offset)			\
 struct port_table_attribute port_pma_attr_##_name = {			\
 	.attr  = __ATTR(_name, S_IRUGO, show_pma_counter, NULL),	\
 	.index = (_offset) | ((_width) << 16) | ((_counter) << 24),	\
 	.attr_id = IB_PMA_PORT_COUNTERS ,				\
 }
 
 #define PORT_PMA_ATTR_EXT(_name, _width, _offset)			\
 struct port_table_attribute port_pma_attr_ext_##_name = {		\
 	.attr  = __ATTR(_name, S_IRUGO, show_pma_counter, NULL),	\
 	.index = (_offset) | ((_width) << 16),				\
 	.attr_id = IB_PMA_PORT_COUNTERS_EXT ,				\
 }
 
 /*
  * Get a Perfmgmt MAD block of data.
  * Returns error code or the number of bytes retrieved.
  */
 static int get_perf_mad(struct ib_device *dev, int port_num, __be16 attr,
 		void *data, int offset, size_t size)
 {
 	struct ib_mad *in_mad;
 	struct ib_mad *out_mad;
 	size_t mad_size = sizeof(*out_mad);
 	u16 out_mad_pkey_index = 0;
 	ssize_t ret;
 
 	if (!dev->process_mad)
 		return -ENOSYS;
 
 	in_mad  = kzalloc(sizeof *in_mad, GFP_KERNEL);
 	out_mad = kmalloc(sizeof *out_mad, GFP_KERNEL);
 	if (!in_mad || !out_mad) {
 		ret = -ENOMEM;
 		goto out;
 	}
 
 	in_mad->mad_hdr.base_version  = 1;
 	in_mad->mad_hdr.mgmt_class    = IB_MGMT_CLASS_PERF_MGMT;
 	in_mad->mad_hdr.class_version = 1;
 	in_mad->mad_hdr.method        = IB_MGMT_METHOD_GET;
 	in_mad->mad_hdr.attr_id       = attr;
 
 	if (attr != IB_PMA_CLASS_PORT_INFO)
 		in_mad->data[41] = port_num;	/* PortSelect field */
 
 	if ((dev->process_mad(dev, IB_MAD_IGNORE_MKEY,
 		 port_num, NULL, NULL,
 		 (const struct ib_mad_hdr *)in_mad, mad_size,
 		 (struct ib_mad_hdr *)out_mad, &mad_size,
 		 &out_mad_pkey_index) &
 	     (IB_MAD_RESULT_SUCCESS | IB_MAD_RESULT_REPLY)) !=
 	    (IB_MAD_RESULT_SUCCESS | IB_MAD_RESULT_REPLY)) {
 		ret = -EINVAL;
 		goto out;
 	}
 	memcpy(data, out_mad->data + offset, size);
 	ret = size;
 out:
 	kfree(in_mad);
 	kfree(out_mad);
 	return ret;
 }
 
 static ssize_t show_pma_counter(struct ib_port *p, struct port_attribute *attr,
 				char *buf)
 {
 	struct port_table_attribute *tab_attr =
 		container_of(attr, struct port_table_attribute, attr);
 	int offset = tab_attr->index & 0xffff;
 	int width  = (tab_attr->index >> 16) & 0xff;
 	ssize_t ret;
 	u8 data[8];
 
 	ret = get_perf_mad(p->ibdev, p->port_num, tab_attr->attr_id, &data,
 			40 + offset / 8, sizeof(data));
 	if (ret < 0)
 		return sprintf(buf, "N/A (no PMA)\n");
 
 	switch (width) {
 	case 4:
 		ret = sprintf(buf, "%u\n", (*data >>
 					    (4 - (offset % 8))) & 0xf);
 		break;
 	case 8:
 		ret = sprintf(buf, "%u\n", *data);
 		break;
 	case 16:
 		ret = sprintf(buf, "%u\n",
 			      be16_to_cpup((__be16 *)data));
 		break;
 	case 32:
 		ret = sprintf(buf, "%u\n",
 			      be32_to_cpup((__be32 *)data));
 		break;
 	case 64:
 		ret = sprintf(buf, "%llu\n",
 			      (unsigned long long)be64_to_cpup((__be64 *)data));
 		break;
 
 	default:
 		ret = 0;
 	}
 
 	return ret;
 }
 
 static PORT_PMA_ATTR(symbol_error		    ,  0, 16,  32);
 static PORT_PMA_ATTR(link_error_recovery	    ,  1,  8,  48);
 static PORT_PMA_ATTR(link_downed		    ,  2,  8,  56);
 static PORT_PMA_ATTR(port_rcv_errors		    ,  3, 16,  64);
 static PORT_PMA_ATTR(port_rcv_remote_physical_errors,  4, 16,  80);
 static PORT_PMA_ATTR(port_rcv_switch_relay_errors   ,  5, 16,  96);
 static PORT_PMA_ATTR(port_xmit_discards		    ,  6, 16, 112);
 static PORT_PMA_ATTR(port_xmit_constraint_errors    ,  7,  8, 128);
 static PORT_PMA_ATTR(port_rcv_constraint_errors	    ,  8,  8, 136);
 static PORT_PMA_ATTR(local_link_integrity_errors    ,  9,  4, 152);
 static PORT_PMA_ATTR(excessive_buffer_overrun_errors, 10,  4, 156);
 static PORT_PMA_ATTR(VL15_dropped		    , 11, 16, 176);
 static PORT_PMA_ATTR(port_xmit_data		    , 12, 32, 192);
 static PORT_PMA_ATTR(port_rcv_data		    , 13, 32, 224);
 static PORT_PMA_ATTR(port_xmit_packets		    , 14, 32, 256);
 static PORT_PMA_ATTR(port_rcv_packets		    , 15, 32, 288);
 static PORT_PMA_ATTR(port_xmit_wait		    ,  0, 32, 320);
 
 /*
  * Counters added by extended set
  */
 static PORT_PMA_ATTR_EXT(port_xmit_data		    , 64,  64);
 static PORT_PMA_ATTR_EXT(port_rcv_data		    , 64, 128);
 static PORT_PMA_ATTR_EXT(port_xmit_packets	    , 64, 192);
 static PORT_PMA_ATTR_EXT(port_rcv_packets	    , 64, 256);
 static PORT_PMA_ATTR_EXT(unicast_xmit_packets	    , 64, 320);
 static PORT_PMA_ATTR_EXT(unicast_rcv_packets	    , 64, 384);
 static PORT_PMA_ATTR_EXT(multicast_xmit_packets	    , 64, 448);
 static PORT_PMA_ATTR_EXT(multicast_rcv_packets	    , 64, 512);
 
 static struct attribute *pma_attrs[] = {
 	&port_pma_attr_symbol_error.attr.attr,
 	&port_pma_attr_link_error_recovery.attr.attr,
 	&port_pma_attr_link_downed.attr.attr,
 	&port_pma_attr_port_rcv_errors.attr.attr,
 	&port_pma_attr_port_rcv_remote_physical_errors.attr.attr,
 	&port_pma_attr_port_rcv_switch_relay_errors.attr.attr,
 	&port_pma_attr_port_xmit_discards.attr.attr,
 	&port_pma_attr_port_xmit_constraint_errors.attr.attr,
 	&port_pma_attr_port_rcv_constraint_errors.attr.attr,
 	&port_pma_attr_local_link_integrity_errors.attr.attr,
 	&port_pma_attr_excessive_buffer_overrun_errors.attr.attr,
 	&port_pma_attr_VL15_dropped.attr.attr,
 	&port_pma_attr_port_xmit_data.attr.attr,
 	&port_pma_attr_port_rcv_data.attr.attr,
 	&port_pma_attr_port_xmit_packets.attr.attr,
 	&port_pma_attr_port_rcv_packets.attr.attr,
 	&port_pma_attr_port_xmit_wait.attr.attr,
 	NULL
 };
 
 static struct attribute *pma_attrs_ext[] = {
 	&port_pma_attr_symbol_error.attr.attr,
 	&port_pma_attr_link_error_recovery.attr.attr,
 	&port_pma_attr_link_downed.attr.attr,
 	&port_pma_attr_port_rcv_errors.attr.attr,
 	&port_pma_attr_port_rcv_remote_physical_errors.attr.attr,
 	&port_pma_attr_port_rcv_switch_relay_errors.attr.attr,
 	&port_pma_attr_port_xmit_discards.attr.attr,
 	&port_pma_attr_port_xmit_constraint_errors.attr.attr,
 	&port_pma_attr_port_rcv_constraint_errors.attr.attr,
 	&port_pma_attr_local_link_integrity_errors.attr.attr,
 	&port_pma_attr_excessive_buffer_overrun_errors.attr.attr,
 	&port_pma_attr_VL15_dropped.attr.attr,
 	&port_pma_attr_ext_port_xmit_data.attr.attr,
 	&port_pma_attr_ext_port_rcv_data.attr.attr,
 	&port_pma_attr_ext_port_xmit_packets.attr.attr,
 	&port_pma_attr_port_xmit_wait.attr.attr,
 	&port_pma_attr_ext_port_rcv_packets.attr.attr,
 	&port_pma_attr_ext_unicast_rcv_packets.attr.attr,
 	&port_pma_attr_ext_unicast_xmit_packets.attr.attr,
 	&port_pma_attr_ext_multicast_rcv_packets.attr.attr,
 	&port_pma_attr_ext_multicast_xmit_packets.attr.attr,
 	NULL
 };
 
 static struct attribute *pma_attrs_noietf[] = {
 	&port_pma_attr_symbol_error.attr.attr,
 	&port_pma_attr_link_error_recovery.attr.attr,
 	&port_pma_attr_link_downed.attr.attr,
 	&port_pma_attr_port_rcv_errors.attr.attr,
 	&port_pma_attr_port_rcv_remote_physical_errors.attr.attr,
 	&port_pma_attr_port_rcv_switch_relay_errors.attr.attr,
 	&port_pma_attr_port_xmit_discards.attr.attr,
 	&port_pma_attr_port_xmit_constraint_errors.attr.attr,
 	&port_pma_attr_port_rcv_constraint_errors.attr.attr,
 	&port_pma_attr_local_link_integrity_errors.attr.attr,
 	&port_pma_attr_excessive_buffer_overrun_errors.attr.attr,
 	&port_pma_attr_VL15_dropped.attr.attr,
 	&port_pma_attr_ext_port_xmit_data.attr.attr,
 	&port_pma_attr_ext_port_rcv_data.attr.attr,
 	&port_pma_attr_ext_port_xmit_packets.attr.attr,
 	&port_pma_attr_ext_port_rcv_packets.attr.attr,
 	&port_pma_attr_port_xmit_wait.attr.attr,
 	NULL
 };
 
 static struct attribute_group pma_group = {
 	.name  = "counters",
 	.attrs  = pma_attrs
 };
 
 static struct attribute_group pma_group_ext = {
 	.name  = "counters",
 	.attrs  = pma_attrs_ext
 };
 
 static struct attribute_group pma_group_noietf = {
 	.name  = "counters",
 	.attrs  = pma_attrs_noietf
 };
 
 static void ib_port_release(struct kobject *kobj)
 {
 	struct ib_port *p = container_of(kobj, struct ib_port, kobj);
 	struct attribute *a;
 	int i;
 
 	if (p->gid_group.attrs) {
 		for (i = 0; (a = p->gid_group.attrs[i]); ++i)
 			kfree(a);
 
 		kfree(p->gid_group.attrs);
 	}
 
 	if (p->pkey_group.attrs) {
 		for (i = 0; (a = p->pkey_group.attrs[i]); ++i)
 			kfree(a);
 
 		kfree(p->pkey_group.attrs);
 	}
 
 	kfree(p);
 }
 
 static void ib_port_gid_attr_release(struct kobject *kobj)
 {
 	struct gid_attr_group *g = container_of(kobj, struct gid_attr_group,
 						kobj);
 	struct attribute *a;
 	int i;
 
 	if (g->ndev.attrs) {
 		for (i = 0; (a = g->ndev.attrs[i]); ++i)
 			kfree(a);
 
 		kfree(g->ndev.attrs);
 	}
 
 	if (g->type.attrs) {
 		for (i = 0; (a = g->type.attrs[i]); ++i)
 			kfree(a);
 
 		kfree(g->type.attrs);
 	}
 
 	kfree(g);
 }
 
 static struct kobj_type port_type = {
 	.release       = ib_port_release,
 	.sysfs_ops     = &port_sysfs_ops,
 	.default_attrs = port_default_attrs
 };
 
 static struct kobj_type gid_attr_type = {
 	.sysfs_ops      = &gid_attr_sysfs_ops,
 	.release        = ib_port_gid_attr_release
 };
 
 static struct attribute **
 alloc_group_attrs(ssize_t (*show)(struct ib_port *,
 				  struct port_attribute *, char *buf),
 		  int len)
 {
 	struct attribute **tab_attr;
 	struct port_table_attribute *element;
 	int i;
 
 	tab_attr = kcalloc(1 + len, sizeof(struct attribute *), GFP_KERNEL);
 	if (!tab_attr)
 		return NULL;
 
 	for (i = 0; i < len; i++) {
 		element = kzalloc(sizeof(struct port_table_attribute),
 				  GFP_KERNEL);
 		if (!element)
 			goto err;
 
 		if (snprintf(element->name, sizeof(element->name),
 			     "%d", i) >= sizeof(element->name)) {
 			kfree(element);
 			goto err;
 		}
 
 		element->attr.attr.name  = element->name;
 		element->attr.attr.mode  = S_IRUGO;
 		element->attr.show       = show;
 		element->index		 = i;
 		sysfs_attr_init(&element->attr.attr);
 
 		tab_attr[i] = &element->attr.attr;
 	}
 
 	return tab_attr;
 
 err:
 	while (--i >= 0)
 		kfree(tab_attr[i]);
 	kfree(tab_attr);
 	return NULL;
 }
 
 /*
  * Figure out which counter table to use depending on
  * the device capabilities.
  */
 static struct attribute_group *get_counter_table(struct ib_device *dev,
 						 int port_num)
 {
 	struct ib_class_port_info cpi;
 
 	if (get_perf_mad(dev, port_num, IB_PMA_CLASS_PORT_INFO,
 				&cpi, 40, sizeof(cpi)) >= 0) {
 		if (cpi.capability_mask & IB_PMA_CLASS_CAP_EXT_WIDTH)
 			/* We have extended counters */
 			return &pma_group_ext;
 
 		if (cpi.capability_mask & IB_PMA_CLASS_CAP_EXT_WIDTH_NOIETF)
 			/* But not the IETF ones */
 			return &pma_group_noietf;
 	}
 
 	/* Fall back to normal counters */
 	return &pma_group;
 }
 
 static int update_hw_stats(struct ib_device *dev, struct rdma_hw_stats *stats,
 			   u8 port_num, int index)
 {
 	int ret;
 
 	if (time_is_after_eq_jiffies(stats->timestamp + stats->lifespan))
 		return 0;
 	ret = dev->get_hw_stats(dev, stats, port_num, index);
 	if (ret < 0)
 		return ret;
 	if (ret == stats->num_counters)
 		stats->timestamp = jiffies;
 
 	return 0;
 }
 
 static ssize_t print_hw_stat(struct rdma_hw_stats *stats, int index, char *buf)
 {
 	return sprintf(buf, "%llu\n", (unsigned long long)stats->value[index]);
 }
 
 static ssize_t show_hw_stats(struct kobject *kobj, struct attribute *attr,
 			     char *buf)
 {
 	struct ib_device *dev;
 	struct ib_port *port;
 	struct hw_stats_attribute *hsa;
 	struct rdma_hw_stats *stats;
 	int ret;
 
 	hsa = container_of(attr, struct hw_stats_attribute, attr);
 	if (!hsa->port_num) {
 		dev = container_of((struct device *)kobj,
 				   struct ib_device, dev);
 		stats = dev->hw_stats;
 	} else {
 		port = container_of(kobj, struct ib_port, kobj);
 		dev = port->ibdev;
 		stats = port->hw_stats;
 	}
 	ret = update_hw_stats(dev, stats, hsa->port_num, hsa->index);
 	if (ret)
 		return ret;
 	return print_hw_stat(stats, hsa->index, buf);
 }
 
 static ssize_t show_stats_lifespan(struct kobject *kobj,
 				   struct attribute *attr,
 				   char *buf)
 {
 	struct hw_stats_attribute *hsa;
 	int msecs;
 
 	hsa = container_of(attr, struct hw_stats_attribute, attr);
 	if (!hsa->port_num) {
 		struct ib_device *dev = container_of((struct device *)kobj,
 						     struct ib_device, dev);
 		msecs = jiffies_to_msecs(dev->hw_stats->lifespan);
 	} else {
 		struct ib_port *p = container_of(kobj, struct ib_port, kobj);
 		msecs = jiffies_to_msecs(p->hw_stats->lifespan);
 	}
 	return sprintf(buf, "%d\n", msecs);
 }
 
 static ssize_t set_stats_lifespan(struct kobject *kobj,
 				  struct attribute *attr,
 				  const char *buf, size_t count)
 {
 	struct hw_stats_attribute *hsa;
 	int msecs;
 	int jiffies;
 	int ret;
 
 	ret = kstrtoint(buf, 10, &msecs);
 	if (ret)
 		return ret;
 	if (msecs < 0 || msecs > 10000)
 		return -EINVAL;
 	jiffies = msecs_to_jiffies(msecs);
 	hsa = container_of(attr, struct hw_stats_attribute, attr);
 	if (!hsa->port_num) {
 		struct ib_device *dev = container_of((struct device *)kobj,
 						     struct ib_device, dev);
 		dev->hw_stats->lifespan = jiffies;
 	} else {
 		struct ib_port *p = container_of(kobj, struct ib_port, kobj);
 		p->hw_stats->lifespan = jiffies;
 	}
 	return count;
 }
 
 static void free_hsag(struct kobject *kobj, struct attribute_group *attr_group)
 {
 	struct attribute **attr;
 
 	sysfs_remove_group(kobj, attr_group);
 
 	for (attr = attr_group->attrs; *attr; attr++)
 		kfree(*attr);
 	kfree(attr_group);
 }
 
 static struct attribute *alloc_hsa(int index, u8 port_num, const char *name)
 {
 	struct hw_stats_attribute *hsa;
 
 	hsa = kmalloc(sizeof(*hsa), GFP_KERNEL);
 	if (!hsa)
 		return NULL;
 
 	hsa->attr.name = __DECONST(char *, name);
 	hsa->attr.mode = S_IRUGO;
 	hsa->show = show_hw_stats;
 	hsa->store = NULL;
 	hsa->index = index;
 	hsa->port_num = port_num;
 
 	return &hsa->attr;
 }
 
 static struct attribute *alloc_hsa_lifespan(char *name, u8 port_num)
 {
 	struct hw_stats_attribute *hsa;
 
 	hsa = kmalloc(sizeof(*hsa), GFP_KERNEL);
 	if (!hsa)
 		return NULL;
 
 	hsa->attr.name = name;
 	hsa->attr.mode = S_IWUSR | S_IRUGO;
 	hsa->show = show_stats_lifespan;
 	hsa->store = set_stats_lifespan;
 	hsa->index = 0;
 	hsa->port_num = port_num;
 
 	return &hsa->attr;
 }
 
 static void setup_hw_stats(struct ib_device *device, struct ib_port *port,
 			   u8 port_num)
 {
 	struct attribute_group *hsag;
 	struct rdma_hw_stats *stats;
 	int i, ret;
 
 	stats = device->alloc_hw_stats(device, port_num);
 
 	if (!stats)
 		return;
 
 	if (!stats->names || stats->num_counters <= 0)
 		goto err_free_stats;
 
 	/*
 	 * Two extra attribue elements here, one for the lifespan entry and
 	 * one to NULL terminate the list for the sysfs core code
 	 */
 	hsag = kzalloc(sizeof(*hsag) +
 		       sizeof(void *) * (stats->num_counters + 2),
 		       GFP_KERNEL);
 	if (!hsag)
 		goto err_free_stats;
 
 	ret = device->get_hw_stats(device, stats, port_num,
 				   stats->num_counters);
 	if (ret != stats->num_counters)
 		goto err_free_hsag;
 
 	stats->timestamp = jiffies;
 
 	hsag->name = "hw_counters";
 	hsag->attrs = (void *)((char *)hsag + sizeof(*hsag));
 
 	for (i = 0; i < stats->num_counters; i++) {
 		hsag->attrs[i] = alloc_hsa(i, port_num, stats->names[i]);
 		if (!hsag->attrs[i])
 			goto err;
 		sysfs_attr_init(hsag->attrs[i]);
 	}
 
 	/* treat an error here as non-fatal */
 	hsag->attrs[i] = alloc_hsa_lifespan("lifespan", port_num);
 	if (hsag->attrs[i])
 		sysfs_attr_init(hsag->attrs[i]);
 
 	if (port) {
 		struct kobject *kobj = &port->kobj;
 		ret = sysfs_create_group(kobj, hsag);
 		if (ret)
 			goto err;
 		port->hw_stats_ag = hsag;
 		port->hw_stats = stats;
 	} else {
 		struct kobject *kobj = &device->dev.kobj;
 		ret = sysfs_create_group(kobj, hsag);
 		if (ret)
 			goto err;
 		device->hw_stats_ag = hsag;
 		device->hw_stats = stats;
 	}
 
 	return;
 
 err:
 	for (; i >= 0; i--)
 		kfree(hsag->attrs[i]);
 err_free_hsag:
 	kfree(hsag);
 err_free_stats:
 	kfree(stats);
 	return;
 }
 
 static int add_port(struct ib_device *device, int port_num,
 		    int (*port_callback)(struct ib_device *,
 					 u8, struct kobject *))
 {
 	struct ib_port *p;
 	struct ib_port_attr attr;
 	int i;
 	int ret;
 
 	ret = ib_query_port(device, port_num, &attr);
 	if (ret)
 		return ret;
 
 	p = kzalloc(sizeof *p, GFP_KERNEL);
 	if (!p)
 		return -ENOMEM;
 
 	p->ibdev      = device;
 	p->port_num   = port_num;
 
 	ret = kobject_init_and_add(&p->kobj, &port_type,
 				   device->ports_parent,
 				   "%d", port_num);
 	if (ret) {
 		kfree(p);
 		return ret;
 	}
 
 	p->gid_attr_group = kzalloc(sizeof(*p->gid_attr_group), GFP_KERNEL);
 	if (!p->gid_attr_group) {
 		ret = -ENOMEM;
 		goto err_put;
 	}
 
 	p->gid_attr_group->port = p;
 	ret = kobject_init_and_add(&p->gid_attr_group->kobj, &gid_attr_type,
 				   &p->kobj, "gid_attrs");
 	if (ret) {
 		kfree(p->gid_attr_group);
 		goto err_put;
 	}
 
 	p->pma_table = get_counter_table(device, port_num);
 	ret = sysfs_create_group(&p->kobj, p->pma_table);
 	if (ret)
 		goto err_put_gid_attrs;
 
 	p->gid_group.name  = "gids";
 	p->gid_group.attrs = alloc_group_attrs(show_port_gid, attr.gid_tbl_len);
 	if (!p->gid_group.attrs) {
 		ret = -ENOMEM;
 		goto err_remove_pma;
 	}
 
 	ret = sysfs_create_group(&p->kobj, &p->gid_group);
 	if (ret)
 		goto err_free_gid;
 
 	p->gid_attr_group->ndev.name = "ndevs";
 	p->gid_attr_group->ndev.attrs = alloc_group_attrs(show_port_gid_attr_ndev,
 							  attr.gid_tbl_len);
 	if (!p->gid_attr_group->ndev.attrs) {
 		ret = -ENOMEM;
 		goto err_remove_gid;
 	}
 
 	ret = sysfs_create_group(&p->gid_attr_group->kobj,
 				 &p->gid_attr_group->ndev);
 	if (ret)
 		goto err_free_gid_ndev;
 
 	p->gid_attr_group->type.name = "types";
 	p->gid_attr_group->type.attrs = alloc_group_attrs(show_port_gid_attr_gid_type,
 							  attr.gid_tbl_len);
 	if (!p->gid_attr_group->type.attrs) {
 		ret = -ENOMEM;
 		goto err_remove_gid_ndev;
 	}
 
 	ret = sysfs_create_group(&p->gid_attr_group->kobj,
 				 &p->gid_attr_group->type);
 	if (ret)
 		goto err_free_gid_type;
 
 	p->pkey_group.name  = "pkeys";
 	p->pkey_group.attrs = alloc_group_attrs(show_port_pkey,
 						attr.pkey_tbl_len);
 	if (!p->pkey_group.attrs) {
 		ret = -ENOMEM;
 		goto err_remove_gid_type;
 	}
 
 	ret = sysfs_create_group(&p->kobj, &p->pkey_group);
 	if (ret)
 		goto err_free_pkey;
 
 	if (port_callback) {
 		ret = port_callback(device, port_num, &p->kobj);
 		if (ret)
 			goto err_remove_pkey;
 	}
 
 	/*
 	 * If port == 0, it means we have only one port and the parent
 	 * device, not this port device, should be the holder of the
 	 * hw_counters
 	 */
 	if (device->alloc_hw_stats && port_num)
 		setup_hw_stats(device, p, port_num);
 
 	list_add_tail(&p->kobj.entry, &device->port_list);
 
 	return 0;
 
 err_remove_pkey:
 	sysfs_remove_group(&p->kobj, &p->pkey_group);
 
 err_free_pkey:
 	for (i = 0; i < attr.pkey_tbl_len; ++i)
 		kfree(p->pkey_group.attrs[i]);
 
 	kfree(p->pkey_group.attrs);
 	p->pkey_group.attrs = NULL;
 
 err_remove_gid_type:
 	sysfs_remove_group(&p->gid_attr_group->kobj,
 			   &p->gid_attr_group->type);
 
 err_free_gid_type:
 	for (i = 0; i < attr.gid_tbl_len; ++i)
 		kfree(p->gid_attr_group->type.attrs[i]);
 
 	kfree(p->gid_attr_group->type.attrs);
 	p->gid_attr_group->type.attrs = NULL;
 
 err_remove_gid_ndev:
 	sysfs_remove_group(&p->gid_attr_group->kobj,
 			   &p->gid_attr_group->ndev);
 
 err_free_gid_ndev:
 	for (i = 0; i < attr.gid_tbl_len; ++i)
 		kfree(p->gid_attr_group->ndev.attrs[i]);
 
 	kfree(p->gid_attr_group->ndev.attrs);
 	p->gid_attr_group->ndev.attrs = NULL;
 
 err_remove_gid:
 	sysfs_remove_group(&p->kobj, &p->gid_group);
 
 err_free_gid:
 	for (i = 0; i < attr.gid_tbl_len; ++i)
 		kfree(p->gid_group.attrs[i]);
 
 	kfree(p->gid_group.attrs);
 	p->gid_group.attrs = NULL;
 
 err_remove_pma:
 	sysfs_remove_group(&p->kobj, p->pma_table);
 
 err_put_gid_attrs:
 	kobject_put(&p->gid_attr_group->kobj);
 
 err_put:
 	kobject_put(&p->kobj);
 	return ret;
 }
 
 static ssize_t show_node_type(struct device *device,
 			      struct device_attribute *attr, char *buf)
 {
 	struct ib_device *dev = container_of(device, struct ib_device, dev);
 
 	switch (dev->node_type) {
 	case RDMA_NODE_IB_CA:	  return sprintf(buf, "%d: CA\n", dev->node_type);
 	case RDMA_NODE_RNIC:	  return sprintf(buf, "%d: RNIC\n", dev->node_type);
 	case RDMA_NODE_USNIC:	  return sprintf(buf, "%d: usNIC\n", dev->node_type);
 	case RDMA_NODE_USNIC_UDP: return sprintf(buf, "%d: usNIC UDP\n", dev->node_type);
 	case RDMA_NODE_IB_SWITCH: return sprintf(buf, "%d: switch\n", dev->node_type);
 	case RDMA_NODE_IB_ROUTER: return sprintf(buf, "%d: router\n", dev->node_type);
 	default:		  return sprintf(buf, "%d: <unknown>\n", dev->node_type);
 	}
 }
 
 static ssize_t show_sys_image_guid(struct device *device,
 				   struct device_attribute *dev_attr, char *buf)
 {
 	struct ib_device *dev = container_of(device, struct ib_device, dev);
 
 	return sprintf(buf, "%04x:%04x:%04x:%04x\n",
 		       be16_to_cpu(((__be16 *) &dev->attrs.sys_image_guid)[0]),
 		       be16_to_cpu(((__be16 *) &dev->attrs.sys_image_guid)[1]),
 		       be16_to_cpu(((__be16 *) &dev->attrs.sys_image_guid)[2]),
 		       be16_to_cpu(((__be16 *) &dev->attrs.sys_image_guid)[3]));
 }
 
 static ssize_t show_node_guid(struct device *device,
 			      struct device_attribute *attr, char *buf)
 {
 	struct ib_device *dev = container_of(device, struct ib_device, dev);
 
 	return sprintf(buf, "%04x:%04x:%04x:%04x\n",
 		       be16_to_cpu(((__be16 *) &dev->node_guid)[0]),
 		       be16_to_cpu(((__be16 *) &dev->node_guid)[1]),
 		       be16_to_cpu(((__be16 *) &dev->node_guid)[2]),
 		       be16_to_cpu(((__be16 *) &dev->node_guid)[3]));
 }
 
 static ssize_t show_node_desc(struct device *device,
 			      struct device_attribute *attr, char *buf)
 {
 	struct ib_device *dev = container_of(device, struct ib_device, dev);
 
 	return sprintf(buf, "%.64s\n", dev->node_desc);
 }
 
 static ssize_t set_node_desc(struct device *device,
 			     struct device_attribute *attr,
 			     const char *buf, size_t count)
 {
 	struct ib_device *dev = container_of(device, struct ib_device, dev);
 	struct ib_device_modify desc = {};
 	int ret;
 
 	if (!dev->modify_device)
 		return -EIO;
 
 	memcpy(desc.node_desc, buf, min_t(int, count, IB_DEVICE_NODE_DESC_MAX));
 	ret = ib_modify_device(dev, IB_DEVICE_MODIFY_NODE_DESC, &desc);
 	if (ret)
 		return ret;
 
 	return count;
 }
 
 static ssize_t show_fw_ver(struct device *device, struct device_attribute *attr,
 			   char *buf)
 {
 	struct ib_device *dev = container_of(device, struct ib_device, dev);
 
 	ib_get_device_fw_str(dev, buf, PAGE_SIZE);
 	strlcat(buf, "\n", PAGE_SIZE);
 	return strlen(buf);
 }
 
 static DEVICE_ATTR(node_type, S_IRUGO, show_node_type, NULL);
 static DEVICE_ATTR(sys_image_guid, S_IRUGO, show_sys_image_guid, NULL);
 static DEVICE_ATTR(node_guid, S_IRUGO, show_node_guid, NULL);
 static DEVICE_ATTR(node_desc, S_IRUGO | S_IWUSR, show_node_desc, set_node_desc);
 static DEVICE_ATTR(fw_ver, S_IRUGO, show_fw_ver, NULL);
 
 static struct device_attribute *ib_class_attributes[] = {
 	&dev_attr_node_type,
 	&dev_attr_sys_image_guid,
 	&dev_attr_node_guid,
 	&dev_attr_node_desc,
 	&dev_attr_fw_ver,
 };
 
 static void free_port_list_attributes(struct ib_device *device)
 {
 	struct kobject *p, *t;
 
 	list_for_each_entry_safe(p, t, &device->port_list, entry) {
 		struct ib_port *port = container_of(p, struct ib_port, kobj);
 		list_del(&p->entry);
 		if (port->hw_stats) {
 			kfree(port->hw_stats);
 			free_hsag(&port->kobj, port->hw_stats_ag);
 		}
 		sysfs_remove_group(p, port->pma_table);
 		sysfs_remove_group(p, &port->pkey_group);
 		sysfs_remove_group(p, &port->gid_group);
 		sysfs_remove_group(&port->gid_attr_group->kobj,
 				   &port->gid_attr_group->ndev);
 		sysfs_remove_group(&port->gid_attr_group->kobj,
 				   &port->gid_attr_group->type);
 		kobject_put(&port->gid_attr_group->kobj);
 		kobject_put(p);
 	}
 
 	kobject_put(device->ports_parent);
 }
 
 int ib_device_register_sysfs(struct ib_device *device,
 			     int (*port_callback)(struct ib_device *,
 						  u8, struct kobject *))
 {
 	struct device *class_dev = &device->dev;
 	int ret;
 	int i;
 
 	device->dev.parent = device->dma_device;
 	ret = dev_set_name(class_dev, "%s", device->name);
 	if (ret)
 		return ret;
 
 	ret = device_add(class_dev);
 	if (ret)
 		goto err;
 
 	for (i = 0; i < ARRAY_SIZE(ib_class_attributes); ++i) {
 		ret = device_create_file(class_dev, ib_class_attributes[i]);
 		if (ret)
 			goto err_unregister;
 	}
 
 	device->ports_parent = kobject_create_and_add("ports",
 						      &class_dev->kobj);
 	if (!device->ports_parent) {
 		ret = -ENOMEM;
 		goto err_put;
 	}
 
 	if (rdma_cap_ib_switch(device)) {
 		ret = add_port(device, 0, port_callback);
 		if (ret)
 			goto err_put;
 	} else {
 		for (i = 1; i <= device->phys_port_cnt; ++i) {
 			ret = add_port(device, i, port_callback);
 			if (ret)
 				goto err_put;
 		}
 	}
 
 	if (device->alloc_hw_stats)
 		setup_hw_stats(device, NULL, 0);
 
 	return 0;
 
 err_put:
 	free_port_list_attributes(device);
 
 err_unregister:
 	device_unregister(class_dev);
 
 err:
 	return ret;
 }
 
 void ib_device_unregister_sysfs(struct ib_device *device)
 {
 	int i;
 
 	/* Hold kobject until ib_dealloc_device() */
 	kobject_get(&device->dev.kobj);
 
 	free_port_list_attributes(device);
 
 	if (device->hw_stats) {
 		kfree(device->hw_stats);
 		free_hsag(&device->dev.kobj, device->hw_stats_ag);
 	}
 
 	for (i = 0; i < ARRAY_SIZE(ib_class_attributes); ++i)
 		device_remove_file(&device->dev, ib_class_attributes[i]);
 
 	device_unregister(&device->dev);
 }
 
 /**
  * ib_port_register_module_stat - add module counters under relevant port
  *  of IB device.
  *
  * @device: IB device to add counters
  * @port_num: valid port number
  * @kobj: pointer to the kobject to initialize
  * @ktype: pointer to the ktype for this kobject.
  * @name: the name of the kobject
  */
 int ib_port_register_module_stat(struct ib_device *device, u8 port_num,
 				 struct kobject *kobj, struct kobj_type *ktype,
 				 const char *name)
 {
 	struct kobject *p, *t;
 	int ret;
 
 	list_for_each_entry_safe(p, t, &device->port_list, entry) {
 		struct ib_port *port = container_of(p, struct ib_port, kobj);
 
 		if (port->port_num != port_num)
 			continue;
 
 		ret = kobject_init_and_add(kobj, ktype, &port->kobj, "%s",
 					   name);
 		if (ret) {
 			kobject_put(kobj);
 			return ret;
 		}
 	}
 
 	return 0;
 }
 EXPORT_SYMBOL(ib_port_register_module_stat);
 
 /**
  * ib_port_unregister_module_stat - release module counters
  * @kobj: pointer to the kobject to release
  */
 void ib_port_unregister_module_stat(struct kobject *kobj)
 {
 	kobject_put(kobj);
 }
 EXPORT_SYMBOL(ib_port_unregister_module_stat);
diff --git a/sys/ofed/include/rdma/ib_verbs.h b/sys/ofed/include/rdma/ib_verbs.h
index 2450682ffa66..2399a3a53120 100644
--- a/sys/ofed/include/rdma/ib_verbs.h
+++ b/sys/ofed/include/rdma/ib_verbs.h
@@ -1,3381 +1,3391 @@
 /*-
  * SPDX-License-Identifier: BSD-2-Clause OR GPL-2.0
  *
  * Copyright (c) 2004 Mellanox Technologies Ltd.  All rights reserved.
  * Copyright (c) 2004 Infinicon Corporation.  All rights reserved.
  * Copyright (c) 2004 Intel Corporation.  All rights reserved.
  * Copyright (c) 2004 Topspin Corporation.  All rights reserved.
  * Copyright (c) 2004 Voltaire Corporation.  All rights reserved.
  * Copyright (c) 2005 Sun Microsystems, Inc. All rights reserved.
  * Copyright (c) 2005, 2006, 2007 Cisco Systems.  All rights reserved.
  *
  * This software is available to you under a choice of one of two
  * licenses.  You may choose to be licensed under the terms of the GNU
  * General Public License (GPL) Version 2, available from the file
  * COPYING in the main directory of this source tree, or the
  * OpenIB.org BSD license below:
  *
  *     Redistribution and use in source and binary forms, with or
  *     without modification, are permitted provided that the following
  *     conditions are met:
  *
  *      - Redistributions of source code must retain the above
  *        copyright notice, this list of conditions and the following
  *        disclaimer.
  *
  *      - Redistributions in binary form must reproduce the above
  *        copyright notice, this list of conditions and the following
  *        disclaimer in the documentation and/or other materials
  *        provided with the distribution.
  *
  * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
  * EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
  * MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
  * NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS
  * BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN
  * ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN
  * CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
  * SOFTWARE.
  *
  * $FreeBSD$
  */
 
 #if !defined(IB_VERBS_H)
 #define IB_VERBS_H
 
 #include <linux/types.h>
 #include <linux/device.h>
 #include <linux/mm.h>
 #include <linux/dma-mapping.h>
 #include <linux/kref.h>
 #include <linux/list.h>
 #include <linux/rwsem.h>
 #include <linux/scatterlist.h>
 #include <linux/workqueue.h>
 #include <linux/socket.h>
 #include <linux/if_ether.h>
 #include <net/ipv6.h>
 #include <net/ip.h>
 #include <linux/string.h>
 #include <linux/slab.h>
 #include <linux/rcupdate.h>
 #include <linux/netdevice.h>
 #include <netinet/ip.h>
 
 #include <asm/atomic.h>
 #include <asm/uaccess.h>
 
 struct ifla_vf_info;
 struct ifla_vf_stats;
 
 extern struct workqueue_struct *ib_wq;
 extern struct workqueue_struct *ib_comp_wq;
 
 union ib_gid {
 	u8	raw[16];
 	struct {
 		__be64	subnet_prefix;
 		__be64	interface_id;
 	} global;
 };
 
 extern union ib_gid zgid;
 
 enum ib_gid_type {
 	/* If link layer is Ethernet, this is RoCE V1 */
 	IB_GID_TYPE_IB        = 0,
 	IB_GID_TYPE_ROCE      = 0,
 	IB_GID_TYPE_ROCE_UDP_ENCAP = 1,
 	IB_GID_TYPE_SIZE
 };
 
 #define ROCE_V2_UDP_DPORT      4791
 struct ib_gid_attr {
 	enum ib_gid_type	gid_type;
 	struct ifnet	*ndev;
 };
 
 enum rdma_node_type {
 	/* IB values map to NodeInfo:NodeType. */
 	RDMA_NODE_IB_CA 	= 1,
 	RDMA_NODE_IB_SWITCH,
 	RDMA_NODE_IB_ROUTER,
 	RDMA_NODE_RNIC,
 	RDMA_NODE_USNIC,
 	RDMA_NODE_USNIC_UDP,
 };
 
 enum {
 	/* set the local administered indication */
 	IB_SA_WELL_KNOWN_GUID	= BIT_ULL(57) | 2,
 };
 
 enum rdma_transport_type {
 	RDMA_TRANSPORT_IB,
 	RDMA_TRANSPORT_IWARP,
 	RDMA_TRANSPORT_USNIC,
 	RDMA_TRANSPORT_USNIC_UDP
 };
 
 enum rdma_protocol_type {
 	RDMA_PROTOCOL_IB,
 	RDMA_PROTOCOL_IBOE,
 	RDMA_PROTOCOL_IWARP,
 	RDMA_PROTOCOL_USNIC_UDP
 };
 
 __attribute_const__ enum rdma_transport_type
 rdma_node_get_transport(enum rdma_node_type node_type);
 
 enum rdma_network_type {
 	RDMA_NETWORK_IB,
 	RDMA_NETWORK_ROCE_V1 = RDMA_NETWORK_IB,
 	RDMA_NETWORK_IPV4,
 	RDMA_NETWORK_IPV6
 };
 
 static inline enum ib_gid_type ib_network_to_gid_type(enum rdma_network_type network_type)
 {
 	if (network_type == RDMA_NETWORK_IPV4 ||
 	    network_type == RDMA_NETWORK_IPV6)
 		return IB_GID_TYPE_ROCE_UDP_ENCAP;
 
 	/* IB_GID_TYPE_IB same as RDMA_NETWORK_ROCE_V1 */
 	return IB_GID_TYPE_IB;
 }
 
 static inline enum rdma_network_type ib_gid_to_network_type(enum ib_gid_type gid_type,
 							    union ib_gid *gid)
 {
 	if (gid_type == IB_GID_TYPE_IB)
 		return RDMA_NETWORK_IB;
 
 	if (ipv6_addr_v4mapped((struct in6_addr *)gid))
 		return RDMA_NETWORK_IPV4;
 	else
 		return RDMA_NETWORK_IPV6;
 }
 
 enum rdma_link_layer {
 	IB_LINK_LAYER_UNSPECIFIED,
 	IB_LINK_LAYER_INFINIBAND,
 	IB_LINK_LAYER_ETHERNET,
 };
 
 enum ib_device_cap_flags {
 	IB_DEVICE_RESIZE_MAX_WR			= (1 << 0),
 	IB_DEVICE_BAD_PKEY_CNTR			= (1 << 1),
 	IB_DEVICE_BAD_QKEY_CNTR			= (1 << 2),
 	IB_DEVICE_RAW_MULTI			= (1 << 3),
 	IB_DEVICE_AUTO_PATH_MIG			= (1 << 4),
 	IB_DEVICE_CHANGE_PHY_PORT		= (1 << 5),
 	IB_DEVICE_UD_AV_PORT_ENFORCE		= (1 << 6),
 	IB_DEVICE_CURR_QP_STATE_MOD		= (1 << 7),
 	IB_DEVICE_SHUTDOWN_PORT			= (1 << 8),
 	IB_DEVICE_INIT_TYPE			= (1 << 9),
 	IB_DEVICE_PORT_ACTIVE_EVENT		= (1 << 10),
 	IB_DEVICE_SYS_IMAGE_GUID		= (1 << 11),
 	IB_DEVICE_RC_RNR_NAK_GEN		= (1 << 12),
 	IB_DEVICE_SRQ_RESIZE			= (1 << 13),
 	IB_DEVICE_N_NOTIFY_CQ			= (1 << 14),
 
 	/*
 	 * This device supports a per-device lkey or stag that can be
 	 * used without performing a memory registration for the local
 	 * memory.  Note that ULPs should never check this flag, but
 	 * instead of use the local_dma_lkey flag in the ib_pd structure,
 	 * which will always contain a usable lkey.
 	 */
 	IB_DEVICE_LOCAL_DMA_LKEY		= (1 << 15),
 	IB_DEVICE_RESERVED /* old SEND_W_INV */	= (1 << 16),
 	IB_DEVICE_MEM_WINDOW			= (1 << 17),
 	/*
 	 * Devices should set IB_DEVICE_UD_IP_SUM if they support
 	 * insertion of UDP and TCP checksum on outgoing UD IPoIB
 	 * messages and can verify the validity of checksum for
 	 * incoming messages.  Setting this flag implies that the
 	 * IPoIB driver may set NETIF_F_IP_CSUM for datagram mode.
 	 */
 	IB_DEVICE_UD_IP_CSUM			= (1 << 18),
 	IB_DEVICE_UD_TSO			= (1 << 19),
 	IB_DEVICE_XRC				= (1 << 20),
 
 	/*
 	 * This device supports the IB "base memory management extension",
 	 * which includes support for fast registrations (IB_WR_REG_MR,
 	 * IB_WR_LOCAL_INV and IB_WR_SEND_WITH_INV verbs).  This flag should
 	 * also be set by any iWarp device which must support FRs to comply
 	 * to the iWarp verbs spec.  iWarp devices also support the
 	 * IB_WR_RDMA_READ_WITH_INV verb for RDMA READs that invalidate the
 	 * stag.
 	 */
 	IB_DEVICE_MEM_MGT_EXTENSIONS		= (1 << 21),
 	IB_DEVICE_BLOCK_MULTICAST_LOOPBACK	= (1 << 22),
 	IB_DEVICE_MEM_WINDOW_TYPE_2A		= (1 << 23),
 	IB_DEVICE_MEM_WINDOW_TYPE_2B		= (1 << 24),
 	IB_DEVICE_RC_IP_CSUM			= (1 << 25),
 	IB_DEVICE_RAW_IP_CSUM			= (1 << 26),
 	/*
 	 * Devices should set IB_DEVICE_CROSS_CHANNEL if they
 	 * support execution of WQEs that involve synchronization
 	 * of I/O operations with single completion queue managed
 	 * by hardware.
 	 */
 	IB_DEVICE_CROSS_CHANNEL		= (1 << 27),
 	IB_DEVICE_MANAGED_FLOW_STEERING		= (1 << 29),
 	IB_DEVICE_SIGNATURE_HANDOVER		= (1 << 30),
 	IB_DEVICE_ON_DEMAND_PAGING		= (1ULL << 31),
 	IB_DEVICE_SG_GAPS_REG			= (1ULL << 32),
 	IB_DEVICE_VIRTUAL_FUNCTION		= (1ULL << 33),
 	IB_DEVICE_RAW_SCATTER_FCS		= (1ULL << 34),
 };
 
 enum ib_signature_prot_cap {
 	IB_PROT_T10DIF_TYPE_1 = 1,
 	IB_PROT_T10DIF_TYPE_2 = 1 << 1,
 	IB_PROT_T10DIF_TYPE_3 = 1 << 2,
 };
 
 enum ib_signature_guard_cap {
 	IB_GUARD_T10DIF_CRC	= 1,
 	IB_GUARD_T10DIF_CSUM	= 1 << 1,
 };
 
 enum ib_atomic_cap {
 	IB_ATOMIC_NONE,
 	IB_ATOMIC_HCA,
 	IB_ATOMIC_GLOB
 };
 
 enum ib_odp_general_cap_bits {
 	IB_ODP_SUPPORT = 1 << 0,
 };
 
 enum ib_odp_transport_cap_bits {
 	IB_ODP_SUPPORT_SEND	= 1 << 0,
 	IB_ODP_SUPPORT_RECV	= 1 << 1,
 	IB_ODP_SUPPORT_WRITE	= 1 << 2,
 	IB_ODP_SUPPORT_READ	= 1 << 3,
 	IB_ODP_SUPPORT_ATOMIC	= 1 << 4,
 };
 
 struct ib_odp_caps {
 	uint64_t general_caps;
 	struct {
 		uint32_t  rc_odp_caps;
 		uint32_t  uc_odp_caps;
 		uint32_t  ud_odp_caps;
 	} per_transport_caps;
 };
 
 struct ib_rss_caps {
 	/* Corresponding bit will be set if qp type from
 	 * 'enum ib_qp_type' is supported, e.g.
 	 * supported_qpts |= 1 << IB_QPT_UD
 	 */
 	u32 supported_qpts;
 	u32 max_rwq_indirection_tables;
 	u32 max_rwq_indirection_table_size;
 };
 
 enum ib_cq_creation_flags {
 	IB_CQ_FLAGS_TIMESTAMP_COMPLETION   = 1 << 0,
 	IB_CQ_FLAGS_IGNORE_OVERRUN	   = 1 << 1,
 };
 
 struct ib_cq_init_attr {
 	unsigned int	cqe;
 	u32		comp_vector;
 	u32		flags;
 };
 
 struct ib_device_attr {
 	u64			fw_ver;
 	__be64			sys_image_guid;
 	u64			max_mr_size;
 	u64			page_size_cap;
 	u32			vendor_id;
 	u32			vendor_part_id;
 	u32			hw_ver;
 	int			max_qp;
 	int			max_qp_wr;
 	u64			device_cap_flags;
 	int			max_sge;
 	int			max_sge_rd;
 	int			max_cq;
 	int			max_cqe;
 	int			max_mr;
 	int			max_pd;
 	int			max_qp_rd_atom;
 	int			max_ee_rd_atom;
 	int			max_res_rd_atom;
 	int			max_qp_init_rd_atom;
 	int			max_ee_init_rd_atom;
 	enum ib_atomic_cap	atomic_cap;
 	enum ib_atomic_cap	masked_atomic_cap;
 	int			max_ee;
 	int			max_rdd;
 	int			max_mw;
 	int			max_raw_ipv6_qp;
 	int			max_raw_ethy_qp;
 	int			max_mcast_grp;
 	int			max_mcast_qp_attach;
 	int			max_total_mcast_qp_attach;
 	int			max_ah;
 	int			max_fmr;
 	int			max_map_per_fmr;
 	int			max_srq;
 	int			max_srq_wr;
 	int			max_srq_sge;
 	unsigned int		max_fast_reg_page_list_len;
 	u16			max_pkeys;
 	u8			local_ca_ack_delay;
 	int			sig_prot_cap;
 	int			sig_guard_cap;
 	struct ib_odp_caps	odp_caps;
 	uint64_t		timestamp_mask;
 	uint64_t		hca_core_clock; /* in KHZ */
 	struct ib_rss_caps	rss_caps;
 	u32			max_wq_type_rq;
 };
 
 enum ib_mtu {
 	IB_MTU_256  = 1,
 	IB_MTU_512  = 2,
 	IB_MTU_1024 = 3,
 	IB_MTU_2048 = 4,
 	IB_MTU_4096 = 5
 };
 
 static inline int ib_mtu_enum_to_int(enum ib_mtu mtu)
 {
 	switch (mtu) {
 	case IB_MTU_256:  return  256;
 	case IB_MTU_512:  return  512;
 	case IB_MTU_1024: return 1024;
 	case IB_MTU_2048: return 2048;
 	case IB_MTU_4096: return 4096;
 	default: 	  return -1;
 	}
 }
 
 enum ib_port_state {
 	IB_PORT_NOP		= 0,
 	IB_PORT_DOWN		= 1,
 	IB_PORT_INIT		= 2,
 	IB_PORT_ARMED		= 3,
 	IB_PORT_ACTIVE		= 4,
 	IB_PORT_ACTIVE_DEFER	= 5,
 	IB_PORT_DUMMY		= -1,	/* force enum signed */
 };
 
 enum ib_port_cap_flags {
 	IB_PORT_SM				= 1 <<  1,
 	IB_PORT_NOTICE_SUP			= 1 <<  2,
 	IB_PORT_TRAP_SUP			= 1 <<  3,
 	IB_PORT_OPT_IPD_SUP                     = 1 <<  4,
 	IB_PORT_AUTO_MIGR_SUP			= 1 <<  5,
 	IB_PORT_SL_MAP_SUP			= 1 <<  6,
 	IB_PORT_MKEY_NVRAM			= 1 <<  7,
 	IB_PORT_PKEY_NVRAM			= 1 <<  8,
 	IB_PORT_LED_INFO_SUP			= 1 <<  9,
 	IB_PORT_SM_DISABLED			= 1 << 10,
 	IB_PORT_SYS_IMAGE_GUID_SUP		= 1 << 11,
 	IB_PORT_PKEY_SW_EXT_PORT_TRAP_SUP	= 1 << 12,
 	IB_PORT_EXTENDED_SPEEDS_SUP             = 1 << 14,
 	IB_PORT_CM_SUP				= 1 << 16,
 	IB_PORT_SNMP_TUNNEL_SUP			= 1 << 17,
 	IB_PORT_REINIT_SUP			= 1 << 18,
 	IB_PORT_DEVICE_MGMT_SUP			= 1 << 19,
 	IB_PORT_VENDOR_CLASS_SUP		= 1 << 20,
 	IB_PORT_DR_NOTICE_SUP			= 1 << 21,
 	IB_PORT_CAP_MASK_NOTICE_SUP		= 1 << 22,
 	IB_PORT_BOOT_MGMT_SUP			= 1 << 23,
 	IB_PORT_LINK_LATENCY_SUP		= 1 << 24,
 	IB_PORT_CLIENT_REG_SUP			= 1 << 25,
 	IB_PORT_IP_BASED_GIDS			= 1 << 26,
 };
 
+enum ib_port_phys_state {
+	IB_PORT_PHYS_STATE_SLEEP = 1,
+	IB_PORT_PHYS_STATE_POLLING = 2,
+	IB_PORT_PHYS_STATE_DISABLED = 3,
+	IB_PORT_PHYS_STATE_PORT_CONFIGURATION_TRAINING = 4,
+	IB_PORT_PHYS_STATE_LINK_UP = 5,
+	IB_PORT_PHYS_STATE_LINK_ERROR_RECOVERY = 6,
+	IB_PORT_PHYS_STATE_PHY_TEST = 7,
+};
+
 enum ib_port_width {
 	IB_WIDTH_1X	= 1,
 	IB_WIDTH_2X	= 16,
 	IB_WIDTH_4X	= 2,
 	IB_WIDTH_8X	= 4,
 	IB_WIDTH_12X	= 8
 };
 
 static inline int ib_width_enum_to_int(enum ib_port_width width)
 {
 	switch (width) {
 	case IB_WIDTH_1X:  return  1;
 	case IB_WIDTH_2X:  return  2;
 	case IB_WIDTH_4X:  return  4;
 	case IB_WIDTH_8X:  return  8;
 	case IB_WIDTH_12X: return 12;
 	default: 	  return -1;
 	}
 }
 
 enum ib_port_speed {
 	IB_SPEED_SDR	= 1,
 	IB_SPEED_DDR	= 2,
 	IB_SPEED_QDR	= 4,
 	IB_SPEED_FDR10	= 8,
 	IB_SPEED_FDR	= 16,
 	IB_SPEED_EDR	= 32,
 	IB_SPEED_HDR	= 64
 };
 
 /**
  * struct rdma_hw_stats
  * @timestamp - Used by the core code to track when the last update was
  * @lifespan - Used by the core code to determine how old the counters
  *   should be before being updated again.  Stored in jiffies, defaults
  *   to 10 milliseconds, drivers can override the default be specifying
  *   their own value during their allocation routine.
  * @name - Array of pointers to static names used for the counters in
  *   directory.
  * @num_counters - How many hardware counters there are.  If name is
  *   shorter than this number, a kernel oops will result.  Driver authors
  *   are encouraged to leave BUILD_BUG_ON(ARRAY_SIZE(@name) < num_counters)
  *   in their code to prevent this.
  * @value - Array of u64 counters that are accessed by the sysfs code and
  *   filled in by the drivers get_stats routine
  */
 struct rdma_hw_stats {
 	unsigned long	timestamp;
 	unsigned long	lifespan;
 	const char * const *names;
 	int		num_counters;
 	u64		value[];
 };
 
 #define RDMA_HW_STATS_DEFAULT_LIFESPAN 10
 /**
  * rdma_alloc_hw_stats_struct - Helper function to allocate dynamic struct
  *   for drivers.
  * @names - Array of static const char *
  * @num_counters - How many elements in array
  * @lifespan - How many milliseconds between updates
  */
 static inline struct rdma_hw_stats *rdma_alloc_hw_stats_struct(
 		const char * const *names, int num_counters,
 		unsigned long lifespan)
 {
 	struct rdma_hw_stats *stats;
 
 	stats = kzalloc(sizeof(*stats) + num_counters * sizeof(u64),
 			GFP_KERNEL);
 	if (!stats)
 		return NULL;
 	stats->names = names;
 	stats->num_counters = num_counters;
 	stats->lifespan = msecs_to_jiffies(lifespan);
 
 	return stats;
 }
 
 
 /* Define bits for the various functionality this port needs to be supported by
  * the core.
  */
 /* Management                           0x00000FFF */
 #define RDMA_CORE_CAP_IB_MAD            0x00000001
 #define RDMA_CORE_CAP_IB_SMI            0x00000002
 #define RDMA_CORE_CAP_IB_CM             0x00000004
 #define RDMA_CORE_CAP_IW_CM             0x00000008
 #define RDMA_CORE_CAP_IB_SA             0x00000010
 #define RDMA_CORE_CAP_OPA_MAD           0x00000020
 
 /* Address format                       0x000FF000 */
 #define RDMA_CORE_CAP_AF_IB             0x00001000
 #define RDMA_CORE_CAP_ETH_AH            0x00002000
 
 /* Protocol                             0xFFF00000 */
 #define RDMA_CORE_CAP_PROT_IB           0x00100000
 #define RDMA_CORE_CAP_PROT_ROCE         0x00200000
 #define RDMA_CORE_CAP_PROT_IWARP        0x00400000
 #define RDMA_CORE_CAP_PROT_ROCE_UDP_ENCAP 0x00800000
 
 #define RDMA_CORE_PORT_IBA_IB          (RDMA_CORE_CAP_PROT_IB  \
 					| RDMA_CORE_CAP_IB_MAD \
 					| RDMA_CORE_CAP_IB_SMI \
 					| RDMA_CORE_CAP_IB_CM  \
 					| RDMA_CORE_CAP_IB_SA  \
 					| RDMA_CORE_CAP_AF_IB)
 #define RDMA_CORE_PORT_IBA_ROCE        (RDMA_CORE_CAP_PROT_ROCE \
 					| RDMA_CORE_CAP_IB_MAD  \
 					| RDMA_CORE_CAP_IB_CM   \
 					| RDMA_CORE_CAP_AF_IB   \
 					| RDMA_CORE_CAP_ETH_AH)
 #define RDMA_CORE_PORT_IBA_ROCE_UDP_ENCAP			\
 					(RDMA_CORE_CAP_PROT_ROCE_UDP_ENCAP \
 					| RDMA_CORE_CAP_IB_MAD  \
 					| RDMA_CORE_CAP_IB_CM   \
 					| RDMA_CORE_CAP_AF_IB   \
 					| RDMA_CORE_CAP_ETH_AH)
 #define RDMA_CORE_PORT_IWARP           (RDMA_CORE_CAP_PROT_IWARP \
 					| RDMA_CORE_CAP_IW_CM)
 #define RDMA_CORE_PORT_INTEL_OPA       (RDMA_CORE_PORT_IBA_IB  \
 					| RDMA_CORE_CAP_OPA_MAD)
 
 struct ib_port_attr {
 	u64			subnet_prefix;
 	enum ib_port_state	state;
 	enum ib_mtu		max_mtu;
 	enum ib_mtu		active_mtu;
 	int			gid_tbl_len;
 	u32			port_cap_flags;
 	u32			max_msg_sz;
 	u32			bad_pkey_cntr;
 	u32			qkey_viol_cntr;
 	u16			pkey_tbl_len;
 	u16			lid;
 	u16			sm_lid;
 	u8			lmc;
 	u8			max_vl_num;
 	u8			sm_sl;
 	u8			subnet_timeout;
 	u8			init_type_reply;
 	u8			active_width;
 	u8			active_speed;
 	u8                      phys_state;
 	bool			grh_required;
 };
 
 enum ib_device_modify_flags {
 	IB_DEVICE_MODIFY_SYS_IMAGE_GUID	= 1 << 0,
 	IB_DEVICE_MODIFY_NODE_DESC	= 1 << 1
 };
 
 #define IB_DEVICE_NODE_DESC_MAX 64
 
 struct ib_device_modify {
 	u64	sys_image_guid;
 	char	node_desc[IB_DEVICE_NODE_DESC_MAX];
 };
 
 enum ib_port_modify_flags {
 	IB_PORT_SHUTDOWN		= 1,
 	IB_PORT_INIT_TYPE		= (1<<2),
 	IB_PORT_RESET_QKEY_CNTR		= (1<<3)
 };
 
 struct ib_port_modify {
 	u32	set_port_cap_mask;
 	u32	clr_port_cap_mask;
 	u8	init_type;
 };
 
 enum ib_event_type {
 	IB_EVENT_CQ_ERR,
 	IB_EVENT_QP_FATAL,
 	IB_EVENT_QP_REQ_ERR,
 	IB_EVENT_QP_ACCESS_ERR,
 	IB_EVENT_COMM_EST,
 	IB_EVENT_SQ_DRAINED,
 	IB_EVENT_PATH_MIG,
 	IB_EVENT_PATH_MIG_ERR,
 	IB_EVENT_DEVICE_FATAL,
 	IB_EVENT_PORT_ACTIVE,
 	IB_EVENT_PORT_ERR,
 	IB_EVENT_LID_CHANGE,
 	IB_EVENT_PKEY_CHANGE,
 	IB_EVENT_SM_CHANGE,
 	IB_EVENT_SRQ_ERR,
 	IB_EVENT_SRQ_LIMIT_REACHED,
 	IB_EVENT_QP_LAST_WQE_REACHED,
 	IB_EVENT_CLIENT_REREGISTER,
 	IB_EVENT_GID_CHANGE,
 	IB_EVENT_WQ_FATAL,
 };
 
 const char *__attribute_const__ ib_event_msg(enum ib_event_type event);
 
 struct ib_event {
 	struct ib_device	*device;
 	union {
 		struct ib_cq	*cq;
 		struct ib_qp	*qp;
 		struct ib_srq	*srq;
 		struct ib_wq	*wq;
 		u8		port_num;
 	} element;
 	enum ib_event_type	event;
 };
 
 struct ib_event_handler {
 	struct ib_device *device;
 	void            (*handler)(struct ib_event_handler *, struct ib_event *);
 	struct list_head  list;
 };
 
 #define INIT_IB_EVENT_HANDLER(_ptr, _device, _handler)		\
 	do {							\
 		(_ptr)->device  = _device;			\
 		(_ptr)->handler = _handler;			\
 		INIT_LIST_HEAD(&(_ptr)->list);			\
 	} while (0)
 
 struct ib_global_route {
 	union ib_gid	dgid;
 	u32		flow_label;
 	u8		sgid_index;
 	u8		hop_limit;
 	u8		traffic_class;
 };
 
 struct ib_grh {
 	__be32		version_tclass_flow;
 	__be16		paylen;
 	u8		next_hdr;
 	u8		hop_limit;
 	union ib_gid	sgid;
 	union ib_gid	dgid;
 };
 
 union rdma_network_hdr {
 	struct ib_grh ibgrh;
 	struct {
 		/* The IB spec states that if it's IPv4, the header
 		 * is located in the last 20 bytes of the header.
 		 */
 		u8		reserved[20];
 		struct ip	roce4grh;
 	};
 };
 
 enum {
 	IB_MULTICAST_QPN = 0xffffff
 };
 
 #define IB_LID_PERMISSIVE	cpu_to_be16(0xFFFF)
 #define IB_MULTICAST_LID_BASE	cpu_to_be16(0xC000)
 
 enum ib_ah_flags {
 	IB_AH_GRH	= 1
 };
 
 enum ib_rate {
 	IB_RATE_PORT_CURRENT = 0,
 	IB_RATE_2_5_GBPS = 2,
 	IB_RATE_5_GBPS   = 5,
 	IB_RATE_10_GBPS  = 3,
 	IB_RATE_20_GBPS  = 6,
 	IB_RATE_30_GBPS  = 4,
 	IB_RATE_40_GBPS  = 7,
 	IB_RATE_60_GBPS  = 8,
 	IB_RATE_80_GBPS  = 9,
 	IB_RATE_120_GBPS = 10,
 	IB_RATE_14_GBPS  = 11,
 	IB_RATE_56_GBPS  = 12,
 	IB_RATE_112_GBPS = 13,
 	IB_RATE_168_GBPS = 14,
 	IB_RATE_25_GBPS  = 15,
 	IB_RATE_100_GBPS = 16,
 	IB_RATE_200_GBPS = 17,
 	IB_RATE_300_GBPS = 18,
 	IB_RATE_28_GBPS  = 19,
 	IB_RATE_50_GBPS  = 20,
 	IB_RATE_400_GBPS = 21,
 	IB_RATE_600_GBPS = 22,
 };
 
 /**
  * ib_rate_to_mult - Convert the IB rate enum to a multiple of the
  * base rate of 2.5 Gbit/sec.  For example, IB_RATE_5_GBPS will be
  * converted to 2, since 5 Gbit/sec is 2 * 2.5 Gbit/sec.
  * @rate: rate to convert.
  */
 __attribute_const__ int ib_rate_to_mult(enum ib_rate rate);
 
 /**
  * ib_rate_to_mbps - Convert the IB rate enum to Mbps.
  * For example, IB_RATE_2_5_GBPS will be converted to 2500.
  * @rate: rate to convert.
  */
 __attribute_const__ int ib_rate_to_mbps(enum ib_rate rate);
 
 
 /**
  * enum ib_mr_type - memory region type
  * @IB_MR_TYPE_MEM_REG:       memory region that is used for
  *                            normal registration
  * @IB_MR_TYPE_SIGNATURE:     memory region that is used for
  *                            signature operations (data-integrity
  *                            capable regions)
  * @IB_MR_TYPE_SG_GAPS:       memory region that is capable to
  *                            register any arbitrary sg lists (without
  *                            the normal mr constraints - see
  *                            ib_map_mr_sg)
  */
 enum ib_mr_type {
 	IB_MR_TYPE_MEM_REG,
 	IB_MR_TYPE_SIGNATURE,
 	IB_MR_TYPE_SG_GAPS,
 };
 
 /**
  * Signature types
  * IB_SIG_TYPE_NONE: Unprotected.
  * IB_SIG_TYPE_T10_DIF: Type T10-DIF
  */
 enum ib_signature_type {
 	IB_SIG_TYPE_NONE,
 	IB_SIG_TYPE_T10_DIF,
 };
 
 /**
  * Signature T10-DIF block-guard types
  * IB_T10DIF_CRC: Corresponds to T10-PI mandated CRC checksum rules.
  * IB_T10DIF_CSUM: Corresponds to IP checksum rules.
  */
 enum ib_t10_dif_bg_type {
 	IB_T10DIF_CRC,
 	IB_T10DIF_CSUM
 };
 
 /**
  * struct ib_t10_dif_domain - Parameters specific for T10-DIF
  *     domain.
  * @bg_type: T10-DIF block guard type (CRC|CSUM)
  * @pi_interval: protection information interval.
  * @bg: seed of guard computation.
  * @app_tag: application tag of guard block
  * @ref_tag: initial guard block reference tag.
  * @ref_remap: Indicate wethear the reftag increments each block
  * @app_escape: Indicate to skip block check if apptag=0xffff
  * @ref_escape: Indicate to skip block check if reftag=0xffffffff
  * @apptag_check_mask: check bitmask of application tag.
  */
 struct ib_t10_dif_domain {
 	enum ib_t10_dif_bg_type bg_type;
 	u16			pi_interval;
 	u16			bg;
 	u16			app_tag;
 	u32			ref_tag;
 	bool			ref_remap;
 	bool			app_escape;
 	bool			ref_escape;
 	u16			apptag_check_mask;
 };
 
 /**
  * struct ib_sig_domain - Parameters for signature domain
  * @sig_type: specific signauture type
  * @sig: union of all signature domain attributes that may
  *     be used to set domain layout.
  */
 struct ib_sig_domain {
 	enum ib_signature_type sig_type;
 	union {
 		struct ib_t10_dif_domain dif;
 	} sig;
 };
 
 /**
  * struct ib_sig_attrs - Parameters for signature handover operation
  * @check_mask: bitmask for signature byte check (8 bytes)
  * @mem: memory domain layout desciptor.
  * @wire: wire domain layout desciptor.
  */
 struct ib_sig_attrs {
 	u8			check_mask;
 	struct ib_sig_domain	mem;
 	struct ib_sig_domain	wire;
 };
 
 enum ib_sig_err_type {
 	IB_SIG_BAD_GUARD,
 	IB_SIG_BAD_REFTAG,
 	IB_SIG_BAD_APPTAG,
 };
 
 /**
  * struct ib_sig_err - signature error descriptor
  */
 struct ib_sig_err {
 	enum ib_sig_err_type	err_type;
 	u32			expected;
 	u32			actual;
 	u64			sig_err_offset;
 	u32			key;
 };
 
 enum ib_mr_status_check {
 	IB_MR_CHECK_SIG_STATUS = 1,
 };
 
 /**
  * struct ib_mr_status - Memory region status container
  *
  * @fail_status: Bitmask of MR checks status. For each
  *     failed check a corresponding status bit is set.
  * @sig_err: Additional info for IB_MR_CEHCK_SIG_STATUS
  *     failure.
  */
 struct ib_mr_status {
 	u32		    fail_status;
 	struct ib_sig_err   sig_err;
 };
 
 /**
  * mult_to_ib_rate - Convert a multiple of 2.5 Gbit/sec to an IB rate
  * enum.
  * @mult: multiple to convert.
  */
 __attribute_const__ enum ib_rate mult_to_ib_rate(int mult);
 
 struct ib_ah_attr {
 	struct ib_global_route	grh;
 	u16			dlid;
 	u8			sl;
 	u8			src_path_bits;
 	u8			static_rate;
 	u8			ah_flags;
 	u8			port_num;
 	u8			dmac[ETH_ALEN];
 };
 
 enum ib_wc_status {
 	IB_WC_SUCCESS,
 	IB_WC_LOC_LEN_ERR,
 	IB_WC_LOC_QP_OP_ERR,
 	IB_WC_LOC_EEC_OP_ERR,
 	IB_WC_LOC_PROT_ERR,
 	IB_WC_WR_FLUSH_ERR,
 	IB_WC_MW_BIND_ERR,
 	IB_WC_BAD_RESP_ERR,
 	IB_WC_LOC_ACCESS_ERR,
 	IB_WC_REM_INV_REQ_ERR,
 	IB_WC_REM_ACCESS_ERR,
 	IB_WC_REM_OP_ERR,
 	IB_WC_RETRY_EXC_ERR,
 	IB_WC_RNR_RETRY_EXC_ERR,
 	IB_WC_LOC_RDD_VIOL_ERR,
 	IB_WC_REM_INV_RD_REQ_ERR,
 	IB_WC_REM_ABORT_ERR,
 	IB_WC_INV_EECN_ERR,
 	IB_WC_INV_EEC_STATE_ERR,
 	IB_WC_FATAL_ERR,
 	IB_WC_RESP_TIMEOUT_ERR,
 	IB_WC_GENERAL_ERR
 };
 
 const char *__attribute_const__ ib_wc_status_msg(enum ib_wc_status status);
 
 enum ib_wc_opcode {
 	IB_WC_SEND,
 	IB_WC_RDMA_WRITE,
 	IB_WC_RDMA_READ,
 	IB_WC_COMP_SWAP,
 	IB_WC_FETCH_ADD,
 	IB_WC_LSO,
 	IB_WC_LOCAL_INV,
 	IB_WC_REG_MR,
 	IB_WC_MASKED_COMP_SWAP,
 	IB_WC_MASKED_FETCH_ADD,
 /*
  * Set value of IB_WC_RECV so consumers can test if a completion is a
  * receive by testing (opcode & IB_WC_RECV).
  */
 	IB_WC_RECV			= 1 << 7,
 	IB_WC_RECV_RDMA_WITH_IMM,
 	IB_WC_DUMMY = -1,	/* force enum signed */
 };
 
 enum ib_wc_flags {
 	IB_WC_GRH		= 1,
 	IB_WC_WITH_IMM		= (1<<1),
 	IB_WC_WITH_INVALIDATE	= (1<<2),
 	IB_WC_IP_CSUM_OK	= (1<<3),
 	IB_WC_WITH_SMAC		= (1<<4),
 	IB_WC_WITH_VLAN		= (1<<5),
 	IB_WC_WITH_NETWORK_HDR_TYPE	= (1<<6),
 };
 
 struct ib_wc {
 	union {
 		u64		wr_id;
 		struct ib_cqe	*wr_cqe;
 	};
 	enum ib_wc_status	status;
 	enum ib_wc_opcode	opcode;
 	u32			vendor_err;
 	u32			byte_len;
 	struct ib_qp	       *qp;
 	union {
 		__be32		imm_data;
 		u32		invalidate_rkey;
 	} ex;
 	u32			src_qp;
 	int			wc_flags;
 	u16			pkey_index;
 	u16			slid;
 	u8			sl;
 	u8			dlid_path_bits;
 	u8			port_num;	/* valid only for DR SMPs on switches */
 	u8			smac[ETH_ALEN];
 	u16			vlan_id;
 	u8			network_hdr_type;
 };
 
 enum ib_cq_notify_flags {
 	IB_CQ_SOLICITED			= 1 << 0,
 	IB_CQ_NEXT_COMP			= 1 << 1,
 	IB_CQ_SOLICITED_MASK		= IB_CQ_SOLICITED | IB_CQ_NEXT_COMP,
 	IB_CQ_REPORT_MISSED_EVENTS	= 1 << 2,
 };
 
 enum ib_srq_type {
 	IB_SRQT_BASIC,
 	IB_SRQT_XRC
 };
 
 enum ib_srq_attr_mask {
 	IB_SRQ_MAX_WR	= 1 << 0,
 	IB_SRQ_LIMIT	= 1 << 1,
 };
 
 struct ib_srq_attr {
 	u32	max_wr;
 	u32	max_sge;
 	u32	srq_limit;
 };
 
 struct ib_srq_init_attr {
 	void		      (*event_handler)(struct ib_event *, void *);
 	void		       *srq_context;
 	struct ib_srq_attr	attr;
 	enum ib_srq_type	srq_type;
 
 	union {
 		struct {
 			struct ib_xrcd *xrcd;
 			struct ib_cq   *cq;
 		} xrc;
 	} ext;
 };
 
 struct ib_qp_cap {
 	u32	max_send_wr;
 	u32	max_recv_wr;
 	u32	max_send_sge;
 	u32	max_recv_sge;
 	u32	max_inline_data;
 
 	/*
 	 * Maximum number of rdma_rw_ctx structures in flight at a time.
 	 * ib_create_qp() will calculate the right amount of neededed WRs
 	 * and MRs based on this.
 	 */
 	u32	max_rdma_ctxs;
 };
 
 enum ib_sig_type {
 	IB_SIGNAL_ALL_WR,
 	IB_SIGNAL_REQ_WR
 };
 
 enum ib_qp_type {
 	/*
 	 * IB_QPT_SMI and IB_QPT_GSI have to be the first two entries
 	 * here (and in that order) since the MAD layer uses them as
 	 * indices into a 2-entry table.
 	 */
 	IB_QPT_SMI,
 	IB_QPT_GSI,
 
 	IB_QPT_RC,
 	IB_QPT_UC,
 	IB_QPT_UD,
 	IB_QPT_RAW_IPV6,
 	IB_QPT_RAW_ETHERTYPE,
 	IB_QPT_RAW_PACKET = 8,
 	IB_QPT_XRC_INI = 9,
 	IB_QPT_XRC_TGT,
 	IB_QPT_MAX,
 	/* Reserve a range for qp types internal to the low level driver.
 	 * These qp types will not be visible at the IB core layer, so the
 	 * IB_QPT_MAX usages should not be affected in the core layer
 	 */
 	IB_QPT_RESERVED1 = 0x1000,
 	IB_QPT_RESERVED2,
 	IB_QPT_RESERVED3,
 	IB_QPT_RESERVED4,
 	IB_QPT_RESERVED5,
 	IB_QPT_RESERVED6,
 	IB_QPT_RESERVED7,
 	IB_QPT_RESERVED8,
 	IB_QPT_RESERVED9,
 	IB_QPT_RESERVED10,
 };
 
 enum ib_qp_create_flags {
 	IB_QP_CREATE_IPOIB_UD_LSO		= 1 << 0,
 	IB_QP_CREATE_BLOCK_MULTICAST_LOOPBACK	= 1 << 1,
 	IB_QP_CREATE_CROSS_CHANNEL              = 1 << 2,
 	IB_QP_CREATE_MANAGED_SEND               = 1 << 3,
 	IB_QP_CREATE_MANAGED_RECV               = 1 << 4,
 	IB_QP_CREATE_NETIF_QP			= 1 << 5,
 	IB_QP_CREATE_SIGNATURE_EN		= 1 << 6,
 	IB_QP_CREATE_USE_GFP_NOIO		= 1 << 7,
 	IB_QP_CREATE_SCATTER_FCS		= 1 << 8,
 	/* reserve bits 26-31 for low level drivers' internal use */
 	IB_QP_CREATE_RESERVED_START		= 1 << 26,
 	IB_QP_CREATE_RESERVED_END		= 1 << 31,
 };
 
 /*
  * Note: users may not call ib_close_qp or ib_destroy_qp from the event_handler
  * callback to destroy the passed in QP.
  */
 
 struct ib_qp_init_attr {
 	void                  (*event_handler)(struct ib_event *, void *);
 	void		       *qp_context;
 	struct ib_cq	       *send_cq;
 	struct ib_cq	       *recv_cq;
 	struct ib_srq	       *srq;
 	struct ib_xrcd	       *xrcd;     /* XRC TGT QPs only */
 	struct ib_qp_cap	cap;
 	enum ib_sig_type	sq_sig_type;
 	enum ib_qp_type		qp_type;
 	enum ib_qp_create_flags	create_flags;
 
 	/*
 	 * Only needed for special QP types, or when using the RW API.
 	 */
 	u8			port_num;
 	struct ib_rwq_ind_table *rwq_ind_tbl;
 };
 
 struct ib_qp_open_attr {
 	void                  (*event_handler)(struct ib_event *, void *);
 	void		       *qp_context;
 	u32			qp_num;
 	enum ib_qp_type		qp_type;
 };
 
 enum ib_rnr_timeout {
 	IB_RNR_TIMER_655_36 =  0,
 	IB_RNR_TIMER_000_01 =  1,
 	IB_RNR_TIMER_000_02 =  2,
 	IB_RNR_TIMER_000_03 =  3,
 	IB_RNR_TIMER_000_04 =  4,
 	IB_RNR_TIMER_000_06 =  5,
 	IB_RNR_TIMER_000_08 =  6,
 	IB_RNR_TIMER_000_12 =  7,
 	IB_RNR_TIMER_000_16 =  8,
 	IB_RNR_TIMER_000_24 =  9,
 	IB_RNR_TIMER_000_32 = 10,
 	IB_RNR_TIMER_000_48 = 11,
 	IB_RNR_TIMER_000_64 = 12,
 	IB_RNR_TIMER_000_96 = 13,
 	IB_RNR_TIMER_001_28 = 14,
 	IB_RNR_TIMER_001_92 = 15,
 	IB_RNR_TIMER_002_56 = 16,
 	IB_RNR_TIMER_003_84 = 17,
 	IB_RNR_TIMER_005_12 = 18,
 	IB_RNR_TIMER_007_68 = 19,
 	IB_RNR_TIMER_010_24 = 20,
 	IB_RNR_TIMER_015_36 = 21,
 	IB_RNR_TIMER_020_48 = 22,
 	IB_RNR_TIMER_030_72 = 23,
 	IB_RNR_TIMER_040_96 = 24,
 	IB_RNR_TIMER_061_44 = 25,
 	IB_RNR_TIMER_081_92 = 26,
 	IB_RNR_TIMER_122_88 = 27,
 	IB_RNR_TIMER_163_84 = 28,
 	IB_RNR_TIMER_245_76 = 29,
 	IB_RNR_TIMER_327_68 = 30,
 	IB_RNR_TIMER_491_52 = 31
 };
 
 enum ib_qp_attr_mask {
 	IB_QP_STATE			= 1,
 	IB_QP_CUR_STATE			= (1<<1),
 	IB_QP_EN_SQD_ASYNC_NOTIFY	= (1<<2),
 	IB_QP_ACCESS_FLAGS		= (1<<3),
 	IB_QP_PKEY_INDEX		= (1<<4),
 	IB_QP_PORT			= (1<<5),
 	IB_QP_QKEY			= (1<<6),
 	IB_QP_AV			= (1<<7),
 	IB_QP_PATH_MTU			= (1<<8),
 	IB_QP_TIMEOUT			= (1<<9),
 	IB_QP_RETRY_CNT			= (1<<10),
 	IB_QP_RNR_RETRY			= (1<<11),
 	IB_QP_RQ_PSN			= (1<<12),
 	IB_QP_MAX_QP_RD_ATOMIC		= (1<<13),
 	IB_QP_ALT_PATH			= (1<<14),
 	IB_QP_MIN_RNR_TIMER		= (1<<15),
 	IB_QP_SQ_PSN			= (1<<16),
 	IB_QP_MAX_DEST_RD_ATOMIC	= (1<<17),
 	IB_QP_PATH_MIG_STATE		= (1<<18),
 	IB_QP_CAP			= (1<<19),
 	IB_QP_DEST_QPN			= (1<<20),
 	IB_QP_RESERVED1			= (1<<21),
 	IB_QP_RESERVED2			= (1<<22),
 	IB_QP_RESERVED3			= (1<<23),
 	IB_QP_RESERVED4			= (1<<24),
 };
 
 enum ib_qp_state {
 	IB_QPS_RESET,
 	IB_QPS_INIT,
 	IB_QPS_RTR,
 	IB_QPS_RTS,
 	IB_QPS_SQD,
 	IB_QPS_SQE,
 	IB_QPS_ERR,
 	IB_QPS_DUMMY = -1,	/* force enum signed */
 };
 
 enum ib_mig_state {
 	IB_MIG_MIGRATED,
 	IB_MIG_REARM,
 	IB_MIG_ARMED
 };
 
 enum ib_mw_type {
 	IB_MW_TYPE_1 = 1,
 	IB_MW_TYPE_2 = 2
 };
 
 struct ib_qp_attr {
 	enum ib_qp_state	qp_state;
 	enum ib_qp_state	cur_qp_state;
 	enum ib_mtu		path_mtu;
 	enum ib_mig_state	path_mig_state;
 	u32			qkey;
 	u32			rq_psn;
 	u32			sq_psn;
 	u32			dest_qp_num;
 	int			qp_access_flags;
 	struct ib_qp_cap	cap;
 	struct ib_ah_attr	ah_attr;
 	struct ib_ah_attr	alt_ah_attr;
 	u16			pkey_index;
 	u16			alt_pkey_index;
 	u8			en_sqd_async_notify;
 	u8			sq_draining;
 	u8			max_rd_atomic;
 	u8			max_dest_rd_atomic;
 	u8			min_rnr_timer;
 	u8			port_num;
 	u8			timeout;
 	u8			retry_cnt;
 	u8			rnr_retry;
 	u8			alt_port_num;
 	u8			alt_timeout;
 };
 
 enum ib_wr_opcode {
 	IB_WR_RDMA_WRITE,
 	IB_WR_RDMA_WRITE_WITH_IMM,
 	IB_WR_SEND,
 	IB_WR_SEND_WITH_IMM,
 	IB_WR_RDMA_READ,
 	IB_WR_ATOMIC_CMP_AND_SWP,
 	IB_WR_ATOMIC_FETCH_AND_ADD,
 	IB_WR_LSO,
 	IB_WR_SEND_WITH_INV,
 	IB_WR_RDMA_READ_WITH_INV,
 	IB_WR_LOCAL_INV,
 	IB_WR_REG_MR,
 	IB_WR_MASKED_ATOMIC_CMP_AND_SWP,
 	IB_WR_MASKED_ATOMIC_FETCH_AND_ADD,
 	IB_WR_REG_SIG_MR,
 	/* reserve values for low level drivers' internal use.
 	 * These values will not be used at all in the ib core layer.
 	 */
 	IB_WR_RESERVED1 = 0xf0,
 	IB_WR_RESERVED2,
 	IB_WR_RESERVED3,
 	IB_WR_RESERVED4,
 	IB_WR_RESERVED5,
 	IB_WR_RESERVED6,
 	IB_WR_RESERVED7,
 	IB_WR_RESERVED8,
 	IB_WR_RESERVED9,
 	IB_WR_RESERVED10,
 	IB_WR_DUMMY = -1,	/* force enum signed */
 };
 
 enum ib_send_flags {
 	IB_SEND_FENCE		= 1,
 	IB_SEND_SIGNALED	= (1<<1),
 	IB_SEND_SOLICITED	= (1<<2),
 	IB_SEND_INLINE		= (1<<3),
 	IB_SEND_IP_CSUM		= (1<<4),
 
 	/* reserve bits 26-31 for low level drivers' internal use */
 	IB_SEND_RESERVED_START	= (1 << 26),
 	IB_SEND_RESERVED_END	= (1 << 31),
 };
 
 struct ib_sge {
 	u64	addr;
 	u32	length;
 	u32	lkey;
 };
 
 struct ib_cqe {
 	void (*done)(struct ib_cq *cq, struct ib_wc *wc);
 };
 
 struct ib_send_wr {
 	struct ib_send_wr      *next;
 	union {
 		u64		wr_id;
 		struct ib_cqe	*wr_cqe;
 	};
 	struct ib_sge	       *sg_list;
 	int			num_sge;
 	enum ib_wr_opcode	opcode;
 	int			send_flags;
 	union {
 		__be32		imm_data;
 		u32		invalidate_rkey;
 	} ex;
 };
 
 struct ib_rdma_wr {
 	struct ib_send_wr	wr;
 	u64			remote_addr;
 	u32			rkey;
 };
 
 static inline struct ib_rdma_wr *rdma_wr(struct ib_send_wr *wr)
 {
 	return container_of(wr, struct ib_rdma_wr, wr);
 }
 
 struct ib_atomic_wr {
 	struct ib_send_wr	wr;
 	u64			remote_addr;
 	u64			compare_add;
 	u64			swap;
 	u64			compare_add_mask;
 	u64			swap_mask;
 	u32			rkey;
 };
 
 static inline struct ib_atomic_wr *atomic_wr(struct ib_send_wr *wr)
 {
 	return container_of(wr, struct ib_atomic_wr, wr);
 }
 
 struct ib_ud_wr {
 	struct ib_send_wr	wr;
 	struct ib_ah		*ah;
 	void			*header;
 	int			hlen;
 	int			mss;
 	u32			remote_qpn;
 	u32			remote_qkey;
 	u16			pkey_index; /* valid for GSI only */
 	u8			port_num;   /* valid for DR SMPs on switch only */
 };
 
 static inline struct ib_ud_wr *ud_wr(struct ib_send_wr *wr)
 {
 	return container_of(wr, struct ib_ud_wr, wr);
 }
 
 struct ib_reg_wr {
 	struct ib_send_wr	wr;
 	struct ib_mr		*mr;
 	u32			key;
 	int			access;
 };
 
 static inline struct ib_reg_wr *reg_wr(struct ib_send_wr *wr)
 {
 	return container_of(wr, struct ib_reg_wr, wr);
 }
 
 struct ib_sig_handover_wr {
 	struct ib_send_wr	wr;
 	struct ib_sig_attrs    *sig_attrs;
 	struct ib_mr	       *sig_mr;
 	int			access_flags;
 	struct ib_sge	       *prot;
 };
 
 static inline struct ib_sig_handover_wr *sig_handover_wr(struct ib_send_wr *wr)
 {
 	return container_of(wr, struct ib_sig_handover_wr, wr);
 }
 
 struct ib_recv_wr {
 	struct ib_recv_wr      *next;
 	union {
 		u64		wr_id;
 		struct ib_cqe	*wr_cqe;
 	};
 	struct ib_sge	       *sg_list;
 	int			num_sge;
 };
 
 enum ib_access_flags {
 	IB_ACCESS_LOCAL_WRITE	= 1,
 	IB_ACCESS_REMOTE_WRITE	= (1<<1),
 	IB_ACCESS_REMOTE_READ	= (1<<2),
 	IB_ACCESS_REMOTE_ATOMIC	= (1<<3),
 	IB_ACCESS_MW_BIND	= (1<<4),
 	IB_ZERO_BASED		= (1<<5),
 	IB_ACCESS_ON_DEMAND     = (1<<6),
 };
 
 /*
  * XXX: these are apparently used for ->rereg_user_mr, no idea why they
  * are hidden here instead of a uapi header!
  */
 enum ib_mr_rereg_flags {
 	IB_MR_REREG_TRANS	= 1,
 	IB_MR_REREG_PD		= (1<<1),
 	IB_MR_REREG_ACCESS	= (1<<2),
 	IB_MR_REREG_SUPPORTED	= ((IB_MR_REREG_ACCESS << 1) - 1)
 };
 
 struct ib_fmr_attr {
 	int	max_pages;
 	int	max_maps;
 	u8	page_shift;
 };
 
 struct ib_umem;
 
 struct ib_ucontext {
 	struct ib_device       *device;
 	struct list_head	pd_list;
 	struct list_head	mr_list;
 	struct list_head	mw_list;
 	struct list_head	cq_list;
 	struct list_head	qp_list;
 	struct list_head	srq_list;
 	struct list_head	ah_list;
 	struct list_head	xrcd_list;
 	struct list_head	rule_list;
 	struct list_head	wq_list;
 	struct list_head	rwq_ind_tbl_list;
 	int			closing;
 
 	pid_t			tgid;
 #ifdef CONFIG_INFINIBAND_ON_DEMAND_PAGING
 	struct rb_root      umem_tree;
 	/*
 	 * Protects .umem_rbroot and tree, as well as odp_mrs_count and
 	 * mmu notifiers registration.
 	 */
 	struct rw_semaphore	umem_rwsem;
 	void (*invalidate_range)(struct ib_umem *umem,
 				 unsigned long start, unsigned long end);
 
 	struct mmu_notifier	mn;
 	atomic_t		notifier_count;
 	/* A list of umems that don't have private mmu notifier counters yet. */
 	struct list_head	no_private_counters;
 	int                     odp_mrs_count;
 #endif
 };
 
 struct ib_uobject {
 	u64			user_handle;	/* handle given to us by userspace */
 	struct ib_ucontext     *context;	/* associated user context */
 	void		       *object;		/* containing object */
 	struct list_head	list;		/* link to context's list */
 	int			id;		/* index into kernel idr */
 	struct kref		ref;
 	struct rw_semaphore	mutex;		/* protects .live */
 	struct rcu_head		rcu;		/* kfree_rcu() overhead */
 	int			live;
 };
 
 struct ib_udata {
 	const void __user *inbuf;
 	void __user *outbuf;
 	size_t       inlen;
 	size_t       outlen;
 };
 
 struct ib_pd {
 	u32			local_dma_lkey;
 	u32			flags;
 	struct ib_device       *device;
 	struct ib_uobject      *uobject;
 	atomic_t          	usecnt; /* count all resources */
 
 	u32			unsafe_global_rkey;
 
 	/*
 	 * Implementation details of the RDMA core, don't use in drivers:
 	 */
 	struct ib_mr	       *__internal_mr;
 };
 
 struct ib_xrcd {
 	struct ib_device       *device;
 	atomic_t		usecnt; /* count all exposed resources */
 	struct inode	       *inode;
 
 	struct mutex		tgt_qp_mutex;
 	struct list_head	tgt_qp_list;
 };
 
 struct ib_ah {
 	struct ib_device	*device;
 	struct ib_pd		*pd;
 	struct ib_uobject	*uobject;
 };
 
 typedef void (*ib_comp_handler)(struct ib_cq *cq, void *cq_context);
 
 enum ib_poll_context {
 	IB_POLL_DIRECT,		/* caller context, no hw completions */
 	IB_POLL_SOFTIRQ,	/* poll from softirq context */
 	IB_POLL_WORKQUEUE,	/* poll from workqueue */
 };
 
 struct ib_cq {
 	struct ib_device       *device;
 	struct ib_uobject      *uobject;
 	ib_comp_handler   	comp_handler;
 	void                  (*event_handler)(struct ib_event *, void *);
 	void                   *cq_context;
 	int               	cqe;
 	atomic_t          	usecnt; /* count number of work queues */
 	enum ib_poll_context	poll_ctx;
 	struct work_struct	work;
 };
 
 struct ib_srq {
 	struct ib_device       *device;
 	struct ib_pd	       *pd;
 	struct ib_uobject      *uobject;
 	void		      (*event_handler)(struct ib_event *, void *);
 	void		       *srq_context;
 	enum ib_srq_type	srq_type;
 	atomic_t		usecnt;
 
 	union {
 		struct {
 			struct ib_xrcd *xrcd;
 			struct ib_cq   *cq;
 			u32		srq_num;
 		} xrc;
 	} ext;
 };
 
 enum ib_wq_type {
 	IB_WQT_RQ
 };
 
 enum ib_wq_state {
 	IB_WQS_RESET,
 	IB_WQS_RDY,
 	IB_WQS_ERR
 };
 
 struct ib_wq {
 	struct ib_device       *device;
 	struct ib_uobject      *uobject;
 	void		    *wq_context;
 	void		    (*event_handler)(struct ib_event *, void *);
 	struct ib_pd	       *pd;
 	struct ib_cq	       *cq;
 	u32		wq_num;
 	enum ib_wq_state       state;
 	enum ib_wq_type	wq_type;
 	atomic_t		usecnt;
 };
 
 struct ib_wq_init_attr {
 	void		       *wq_context;
 	enum ib_wq_type	wq_type;
 	u32		max_wr;
 	u32		max_sge;
 	struct	ib_cq	       *cq;
 	void		    (*event_handler)(struct ib_event *, void *);
 };
 
 enum ib_wq_attr_mask {
 	IB_WQ_STATE	= 1 << 0,
 	IB_WQ_CUR_STATE	= 1 << 1,
 };
 
 struct ib_wq_attr {
 	enum	ib_wq_state	wq_state;
 	enum	ib_wq_state	curr_wq_state;
 };
 
 struct ib_rwq_ind_table {
 	struct ib_device	*device;
 	struct ib_uobject      *uobject;
 	atomic_t		usecnt;
 	u32		ind_tbl_num;
 	u32		log_ind_tbl_size;
 	struct ib_wq	**ind_tbl;
 };
 
 struct ib_rwq_ind_table_init_attr {
 	u32		log_ind_tbl_size;
 	/* Each entry is a pointer to Receive Work Queue */
 	struct ib_wq	**ind_tbl;
 };
 
 /*
  * @max_write_sge: Maximum SGE elements per RDMA WRITE request.
  * @max_read_sge:  Maximum SGE elements per RDMA READ request.
  */
 struct ib_qp {
 	struct ib_device       *device;
 	struct ib_pd	       *pd;
 	struct ib_cq	       *send_cq;
 	struct ib_cq	       *recv_cq;
 	spinlock_t		mr_lock;
 	struct ib_srq	       *srq;
 	struct ib_xrcd	       *xrcd; /* XRC TGT QPs only */
 	struct list_head	xrcd_list;
 
 	/* count times opened, mcast attaches, flow attaches */
 	atomic_t		usecnt;
 	struct list_head	open_list;
 	struct ib_qp           *real_qp;
 	struct ib_uobject      *uobject;
 	void                  (*event_handler)(struct ib_event *, void *);
 	void		       *qp_context;
 	u32			qp_num;
 	u32			max_write_sge;
 	u32			max_read_sge;
 	enum ib_qp_type		qp_type;
 	struct ib_rwq_ind_table *rwq_ind_tbl;
 };
 
 struct ib_mr {
 	struct ib_device  *device;
 	struct ib_pd	  *pd;
 	u32		   lkey;
 	u32		   rkey;
 	u64		   iova;
 	u64		   length;
 	unsigned int	   page_size;
 	bool		   need_inval;
 	union {
 		struct ib_uobject	*uobject;	/* user */
 		struct list_head	qp_entry;	/* FR */
 	};
 };
 
 struct ib_mw {
 	struct ib_device	*device;
 	struct ib_pd		*pd;
 	struct ib_uobject	*uobject;
 	u32			rkey;
 	enum ib_mw_type         type;
 };
 
 struct ib_fmr {
 	struct ib_device	*device;
 	struct ib_pd		*pd;
 	struct list_head	list;
 	u32			lkey;
 	u32			rkey;
 };
 
 /* Supported steering options */
 enum ib_flow_attr_type {
 	/* steering according to rule specifications */
 	IB_FLOW_ATTR_NORMAL		= 0x0,
 	/* default unicast and multicast rule -
 	 * receive all Eth traffic which isn't steered to any QP
 	 */
 	IB_FLOW_ATTR_ALL_DEFAULT	= 0x1,
 	/* default multicast rule -
 	 * receive all Eth multicast traffic which isn't steered to any QP
 	 */
 	IB_FLOW_ATTR_MC_DEFAULT		= 0x2,
 	/* sniffer rule - receive all port traffic */
 	IB_FLOW_ATTR_SNIFFER		= 0x3
 };
 
 /* Supported steering header types */
 enum ib_flow_spec_type {
 	/* L2 headers*/
 	IB_FLOW_SPEC_ETH	= 0x20,
 	IB_FLOW_SPEC_IB		= 0x22,
 	/* L3 header*/
 	IB_FLOW_SPEC_IPV4	= 0x30,
 	IB_FLOW_SPEC_IPV6	= 0x31,
 	/* L4 headers*/
 	IB_FLOW_SPEC_TCP	= 0x40,
 	IB_FLOW_SPEC_UDP	= 0x41
 };
 #define IB_FLOW_SPEC_LAYER_MASK	0xF0
 #define IB_FLOW_SPEC_SUPPORT_LAYERS 4
 
 /* Flow steering rule priority is set according to it's domain.
  * Lower domain value means higher priority.
  */
 enum ib_flow_domain {
 	IB_FLOW_DOMAIN_USER,
 	IB_FLOW_DOMAIN_ETHTOOL,
 	IB_FLOW_DOMAIN_RFS,
 	IB_FLOW_DOMAIN_NIC,
 	IB_FLOW_DOMAIN_NUM /* Must be last */
 };
 
 enum ib_flow_flags {
 	IB_FLOW_ATTR_FLAGS_DONT_TRAP = 1UL << 1, /* Continue match, no steal */
 	IB_FLOW_ATTR_FLAGS_RESERVED  = 1UL << 2  /* Must be last */
 };
 
 struct ib_flow_eth_filter {
 	u8	dst_mac[6];
 	u8	src_mac[6];
 	__be16	ether_type;
 	__be16	vlan_tag;
 	/* Must be last */
 	u8	real_sz[0];
 };
 
 struct ib_flow_spec_eth {
 	enum ib_flow_spec_type	  type;
 	u16			  size;
 	struct ib_flow_eth_filter val;
 	struct ib_flow_eth_filter mask;
 };
 
 struct ib_flow_ib_filter {
 	__be16 dlid;
 	__u8   sl;
 	/* Must be last */
 	u8	real_sz[0];
 };
 
 struct ib_flow_spec_ib {
 	enum ib_flow_spec_type	 type;
 	u16			 size;
 	struct ib_flow_ib_filter val;
 	struct ib_flow_ib_filter mask;
 };
 
 /* IPv4 header flags */
 enum ib_ipv4_flags {
 	IB_IPV4_DONT_FRAG = 0x2, /* Don't enable packet fragmentation */
 	IB_IPV4_MORE_FRAG = 0X4  /* For All fragmented packets except the
 				    last have this flag set */
 };
 
 struct ib_flow_ipv4_filter {
 	__be32	src_ip;
 	__be32	dst_ip;
 	u8	proto;
 	u8	tos;
 	u8	ttl;
 	u8	flags;
 	/* Must be last */
 	u8	real_sz[0];
 };
 
 struct ib_flow_spec_ipv4 {
 	enum ib_flow_spec_type	   type;
 	u16			   size;
 	struct ib_flow_ipv4_filter val;
 	struct ib_flow_ipv4_filter mask;
 };
 
 struct ib_flow_ipv6_filter {
 	u8	src_ip[16];
 	u8	dst_ip[16];
 	__be32	flow_label;
 	u8	next_hdr;
 	u8	traffic_class;
 	u8	hop_limit;
 	/* Must be last */
 	u8	real_sz[0];
 };
 
 struct ib_flow_spec_ipv6 {
 	enum ib_flow_spec_type	   type;
 	u16			   size;
 	struct ib_flow_ipv6_filter val;
 	struct ib_flow_ipv6_filter mask;
 };
 
 struct ib_flow_tcp_udp_filter {
 	__be16	dst_port;
 	__be16	src_port;
 	/* Must be last */
 	u8	real_sz[0];
 };
 
 struct ib_flow_spec_tcp_udp {
 	enum ib_flow_spec_type	      type;
 	u16			      size;
 	struct ib_flow_tcp_udp_filter val;
 	struct ib_flow_tcp_udp_filter mask;
 };
 
 union ib_flow_spec {
 	struct {
 		enum ib_flow_spec_type	type;
 		u16			size;
 	};
 	struct ib_flow_spec_eth		eth;
 	struct ib_flow_spec_ib		ib;
 	struct ib_flow_spec_ipv4        ipv4;
 	struct ib_flow_spec_tcp_udp	tcp_udp;
 	struct ib_flow_spec_ipv6        ipv6;
 };
 
 struct ib_flow_attr {
 	enum ib_flow_attr_type type;
 	u16	     size;
 	u16	     priority;
 	u32	     flags;
 	u8	     num_of_specs;
 	u8	     port;
 	/* Following are the optional layers according to user request
 	 * struct ib_flow_spec_xxx
 	 * struct ib_flow_spec_yyy
 	 */
 };
 
 struct ib_flow {
 	struct ib_qp		*qp;
 	struct ib_uobject	*uobject;
 };
 
 struct ib_mad_hdr;
 struct ib_grh;
 
 enum ib_process_mad_flags {
 	IB_MAD_IGNORE_MKEY	= 1,
 	IB_MAD_IGNORE_BKEY	= 2,
 	IB_MAD_IGNORE_ALL	= IB_MAD_IGNORE_MKEY | IB_MAD_IGNORE_BKEY
 };
 
 enum ib_mad_result {
 	IB_MAD_RESULT_FAILURE  = 0,      /* (!SUCCESS is the important flag) */
 	IB_MAD_RESULT_SUCCESS  = 1 << 0, /* MAD was successfully processed   */
 	IB_MAD_RESULT_REPLY    = 1 << 1, /* Reply packet needs to be sent    */
 	IB_MAD_RESULT_CONSUMED = 1 << 2  /* Packet consumed: stop processing */
 };
 
 #define IB_DEVICE_NAME_MAX 64
 
 struct ib_cache {
 	rwlock_t                lock;
 	struct ib_event_handler event_handler;
 	struct ib_pkey_cache  **pkey_cache;
 	struct ib_gid_table   **gid_cache;
 	u8                     *lmc_cache;
 };
 
 struct ib_dma_mapping_ops {
 	int		(*mapping_error)(struct ib_device *dev,
 					 u64 dma_addr);
 	u64		(*map_single)(struct ib_device *dev,
 				      void *ptr, size_t size,
 				      enum dma_data_direction direction);
 	void		(*unmap_single)(struct ib_device *dev,
 					u64 addr, size_t size,
 					enum dma_data_direction direction);
 	u64		(*map_page)(struct ib_device *dev,
 				    struct page *page, unsigned long offset,
 				    size_t size,
 				    enum dma_data_direction direction);
 	void		(*unmap_page)(struct ib_device *dev,
 				      u64 addr, size_t size,
 				      enum dma_data_direction direction);
 	int		(*map_sg)(struct ib_device *dev,
 				  struct scatterlist *sg, int nents,
 				  enum dma_data_direction direction);
 	void		(*unmap_sg)(struct ib_device *dev,
 				    struct scatterlist *sg, int nents,
 				    enum dma_data_direction direction);
 	int		(*map_sg_attrs)(struct ib_device *dev,
 					struct scatterlist *sg, int nents,
 					enum dma_data_direction direction,
 					struct dma_attrs *attrs);
 	void		(*unmap_sg_attrs)(struct ib_device *dev,
 					  struct scatterlist *sg, int nents,
 					  enum dma_data_direction direction,
 					  struct dma_attrs *attrs);
 	void		(*sync_single_for_cpu)(struct ib_device *dev,
 					       u64 dma_handle,
 					       size_t size,
 					       enum dma_data_direction dir);
 	void		(*sync_single_for_device)(struct ib_device *dev,
 						  u64 dma_handle,
 						  size_t size,
 						  enum dma_data_direction dir);
 	void		*(*alloc_coherent)(struct ib_device *dev,
 					   size_t size,
 					   u64 *dma_handle,
 					   gfp_t flag);
 	void		(*free_coherent)(struct ib_device *dev,
 					 size_t size, void *cpu_addr,
 					 u64 dma_handle);
 };
 
 struct iw_cm_verbs;
 
 struct ib_port_immutable {
 	int                           pkey_tbl_len;
 	int                           gid_tbl_len;
 	u32                           core_cap_flags;
 	u32                           max_mad_size;
 };
 
 struct ib_device {
 	struct device                *dma_device;
 
 	char                          name[IB_DEVICE_NAME_MAX];
 
 	struct list_head              event_handler_list;
 	spinlock_t                    event_handler_lock;
 
 	spinlock_t                    client_data_lock;
 	struct list_head              core_list;
 	/* Access to the client_data_list is protected by the client_data_lock
 	 * spinlock and the lists_rwsem read-write semaphore */
 	struct list_head              client_data_list;
 
 	struct ib_cache               cache;
 	/**
 	 * port_immutable is indexed by port number
 	 */
 	struct ib_port_immutable     *port_immutable;
 
 	int			      num_comp_vectors;
 
 	struct iw_cm_verbs	     *iwcm;
 
 	/**
 	 * alloc_hw_stats - Allocate a struct rdma_hw_stats and fill in the
 	 *   driver initialized data.  The struct is kfree()'ed by the sysfs
 	 *   core when the device is removed.  A lifespan of -1 in the return
 	 *   struct tells the core to set a default lifespan.
 	 */
 	struct rdma_hw_stats      *(*alloc_hw_stats)(struct ib_device *device,
 						     u8 port_num);
 	/**
 	 * get_hw_stats - Fill in the counter value(s) in the stats struct.
 	 * @index - The index in the value array we wish to have updated, or
 	 *   num_counters if we want all stats updated
 	 * Return codes -
 	 *   < 0 - Error, no counters updated
 	 *   index - Updated the single counter pointed to by index
 	 *   num_counters - Updated all counters (will reset the timestamp
 	 *     and prevent further calls for lifespan milliseconds)
 	 * Drivers are allowed to update all counters in leiu of just the
 	 *   one given in index at their option
 	 */
 	int		           (*get_hw_stats)(struct ib_device *device,
 						   struct rdma_hw_stats *stats,
 						   u8 port, int index);
 	int		           (*query_device)(struct ib_device *device,
 						   struct ib_device_attr *device_attr,
 						   struct ib_udata *udata);
 	int		           (*query_port)(struct ib_device *device,
 						 u8 port_num,
 						 struct ib_port_attr *port_attr);
 	enum rdma_link_layer	   (*get_link_layer)(struct ib_device *device,
 						     u8 port_num);
 	/* When calling get_netdev, the HW vendor's driver should return the
 	 * net device of device @device at port @port_num or NULL if such
 	 * a net device doesn't exist. The vendor driver should call dev_hold
 	 * on this net device. The HW vendor's device driver must guarantee
 	 * that this function returns NULL before the net device reaches
 	 * NETDEV_UNREGISTER_FINAL state.
 	 */
 	struct ifnet		  *(*get_netdev)(struct ib_device *device,
 						 u8 port_num);
 	int		           (*query_gid)(struct ib_device *device,
 						u8 port_num, int index,
 						union ib_gid *gid);
 	/* When calling add_gid, the HW vendor's driver should
 	 * add the gid of device @device at gid index @index of
 	 * port @port_num to be @gid. Meta-info of that gid (for example,
 	 * the network device related to this gid is available
 	 * at @attr. @context allows the HW vendor driver to store extra
 	 * information together with a GID entry. The HW vendor may allocate
 	 * memory to contain this information and store it in @context when a
 	 * new GID entry is written to. Params are consistent until the next
 	 * call of add_gid or delete_gid. The function should return 0 on
 	 * success or error otherwise. The function could be called
 	 * concurrently for different ports. This function is only called
 	 * when roce_gid_table is used.
 	 */
 	int		           (*add_gid)(struct ib_device *device,
 					      u8 port_num,
 					      unsigned int index,
 					      const union ib_gid *gid,
 					      const struct ib_gid_attr *attr,
 					      void **context);
 	/* When calling del_gid, the HW vendor's driver should delete the
 	 * gid of device @device at gid index @index of port @port_num.
 	 * Upon the deletion of a GID entry, the HW vendor must free any
 	 * allocated memory. The caller will clear @context afterwards.
 	 * This function is only called when roce_gid_table is used.
 	 */
 	int		           (*del_gid)(struct ib_device *device,
 					      u8 port_num,
 					      unsigned int index,
 					      void **context);
 	int		           (*query_pkey)(struct ib_device *device,
 						 u8 port_num, u16 index, u16 *pkey);
 	int		           (*modify_device)(struct ib_device *device,
 						    int device_modify_mask,
 						    struct ib_device_modify *device_modify);
 	int		           (*modify_port)(struct ib_device *device,
 						  u8 port_num, int port_modify_mask,
 						  struct ib_port_modify *port_modify);
 	struct ib_ucontext *       (*alloc_ucontext)(struct ib_device *device,
 						     struct ib_udata *udata);
 	int                        (*dealloc_ucontext)(struct ib_ucontext *context);
 	int                        (*mmap)(struct ib_ucontext *context,
 					   struct vm_area_struct *vma);
 	struct ib_pd *             (*alloc_pd)(struct ib_device *device,
 					       struct ib_ucontext *context,
 					       struct ib_udata *udata);
 	int                        (*dealloc_pd)(struct ib_pd *pd);
 	struct ib_ah *             (*create_ah)(struct ib_pd *pd,
 						struct ib_ah_attr *ah_attr,
 						struct ib_udata *udata);
 	int                        (*modify_ah)(struct ib_ah *ah,
 						struct ib_ah_attr *ah_attr);
 	int                        (*query_ah)(struct ib_ah *ah,
 					       struct ib_ah_attr *ah_attr);
 	int                        (*destroy_ah)(struct ib_ah *ah);
 	struct ib_srq *            (*create_srq)(struct ib_pd *pd,
 						 struct ib_srq_init_attr *srq_init_attr,
 						 struct ib_udata *udata);
 	int                        (*modify_srq)(struct ib_srq *srq,
 						 struct ib_srq_attr *srq_attr,
 						 enum ib_srq_attr_mask srq_attr_mask,
 						 struct ib_udata *udata);
 	int                        (*query_srq)(struct ib_srq *srq,
 						struct ib_srq_attr *srq_attr);
 	int                        (*destroy_srq)(struct ib_srq *srq);
 	int                        (*post_srq_recv)(struct ib_srq *srq,
 						    struct ib_recv_wr *recv_wr,
 						    struct ib_recv_wr **bad_recv_wr);
 	struct ib_qp *             (*create_qp)(struct ib_pd *pd,
 						struct ib_qp_init_attr *qp_init_attr,
 						struct ib_udata *udata);
 	int                        (*modify_qp)(struct ib_qp *qp,
 						struct ib_qp_attr *qp_attr,
 						int qp_attr_mask,
 						struct ib_udata *udata);
 	int                        (*query_qp)(struct ib_qp *qp,
 					       struct ib_qp_attr *qp_attr,
 					       int qp_attr_mask,
 					       struct ib_qp_init_attr *qp_init_attr);
 	int                        (*destroy_qp)(struct ib_qp *qp);
 	int                        (*post_send)(struct ib_qp *qp,
 						struct ib_send_wr *send_wr,
 						struct ib_send_wr **bad_send_wr);
 	int                        (*post_recv)(struct ib_qp *qp,
 						struct ib_recv_wr *recv_wr,
 						struct ib_recv_wr **bad_recv_wr);
 	struct ib_cq *             (*create_cq)(struct ib_device *device,
 						const struct ib_cq_init_attr *attr,
 						struct ib_ucontext *context,
 						struct ib_udata *udata);
 	int                        (*modify_cq)(struct ib_cq *cq, u16 cq_count,
 						u16 cq_period);
 	int                        (*destroy_cq)(struct ib_cq *cq);
 	int                        (*resize_cq)(struct ib_cq *cq, int cqe,
 						struct ib_udata *udata);
 	int                        (*poll_cq)(struct ib_cq *cq, int num_entries,
 					      struct ib_wc *wc);
 	int                        (*peek_cq)(struct ib_cq *cq, int wc_cnt);
 	int                        (*req_notify_cq)(struct ib_cq *cq,
 						    enum ib_cq_notify_flags flags);
 	int                        (*req_ncomp_notif)(struct ib_cq *cq,
 						      int wc_cnt);
 	struct ib_mr *             (*get_dma_mr)(struct ib_pd *pd,
 						 int mr_access_flags);
 	struct ib_mr *             (*reg_user_mr)(struct ib_pd *pd,
 						  u64 start, u64 length,
 						  u64 virt_addr,
 						  int mr_access_flags,
 						  struct ib_udata *udata);
 	int			   (*rereg_user_mr)(struct ib_mr *mr,
 						    int flags,
 						    u64 start, u64 length,
 						    u64 virt_addr,
 						    int mr_access_flags,
 						    struct ib_pd *pd,
 						    struct ib_udata *udata);
 	int                        (*dereg_mr)(struct ib_mr *mr);
 	struct ib_mr *		   (*alloc_mr)(struct ib_pd *pd,
 					       enum ib_mr_type mr_type,
 					       u32 max_num_sg);
 	int                        (*map_mr_sg)(struct ib_mr *mr,
 						struct scatterlist *sg,
 						int sg_nents,
 						unsigned int *sg_offset);
 	struct ib_mw *             (*alloc_mw)(struct ib_pd *pd,
 					       enum ib_mw_type type,
 					       struct ib_udata *udata);
 	int                        (*dealloc_mw)(struct ib_mw *mw);
 	struct ib_fmr *	           (*alloc_fmr)(struct ib_pd *pd,
 						int mr_access_flags,
 						struct ib_fmr_attr *fmr_attr);
 	int		           (*map_phys_fmr)(struct ib_fmr *fmr,
 						   u64 *page_list, int list_len,
 						   u64 iova);
 	int		           (*unmap_fmr)(struct list_head *fmr_list);
 	int		           (*dealloc_fmr)(struct ib_fmr *fmr);
 	int                        (*attach_mcast)(struct ib_qp *qp,
 						   union ib_gid *gid,
 						   u16 lid);
 	int                        (*detach_mcast)(struct ib_qp *qp,
 						   union ib_gid *gid,
 						   u16 lid);
 	int                        (*process_mad)(struct ib_device *device,
 						  int process_mad_flags,
 						  u8 port_num,
 						  const struct ib_wc *in_wc,
 						  const struct ib_grh *in_grh,
 						  const struct ib_mad_hdr *in_mad,
 						  size_t in_mad_size,
 						  struct ib_mad_hdr *out_mad,
 						  size_t *out_mad_size,
 						  u16 *out_mad_pkey_index);
 	struct ib_xrcd *	   (*alloc_xrcd)(struct ib_device *device,
 						 struct ib_ucontext *ucontext,
 						 struct ib_udata *udata);
 	int			   (*dealloc_xrcd)(struct ib_xrcd *xrcd);
 	struct ib_flow *	   (*create_flow)(struct ib_qp *qp,
 						  struct ib_flow_attr
 						  *flow_attr,
 						  int domain);
 	int			   (*destroy_flow)(struct ib_flow *flow_id);
 	int			   (*check_mr_status)(struct ib_mr *mr, u32 check_mask,
 						      struct ib_mr_status *mr_status);
 	void			   (*disassociate_ucontext)(struct ib_ucontext *ibcontext);
 	void			   (*drain_rq)(struct ib_qp *qp);
 	void			   (*drain_sq)(struct ib_qp *qp);
 	int			   (*set_vf_link_state)(struct ib_device *device, int vf, u8 port,
 							int state);
 	int			   (*get_vf_config)(struct ib_device *device, int vf, u8 port,
 						   struct ifla_vf_info *ivf);
 	int			   (*get_vf_stats)(struct ib_device *device, int vf, u8 port,
 						   struct ifla_vf_stats *stats);
 	int			   (*set_vf_guid)(struct ib_device *device, int vf, u8 port, u64 guid,
 						  int type);
 	struct ib_wq *		   (*create_wq)(struct ib_pd *pd,
 						struct ib_wq_init_attr *init_attr,
 						struct ib_udata *udata);
 	int			   (*destroy_wq)(struct ib_wq *wq);
 	int			   (*modify_wq)(struct ib_wq *wq,
 						struct ib_wq_attr *attr,
 						u32 wq_attr_mask,
 						struct ib_udata *udata);
 	struct ib_rwq_ind_table *  (*create_rwq_ind_table)(struct ib_device *device,
 							   struct ib_rwq_ind_table_init_attr *init_attr,
 							   struct ib_udata *udata);
 	int                        (*destroy_rwq_ind_table)(struct ib_rwq_ind_table *wq_ind_table);
 	struct ib_dma_mapping_ops   *dma_ops;
 
 	struct module               *owner;
 	struct device                dev;
 	struct kobject               *ports_parent;
 	struct list_head             port_list;
 
 	enum {
 		IB_DEV_UNINITIALIZED,
 		IB_DEV_REGISTERED,
 		IB_DEV_UNREGISTERED
 	}                            reg_state;
 
 	int			     uverbs_abi_ver;
 	u64			     uverbs_cmd_mask;
 	u64			     uverbs_ex_cmd_mask;
 
 	char			     node_desc[IB_DEVICE_NODE_DESC_MAX];
 	__be64			     node_guid;
 	u32			     local_dma_lkey;
 	u16                          is_switch:1;
 	u8                           node_type;
 	u8                           phys_port_cnt;
 	struct ib_device_attr        attrs;
 	struct attribute_group	     *hw_stats_ag;
 	struct rdma_hw_stats         *hw_stats;
 
 	/**
 	 * The following mandatory functions are used only at device
 	 * registration.  Keep functions such as these at the end of this
 	 * structure to avoid cache line misses when accessing struct ib_device
 	 * in fast paths.
 	 */
 	int (*get_port_immutable)(struct ib_device *, u8, struct ib_port_immutable *);
 	void (*get_dev_fw_str)(struct ib_device *, char *str, size_t str_len);
 };
 
 struct ib_client {
 	char  *name;
 	void (*add)   (struct ib_device *);
 	void (*remove)(struct ib_device *, void *client_data);
 
 	/* Returns the net_dev belonging to this ib_client and matching the
 	 * given parameters.
 	 * @dev:	 An RDMA device that the net_dev use for communication.
 	 * @port:	 A physical port number on the RDMA device.
 	 * @pkey:	 P_Key that the net_dev uses if applicable.
 	 * @gid:	 A GID that the net_dev uses to communicate.
 	 * @addr:	 An IP address the net_dev is configured with.
 	 * @client_data: The device's client data set by ib_set_client_data().
 	 *
 	 * An ib_client that implements a net_dev on top of RDMA devices
 	 * (such as IP over IB) should implement this callback, allowing the
 	 * rdma_cm module to find the right net_dev for a given request.
 	 *
 	 * The caller is responsible for calling dev_put on the returned
 	 * netdev. */
 	struct ifnet *(*get_net_dev_by_params)(
 			struct ib_device *dev,
 			u8 port,
 			u16 pkey,
 			const union ib_gid *gid,
 			const struct sockaddr *addr,
 			void *client_data);
 	struct list_head list;
 };
 
 struct ib_device *ib_alloc_device(size_t size);
 void ib_dealloc_device(struct ib_device *device);
 
 void ib_get_device_fw_str(struct ib_device *device, char *str, size_t str_len);
 
 int ib_register_device(struct ib_device *device,
 		       int (*port_callback)(struct ib_device *,
 					    u8, struct kobject *));
 void ib_unregister_device(struct ib_device *device);
 
 int ib_register_client   (struct ib_client *client);
 void ib_unregister_client(struct ib_client *client);
 
 void *ib_get_client_data(struct ib_device *device, struct ib_client *client);
 void  ib_set_client_data(struct ib_device *device, struct ib_client *client,
 			 void *data);
 
 static inline int ib_copy_from_udata(void *dest, struct ib_udata *udata, size_t len)
 {
 	return copy_from_user(dest, udata->inbuf, len) ? -EFAULT : 0;
 }
 
 static inline int ib_copy_to_udata(struct ib_udata *udata, void *src, size_t len)
 {
 	return copy_to_user(udata->outbuf, src, len) ? -EFAULT : 0;
 }
 
 static inline bool ib_is_udata_cleared(struct ib_udata *udata,
 				       size_t offset,
 				       size_t len)
 {
 	const void __user *p = (const char __user *)udata->inbuf + offset;
 	bool ret;
 	u8 *buf;
 
 	if (len > USHRT_MAX)
 		return false;
 
 	buf = memdup_user(p, len);
 	if (IS_ERR(buf))
 		return false;
 
 	ret = !memchr_inv(buf, 0, len);
 	kfree(buf);
 	return ret;
 }
 
 /**
  * ib_modify_qp_is_ok - Check that the supplied attribute mask
  * contains all required attributes and no attributes not allowed for
  * the given QP state transition.
  * @cur_state: Current QP state
  * @next_state: Next QP state
  * @type: QP type
  * @mask: Mask of supplied QP attributes
  * @ll : link layer of port
  *
  * This function is a helper function that a low-level driver's
  * modify_qp method can use to validate the consumer's input.  It
  * checks that cur_state and next_state are valid QP states, that a
  * transition from cur_state to next_state is allowed by the IB spec,
  * and that the attribute mask supplied is allowed for the transition.
  */
 int ib_modify_qp_is_ok(enum ib_qp_state cur_state, enum ib_qp_state next_state,
 		       enum ib_qp_type type, enum ib_qp_attr_mask mask,
 		       enum rdma_link_layer ll);
 
 int ib_register_event_handler  (struct ib_event_handler *event_handler);
 int ib_unregister_event_handler(struct ib_event_handler *event_handler);
 void ib_dispatch_event(struct ib_event *event);
 
 int ib_query_port(struct ib_device *device,
 		  u8 port_num, struct ib_port_attr *port_attr);
 
 enum rdma_link_layer rdma_port_get_link_layer(struct ib_device *device,
 					       u8 port_num);
 
 /**
  * rdma_cap_ib_switch - Check if the device is IB switch
  * @device: Device to check
  *
  * Device driver is responsible for setting is_switch bit on
  * in ib_device structure at init time.
  *
  * Return: true if the device is IB switch.
  */
 static inline bool rdma_cap_ib_switch(const struct ib_device *device)
 {
 	return device->is_switch;
 }
 
 /**
  * rdma_start_port - Return the first valid port number for the device
  * specified
  *
  * @device: Device to be checked
  *
  * Return start port number
  */
 static inline u8 rdma_start_port(const struct ib_device *device)
 {
 	return rdma_cap_ib_switch(device) ? 0 : 1;
 }
 
 /**
  * rdma_end_port - Return the last valid port number for the device
  * specified
  *
  * @device: Device to be checked
  *
  * Return last port number
  */
 static inline u8 rdma_end_port(const struct ib_device *device)
 {
 	return rdma_cap_ib_switch(device) ? 0 : device->phys_port_cnt;
 }
 
 static inline int rdma_is_port_valid(const struct ib_device *device,
 				     unsigned int port)
 {
 	return (port >= rdma_start_port(device) &&
 		port <= rdma_end_port(device));
 }
 
 static inline bool rdma_protocol_ib(const struct ib_device *device, u8 port_num)
 {
 	return device->port_immutable[port_num].core_cap_flags & RDMA_CORE_CAP_PROT_IB;
 }
 
 static inline bool rdma_protocol_roce(const struct ib_device *device, u8 port_num)
 {
 	return device->port_immutable[port_num].core_cap_flags &
 		(RDMA_CORE_CAP_PROT_ROCE | RDMA_CORE_CAP_PROT_ROCE_UDP_ENCAP);
 }
 
 static inline bool rdma_protocol_roce_udp_encap(const struct ib_device *device, u8 port_num)
 {
 	return device->port_immutable[port_num].core_cap_flags & RDMA_CORE_CAP_PROT_ROCE_UDP_ENCAP;
 }
 
 static inline bool rdma_protocol_roce_eth_encap(const struct ib_device *device, u8 port_num)
 {
 	return device->port_immutable[port_num].core_cap_flags & RDMA_CORE_CAP_PROT_ROCE;
 }
 
 static inline bool rdma_protocol_iwarp(const struct ib_device *device, u8 port_num)
 {
 	return device->port_immutable[port_num].core_cap_flags & RDMA_CORE_CAP_PROT_IWARP;
 }
 
 static inline bool rdma_ib_or_roce(const struct ib_device *device, u8 port_num)
 {
 	return rdma_protocol_ib(device, port_num) ||
 		rdma_protocol_roce(device, port_num);
 }
 
 /**
  * rdma_cap_ib_mad - Check if the port of a device supports Infiniband
  * Management Datagrams.
  * @device: Device to check
  * @port_num: Port number to check
  *
  * Management Datagrams (MAD) are a required part of the InfiniBand
  * specification and are supported on all InfiniBand devices.  A slightly
  * extended version are also supported on OPA interfaces.
  *
  * Return: true if the port supports sending/receiving of MAD packets.
  */
 static inline bool rdma_cap_ib_mad(const struct ib_device *device, u8 port_num)
 {
 	return device->port_immutable[port_num].core_cap_flags & RDMA_CORE_CAP_IB_MAD;
 }
 
 /**
  * rdma_cap_opa_mad - Check if the port of device provides support for OPA
  * Management Datagrams.
  * @device: Device to check
  * @port_num: Port number to check
  *
  * Intel OmniPath devices extend and/or replace the InfiniBand Management
  * datagrams with their own versions.  These OPA MADs share many but not all of
  * the characteristics of InfiniBand MADs.
  *
  * OPA MADs differ in the following ways:
  *
  *    1) MADs are variable size up to 2K
  *       IBTA defined MADs remain fixed at 256 bytes
  *    2) OPA SMPs must carry valid PKeys
  *    3) OPA SMP packets are a different format
  *
  * Return: true if the port supports OPA MAD packet formats.
  */
 static inline bool rdma_cap_opa_mad(struct ib_device *device, u8 port_num)
 {
 	return (device->port_immutable[port_num].core_cap_flags & RDMA_CORE_CAP_OPA_MAD)
 		== RDMA_CORE_CAP_OPA_MAD;
 }
 
 /**
  * rdma_cap_ib_smi - Check if the port of a device provides an Infiniband
  * Subnet Management Agent (SMA) on the Subnet Management Interface (SMI).
  * @device: Device to check
  * @port_num: Port number to check
  *
  * Each InfiniBand node is required to provide a Subnet Management Agent
  * that the subnet manager can access.  Prior to the fabric being fully
  * configured by the subnet manager, the SMA is accessed via a well known
  * interface called the Subnet Management Interface (SMI).  This interface
  * uses directed route packets to communicate with the SM to get around the
  * chicken and egg problem of the SM needing to know what's on the fabric
  * in order to configure the fabric, and needing to configure the fabric in
  * order to send packets to the devices on the fabric.  These directed
  * route packets do not need the fabric fully configured in order to reach
  * their destination.  The SMI is the only method allowed to send
  * directed route packets on an InfiniBand fabric.
  *
  * Return: true if the port provides an SMI.
  */
 static inline bool rdma_cap_ib_smi(const struct ib_device *device, u8 port_num)
 {
 	return device->port_immutable[port_num].core_cap_flags & RDMA_CORE_CAP_IB_SMI;
 }
 
 /**
  * rdma_cap_ib_cm - Check if the port of device has the capability Infiniband
  * Communication Manager.
  * @device: Device to check
  * @port_num: Port number to check
  *
  * The InfiniBand Communication Manager is one of many pre-defined General
  * Service Agents (GSA) that are accessed via the General Service
  * Interface (GSI).  It's role is to facilitate establishment of connections
  * between nodes as well as other management related tasks for established
  * connections.
  *
  * Return: true if the port supports an IB CM (this does not guarantee that
  * a CM is actually running however).
  */
 static inline bool rdma_cap_ib_cm(const struct ib_device *device, u8 port_num)
 {
 	return device->port_immutable[port_num].core_cap_flags & RDMA_CORE_CAP_IB_CM;
 }
 
 /**
  * rdma_cap_iw_cm - Check if the port of device has the capability IWARP
  * Communication Manager.
  * @device: Device to check
  * @port_num: Port number to check
  *
  * Similar to above, but specific to iWARP connections which have a different
  * managment protocol than InfiniBand.
  *
  * Return: true if the port supports an iWARP CM (this does not guarantee that
  * a CM is actually running however).
  */
 static inline bool rdma_cap_iw_cm(const struct ib_device *device, u8 port_num)
 {
 	return device->port_immutable[port_num].core_cap_flags & RDMA_CORE_CAP_IW_CM;
 }
 
 /**
  * rdma_cap_ib_sa - Check if the port of device has the capability Infiniband
  * Subnet Administration.
  * @device: Device to check
  * @port_num: Port number to check
  *
  * An InfiniBand Subnet Administration (SA) service is a pre-defined General
  * Service Agent (GSA) provided by the Subnet Manager (SM).  On InfiniBand
  * fabrics, devices should resolve routes to other hosts by contacting the
  * SA to query the proper route.
  *
  * Return: true if the port should act as a client to the fabric Subnet
  * Administration interface.  This does not imply that the SA service is
  * running locally.
  */
 static inline bool rdma_cap_ib_sa(const struct ib_device *device, u8 port_num)
 {
 	return device->port_immutable[port_num].core_cap_flags & RDMA_CORE_CAP_IB_SA;
 }
 
 /**
  * rdma_cap_ib_mcast - Check if the port of device has the capability Infiniband
  * Multicast.
  * @device: Device to check
  * @port_num: Port number to check
  *
  * InfiniBand multicast registration is more complex than normal IPv4 or
  * IPv6 multicast registration.  Each Host Channel Adapter must register
  * with the Subnet Manager when it wishes to join a multicast group.  It
  * should do so only once regardless of how many queue pairs it subscribes
  * to this group.  And it should leave the group only after all queue pairs
  * attached to the group have been detached.
  *
  * Return: true if the port must undertake the additional adminstrative
  * overhead of registering/unregistering with the SM and tracking of the
  * total number of queue pairs attached to the multicast group.
  */
 static inline bool rdma_cap_ib_mcast(const struct ib_device *device, u8 port_num)
 {
 	return rdma_cap_ib_sa(device, port_num);
 }
 
 /**
  * rdma_cap_af_ib - Check if the port of device has the capability
  * Native Infiniband Address.
  * @device: Device to check
  * @port_num: Port number to check
  *
  * InfiniBand addressing uses a port's GUID + Subnet Prefix to make a default
  * GID.  RoCE uses a different mechanism, but still generates a GID via
  * a prescribed mechanism and port specific data.
  *
  * Return: true if the port uses a GID address to identify devices on the
  * network.
  */
 static inline bool rdma_cap_af_ib(const struct ib_device *device, u8 port_num)
 {
 	return device->port_immutable[port_num].core_cap_flags & RDMA_CORE_CAP_AF_IB;
 }
 
 /**
  * rdma_cap_eth_ah - Check if the port of device has the capability
  * Ethernet Address Handle.
  * @device: Device to check
  * @port_num: Port number to check
  *
  * RoCE is InfiniBand over Ethernet, and it uses a well defined technique
  * to fabricate GIDs over Ethernet/IP specific addresses native to the
  * port.  Normally, packet headers are generated by the sending host
  * adapter, but when sending connectionless datagrams, we must manually
  * inject the proper headers for the fabric we are communicating over.
  *
  * Return: true if we are running as a RoCE port and must force the
  * addition of a Global Route Header built from our Ethernet Address
  * Handle into our header list for connectionless packets.
  */
 static inline bool rdma_cap_eth_ah(const struct ib_device *device, u8 port_num)
 {
 	return device->port_immutable[port_num].core_cap_flags & RDMA_CORE_CAP_ETH_AH;
 }
 
 /**
  * rdma_max_mad_size - Return the max MAD size required by this RDMA Port.
  *
  * @device: Device
  * @port_num: Port number
  *
  * This MAD size includes the MAD headers and MAD payload.  No other headers
  * are included.
  *
  * Return the max MAD size required by the Port.  Will return 0 if the port
  * does not support MADs
  */
 static inline size_t rdma_max_mad_size(const struct ib_device *device, u8 port_num)
 {
 	return device->port_immutable[port_num].max_mad_size;
 }
 
 /**
  * rdma_cap_roce_gid_table - Check if the port of device uses roce_gid_table
  * @device: Device to check
  * @port_num: Port number to check
  *
  * RoCE GID table mechanism manages the various GIDs for a device.
  *
  * NOTE: if allocating the port's GID table has failed, this call will still
  * return true, but any RoCE GID table API will fail.
  *
  * Return: true if the port uses RoCE GID table mechanism in order to manage
  * its GIDs.
  */
 static inline bool rdma_cap_roce_gid_table(const struct ib_device *device,
 					   u8 port_num)
 {
 	return rdma_protocol_roce(device, port_num) &&
 		device->add_gid && device->del_gid;
 }
 
 /*
  * Check if the device supports READ W/ INVALIDATE.
  */
 static inline bool rdma_cap_read_inv(struct ib_device *dev, u32 port_num)
 {
 	/*
 	 * iWarp drivers must support READ W/ INVALIDATE.  No other protocol
 	 * has support for it yet.
 	 */
 	return rdma_protocol_iwarp(dev, port_num);
 }
 
 int ib_query_gid(struct ib_device *device,
 		 u8 port_num, int index, union ib_gid *gid,
 		 struct ib_gid_attr *attr);
 
 int ib_set_vf_link_state(struct ib_device *device, int vf, u8 port,
 			 int state);
 int ib_get_vf_config(struct ib_device *device, int vf, u8 port,
 		     struct ifla_vf_info *info);
 int ib_get_vf_stats(struct ib_device *device, int vf, u8 port,
 		    struct ifla_vf_stats *stats);
 int ib_set_vf_guid(struct ib_device *device, int vf, u8 port, u64 guid,
 		   int type);
 
 int ib_query_pkey(struct ib_device *device,
 		  u8 port_num, u16 index, u16 *pkey);
 
 int ib_modify_device(struct ib_device *device,
 		     int device_modify_mask,
 		     struct ib_device_modify *device_modify);
 
 int ib_modify_port(struct ib_device *device,
 		   u8 port_num, int port_modify_mask,
 		   struct ib_port_modify *port_modify);
 
 int ib_find_gid(struct ib_device *device, union ib_gid *gid,
 		enum ib_gid_type gid_type, struct ifnet *ndev,
 		u8 *port_num, u16 *index);
 
 int ib_find_pkey(struct ib_device *device,
 		 u8 port_num, u16 pkey, u16 *index);
 
 enum ib_pd_flags {
 	/*
 	 * Create a memory registration for all memory in the system and place
 	 * the rkey for it into pd->unsafe_global_rkey.  This can be used by
 	 * ULPs to avoid the overhead of dynamic MRs.
 	 *
 	 * This flag is generally considered unsafe and must only be used in
 	 * extremly trusted environments.  Every use of it will log a warning
 	 * in the kernel log.
 	 */
 	IB_PD_UNSAFE_GLOBAL_RKEY	= 0x01,
 };
 
 struct ib_pd *__ib_alloc_pd(struct ib_device *device, unsigned int flags,
 		const char *caller);
 #define ib_alloc_pd(device, flags) \
 	__ib_alloc_pd((device), (flags), __func__)
 void ib_dealloc_pd(struct ib_pd *pd);
 
 /**
  * ib_create_ah - Creates an address handle for the given address vector.
  * @pd: The protection domain associated with the address handle.
  * @ah_attr: The attributes of the address vector.
  *
  * The address handle is used to reference a local or global destination
  * in all UD QP post sends.
  */
 struct ib_ah *ib_create_ah(struct ib_pd *pd, struct ib_ah_attr *ah_attr);
 
 /**
  * ib_init_ah_from_wc - Initializes address handle attributes from a
  *   work completion.
  * @device: Device on which the received message arrived.
  * @port_num: Port on which the received message arrived.
  * @wc: Work completion associated with the received message.
  * @grh: References the received global route header.  This parameter is
  *   ignored unless the work completion indicates that the GRH is valid.
  * @ah_attr: Returned attributes that can be used when creating an address
  *   handle for replying to the message.
  */
 int ib_init_ah_from_wc(struct ib_device *device, u8 port_num,
 		       const struct ib_wc *wc, const struct ib_grh *grh,
 		       struct ib_ah_attr *ah_attr);
 
 /**
  * ib_create_ah_from_wc - Creates an address handle associated with the
  *   sender of the specified work completion.
  * @pd: The protection domain associated with the address handle.
  * @wc: Work completion information associated with a received message.
  * @grh: References the received global route header.  This parameter is
  *   ignored unless the work completion indicates that the GRH is valid.
  * @port_num: The outbound port number to associate with the address.
  *
  * The address handle is used to reference a local or global destination
  * in all UD QP post sends.
  */
 struct ib_ah *ib_create_ah_from_wc(struct ib_pd *pd, const struct ib_wc *wc,
 				   const struct ib_grh *grh, u8 port_num);
 
 /**
  * ib_modify_ah - Modifies the address vector associated with an address
  *   handle.
  * @ah: The address handle to modify.
  * @ah_attr: The new address vector attributes to associate with the
  *   address handle.
  */
 int ib_modify_ah(struct ib_ah *ah, struct ib_ah_attr *ah_attr);
 
 /**
  * ib_query_ah - Queries the address vector associated with an address
  *   handle.
  * @ah: The address handle to query.
  * @ah_attr: The address vector attributes associated with the address
  *   handle.
  */
 int ib_query_ah(struct ib_ah *ah, struct ib_ah_attr *ah_attr);
 
 /**
  * ib_destroy_ah - Destroys an address handle.
  * @ah: The address handle to destroy.
  */
 int ib_destroy_ah(struct ib_ah *ah);
 
 /**
  * ib_create_srq - Creates a SRQ associated with the specified protection
  *   domain.
  * @pd: The protection domain associated with the SRQ.
  * @srq_init_attr: A list of initial attributes required to create the
  *   SRQ.  If SRQ creation succeeds, then the attributes are updated to
  *   the actual capabilities of the created SRQ.
  *
  * srq_attr->max_wr and srq_attr->max_sge are read the determine the
  * requested size of the SRQ, and set to the actual values allocated
  * on return.  If ib_create_srq() succeeds, then max_wr and max_sge
  * will always be at least as large as the requested values.
  */
 struct ib_srq *ib_create_srq(struct ib_pd *pd,
 			     struct ib_srq_init_attr *srq_init_attr);
 
 /**
  * ib_modify_srq - Modifies the attributes for the specified SRQ.
  * @srq: The SRQ to modify.
  * @srq_attr: On input, specifies the SRQ attributes to modify.  On output,
  *   the current values of selected SRQ attributes are returned.
  * @srq_attr_mask: A bit-mask used to specify which attributes of the SRQ
  *   are being modified.
  *
  * The mask may contain IB_SRQ_MAX_WR to resize the SRQ and/or
  * IB_SRQ_LIMIT to set the SRQ's limit and request notification when
  * the number of receives queued drops below the limit.
  */
 int ib_modify_srq(struct ib_srq *srq,
 		  struct ib_srq_attr *srq_attr,
 		  enum ib_srq_attr_mask srq_attr_mask);
 
 /**
  * ib_query_srq - Returns the attribute list and current values for the
  *   specified SRQ.
  * @srq: The SRQ to query.
  * @srq_attr: The attributes of the specified SRQ.
  */
 int ib_query_srq(struct ib_srq *srq,
 		 struct ib_srq_attr *srq_attr);
 
 /**
  * ib_destroy_srq - Destroys the specified SRQ.
  * @srq: The SRQ to destroy.
  */
 int ib_destroy_srq(struct ib_srq *srq);
 
 /**
  * ib_post_srq_recv - Posts a list of work requests to the specified SRQ.
  * @srq: The SRQ to post the work request on.
  * @recv_wr: A list of work requests to post on the receive queue.
  * @bad_recv_wr: On an immediate failure, this parameter will reference
  *   the work request that failed to be posted on the QP.
  */
 static inline int ib_post_srq_recv(struct ib_srq *srq,
 				   struct ib_recv_wr *recv_wr,
 				   struct ib_recv_wr **bad_recv_wr)
 {
 	return srq->device->post_srq_recv(srq, recv_wr, bad_recv_wr);
 }
 
 /**
  * ib_create_qp - Creates a QP associated with the specified protection
  *   domain.
  * @pd: The protection domain associated with the QP.
  * @qp_init_attr: A list of initial attributes required to create the
  *   QP.  If QP creation succeeds, then the attributes are updated to
  *   the actual capabilities of the created QP.
  */
 struct ib_qp *ib_create_qp(struct ib_pd *pd,
 			   struct ib_qp_init_attr *qp_init_attr);
 
 /**
  * ib_modify_qp - Modifies the attributes for the specified QP and then
  *   transitions the QP to the given state.
  * @qp: The QP to modify.
  * @qp_attr: On input, specifies the QP attributes to modify.  On output,
  *   the current values of selected QP attributes are returned.
  * @qp_attr_mask: A bit-mask used to specify which attributes of the QP
  *   are being modified.
  */
 int ib_modify_qp(struct ib_qp *qp,
 		 struct ib_qp_attr *qp_attr,
 		 int qp_attr_mask);
 
 /**
  * ib_query_qp - Returns the attribute list and current values for the
  *   specified QP.
  * @qp: The QP to query.
  * @qp_attr: The attributes of the specified QP.
  * @qp_attr_mask: A bit-mask used to select specific attributes to query.
  * @qp_init_attr: Additional attributes of the selected QP.
  *
  * The qp_attr_mask may be used to limit the query to gathering only the
  * selected attributes.
  */
 int ib_query_qp(struct ib_qp *qp,
 		struct ib_qp_attr *qp_attr,
 		int qp_attr_mask,
 		struct ib_qp_init_attr *qp_init_attr);
 
 /**
  * ib_destroy_qp - Destroys the specified QP.
  * @qp: The QP to destroy.
  */
 int ib_destroy_qp(struct ib_qp *qp);
 
 /**
  * ib_open_qp - Obtain a reference to an existing sharable QP.
  * @xrcd - XRC domain
  * @qp_open_attr: Attributes identifying the QP to open.
  *
  * Returns a reference to a sharable QP.
  */
 struct ib_qp *ib_open_qp(struct ib_xrcd *xrcd,
 			 struct ib_qp_open_attr *qp_open_attr);
 
 /**
  * ib_close_qp - Release an external reference to a QP.
  * @qp: The QP handle to release
  *
  * The opened QP handle is released by the caller.  The underlying
  * shared QP is not destroyed until all internal references are released.
  */
 int ib_close_qp(struct ib_qp *qp);
 
 /**
  * ib_post_send - Posts a list of work requests to the send queue of
  *   the specified QP.
  * @qp: The QP to post the work request on.
  * @send_wr: A list of work requests to post on the send queue.
  * @bad_send_wr: On an immediate failure, this parameter will reference
  *   the work request that failed to be posted on the QP.
  *
  * While IBA Vol. 1 section 11.4.1.1 specifies that if an immediate
  * error is returned, the QP state shall not be affected,
  * ib_post_send() will return an immediate error after queueing any
  * earlier work requests in the list.
  */
 static inline int ib_post_send(struct ib_qp *qp,
 			       struct ib_send_wr *send_wr,
 			       struct ib_send_wr **bad_send_wr)
 {
 	return qp->device->post_send(qp, send_wr, bad_send_wr);
 }
 
 /**
  * ib_post_recv - Posts a list of work requests to the receive queue of
  *   the specified QP.
  * @qp: The QP to post the work request on.
  * @recv_wr: A list of work requests to post on the receive queue.
  * @bad_recv_wr: On an immediate failure, this parameter will reference
  *   the work request that failed to be posted on the QP.
  */
 static inline int ib_post_recv(struct ib_qp *qp,
 			       struct ib_recv_wr *recv_wr,
 			       struct ib_recv_wr **bad_recv_wr)
 {
 	return qp->device->post_recv(qp, recv_wr, bad_recv_wr);
 }
 
 struct ib_cq *ib_alloc_cq(struct ib_device *dev, void *private,
 		int nr_cqe, int comp_vector, enum ib_poll_context poll_ctx);
 void ib_free_cq(struct ib_cq *cq);
 
 /**
  * ib_create_cq - Creates a CQ on the specified device.
  * @device: The device on which to create the CQ.
  * @comp_handler: A user-specified callback that is invoked when a
  *   completion event occurs on the CQ.
  * @event_handler: A user-specified callback that is invoked when an
  *   asynchronous event not associated with a completion occurs on the CQ.
  * @cq_context: Context associated with the CQ returned to the user via
  *   the associated completion and event handlers.
  * @cq_attr: The attributes the CQ should be created upon.
  *
  * Users can examine the cq structure to determine the actual CQ size.
  */
 struct ib_cq *ib_create_cq(struct ib_device *device,
 			   ib_comp_handler comp_handler,
 			   void (*event_handler)(struct ib_event *, void *),
 			   void *cq_context,
 			   const struct ib_cq_init_attr *cq_attr);
 
 /**
  * ib_resize_cq - Modifies the capacity of the CQ.
  * @cq: The CQ to resize.
  * @cqe: The minimum size of the CQ.
  *
  * Users can examine the cq structure to determine the actual CQ size.
  */
 int ib_resize_cq(struct ib_cq *cq, int cqe);
 
 /**
  * ib_modify_cq - Modifies moderation params of the CQ
  * @cq: The CQ to modify.
  * @cq_count: number of CQEs that will trigger an event
  * @cq_period: max period of time in usec before triggering an event
  *
  */
 int ib_modify_cq(struct ib_cq *cq, u16 cq_count, u16 cq_period);
 
 /**
  * ib_destroy_cq - Destroys the specified CQ.
  * @cq: The CQ to destroy.
  */
 int ib_destroy_cq(struct ib_cq *cq);
 
 /**
  * ib_poll_cq - poll a CQ for completion(s)
  * @cq:the CQ being polled
  * @num_entries:maximum number of completions to return
  * @wc:array of at least @num_entries &struct ib_wc where completions
  *   will be returned
  *
  * Poll a CQ for (possibly multiple) completions.  If the return value
  * is < 0, an error occurred.  If the return value is >= 0, it is the
  * number of completions returned.  If the return value is
  * non-negative and < num_entries, then the CQ was emptied.
  */
 static inline int ib_poll_cq(struct ib_cq *cq, int num_entries,
 			     struct ib_wc *wc)
 {
 	return cq->device->poll_cq(cq, num_entries, wc);
 }
 
 /**
  * ib_peek_cq - Returns the number of unreaped completions currently
  *   on the specified CQ.
  * @cq: The CQ to peek.
  * @wc_cnt: A minimum number of unreaped completions to check for.
  *
  * If the number of unreaped completions is greater than or equal to wc_cnt,
  * this function returns wc_cnt, otherwise, it returns the actual number of
  * unreaped completions.
  */
 int ib_peek_cq(struct ib_cq *cq, int wc_cnt);
 
 /**
  * ib_req_notify_cq - Request completion notification on a CQ.
  * @cq: The CQ to generate an event for.
  * @flags:
  *   Must contain exactly one of %IB_CQ_SOLICITED or %IB_CQ_NEXT_COMP
  *   to request an event on the next solicited event or next work
  *   completion at any type, respectively. %IB_CQ_REPORT_MISSED_EVENTS
  *   may also be |ed in to request a hint about missed events, as
  *   described below.
  *
  * Return Value:
  *    < 0 means an error occurred while requesting notification
  *   == 0 means notification was requested successfully, and if
  *        IB_CQ_REPORT_MISSED_EVENTS was passed in, then no events
  *        were missed and it is safe to wait for another event.  In
  *        this case is it guaranteed that any work completions added
  *        to the CQ since the last CQ poll will trigger a completion
  *        notification event.
  *    > 0 is only returned if IB_CQ_REPORT_MISSED_EVENTS was passed
  *        in.  It means that the consumer must poll the CQ again to
  *        make sure it is empty to avoid missing an event because of a
  *        race between requesting notification and an entry being
  *        added to the CQ.  This return value means it is possible
  *        (but not guaranteed) that a work completion has been added
  *        to the CQ since the last poll without triggering a
  *        completion notification event.
  */
 static inline int ib_req_notify_cq(struct ib_cq *cq,
 				   enum ib_cq_notify_flags flags)
 {
 	return cq->device->req_notify_cq(cq, flags);
 }
 
 /**
  * ib_req_ncomp_notif - Request completion notification when there are
  *   at least the specified number of unreaped completions on the CQ.
  * @cq: The CQ to generate an event for.
  * @wc_cnt: The number of unreaped completions that should be on the
  *   CQ before an event is generated.
  */
 static inline int ib_req_ncomp_notif(struct ib_cq *cq, int wc_cnt)
 {
 	return cq->device->req_ncomp_notif ?
 		cq->device->req_ncomp_notif(cq, wc_cnt) :
 		-ENOSYS;
 }
 
 /**
  * ib_dma_mapping_error - check a DMA addr for error
  * @dev: The device for which the dma_addr was created
  * @dma_addr: The DMA address to check
  */
 static inline int ib_dma_mapping_error(struct ib_device *dev, u64 dma_addr)
 {
 	if (dev->dma_ops)
 		return dev->dma_ops->mapping_error(dev, dma_addr);
 	return dma_mapping_error(dev->dma_device, dma_addr);
 }
 
 /**
  * ib_dma_map_single - Map a kernel virtual address to DMA address
  * @dev: The device for which the dma_addr is to be created
  * @cpu_addr: The kernel virtual address
  * @size: The size of the region in bytes
  * @direction: The direction of the DMA
  */
 static inline u64 ib_dma_map_single(struct ib_device *dev,
 				    void *cpu_addr, size_t size,
 				    enum dma_data_direction direction)
 {
 	if (dev->dma_ops)
 		return dev->dma_ops->map_single(dev, cpu_addr, size, direction);
 	return dma_map_single(dev->dma_device, cpu_addr, size, direction);
 }
 
 /**
  * ib_dma_unmap_single - Destroy a mapping created by ib_dma_map_single()
  * @dev: The device for which the DMA address was created
  * @addr: The DMA address
  * @size: The size of the region in bytes
  * @direction: The direction of the DMA
  */
 static inline void ib_dma_unmap_single(struct ib_device *dev,
 				       u64 addr, size_t size,
 				       enum dma_data_direction direction)
 {
 	if (dev->dma_ops)
 		dev->dma_ops->unmap_single(dev, addr, size, direction);
 	else
 		dma_unmap_single(dev->dma_device, addr, size, direction);
 }
 
 static inline u64 ib_dma_map_single_attrs(struct ib_device *dev,
 					  void *cpu_addr, size_t size,
 					  enum dma_data_direction direction,
 					  struct dma_attrs *dma_attrs)
 {
 	return dma_map_single_attrs(dev->dma_device, cpu_addr, size,
 				    direction, dma_attrs);
 }
 
 static inline void ib_dma_unmap_single_attrs(struct ib_device *dev,
 					     u64 addr, size_t size,
 					     enum dma_data_direction direction,
 					     struct dma_attrs *dma_attrs)
 {
 	return dma_unmap_single_attrs(dev->dma_device, addr, size,
 				      direction, dma_attrs);
 }
 
 /**
  * ib_dma_map_page - Map a physical page to DMA address
  * @dev: The device for which the dma_addr is to be created
  * @page: The page to be mapped
  * @offset: The offset within the page
  * @size: The size of the region in bytes
  * @direction: The direction of the DMA
  */
 static inline u64 ib_dma_map_page(struct ib_device *dev,
 				  struct page *page,
 				  unsigned long offset,
 				  size_t size,
 					 enum dma_data_direction direction)
 {
 	if (dev->dma_ops)
 		return dev->dma_ops->map_page(dev, page, offset, size, direction);
 	return dma_map_page(dev->dma_device, page, offset, size, direction);
 }
 
 /**
  * ib_dma_unmap_page - Destroy a mapping created by ib_dma_map_page()
  * @dev: The device for which the DMA address was created
  * @addr: The DMA address
  * @size: The size of the region in bytes
  * @direction: The direction of the DMA
  */
 static inline void ib_dma_unmap_page(struct ib_device *dev,
 				     u64 addr, size_t size,
 				     enum dma_data_direction direction)
 {
 	if (dev->dma_ops)
 		dev->dma_ops->unmap_page(dev, addr, size, direction);
 	else
 		dma_unmap_page(dev->dma_device, addr, size, direction);
 }
 
 /**
  * ib_dma_map_sg - Map a scatter/gather list to DMA addresses
  * @dev: The device for which the DMA addresses are to be created
  * @sg: The array of scatter/gather entries
  * @nents: The number of scatter/gather entries
  * @direction: The direction of the DMA
  */
 static inline int ib_dma_map_sg(struct ib_device *dev,
 				struct scatterlist *sg, int nents,
 				enum dma_data_direction direction)
 {
 	if (dev->dma_ops)
 		return dev->dma_ops->map_sg(dev, sg, nents, direction);
 	return dma_map_sg(dev->dma_device, sg, nents, direction);
 }
 
 /**
  * ib_dma_unmap_sg - Unmap a scatter/gather list of DMA addresses
  * @dev: The device for which the DMA addresses were created
  * @sg: The array of scatter/gather entries
  * @nents: The number of scatter/gather entries
  * @direction: The direction of the DMA
  */
 static inline void ib_dma_unmap_sg(struct ib_device *dev,
 				   struct scatterlist *sg, int nents,
 				   enum dma_data_direction direction)
 {
 	if (dev->dma_ops)
 		dev->dma_ops->unmap_sg(dev, sg, nents, direction);
 	else
 		dma_unmap_sg(dev->dma_device, sg, nents, direction);
 }
 
 static inline int ib_dma_map_sg_attrs(struct ib_device *dev,
 				      struct scatterlist *sg, int nents,
 				      enum dma_data_direction direction,
 				      struct dma_attrs *dma_attrs)
 {
 	if (dev->dma_ops)
 		return dev->dma_ops->map_sg_attrs(dev, sg, nents, direction,
 						  dma_attrs);
 	else
 		return dma_map_sg_attrs(dev->dma_device, sg, nents, direction,
 					dma_attrs);
 }
 
 static inline void ib_dma_unmap_sg_attrs(struct ib_device *dev,
 					 struct scatterlist *sg, int nents,
 					 enum dma_data_direction direction,
 					 struct dma_attrs *dma_attrs)
 {
 	if (dev->dma_ops)
 		return dev->dma_ops->unmap_sg_attrs(dev, sg, nents, direction,
 						  dma_attrs);
 	else
 		dma_unmap_sg_attrs(dev->dma_device, sg, nents, direction,
 				   dma_attrs);
 }
 /**
  * ib_sg_dma_address - Return the DMA address from a scatter/gather entry
  * @dev: The device for which the DMA addresses were created
  * @sg: The scatter/gather entry
  *
  * Note: this function is obsolete. To do: change all occurrences of
  * ib_sg_dma_address() into sg_dma_address().
  */
 static inline u64 ib_sg_dma_address(struct ib_device *dev,
 				    struct scatterlist *sg)
 {
 	return sg_dma_address(sg);
 }
 
 /**
  * ib_sg_dma_len - Return the DMA length from a scatter/gather entry
  * @dev: The device for which the DMA addresses were created
  * @sg: The scatter/gather entry
  *
  * Note: this function is obsolete. To do: change all occurrences of
  * ib_sg_dma_len() into sg_dma_len().
  */
 static inline unsigned int ib_sg_dma_len(struct ib_device *dev,
 					 struct scatterlist *sg)
 {
 	return sg_dma_len(sg);
 }
 
 /**
  * ib_dma_sync_single_for_cpu - Prepare DMA region to be accessed by CPU
  * @dev: The device for which the DMA address was created
  * @addr: The DMA address
  * @size: The size of the region in bytes
  * @dir: The direction of the DMA
  */
 static inline void ib_dma_sync_single_for_cpu(struct ib_device *dev,
 					      u64 addr,
 					      size_t size,
 					      enum dma_data_direction dir)
 {
 	if (dev->dma_ops)
 		dev->dma_ops->sync_single_for_cpu(dev, addr, size, dir);
 	else
 		dma_sync_single_for_cpu(dev->dma_device, addr, size, dir);
 }
 
 /**
  * ib_dma_sync_single_for_device - Prepare DMA region to be accessed by device
  * @dev: The device for which the DMA address was created
  * @addr: The DMA address
  * @size: The size of the region in bytes
  * @dir: The direction of the DMA
  */
 static inline void ib_dma_sync_single_for_device(struct ib_device *dev,
 						 u64 addr,
 						 size_t size,
 						 enum dma_data_direction dir)
 {
 	if (dev->dma_ops)
 		dev->dma_ops->sync_single_for_device(dev, addr, size, dir);
 	else
 		dma_sync_single_for_device(dev->dma_device, addr, size, dir);
 }
 
 /**
  * ib_dma_alloc_coherent - Allocate memory and map it for DMA
  * @dev: The device for which the DMA address is requested
  * @size: The size of the region to allocate in bytes
  * @dma_handle: A pointer for returning the DMA address of the region
  * @flag: memory allocator flags
  */
 static inline void *ib_dma_alloc_coherent(struct ib_device *dev,
 					   size_t size,
 					   u64 *dma_handle,
 					   gfp_t flag)
 {
 	if (dev->dma_ops)
 		return dev->dma_ops->alloc_coherent(dev, size, dma_handle, flag);
 	else {
 		dma_addr_t handle;
 		void *ret;
 
 		ret = dma_alloc_coherent(dev->dma_device, size, &handle, flag);
 		*dma_handle = handle;
 		return ret;
 	}
 }
 
 /**
  * ib_dma_free_coherent - Free memory allocated by ib_dma_alloc_coherent()
  * @dev: The device for which the DMA addresses were allocated
  * @size: The size of the region
  * @cpu_addr: the address returned by ib_dma_alloc_coherent()
  * @dma_handle: the DMA address returned by ib_dma_alloc_coherent()
  */
 static inline void ib_dma_free_coherent(struct ib_device *dev,
 					size_t size, void *cpu_addr,
 					u64 dma_handle)
 {
 	if (dev->dma_ops)
 		dev->dma_ops->free_coherent(dev, size, cpu_addr, dma_handle);
 	else
 		dma_free_coherent(dev->dma_device, size, cpu_addr, dma_handle);
 }
 
 /**
  * ib_dereg_mr - Deregisters a memory region and removes it from the
  *   HCA translation table.
  * @mr: The memory region to deregister.
  *
  * This function can fail, if the memory region has memory windows bound to it.
  */
 int ib_dereg_mr(struct ib_mr *mr);
 
 struct ib_mr *ib_alloc_mr(struct ib_pd *pd,
 			  enum ib_mr_type mr_type,
 			  u32 max_num_sg);
 
 /**
  * ib_update_fast_reg_key - updates the key portion of the fast_reg MR
  *   R_Key and L_Key.
  * @mr - struct ib_mr pointer to be updated.
  * @newkey - new key to be used.
  */
 static inline void ib_update_fast_reg_key(struct ib_mr *mr, u8 newkey)
 {
 	mr->lkey = (mr->lkey & 0xffffff00) | newkey;
 	mr->rkey = (mr->rkey & 0xffffff00) | newkey;
 }
 
 /**
  * ib_inc_rkey - increments the key portion of the given rkey. Can be used
  * for calculating a new rkey for type 2 memory windows.
  * @rkey - the rkey to increment.
  */
 static inline u32 ib_inc_rkey(u32 rkey)
 {
 	const u32 mask = 0x000000ff;
 	return ((rkey + 1) & mask) | (rkey & ~mask);
 }
 
 /**
  * ib_alloc_fmr - Allocates a unmapped fast memory region.
  * @pd: The protection domain associated with the unmapped region.
  * @mr_access_flags: Specifies the memory access rights.
  * @fmr_attr: Attributes of the unmapped region.
  *
  * A fast memory region must be mapped before it can be used as part of
  * a work request.
  */
 struct ib_fmr *ib_alloc_fmr(struct ib_pd *pd,
 			    int mr_access_flags,
 			    struct ib_fmr_attr *fmr_attr);
 
 /**
  * ib_map_phys_fmr - Maps a list of physical pages to a fast memory region.
  * @fmr: The fast memory region to associate with the pages.
  * @page_list: An array of physical pages to map to the fast memory region.
  * @list_len: The number of pages in page_list.
  * @iova: The I/O virtual address to use with the mapped region.
  */
 static inline int ib_map_phys_fmr(struct ib_fmr *fmr,
 				  u64 *page_list, int list_len,
 				  u64 iova)
 {
 	return fmr->device->map_phys_fmr(fmr, page_list, list_len, iova);
 }
 
 /**
  * ib_unmap_fmr - Removes the mapping from a list of fast memory regions.
  * @fmr_list: A linked list of fast memory regions to unmap.
  */
 int ib_unmap_fmr(struct list_head *fmr_list);
 
 /**
  * ib_dealloc_fmr - Deallocates a fast memory region.
  * @fmr: The fast memory region to deallocate.
  */
 int ib_dealloc_fmr(struct ib_fmr *fmr);
 
 /**
  * ib_attach_mcast - Attaches the specified QP to a multicast group.
  * @qp: QP to attach to the multicast group.  The QP must be type
  *   IB_QPT_UD.
  * @gid: Multicast group GID.
  * @lid: Multicast group LID in host byte order.
  *
  * In order to send and receive multicast packets, subnet
  * administration must have created the multicast group and configured
  * the fabric appropriately.  The port associated with the specified
  * QP must also be a member of the multicast group.
  */
 int ib_attach_mcast(struct ib_qp *qp, union ib_gid *gid, u16 lid);
 
 /**
  * ib_detach_mcast - Detaches the specified QP from a multicast group.
  * @qp: QP to detach from the multicast group.
  * @gid: Multicast group GID.
  * @lid: Multicast group LID in host byte order.
  */
 int ib_detach_mcast(struct ib_qp *qp, union ib_gid *gid, u16 lid);
 
 /**
  * ib_alloc_xrcd - Allocates an XRC domain.
  * @device: The device on which to allocate the XRC domain.
  */
 struct ib_xrcd *ib_alloc_xrcd(struct ib_device *device);
 
 /**
  * ib_dealloc_xrcd - Deallocates an XRC domain.
  * @xrcd: The XRC domain to deallocate.
  */
 int ib_dealloc_xrcd(struct ib_xrcd *xrcd);
 
 struct ib_flow *ib_create_flow(struct ib_qp *qp,
 			       struct ib_flow_attr *flow_attr, int domain);
 int ib_destroy_flow(struct ib_flow *flow_id);
 
 static inline int ib_check_mr_access(int flags)
 {
 	/*
 	 * Local write permission is required if remote write or
 	 * remote atomic permission is also requested.
 	 */
 	if (flags & (IB_ACCESS_REMOTE_ATOMIC | IB_ACCESS_REMOTE_WRITE) &&
 	    !(flags & IB_ACCESS_LOCAL_WRITE))
 		return -EINVAL;
 
 	return 0;
 }
 
 /**
  * ib_check_mr_status: lightweight check of MR status.
  *     This routine may provide status checks on a selected
  *     ib_mr. first use is for signature status check.
  *
  * @mr: A memory region.
  * @check_mask: Bitmask of which checks to perform from
  *     ib_mr_status_check enumeration.
  * @mr_status: The container of relevant status checks.
  *     failed checks will be indicated in the status bitmask
  *     and the relevant info shall be in the error item.
  */
 int ib_check_mr_status(struct ib_mr *mr, u32 check_mask,
 		       struct ib_mr_status *mr_status);
 
 struct ifnet *ib_get_net_dev_by_params(struct ib_device *dev, u8 port,
 					    u16 pkey, const union ib_gid *gid,
 					    const struct sockaddr *addr);
 struct ib_wq *ib_create_wq(struct ib_pd *pd,
 			   struct ib_wq_init_attr *init_attr);
 int ib_destroy_wq(struct ib_wq *wq);
 int ib_modify_wq(struct ib_wq *wq, struct ib_wq_attr *attr,
 		 u32 wq_attr_mask);
 struct ib_rwq_ind_table *ib_create_rwq_ind_table(struct ib_device *device,
 						 struct ib_rwq_ind_table_init_attr*
 						 wq_ind_table_init_attr);
 int ib_destroy_rwq_ind_table(struct ib_rwq_ind_table *wq_ind_table);
 
 int ib_map_mr_sg(struct ib_mr *mr, struct scatterlist *sg, int sg_nents,
 		 unsigned int *sg_offset, unsigned int page_size);
 
 static inline int
 ib_map_mr_sg_zbva(struct ib_mr *mr, struct scatterlist *sg, int sg_nents,
 		  unsigned int *sg_offset, unsigned int page_size)
 {
 	int n;
 
 	n = ib_map_mr_sg(mr, sg, sg_nents, sg_offset, page_size);
 	mr->iova = 0;
 
 	return n;
 }
 
 int ib_sg_to_pages(struct ib_mr *mr, struct scatterlist *sgl, int sg_nents,
 		unsigned int *sg_offset, int (*set_page)(struct ib_mr *, u64));
 
 void ib_drain_rq(struct ib_qp *qp);
 void ib_drain_sq(struct ib_qp *qp);
 void ib_drain_qp(struct ib_qp *qp);
 
 int ib_resolve_eth_dmac(struct ib_device *device,
 			struct ib_ah_attr *ah_attr);
 #endif /* IB_VERBS_H */