infiniband学习总结_ibv_wc_wr_flush_err-程序员宅基地

一.什么是infiniband

InfiniBand架构是一种支持多并发链接的“转换线缆”技术,它是新一代服务器硬件平台的I/O标准。由于它具有高带宽、低延时、 高可扩展性的特点,它非常适用于服务器与服务器(比如复制,分布式工作等),服务器和存储设备(比如SAN和直接存储附件)以及服务器和网络之间(比如LAN, WANs和the Internet)的通信 。

二.Infiniband产生的原因

随着CPU性能的飞速发展,I/O系统的性能成为制约服务器性能的瓶颈。于是人们开始重新审视使用了十几年的PCI总线架构。虽然PCI总线结构把数据的传输从8位/16位一举提升到32位,甚至当前的64位,但是它的一些先天劣势限制了其继续发展的势头。PCI总线有如下缺陷:

(1)由于采用了基于总线的共享传输模式,在PCI总线上不可能同时传送两组以上的数据,当一个PCI设备占用总线时,其他设备只能等待;

(2)随着总线频率从33MHz提高到66MHz,甚至133MHz(PCI-X),信号线之间的相互干扰变得越来越严重,在一块主板上布设多条总线的难度也就越来越大;

(3)由于PCI设备采用了内存映射I/O地址的方式建立与内存的联系,热添加PCI设备变成了一件非常困难的工作。目前的做法是在内存中为每一个PCI设备划出一块50M到100M的区域,这段空间用户是不能使用的,因此如果一块主板上支持的热插拔PCI接口越多,用户损失的内存就越多;

(4)PCI的总线上虽然有buffer作为数据的缓冲区,但是它不具备纠错的功能,如果在传输的过程中发生了数据丢失或损坏的情况,控制器只能触发一个NMI中断通知操作系统在PCI总线上发生了错误

    因此,Intel、 Cisco、 Compaq、 EMC、 富士通等公司共同发起了infiniband架构,其目的是为了取代PCI成为系统互连的新技术标准,其核心就是将I/O系统从服务器主机中分离出来。

InfiniBand 采 用双队列程序提取技术,使应用程序直接将数据从适配器 送入到应用内存(称为远程直接存储器存取或RDMA), 反之依然。在TCP/IP协议中,来自网卡的数据先拷贝到 核心内存,然后再拷贝到应用存储空间,或从应用空间 将数据拷贝到核心内存,再经由网卡发送到Internet。这 种I/O操作方式,始终需要经过核心内存的转换,它不 仅增加了数据流传输路径的长度,而且大大降低了I/O 的访问速度,增加了CPU的负担。而SDP则是将来自网 卡的数据直接拷贝到用户的应用空间,从而避免了核心 内存参入。这种方式就称为零拷贝,它可以在进行大量 数据处理时,达到该协议所能达到的最大的吞吐量

三.Infiniband的协议层次与网络结构

 

图1

Infiniband的协议采用分层结构,各个层次之间相互独立,下层为上层提供服务。其中,物理层定义了在线路上如何将比特信号组 成符号,然后再组成帧、 数据符号以及包之间的数据填 充等,详细说明了构建有效包的信令协议等;链路层定义了数据包的格式以及数据包操作的协议,如流控、 路由选择、 编码、解码等;网络层通过在数据包上添加一个40字节的全局的路由报头(Global Route Header,GRH)来进行路由的选择,对数据进行转发。在转发的过程中,路由 器仅仅进行可变的CRC校验,这样就保证了端到端的数据传输的完整性;传输层再将数据包传送到某个指定 的队列偶(QueuePair,QP)中,并指示QP如何处理该数据 包以及当信息的数据净核部分大于通道的最大传输单 元MTU时,对数据进行分段和重组。

  

图2

Infiniband的网络拓扑结构如图2,其组成单元主要分为四类:

(1)HCA(Host Channel Adapter),它是连接内存控制器和TCA的桥梁;

(2)TCA(Target Channel Adapter),它将I/O设备(例如网卡、SCSI控制器)的数字信号打包发送给HCA;

(3)Infiniband link,它是连接HCA和TCA的光纤,InfiniBand架构允许硬件厂家以1条、4条、12条光纤3种方式连结TCA和HCA;

(4)交换机和路由器;

无论是HCA还是TCA,其实质都是一个主机适配器,它是一个具备一定保护功能的可编程DMA(Direct Memory Access,直接内存存取 )引擎,

 

图3

   

如图3所示,每个端口具有一个GUID(Globally Unique Identifier),GUID是全局唯一的,类似于以太网MAC地址。运行过程中,子网管理代理(SMA)会给端口分配一个本地标识(LID),LID仅在子网内部有用。QP是infiniband的一个重要概念,它是指发送队列和接收队列的组合,用户调用API发送接收数据的时候,实际上是将数据放入QP当中,然后以轮询的方式将QP中的请求一条条的处理,其模式类似于生产者-消费者模式。

 

图4

如图4所示,图中Work queue即是QP中的send Queue或者receive Queue,WQ中的请求被处理完成之后,就被放到Work Completion中。

四.如何使用IB verbs传送数据

Infiniband提供了VPI verbs API和RDMA_CM verbs API 这两个API集合,用户使用其中的库函数,就能很方便的在不同的机器之间传输数据。Infiniband建立连接的流程如下图所示:

 

图5

其中buildcontext的流程如下:

图6

连接建立完成之后,就可以调用ibv_post_recv和ibv_post_send收发数据了,发送和接收请求都被放在QP中,后台需要调用ibv_poll_cq来逐条处理请求,由于infiniband连接中,一旦有一条数据发送或者接收失败,其后所有的数据发送或者接收都会失败,因此一旦检测到WC的状态不是成功,需要立即处理此错误(此时最好断开连接)。

五.常见错误

     ibv_poll_cq处理完队列中的数据后,WC会包含此次处理的全部信息,包括wr_id、操作状态、错误码等等,错误码包含的信息对于我们解决错误非常有用,这里我就列举一下我在编写代码中遇到的错误。

(1)错误码为4(IBV_WC_LOC_PROT_ERR ),这种错误通常意味着用户对内存的操作权限不够,需要检测在ibv_post_recv和ibv_post_send时scatter/gather list 中传入的内存地址与长度是否正确,或者ibv_reg_mr操作是否成功。

(2)错误码为5,(IBV_WC_WR_FLUSH_ERR ),在flush的时候出现错误,通常是因为前一个操作出现了错误,接下来的一系列操作都会出现      

IBV_WC_WR_FLUSH_ERR的错误。

(3)错误码为13(IBV_WC_RNR_RETRY_EXC_ERR  ),这种错误一般是因为本地post数据过快。在infiniband传输数据过程中,接收端首选需要注册内存并ibv_post_recv将此内存放入receive queue中然后发送端才能发送数据,如果接受端来不及完成这些操作发送端就发送数据,就会出现上述错误。

本站文章均为本站技术人员原创,未经许可,禁止转载。如需转载,可站内留言告知。 转载本博文章须在文章明显处注明作者“达沃时代”及附上原文链接,便于读者找到原文的更新版。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/shawnan/article/details/86440083

智能推荐

Toeplitz矩阵以及矩阵乘法FFT加速_toeplitz矩阵乘向量例子-程序员宅基地

文章浏览阅读3.9k次。Toeplitz矩阵以及矩阵乘法FFT加速1.Toeplitz矩阵托普利兹矩阵,简称为T型矩阵,它是由Bryc、Dembo、Jiang于2006年提出的。托普利兹矩阵的主对角线上的元素相等,平行于主对角线的线上的元素也相等;矩阵中的各元素关于次对角线对称,即T型矩阵为次对称矩阵。这里我们使用matlab中自带的函数生成一个toeplitz矩阵的例子:x=[1 2 3 4];y=[1 5 6 7 8 9];z=toeplitz(x,y);我们可以得到一个这样的矩阵结果:我们可以看到,其中x中_toeplitz矩阵乘向量例子

Python pandas练习Retuns50stocks股票,纯英文ipynb作业20题,100%正确答案_create a function that takes a positive integer an-程序员宅基地

文章浏览阅读848次,点赞2次,收藏3次。#%% mdAssigment 4Instructions: This problem set should be done individuallyAnswer each question in the designated space belowAfter you are done. save and upload in blackboard.Please check that you are submitting the correct file. One way to avoid mist_create a function that takes a positive integer and returns the next bigger

FDR校正的程序实现及严格程度对比_fdr校正后全没有意义-程序员宅基地

文章浏览阅读2.4w次,点赞9次,收藏44次。FDR校正的程序实现及严格程度对比前言 做统计分析就离不开P value<0.05,而写过科研文章的人也都知道没有经过FDR校正的P值就像一盘散沙,不用风吹,走两步自个儿就散了。那么FDR校正这个让人又爱又恨的东西是什么呢?又是如何实现呢? 原理是这样:设总共有m个候选基因,每个基因对应的p值从小到大排列分别是 p(1),p(2),..._fdr校正后全没有意义

淦VINS-MONO源码 01--IMU的误差模型和标定-程序员宅基地

文章浏览阅读921次。IMU的误差模型和标定工作原理加速度计工作原理陀螺仪测量原理误差来源IMU噪声模型biasscale轴偏差IMU校准确定性误差六面法标定bias和scale factor温度相关的参数标定随机误差高斯白噪声Bias 随机游走艾伦方差标定数学模型加速度计数学模型陀螺仪数学模型在看完orb-slam后,也投了一些实习,发现纯视觉的方案在很多方面都没得到采用,特别是自动驾驶中定位感知方面,基本上是雷达+IMU+相机+GPS等等的多传感器融合,所以接下来的计划会看看vins-mono和loam的源代码,一个是IM

Dotween常用方法详解-程序员宅基地

文章浏览阅读10w+次,点赞213次,收藏880次。Dotween是unity里非常常用的插件,但是很多人应该没有仔细的阅读过它的api,它实际有很多好用的方法,下面我就针对一些相对常用的方法,做下总结:一、Unity常用组件拓展方法(1) Transform拓展方法1)Position 改变世界坐标 移动方法,第一个参数是要移动到的目标点,不是移动这个向量的距离 transform.DOMov..._dotween

matlab图片纹理特征直方图,常用的图像特征有颜色特征、纹理特征、形状特征、空间关系特征。...-程序员宅基地

文章浏览阅读1k次。常用的图像特征有颜色特征、纹理特征、形状特征、空间关系特征。一 颜色特征(一)特点:颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质。一般颜色特征是基于像素点的特征,此时所有属于图像或图像区域的像素都有各自的贡献。由于颜色对图像或图像区域的方向、大小等变化不敏感,所以颜色特征不能很好地捕捉图像中对象的局部特征。另外,仅使用颜色特征查询时,如果数据库很大,常会将许多不需要的图像也检...

随便推点

sqlite3 调用sqlite3_exec查询数据时出现"callback requested query abort"-程序员宅基地

文章浏览阅读4.9k次,点赞6次,收藏7次。不知道有没有人跟我一样,在调用sqlite3的API中sqlite3_exec()函数时出现abort问题,今天我就遇到了,如下图。函数基本原型为: int sqlite3_exec(sqlite3*,const char *sql,sqlite_callback,void *param,char **errmsg); 主要功能是用于查询数据库里的_callback requested query abort

关于ctags的安装和使用_ctags 安装-程序员宅基地

文章浏览阅读627次。1、运行下列命令,是ctags进行安装$ sudo apt-get install ctags2、安装成功后,在项目目录下,就可以了$ ctags -R3、一些细节,如果你是你只想生成php的$ ctags --languages=php -R .4、或者$ ctags -R --exclude=*.js5、无聊时,可以查看ctags都支持那些语言$ ctags --list-languages开发中如何跳转ctrl + ]跳转后如何回到开始的位置_ctags 安装

4.链表组件(LeetCode 817)_给定链表头结点 head,该链表上的每个结点都有一个唯一的整型值 。 同时给定列表 g-程序员宅基地

文章浏览阅读254次。问题描述 :给定链表头结点 head,该链表上的每个结点都有一个唯一的整型值 。同时给定列表 G,该列表是上述链表中整型值的一个子集。返回列表 G 中组件的个数,这里对组件的定义为:链表中一段极长连续结点的值(该值必须在列表 G 中)构成的集合。极长的含义是:这段连续结点的前面或后面结点不属于G。示例 1:输入:head: 0->1->2->3G = [0, 1, 3]输出: 2解释:链表中,0 和 1 是相连接的,且 G 中不包含 2,所以 [0, 1] 是 G 的一_给定链表头结点 head,该链表上的每个结点都有一个唯一的整型值 。 同时给定列表 g

使用神器MobaXterm连接远程mysql和redis-程序员宅基地

文章浏览阅读3.4k次。https://mobaxterm.mobatek.net/download-home-edition.htmlmysqlredis连接测试mysql127.0.0.13307密码使用线上密码redis127.0.0.16380密码使用线上密码转载于:https://www.cnblogs.com/cxscode/...

Shell判断字符串是否为空-程序员宅基地

文章浏览阅读1k次。主要有以下几种方法:echo “$str”|awk '{print length($0)}'expr length “$str”echo “$str”|wc -c但是第三种得出的值会多1,可能是把结束符也计算在内了判断字符串为空的方法有三种:if [ "$str" ="" ] if [ x"$str" = x ]if [ -z "$str" ] (-n ...

ingress-nginx-限速_ingress nginx速率限制-程序员宅基地

文章浏览阅读2.8k次。限速这些注释定义了可由单个客户端IP地址打开的连接的限制。这可用于缓解DDoS攻击。nginx.ingress.kubernetes.io/limit-connections:来自单个IP地址的并发连接数。 nginx.ingress.kubernetes.io/limit-rps:每秒可从给定IP接受的连接数。 nginx.ingress.kubernetes.io/limit-rpm..._ingress nginx速率限制