HLS中使用浮点数

学习目标:

  • 使用浮点数
  • 换用自己的库进行高级综合

HLS中的浮点数

stratus HLS提供内置的浮点数,可以实现常规的加减乘操作,类型为:

1
cynw_cm_float<e,f,accurcy,rounding mode,NaN handle>

该类型共有5个模板参数,分别如下所示:

  • e:指数位宽,为浮点数的指数位数
  • f:尾数位宽,为浮点数的尾数位数
  • accuracy:精确度,这一参数可以设置是否需要实现完整的IEEE标准浮点数。若需要实现则可以提高计算精度,若不实现则可以缩小面积提升性能。
  • rounding mode:取整模式,推测为浮点数尾数处理中如何取整,具有多种模式
  • NaN handle:用于选择如何处理NaN

对于指数位宽和尾数位宽,为每一个浮点数都具有的参数,不用过多解释;对于精确度,具有多种选项,每种选项具有不同的精度-代价折中,如下表所示:

标号 说明
CYNW_REDUCED_ACCURACY 默认情况,使用低精度低代价实现方法
CYNW_BEST_ACCURACY 使用IEEE标准的浮点数
CYNW_NATIVE_ACCURACY 使用C++中的浮点数,不可综合
CYNW_EXCEPTION_ACCURACY 使用IEEE标准带异常的浮点数精度

对于取整模式rounding,可选择的如下表所示:

标号 说明
CYNW_NEAREST 默认情况,向最接近的偶数取整
CYNW_POSINF 向上取整
CYNW_NEGINF 向下取整
CYNW_RNDZERO 向零取整
CYNW_NEAREST_AWAY 四舍五入

对于NaN处理,有下表所示:

标号 说明
0 返回恒定的NaN
1 默认情况,标准IEEE的NaN处理方法,左操作数优先
2 标准IEEE的NaN处理方法,右操作数优先

使用方法

在设计中,需要添加头文件cynw_cm_float.h即可使用以上浮点数类型,使用时如同常规数据类型直接使用,可实现加减乘等操作,如下所示:

1
2
3
#include "cynw_cm_float.h"
typedef cynw_cm_float<5,10> DT;
// DT a,b,c;c = a+b 可实现

project.tcl中,需要在添加库的同时添加使用浮点库,如下所示:

1
use_hls_lib "cynw_cm_float"

随后进行常规的仿真流程即可,下图为CYNW_REDUCED_ACCURACY的float16加法器的仿真和综合结果,使用的库是自带的55nm库:

时序相关

时序设置

对于时序而言,在HLS有多个参数可以设置,包括:

  • 时钟频率(必须)
  • 时钟非理想因素
  • 输入与输出延迟

这些因素在常规流程中使用SDC进行设置,在HLS流程中在代码或project.tcl中设置。首先考虑时钟非理想因素。即uncertainty,在HLS中使用cycle_slackproject.tcl中设置,如下所示:

1
2
set_attr clock_period 10.0
set_attr cycle_slack 1.5

上述设置时钟周期为10ns,非理想因素为1.5ns,等效时钟周期为8.5ns。输入与输出延迟在代码中直接设置,使用HLS_SET_INPUT_DELAYHLS_SET_DEFAULT_INPUT_DELAY设置输入延迟,其中:

  • HLS_SET_INPUT_DELAY( port, float delay, "char* name" ):用于设置特定端口
  • HLS_SET_DEFAULT_INPUT_DELAY( float delay, "char* name" );:用于设置所有未被特定设置的端口

对于输出而言,同理有:

  • HLS_SET_OUTPUT_DELAY(signal_id, delay );:用于设置特定端口
  • HLS_SET_DEFAULT_OUTPUT_DELAY( delay);:用于设置所有未被特定设置的端口

stratus HLS一般使用寄存器输出,因此除非输出端口,输出延迟可以不进行设置。设置端口延迟如下所示,以下例子中,设置了w_in端口的输入延迟为0.5ns,其他端口(x_in和data_valid)均为0.3ns。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
void dut_template::t() {
HLS_SET_INPUT_DELAY(w_in,0.5,"data0_delay");
HLS_SET_DEFAULT_INPUT_DELAY(0.3,"data1_delay");
{
HLS_DEFINE_PROTOCOL("reset");
w_in.reset();
x_in.reset();
y_out.reset();
data_valid.write(0);
wait();
}
while(1) {
HLS_PIPELINE_LOOP(SOFT_STALL, 1, "main_loop");
DT x_val = x_in.get();
DT w_val = w_in.get();
DT out_val = x_val + w_val;
y_out.put(out_val);
}
}

时序违例

HLS一般不会出现时序违例,因为可以自动进行流水线的插入操作,经过试验,即使float计算ip也可以在时序不满足时自动进行流水线插入以避免时序违例,同时stratus HLS将时序违例看做“错误”,当出现时序违例时,软件会抛出错误Error并打印时序违例的信息,一般时序违例来源于人工指定过多时序等,例如强制要求某段代码在指定的时钟周期内完成。

使用自己的库

stratus HLS中内置一个55nm的库,在具体工艺中,需要使用自己的库进行评估,在project.tcl中,使用如下命令:

1
use_tech_lib "path.lib"

注意需要使用的是.lib库而不是.db库。随后重新生成makefile,即可使用自己的库进行评估。