STM32G474--Whetstone程序移植(单精度)笔记

news/2025/2/9 1:32:05 标签: stm32, 笔记, 嵌入式硬件

1 准备基本工程代码

参考这篇笔记从我的仓库中选择合适的基本工程,进行程序移植。这里我用的是stm32g474的基本工程。
使用git clone一个指定文件或者目录

2 移植程序

2.1 修改Whetstone.c

主要修改原本变量定义的类型,以及函数接口全部更换为单精度类型。其次在计时方式上这里使用的是DWT的方式计时,比TM32G474–Whetstone程序移植(双精度)笔记的计时方式更好一些,但需要更加注意溢出的问题。

#include <stdlib.h>
#include <stdio.h>
#include <string.h>
#include <math.h>

// 添加头文件
#include "main.h"
#include <stdint.h>
#include "stm32g4xx_hal.h"//stm32G4的hal库头文件,若更换芯片型哈需要更改
#include "debug_PmuDwt.h"

/* map the FORTRAN math functions, etc. to the C versions */
#define DSIN    sinf
#define DCOS    cosf
#define DATAN   atanf
#define DLOG    logf
#define DEXP    expf
#define DSQRT   sqrtf
#define IF      if

/* function prototypes */
void POUT(long N, long J, long K, float X1, float X2, float X3, float X4);
void PA(float E[]);
void P0(void);
void P3(float X, float Y, float *Z);
#define USAGE   "usage: whetdc [-c] [loops]\n"

//#define PRINTOUT 1

float time_in_secs(uint64_t ticks);

/*
    COMMON T,T1,T2,E1(4),J,K,L
*/
float T,T1,T2,E1[5];
int J,K,L;
int argc = 0;   //Mod for nucleo. Change in code below if you want non-default loop count

//************************************
//**    Whetstone    64b-DP         **
//**        SUB                     **
//************************************
int Whetstone(void) // ------------ Metoda -----------
{
    printf("Beginning Whetstone benchmark at ");
    
    printf(" %d MHz ...\n\n", SystemCoreClock/1000000);
    /* used in the FORTRAN version */
    long I;
    long N1, N2, N3, N4, N6, N7, N8, N9, N10, N11;
    float X1,X2,X3,X4,X,Y,Z;
    long LOOP;
    int II, JJ;

    /* added for this version */
    long loopstart = 0;
    uint64_t startsec,finisec = 0;
    uint32_t delta=0;
    float KIPS;
    int continuous;

    loopstart = 40000;       /* 1000 see the note about LOOP below */
    continuous = 0;

    II = 1;     /* start at the first arg (temp use of II here) */
 
LCONT:
/*
********************************************
*   Start benchmark timing at this point.
********************************************
*/
    startsec = 0;
    finisec = 0;
    
    delta = PMU_DWT_CounterCalibrate();
    
    startsec = PMU_DWT_CounterGet();

/*
********************************************
*   The actual benchmark starts here.
********************************************
*/
    T  = .499975f;
    T1 = 0.50025f;
    T2 = 2.0f;
/*
********************************************
*   With loopcount LOOP=10, one million Whetstone instructions
*   will be executed in EACH MAJOR LOOP..A MAJOR LOOP IS EXECUTED
*   'II' TIMES TO INCREASE WALL-CLOCK TIMING ACCURACY.
*
*   LOOP = 1000;
*/
    LOOP = loopstart;
    II   = 1;
    JJ = 1;

IILOOP:
    N1  = 0;
    N2  = 12 * LOOP;
    N3  = 14 * LOOP;
    N4  = 345 * LOOP;
    N6  = 210 * LOOP;
    N7  = 32 * LOOP;
    N8  = 899 * LOOP;
    N9  = 616 * LOOP;
    N10 = 0;
    N11 = 93 * LOOP;
/*
********************************************
*   Module 1: Simple identifiers
********************************************
*/
    X1  =  1.0f;
    X2  = -1.0f;
    X3  = -1.0f;
    X4  = -1.0f;

    for (I = 1; I <= N1; I++)
    {
        X1 = (X1 + X2 + X3 - X4) * T;
        X2 = (X1 + X2 - X3 + X4) * T;
        X3 = (X1 - X2 + X3 + X4) * T;
        X4 = (-X1+ X2 + X3 + X4) * T;
    }
#ifdef PRINTOUT
    IF (JJ==II) POUT(N1,N1,N1,X1,X2,X3,X4);
#endif

/*
********************************************
*   Module 2: Array elements
********************************************
*/
    E1[1] =  1.0f;
    E1[2] = -1.0f;
    E1[3] = -1.0f;
    E1[4] = -1.0f;

    for (I = 1; I <= N2; I++)
    {
        E1[1] = ( E1[1] + E1[2] + E1[3] - E1[4]) * T;
        E1[2] = ( E1[1] + E1[2] - E1[3] + E1[4]) * T;
        E1[3] = ( E1[1] - E1[2] + E1[3] + E1[4]) * T;
        E1[4] = (-E1[1] + E1[2] + E1[3] + E1[4]) * T;
    }

#ifdef PRINTOUT
    IF (JJ==II) POUT(N2,N3,N2,E1[1],E1[2],E1[3],E1[4]);
#endif

/*
********************************************
*  Module 3: Array as parameter
********************************************
*/
    for (I = 1; I <= N3; I++)
    {
        PA(E1);
    }
#ifdef PRINTOUT
    IF (JJ==II) POUT(N3,N2,N2,E1[1],E1[2],E1[3],E1[4]);
#endif

/*
********************************************
*   Module 4: Conditional jumps
********************************************
*/
    J = 1;
    for (I = 1; I <= N4; I++)
    {
        if (J == 1)
            J = 2;
        else
            J = 3;

        if (J > 2)
            J = 0;
        else
            J = 1;

        if (J < 1)
            J = 1;
        else
            J = 0;
    }

#ifdef PRINTOUT
    IF (JJ==II) POUT(N4,J,J,X1,X2,X3,X4);
#endif

/*
********************************************
*   Module 5: Omitted
*   Module 6: Integer arithmetic
********************************************
*/

    J = 1;
    K = 2;
    L = 3;

    for (I = 1; I <= N6; I++)
    {
        J = J * (K-J) * (L-K);
        K = L * K - (L-J) * K;
        L = (L-K) * (K+J);
        E1[L-1] = J + K + L;
        E1[K-1] = J * K * L;
    }

#ifdef PRINTOUT
    IF (JJ==II) POUT(N6,J,K,E1[1],E1[2],E1[3],E1[4]);
#endif

/*
********************************************
*   Module 7: Trigonometric functions
********************************************
*/
    X = 0.5f;
    Y = 0.5f;

    for (I = 1; I <= N7; I++)
    {
        X = T * DATAN(T2*DSIN(X)*DCOS(X)/(DCOS(X+Y)+DCOS(X-Y)-1.0f));
        Y = T * DATAN(T2*DSIN(Y)*DCOS(Y)/(DCOS(X+Y)+DCOS(X-Y)-1.0f));
    }

#ifdef PRINTOUT
    IF (JJ==II)POUT(N7,J,K,X,X,Y,Y);
#endif

/*
********************************************
*   Module 8: Procedure calls
********************************************
*/
    X = 1.0;
    Y = 1.0;
    Z = 1.0;

    for (I = 1; I <= N8; I++)
    {
        P3(X,Y,&Z);
    }
#ifdef PRINTOUT
    IF (JJ==II)POUT(N8,J,K,X,Y,Z,Z);
#endif

/*
********************************************
*   Module 9: Array references
********************************************
*/
    J = 1;
    K = 2;
    L = 3;
    E1[1] = 1.0;
    E1[2] = 2.0;
    E1[3] = 3.0;

    for (I = 1; I <= N9; I++)
    {
        P0();
    }
#ifdef PRINTOUT
    IF (JJ==II) POUT(N9,J,K,E1[1],E1[2],E1[3],E1[4]);
#endif

/*
********************************************
*   Module 10: Integer arithmetic
********************************************
*/
    J = 2;
    K = 3;

    for (I = 1; I <= N10; I++)
    {
        J = J + K;
        K = J + K;
        J = K - J;
        K = K - J - J;
    }

#ifdef PRINTOUT
    IF (JJ==II) POUT(N10,J,K,X1,X2,X3,X4);
#endif

/*
********************************************
*   Module 11: Standard functions
********************************************
*/
    X = 0.75;

    for (I = 1; I <= N11; I++)
    {
        X = DSQRT(DEXP(DLOG(X)/T1));
    }
#ifdef PRINTOUT
    IF (JJ==II) POUT(N11,J,K,X,X,X,X);
#endif

/*
********************************************
*      THIS IS THE END OF THE MAJOR LOOP.
********************************************
*/
    if (++JJ <= II)
        goto IILOOP;

/*
********************************************
*      Stop benchmark timing at this point.
********************************************
*/
   // finisec = time(0);
    finisec = PMU_DWT_CounterGet();
    //timer.reset();

/*
*--------------------------------------------------------------------
*      Performance in Whetstone KIP's per second is given by
*
*   (100*LOOP*II)/TIME
*
*      where TIME is in seconds.
*--------------------------------------------------------------------
*/
    float vreme;
    vreme = time_in_secs(finisec - startsec - delta);
    
    if (vreme <= 0)
     {
        printf("Insufficient duration- Increase the LOOP count \n");
        finisec = 0; 
        startsec = 0;
        return 1;
     }

    printf("Loops: %ld , \t Iterations: %d, \t Duration: %.3f sec. \n",
            LOOP, II, vreme);

    KIPS = (100.0f * LOOP * II) / vreme ;
   
    if (KIPS >= 1000.0f)
        printf("C Converted Float Precision Whetstones: %.3f MIPS \n\n", KIPS / 1000);
    else
        printf("C Converted Float Precision Whetstones: %.3f KIPS \n\n", KIPS);

    if (continuous)
        goto LCONT;

    finisec = 0; 
    startsec = 0;
    return 1;
}

void PA(float E[])
{
    J = 0;

L10:
    E[1] = ( E[1] + E[2] + E[3] - E[4]) * T;
    E[2] = ( E[1] + E[2] - E[3] + E[4]) * T;
    E[3] = ( E[1] - E[2] + E[3] + E[4]) * T;
    E[4] = (-E[1] + E[2] + E[3] + E[4]) / T2;
    J += 1;

    if (J < 6)
        goto L10;
}

void P0(void)
{
    E1[J] = E1[K];
    E1[K] = E1[L];
    E1[L] = E1[J];
}

void P3(float X, float Y, float *Z)
{
    float X1, Y1;

    X1 = X;
    Y1 = Y;
    X1 = T * (X1 + Y1);
    Y1 = T * (X1 + Y1);
    *Z  = (X1 + Y1) / T2;
}

float time_in_secs(uint64_t ticks)
{
  // scale timer down to avoid uint64_t -> double conversion in RV32
  uint32_t scale = 170000000;
  float delta = (float)(ticks*(1.0f)) / scale;
  return delta;
}


#ifdef PRINTOUT
void POUT(long N, long J, long K, float X1, float X2, float X3, float X4)
{
    printf("%7ld %7ld %7ld %12.4e %12.4e %12.4e %12.4e\n",
                        N, J, K, X1, X2, X3, X4);
}
#endif

2.2 修改main.c

删除示例工程中测试基本功能的一小段函数,将以下这段函数放置在while前执行即可。

  printf("\nMy Benchmark example for Whetstones \n");
  printf("Whetstone ");
  
  PMU_DWT_Initialize();// 初始化DWT
  
  Whetstone();// 测试函数

2.3 修改main.h

和双精度的示例相同,需要添加测试函数的声明。

int Whetstone(void);

3 测试结果

在这里插入图片描述
暂时没有具体分析细节问题,只是跑通了


http://www.niftyadmin.cn/n/5845434.html

相关文章

Android修行手册-五种比较图片相似或相同

Unity3D特效百例案例项目实战源码Android-Unity实战问题汇总游戏脚本-辅助自动化Android控件全解手册再战Android系列Scratch编程案例软考全系列Unity3D学习专栏蓝桥系列ChatGPT和AIGC👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分享(网站、工具、素材…

【Leetcode 热题 100】136. 只出现一次的数字

问题背景 给你一个 非空 整数数组 n u m s nums nums&#xff0c;除了某个元素只出现一次以外&#xff0c;其余每个元素均出现两次。找出那个只出现了一次的元素。 你必须设计并实现线性时间复杂度的算法来解决此问题&#xff0c;且该算法只使用常量额外空间。 数据约束 1 ≤…

MCU应用踩坑笔记(ADC 中断 / 查询法)

问题描述 IC&#xff1a;SC92F7596,在使用过程中&#xff0c;发现一个问题&#xff0c;就是我们使用到了ADC功能&#xff0c;程序的代码如下&#xff1a; ADC采样周期200ms &#xff0c;采样个数&#xff1a;4 在使用过程中&#xff0c;因配置了ADC中断使能&#xff0c;在中断…

洛谷P8742 [蓝桥杯 2021 省 AB] 砝码称重(dp初始)

归纳蓝桥杯的这道题总结了一定对于dp的看法&#xff0c;虽然还没看到y总的动态规划&#xff0c;自己搜了搜上学期算法中学到的01背包问题。 首先动态规划问题最重要的是状态转移方程&#xff0c;将问题抽象成数学问题&#xff0c;列出方程就可以得解。 #include<cstdio> …

数据结构在 Web 开发中的重要性与应用

数据结构是 Web 开发的基石&#xff0c;直接关系到应用程序的效率、可扩展性和可维护性。 根据实际需求选择合适的数据结构&#xff0c;能够有效优化性能、简化代码&#xff0c;并提升用户体验。 本文将深入探讨 PHP 和 Laravel 中的常用数据结构&#xff0c;并结合实际案例&am…

【C++】 STL -- 算法(一)

【C】 STL – 算法&#xff08;一&#xff09; 文章目录 【C】 STL -- 算法&#xff08;一&#xff09;前言一、函数对象二、谓词三、内建函数对象四、适配器总结 前言 本篇文章将讲到函数对象&#xff0c;谓词&#xff0c;内建函数对象&#xff0c;适配器。 一、函数对象 本质…

用AVFrame + AVPacket 完成accede编码和直接用ffmpeg命令行实现acc编码的对比

在使用 FFmpeg 进行 AAC 音频编码时,可以选择两种方式:通过编程接口(如 AVFrame 和 AVPacket)实现 AAC 编码,或者直接使用 FFmpeg 命令行工具。这两种方式各有特点,适用于不同的场景。以下是对两种方法的详细分析,包括它们的区别、优缺点以及适用场景。 一、通过 AVFram…

【Android开发AI实战】基于CNN混合YOLOV实现多车牌颜色区分且针对车牌进行矫正识别(含源码)

文章目录 引言单层卷积神经网络&#xff08;Single-layer CNN&#xff09;&#x1f4cc; 单层 CNN 的基本结构&#x1f4cc; 单层 CNN 计算流程图像 透视变换矫正车牌c实现&#x1fa84;关键代码实现&#xff1a;&#x1fa84;crnn结构图 使用jni实现高级Android开发&#x1f3…