4
回答
编写高效简洁的C语言代码,是许多软件工程师追求的目标。各位有什么高招呢?请不吝赐教。。。
【腾讯云】校园拼团福利,1核2G服务器10元/月!>>>   

以下是我个人的一些体会和经验,不对的地方请各位指教。同时希望各位拿出自己的干货分享一下经验

1招:以空间换时间

  计算机程序中最大的矛盾是空间和时间的矛盾,那么,从这个角度出发逆向思维来考虑程序的效率问题,我们就有了解决问题的第1——以空间换时间。例如:字符串的赋值。
方法
A,通常的办法:
   
#define LEN 32 char string1 [LEN];
   
memset (string1,0,LEN);
    strcpy (string1,“This is a example!!”
;
 
方法B
const char string2[LEN] =“This is a example!”;
char * cp; cp = string2 ; (
使用的时候可以直接用指针来操作。)

  从上面的例子可以看出,AB的效率是不能比的。在同样的存储空间下,B直接使用指针就可以操作了,而A需要调用两个字符函数才能完成。B的缺点在于灵活性没有A好。在需要频繁更改一个字符串内容的时候,A具有更好的灵活性;如果采用方法B,则需要预存许多字符串,虽然占用了大量的内存,但是获得了程序执行的高效率。

  如果系统的实时性要求很高,内存还有一些,那我推荐你使用该招数。

  该招数的变招——使用宏函数而不是函数。举例如下:
方法
C #define bwMCDR2_ADDRESS 4
               #define bsMCDR2_ADDRESS 17
               int BIT_MASK(int __bf) {
                   return ((1U << (bw ## __bf)) - 1) << (bs ## __bf);
                 } 
        void SET_BITS(int __dst, int __bf, int __val){ 
          __dst = ((__dst) & ~(BIT_MASK(__bf))) | \ (((__val) << (bs ## __bf)) & (BIT_MASK (__bf))))
           }
      
SET_BITS(MCDR2, MCDR2_ADDRESS, RegisterNumber);
方法D
#define bwMCDR2_ADDRESS 4
#define bsMCDR2_ADDRESS 17
#define bmMCDR2_ADDRESS BIT_MASK(MCDR2_ADDRESS)
#define BIT_MASK(__bf) (((1U << (bw ## __bf)) - 1) << (bs ## __bf))
#define SET_BITS(__dst, __bf, __val) \ ((__dst) = ((__dst) & ~(BIT_MASK(__bf))) | \ (((__val) << (bs ## __bf)) & (BIT_MASK(__bf))))

SET_BITS(MCDR2, MCDR2_ADDRESS, RegisterNumber);

  函数和宏函数的区别就在于,宏函数占用了大量的空间,而函数占用了时间。大家要知道的是,函数调用是要使用系统的栈来保存数据的,如果编译器里有栈检查选项,一般在函数的头会嵌入一些汇编语句对当前栈进行检查;同时,CPU也要在函数调用时保存和恢复当前的现场,进行压栈和弹栈操作,所以,函数调用需要一些CPU时间。而宏函数不存在这个问题。宏函数仅仅作为预先写好的代码嵌入到当前程序,不会产生函数调用,所以仅仅是占用了空间,在频繁调用同一个宏函数的时候,该现象尤其突出。

  D方法是我看到的最好的置位操作函数,是ARM公司源码的一部分,在短短的三行内实现了很多功能,几乎涵盖了所有的位操作功能。C方法是其变体,其中滋味还需大家仔细体会。

2招:数学方法解决问题

  现在我们演绎高效C语言编写的第二招——采用数学方法来解决问题。

  数学是计算机之母,没有数学的依据和基础,就没有计算机的发展,所以在编写程序的时候,采用一些数学方法会对程序的执行效率有数量级的提高。举例如下,求 1~100的和。
方法
E     
    int I , j; for (I = 1 ;I<=100; I ++
{ j += I; } 方法F int I; I = (100 * (1+100)) / 2

  这个例子是我印象最深的一个数学用例,是我的计算机启蒙老师考我的。当时我只有小学三年级,可惜我当时不知道用公式N+1/ 2 来解决这个问题。方法E循环了100次才解决问题,也就是说最少用了100个赋值,100个判断,200个加法(Ij);而方法F仅仅用了1个加法,1 次乘法,1次除法。效果自然不言而喻。所以,现在我在编程序的时候,更多的是动脑筋找规律,最大限度地发挥数学的威力来提高程序运行的效率。

3招:使用位操作

  实现高效的C语言编写的第三招——使用位操作,减少除法和取模的运算。

  在计算机程序中,数据的位是可以操作的最小数据单位,理论上可以用位运算来完成所有的运算和操作。一般的位操作是用来控制硬件的,或者做数据变换使用,但是,灵活的位操作可以有效地提高程序运行的效率。举例如下:
方法
G      
          int I,J; I = 257 /8; J = 456 % 32;
方法H int I,J; I = 257 >>3; J = 456 - (456 >> 4 << 4);

  在字面上好像HG麻烦了好多,但是,仔细查看产生的汇编代码就会明白,方法G调用了基本的取模函数和除法函数,既有函数调用,还有很多汇编代码和寄存器参与运算;而方法H则仅仅是几句相关的汇编,代码更简洁,效率更高。当然,由于编译器的不同,可能效率的差距不大,但是,以我目前遇到的MS C ,ARM C 来看,效率的差距还是不小。相关汇编代码就不在这里列举了。运用这招需要注意的是,因为CPU的不同而产生的问题。比如说,在PC上用这招编写的程序,并在PC上调试通过,在移植到一个16位机平台上的时候,可能会产生代码隐患。所以只有在一定技术进阶的基础下才可以使用这招。

4招:汇编嵌入

  高效C语言编程的必杀技,第四招——嵌入汇编。

  在熟悉汇编语言的人眼里,C语言编写的程序都是垃圾。这种说法虽然偏激了一些,但是却有它的道理。汇编语言是效率最高的计算机语言,但是,不可能靠着它来写一个操作系统吧?所以,为了获得程序的高效率,我们只好采用变通的方法 ——嵌入汇编,混合编程。

  举例如下,将数组一赋值给数组二,要求每一字节都相符。
char string1[1024],string2[1024];
方法I :   
       int I; for (I =0 ;I<1024;I++) *(string2 + I) = *(string1 + I)
方法J
        #ifdef _PC_ int I;
           for (I =0 ;I<1024;I++)
               *(string2 + I) = *(string1 + I);
      #else #ifdef _ARM_ __asm {
   MOV R0,string1 MOV R1,string2 MOV R2,#0 loop: LDMIA R0!, [R3-R11] STMIA R1!, [R3-R11] ADD R2,R2,#8 CMP R2, #400 BNE loop } #endif

  方法I是最常见的方法,使用了1024次循环;方法J则根据平台不同做了区分,在ARM平台下,用嵌入汇编仅用128次循环就完成了同样的操作。这里有朋友会说,为什么不用标准的内存拷贝函数呢?这是因为在源数据里可能含有数据为0的字节,这样的话,标准库函数会提前结束而不会完成我们要求的操作。这个例程典型应用于LCD数据的拷贝过程。根据不同的CPU,熟练使用相应的嵌入汇编,可以大大提高程序执行的效率。

  虽然是必杀技,但是如果轻易使用会付出惨重的代价。这是因为,使用了嵌入汇编,便限制了程序的可移植性,使程序在不同平台移植的过程中,卧虎藏龙,险象环生!同时该招数也与现代软件工程的思想相违背,只有在迫不得已的情况下才可以采用。切记,切记。

  使用C语言进行高效率编程,我的体会仅此而已。在此以本文抛砖引玉,还请各位高手共同切磋。希望各位能给出更好的方法,大家一起提高我们的编程技巧。

 

<无标签>
举报
刘学炜
发帖于6年前 4回/729阅
共有4个答案 最后回答: 6年前

你第一个例子不对。后面都是对的。你第一个例子A,B是不同的操作。后者只是对常量表的索引和使用。前者具备自身空间。

空间换时间,你 #define就是个很好的例子,不过是在代码端的。数据段典型的空间换时间的例子是二次查表作成一次查表。

如同,需要先查一次,找到索引后,再结合另一个参数,对第二表进行查找。这种做法在很多编解码算法里被常用。但是要考虑表的大小和访问概率,否则频繁切换 CACHE得不偿失。

汇编对于类似ARM之类的代码,能少用就少用。除非非常频繁的全局变量,定义为全局寄存器变量。然后在大入口函数进出时,做 restore  和backup。

对没有intel那么变态的乱序执行(不是说他好,这种乱序不可测,受外部干扰因素太多),尽可能的注意跳转问题。包括 for ,while ,do while 的使用。当然也包括函数和if语句。

至于提前预读编译器已经做的很好了。

如果非常泛的说C代码的质量问题,我的经验如下:

1、数据区越小越好。

2、函数内部描述越小越好。

3、函数内的局部变量越少越好。

4、循环语句不要单一,多几条顺序执行,防止指令流水线总被跳转打破。

5、不要在函数里定义数组并赋值。这种工作应该作成常量表放出去。

6、尽量少用全局变量。通过参量和返回传递,函数之间的数据传递,用指针以及参量尽量少。当参量足够少时,都是在寄存器里的。

7、逻辑越简化越好。逻辑复杂,绝大多数情况下,是因为你没把问题分析清楚导致的。

8、不谈工程概率,就没有办法做更好的优化。下面关于if那部分会谈到。

其他的就不说了。得具体硬件具体目标具体分析了。但C语言写的再漂亮还是逻辑层的。架构层的优化效果是最好的。C语言下面是指令层,一般只有DSP才需要用。因为DSP的特殊指令很多。同时C语言的描述不方便有效将问题和DSP的特性对等起来。架构层和逻辑层中间还有个算法层。楼主说的第2招就是算法层了。类似的还有用快速排序替代冒泡排序,但是当数量小于一定值比如,8个数排序,你用冒泡说不定更快。

你说的第三个例子就是典型的 指令层的。我见过两种CPU的ALU,一个是移位比乘法快,一个是乘法比移位快,所以到了 a * 4这类的情况就非常郁闷。 << 2  和 *4 很难权衡,需要专门测试后才能确定。

需要注意逻辑层还包含你说的和编译器相关的情况。记得忘了哪个平台的编译器了。

if (a){

 ....  1 ....

}else{

  ... 2 ...

}

对于上述情况,在判断的同时,会预取第一段代码,所以应当把大概率发生的事件在第一段,并调整判断跳转逻辑。而第一段跳转过 第二段的代码,是个固定的JMP,所以机器执行的流水线也不会被打断。只是预读的CODE在 CACHE 的一个line的尾部会作废。但这个也看概率。

但是曾经在另一个平台和编译下,上述选择又是反过来的。所以也很郁闷。这个也是要专门测试的。

 

 

 

--- 共有 1 条评论 ---
刘学炜哥哥,你好棒!! 6年前 回复

按照楼主对代码的排版

真没觉得哪里简洁了

 

--- 共有 2 条评论 ---
刘学炜修改不了呀。。。过了一小时了。 6年前 回复
刘学炜不好意思,在word文档编写的,复制过来,就这样了。。。我排版一下吧 6年前 回复
哈没看楼主最后一段。有的地方要提醒的,如果是数据COPY,当数据比较大,比如一个PAGE左右以及以上,记得使用memcpy。通常的 memcpy是经过优化会使用DMA的。你的寄存器的COPY方式再快,一旦要写出到外部MEM,还是没有DMA快。有个片子的DMA驱动我折腾了,写了多次,都怪总线不给力,深有体会。
--- 共有 1 条评论 ---
刘学炜you are right 6年前 回复
顶部