位反转的最佳算法(C语言实现)

green_t 提问:

实现如下转换的最佳算法是什么?

0010 0000 => 0000 0100

具体的转换是从MSB->LSB 到 LSB->MSB,所有的位都必须反转,那意味着,这并不是字节顺序的交换。

LSB(Least Significant Bit),意为最低有效位;MSB(Most Significant Bit),意为最高有效位。

 

最佳答案(来自Matt J

注意:下面的算法都用C实现,但应该可以迁移到其它语言(只是不那么快的时候可别找我)。

可选方案

内存占用少(32位int,32位机器)(来源于这里)

最快(查找表)

来自于著名的Bit Twiddling Hacks page:

你可以扩展这个算法到64位int的场景,或者为了更快的速度而牺牲多一些的内存(假设你的L1数据缓存足够大),有一个64K的查找表且每次反转16位。

其它方案

简单

更快(32位处理器)

更快(64位处理器)

如果你想在32位int环境这样做,那么只需要把每一个byte反转,然后再颠倒byte的次序即可。如下:

结果

我测试了两个最有效的方案,查找表和按位与(第一个方案)。测试机器为一台笔记本电脑,配置为4G DDR2内存,2.4GHz的
双核T7500处理器,4MB的L2缓存。我使用的是gcc 4.3.2,64位Linux。OpenMP(外加GCC绑定)被用来提高计时器的调度能力。

reverse.c

reverse_lookup.c

在不同的优化级别(Optimizations),两个方案我都尝试了,每个级别跑3个案例,每个案例反转
1亿个随机的无符号整数。对于查找表方案,bitwise hacks page上面的两种方法(Option 1 and Option 2)我都测试过。
结果如下:

按位与

查找表(Option 1)

查找表(Option 2)

结论

如果你比较在意性能,那么使用查找表Option 1(Byte的寻址不出意外的慢)。如果你需要尽可能的利用完每一个Byte内存
(且你也在意bit反转的性能),那么优化后的按位与方案也还不赖。

附加说明

我知道上面的代码只是一个粗略的版本,非常欢迎大家提供一些优化的建议。以下是我知道的几点:

  • 我没有权限访问ICC,那可能更快些(如果你可以测试请在评论中回复)。
  • 在一些L1缓存比较大的现代机器上面,64K的查找表可能工作得更好。
  • -mtune=native对 -O2/-O3(发生符号重定义的错误)无效,所以我不相信产生的代码是为我的微架构而优化。
  • SSE环境下应该有一种方法处理得更快。我不知道怎么做,但又更快的内存复制,批量的按位与,调整的指令集,
    总是有一些手段的。
  • 我知道仅仅x86的指令集是危险的,下面是GCC在-O3环境产生的代码,所以比我更厉害的大牛可以检查一下。

32-bit

更改: 我也尝试在自己机器上使用uint64,看看是否性能有所提高。相对于32-bit性能大概提高了10%。
无论你是每次用64-bit类型去反转2个32-bit的int,或者实际上看作64-bit并分两次来反转,性能都大致相当。
代码如下(对于前者,每次反转2个32-bit的int):

1 8 收藏 1 评论

关于作者:kimylrong

简介还没来得及写 :) 个人主页 · 我的文章 · 2

相关文章

可能感兴趣的话题



直接登录
最新评论
  • Ning   2014/06/21

    我的经验,在多线程情况下查表的方法可能反而更慢,表越大越糟糕。现在CPU和编译器都越来越强了,临时变量少的话,计算都通过寄存器存取数据,分支少的话还可以用到超线程。所以我还是选直接位运算。

跳到底部
返回顶部