github: https://github.com/grapherd/sse-avx-instruction-set-performance
今天照著 Performance of SSE and AVX Instruction Sets 看了一遍,然後實作了3個論文中提到的最佳化辦法:
1 | * Data Packing<br />* Data Reuse<br />* Asynchronous Data Transfer (prefetch)<br /> |
把 repo clone 下來之後,可以用 make 產生所有的執行檔。
執行 main 可以看三種方式在 native / sse / avx 狀況下的執行速度。
如果你覺得這篇文章不錯,歡迎打賞
BTH: 35QooNA82isrmQLmpEnqXpJoxeZmaPubPf
ETH:0x4cf61fea5EA842D202B85158d8b5e239C872De46