5 月, 2012 - Parallel Labs

简介：IBM Research最近在Big Data领域有很多工作，例如我们组在4月份在10台采用POWER7处理器的P730服务器上成功地用14分钟跑完了1TB数据的排序(7月份又在10台Power7R2上用8分44秒跑完了1TB排序)，这项工作已经发表为一篇IBM Research Report，欢迎大家围观，并提出宝贵意见，谢谢。

The use of Big Data underpins critical activities in all sectors of our society. Achieving the full transformative potential of Big Data in this increasingly digital world requires both new data analysis algorithms and a new class of systems to handle the dramatic data growth, the demand to integrate structured and unstructured data analytics, and the increasing computing needs of massive-scale analytics. In this paper, we discuss several Big Data research activities at IBM Research: (1) Big Data benchmarking and methodology; (2) workload optimized systems for Big Data; (3) case study of Big Data workloads on IBM Power systems. In (3), we show that preliminary infrastructure tuning results in sorting 1TB data in 14 minutes on 10 Power 730 machines running IBM InfoSphere BigInsights. Further improvement is expected, among other factors, on the new IBM PowerLinuxTM 7R2 systems.

By: Anne E. Gattiker, Fadi H. Gebara, Ahmed Gheith, H. Peter Hofstee, Damir A. Jamsek, Jian Li, Evan Speight, Ju Wei Shi, Guan Cheng Chen, Peter W. Wong

Published in: RC25281 in 2012

LIMITED DISTRIBUTION NOTICE:

This Research Report is available. This report has been submitted for publication outside of IBM and will probably be copyrighted if accepted for publication. It has been issued as a Research Report for early dissemination of its contents. In view of the transfer of copyright to the outside publisher, its distribution outside of IBM prior to publication should be limited to peer communications and specific requests. After outside publication, requests should be filled only by reprints or legally obtained copies of the article (e.g., payment of royalties). I have read and understand this notice and am a member of the scientific community outside or inside of IBM seeking a single copy only.

Download link: http://domino.research.ibm.com/library/cyberdig.nsf/1e4115aea78b6e7c85256b360066f0d4/f085753cf57c8c35852579e90050598f!OpenDocument&Highlight=0,big,data

Questions about this service can be mailed to reports@us.ibm.com .

原文发表于《程序员》杂志2012年第4期，略有改动。

文 / 陈冠诚

微软在今年2月份的GoingNative大会上正式对外发布了C++ AMP（Accelerated Massive Parallelism）开放规范。C++ AMP是微软于11年6月推出的一个异构并行编程框架，从Visual Studio 11开发者预览版起，微软正式提供了C++AMP的支持。C++ AMP的目标是降低在由CPU和GPU共同组成的异构硬件平台上进行数据并行编程（data parallel）的门槛。通过C++ AMP，开发者将获得一个类似C++ STL的库，这个库将作为微软concurrency namespace的一部分，开发者既不需要学习新的C++语法，也不需要更换编译器就能够方便地进行异构并行编程。本文主要介绍C++ AMP的设计原则和语法规则，并将其与CUDA和OpenCL这两个已有的异构并行编程框架进行了对比，希望对大家了解异构并行编程有所帮助。

C++ AMP设计原则

随着CPU由单核向多核转移，多核计算成为了近几年的热点。另一方面，GPU编程也经历着一场变革。传统意义上，GPU一直是作为图形图像专用处理器而存在。然后，因为GPU拥有比CPU还要强大的浮点并行运算能力，我们是不是能让GPU来完成一些通用的计算任务呢？答案是肯定的，例如科学计算中就需要大量的用到浮点计算。在这样的背景下，我们可以将并行计算从单纯的在多核CPU上做，扩展到在多核CPU与GPU共同组成的异构硬件平台上来。除了多核与GPU通用计算的快速发展职位，云计算更成为软件开发的一个重要趋势。实际上，云端的每一台服务器都可以是由多核CPU和GPU共同组成的异构硬件平台。微软的Herb Sutter介绍说：“我们认为多核编程、GPU编程和云计算根本不是三个独立的趋势。实际上，他们只是同一种趋势的不同方面，我们把这个趋势叫做异构并行编程”。进行异构并行编程需要一个统一的编程模型，这就是微软推出C++ AMP的原因。

微软决定另起炉灶，推出C++ AMP这样一个全新的异构并行编程模型的原因很简单，他们认为这个编程模型必须同时具备下面这六个特征，而目前已有的CUDA和OpenCL并不同时满足这些需求。

C++而不是C：这种编程模型应该利用好C++丰富的语言特性（例如抽象，模板，例外处理等），并且不会牺牲性能，因此我们不能像OpenCL一样只是C语言的一种方言；
主流: 这个编程框架应该能被成千上万的开发者所使用，而不是只被少数人所接受。一个立见分晓的检验办法是：用该编程框架实现GPU上的hello world是只需要几行代码，还是需要几十行才行？
最小的改动: 这个编程模型应该只需要在C++上进行最小的改动就能够实现应有的功能。通过一个非常小的、具有良好设计的语言扩展，我们就可以把绝大部分复杂的实现交由运行时系统/库去完成。
可移植的。这种编程模型应该让用户只需要一个二进制可执行文件就可以在任何厂商的GPU硬件上面运行。目前我们使用Direct Compute来实现Windows上所有支持DX11的 GPU上的C++ AMP编程模型，但是未来我们会根据用户的需求在其他异构硬件平台上做相应的实现。
通用且不会过时。C++ AMP目前针对的是GPU并行计算。但是我们希望，将来C++ AMP的程序可以无缝的扩展到其他形式的计算单元上去，例如FPGA，云端的CPU/GPU处理器等等。
开放。微软将吧C++ AMP做成一个开放标准，我们鼓励第三方在任何硬件和操作系统上实现C++ AMP编译器和运行时系统。目前AMD和Nvidia都已经声明将会支持C++ AMP。

C++ AMP介绍

下面让我们通过一个简单的程序来了解一下C++ AMP的一些语法规则。首先我们需要引用amp.h这个头文件。C++ AMP中的模板都在concurrency这个命名空间内，所以也需要引用。在C++ AMP中主要有array和array_view这两种数据容器。这两者主要的区别在于array类型的数据在创建时会在GPU显存上拥有一个备份，在GPU对该数据进行完运算之后，开发者必须手动将数据拷贝回CPU。与之相比，array_view其实是一个数据结构的封装，只有在它指向的数据被GPU调用时才会被拷贝到GPU上进行相应的计算。从下例中我们看到，声明array_view数据时需要提供两个模板参数：array_view元素的类型和数据结构的纬度。因为aCPP，bCPP和sumCPP都是一维数组，因此我们在声明时传入int和1两个参数。

接下来就是最重要的计算部分了。parallel_for_each这个方法就是执行在GPU部分的代码的入口。可以看到，parallel_for_each有两个参数，第一个名为sum.extent的参数是用于描述并行计算拓扑结构的对象。通过这个变量，我们指定有多少个GPU线程来并行执行该计算任务，以及这些线程的排列方式。Sum.extend可以理解为按照sum的数据纬度来分配相应数目的GPU线程。Parallel_for_each的第二个参数是一个名为“[=] (index<1> idx) restrict(amp)”的lambda表达式。方括号里的“=”代表了表示lambda表达式的捕获列表。具体来说，“[=]”表示lambda里捕捉的变量按照传值的方式来引用。该for循环的主要参数就是index<1> idx了，它其实代表的是GPU线程的编号。因为之前我们已经通过sum.extent定义好了GPU线程的数量和拓扑结构，因此这个index参数代表的就是一维的数组，即从0到4共5个数。最后一个参数restrict(amp)用来表示parallel_for_each的函数体运行在默认GPU设备上。当然我们也可以定义出amp之外的其他的语法约束，具体的内容请大家参考[1]中的内容。在这之后就是循环体了。这个例子的循环体非常简单，就是让GPU用5个线程并行地把数组a和b中的元素依次相加并存到sum数组中去。

#include <amp.h>
#include <iostream>
using namespace concurrency;

void CampMethod() {
    int aCPP[] = {1, 2, 3, 4, 5};
    int bCPP[] = {6, 7, 8, 9, 10};
    int sumCPP[5] = {0, 0, 0, 0, 0};

    // Create C++ AMP objects.
    array_view<int, 1> a(5, aCPP);
    array_view<int, 1> b(5, bCPP);
    array_view<int, 1> sum(5, sumCPP);

    parallel_for_each(
        // Define the compute domain, which is the set of threads that are created.
        sum.extent,
        // Define the code to run on each thread on the accelerator.
        [=](index<1> idx) restrict(amp)
        {
            sum[idx] = a[idx] + b[idx];
        }
    );

    // Print the results. The expected output is "7, 9, 11, 13, 15".
    for (int i = 0; i < 5; i++) {
        std::cout << sum[i] << "\n";
    }
}

从这个例子我们可以看到，使用C++ AMP进行异构多线程编程确实是很容易的。开发者如果熟悉C++的话，一般只需要很短的时间就可以上手实现相应的功能。

CUDA、OpenCL与C++ AMP

其实在C++ AMP之前已经有了两个异构编程框架：CUDA与OpenCL。CUDA（Compute Unified Device Architecture）是显卡厂商Nvidia于2007年推出的业界第一款异构并行编程框架。在Nvidia的大力支持下，CUDA拥有良好的开发环境，丰富的函数库，优秀的性能。但是CUDA只能被用于在Nvidia的显卡上进行异构编程，有先天的局限性。OpenCL (Open Computing Language) 是业界第一个跨平台的异构编程框架。它是Apple领衔并联合Nvidia，AMD，IBM，Intel等众多厂商于2008年共同推出的一个开放标准，由单独成立的非营利性组织Khronos Group管理。与C++ AMP类似，OpenCL作为一个开放的标准，并不局限于某个特定的GPU厂商，从这点上来看，Nvidia自己独家的CUDA显得很封闭。我们可以把OpenCL在异构编程上的地位与OpenGL和OpenAL类比，这两个标准分别用于三维图形和计算机音频。

因为CUDA与OpenCL比C++AMP更接近硬件底层，所以前两者的性能更好，然而与C++ AMP的易编程性却要优于CUDA和OpenCL。与C++ AMP基于C++语言特性直接进行扩展不同，OpenCL是基于C99编程语言进行的相关修改和扩展，因此C++ AMP比OpenCL拥有更高层次的抽象，编程更加简单。在CUDA和OpenCL中，kernels（运行在GPU上的代码）必须被封装成特定函数，而在C++ AMP中，代码看起来整洁的多：我们只需要使用for循环中内嵌的lambda函数就能完成异构并行计算，而且它的内存模型也在一定程度上被大大简化了。

那么在OpenCL、CUDA 与C++ AMP之间，开发者该如何选择呢？

1）如果你只需要在Windows平台上进行异构编程，并且看重易编程性的话，C++ AMP无疑是最好的选择。依托于Visual Studio这个强有力的开发工具，再加上基于C++这一更高层抽象带来的先天优势，C++ AMP将为Windows开发者进行异构编程提供良好的支持。

2）如果你只需要在Nvidia的GPU卡上进行异构编程，并且非常看重性能的话，CUDA应该是第一选择：在Nvidia的强力支持下，CUDA在Nvidia硬件上的性能一直保持领先，许多学术研究表明OpenCL与CUDA的性能相差不大，在一部分应用中CUDA的性能稍微好于OpenCL。同时CUDA的开发环境也非常成熟，拥有众多扩展函数库支持。

3）如果你更注重不同平台间的可移植性，OpenCL可能是目前最好的选择。作为第一个异构计算的开放标准，OpenCL已经得到了包括Intel，AMD，Nvidia，IBM，Oracle，ARM，Apple，Redhat等众多软硬件厂商的大力支持。当然，C++ AMP本身也是一个开放的标准，只是目前只有微软自己做了实现，将来C++ AMP的跨平台支持能做到什么程度还是一个未知数。

其实从编程语言的发展来看，易编程性往往比性能更加重要。从Java和.Net的流行，到脚本语言的崛起，编程效率无疑是最重要的指标。更不用说开发者往往可以通过更换下一代GPU硬件来获得更好的性能。从这点来看，C++ AMP通过降低异构编程的编程难度，实际上也是推进了异构编程的普及。下面我们需要看的就是C++ AMP是否能成为真正的业界标准，而不仅仅局限于微软自己的平台，微软这次开放C++ AMP标准的行为也正是为了推广C++ AMP在业界的普及。

总结

目前整个业界的异构硬件体系结构仍然处于快速演变之中。可以看到，许多厂商的处理器正在尝试融合CPU和GPU（例如AMD的Fusion，Intel的Larrabee和Nvidia的Tegra3都融合了CPU和GPU）。如果将来的处理器上集成了CPU和GPU，并通过同一条总线使它们与内存直接相连的话，我们就不需要向今天这样把数据在CPU和GPU之间搬来搬去了。随着异构硬件的发展，与之相对应的异构编程框架在需要随着演变。可以预见，今天我们看到的CUDA，OpenCL和C++ AMP都只处于一个初期形态，将来它们还会有很多新的变化。但是有一点我们可以肯定：将来的异构编程一定会比现在更加容易。

参考文献

[1] Overview of C++ Accelerated Massive Parallelism. http://msdn.microsoft.com/en-us/library/hh265136(v=vs.110).aspx

[2] C++ AMP实战：绘制曼德勃罗特集图像. http://www.cnblogs.com/Ninputer/archive/2012/01/03/2310945.html

月度归档： 2012 年 5 月

Facebook技术分享: Social Networking at Scale

为什么NoSQL和Hadoop该一起使用？

Understanding System and Architecture for Big Data

C++ AMP异构并行编程解析

C++ AMP设计原则

C++ AMP介绍

CUDA、OpenCL与C++ AMP

总结

参考文献