openMP

语法[编辑]

#pragma omp <directive> [clause[[,] clause] ...]

directive[编辑]

其中，directive共11个：

atomic 内存位置将会原子更新（Specifies that a memory location that will be updated atomically.）
barrier 线程在此等待，直到所有的线程都运行到此barrier。用来同步所有线程。
critical 其后的代码块为临界区，任意时刻只能被一个线程运行。
flush 所有线程对所有共享对象具有相同的内存视图（view of memory）
for 用在for循环之前，把for循环并行化由多个线程执行。循环变量只能是整型
master 指定由主线程来运行接下来的程序。
ordered 指定在接下来的代码块中，被并行化的 for循环将依序运行（sequential loop）
parallel 代表接下来的代码块将被多个线程并行各执行一遍。
sections 将接下来的代码块包含将被并行执行的section块。
single 之后的程序将只会在一个线程（未必是主线程）中被执行，不会被并行执行。
threadprivate 指定一个变量是线程局部存储（thread local storage）

clause[编辑]

共计13个clause：

copyin 让threadprivate的变量的值和主线程的值相同。
copyprivate 不同线程中的变量在所有线程中共享。
default Specifies the behavior of unscoped variables in a parallel region.
firstprivate 对于线程局部存储的变量，其初值是进入并行区之前的值。
if 判断条件，可用来决定是否要并行化。
lastprivate 在一个循环并行执行结束后，指定变量的值为循环体在顺序最后一次执行时获取的值，或者#pragma sections在中，按文本顺序最后一个section中执行获取的值。
nowait 忽略barrier的同步等待。
num_threads 设置线程数量的数量。默认值为当前计算机硬件支持的最大并发数。一般就是CPU的内核数目。超线程被操作系统视为独立的CPU内核。
ordered 使用于 for，可以在将循环并行化的时候，将程序中有标记 directive ordered 的部分依序运行。
private 指定变量为线程局部存储。
reduction Specifies that one or more variables that are private to each thread are the subject of a reduction operation at the end of the parallel region.
schedule 设置for循环的并行化方法；有 dynamic、guided、runtime、static 四种方法。
- schedule(static, chunk_size) 把chunk_size数目的循环体的执行，静态依序指定给各线程。
- schedule(dynamic, chunk_size) 把循环体的执行按照chunk_size（缺省值为1）分为若干组（即chunk），每个等待的线程获得当前一组去执行，执行完后重新等待分配新的组。
- schedule(guided, chunk_size) 把循环体的执行分组，分配给等待执行的线程。最初的组中的循环体执行数目较大，然后逐渐按指数方式下降到chunk_size。
- schedule(runtime) 循环的并行化方式不在编译时静态确定，而是推迟到程序执行时动态地根据环境变量OMP_SCHEDULE 来决定要使用的方法。
shared 指定变量为所有线程共享。

OpenMP的库函数[编辑]

OpenMP定义了20多个库函数：

1.void omp_set_num_threads(int _Num_threads);

在后续并行区域设置线程数，此调用只影响调用线程所遇到的同一级或内部嵌套级别的后续并行区域.说明：此函数只能在串行代码部分调用.

2.int omp_get_num_threads(void);

返回当前线程数目.说明：如果在串行代码中调用此函数，返回值为1.

3.int omp_get_max_threads(void);

如果在程序中此处遇到未使用 num_threads() 子句指定的活动并行区域,则返回程序的最大可用线程数量.说明：可以在串行或并行区域调用，通常这个最大数量由omp_set_num_threads()或OMP_NUM_THREADS环境变量决定.

4.int omp_get_thread_num(void);

返回当前线程id.id从1开始顺序编号,主线程id是0.

5.int omp_get_num_procs(void);

返回程序可用的处理器数.

6.void omp_set_dynamic(int _Dynamic_threads);

启用或禁用可用线程数的动态调整.(缺省情况下启用动态调整.)此调用只影响调用线程所遇到的同一级或内部嵌套级别的后续并行区域.如果 _Dynamic_threads 的值为非零值,启用动态调整;否则,禁用动态调整.

7.int omp_get_dynamic(void);

确定在程序中此处是否启用了动态线程调整.启用了动态线程调整时返回非零值;否则,返回零值.

8.int omp_in_parallel(void);

确定线程是否在并行区域的动态范围内执行.如果在活动并行区域的动态范围内调用,则返回非零值;否则,返回零值.活动并行区域是指 IF 子句求值为 TRUE 的并行区域.

9.void omp_set_nested(int _Nested);

启用或禁用嵌套并行操作.此调用只影响调用线程所遇到的同一级或内部嵌套级别的后续并行区域._Nested 的值为非零值时启用嵌套并行操作;否则,禁用嵌套并行操作.缺省情况下,禁用嵌套并行操作.

10.int omp_get_nested(void);

确定在程序中此处是否启用了嵌套并行操作.启用嵌套并行操作时返回非零值;否则,返回零值.

互斥锁操作嵌套锁操作功能

11.void omp_init_lock(omp_lock_t * _Lock); 12. void omp_init_nest_lock(omp_nest_lock_t * _Lock);

初始化一个（嵌套）互斥锁.

13.void omp_destroy_lock(omp_lock_t * _Lock); 14.void omp_destroy_nest_lock(omp_nest_lock_t * _Lock);

结束一个（嵌套）互斥锁的使用并释放内存.

15.void omp_set_lock(omp_lock_t * _Lock); 16.void omp_set_nest_lock(omp_nest_lock_t * _Lock);

获得一个（嵌套）互斥锁.

17.void omp_unset_lock(omp_lock_t * _Lock); 18.void omp_unset_nest_lock(omp_nest_lock_t * _Lock);

释放一个（嵌套）互斥锁.

19.int omp_test_lock(omp_lock_t * _Lock); 20.int omp_test_nest_lock(omp_nest_lock_t * _Lock);

试图获得一个（嵌套）互斥锁,并在成功时放回真（true）,失败是返回假（false）.

21.double omp_get_wtime(void);

获取wall clock time,返回一个double的数,表示从过去的某一时刻经历的时间,一般用于成对出现,进行时间比较. 此函数得到的时间是相对于线程的,也就是每一个线程都有自己的时间.

22.double omp_get_wtick(void);

得到clock ticks的秒数.

例子[编辑]

在 omp parallel 段内的程序代码由多线程来运行：

 int main(int argc, char* argv[]) {  #pragma omp parallel     printf("Hello, world.\n");   return 1; }

运行结果[编辑]

% gcc omp.c （由單線程來執行）% ./a.outHello, world.% gcc -fopenmp omp.c （由多線程來執行）% ./a.outHello, world.Hello, world.Hello, world.Hello, world.

环境变量[编辑]

OpenMP可以使用环境变量 OMP_NUM_THREADS以控制运行线程的数量。

例子[编辑]

% gcc -fopenmp omp.c % setenv OMP_NUM_THREADS 2（由2線程來執行）setenv是CSH的指令在bash shell 環境中 要用export % export OMP_NUM_THREADS=2 （由2線程來執行）% ./a.outHello, world.Hello, world.

优点和缺点[编辑]

优点

可移植的多线程代码（在C/C++和其他语言中，人们通常为了获得多线程而调用特定于平台的原语）
简单，没必要向MPI中那样处理消息传递
数据分布和分解由指令自动完成
增量并行，一次可以只在代码的一部分执行，对代码不需要显著的改变
统一的顺序执行和并行执行的代码，在顺序执行编译器上，OpenMP的执行按照注释进行对待；
在一般情况下,使用OpenMP并行时原始的（串行）代码语句不需要进行修改,这减少不经意间引入错误的机会。
同时支持粗粒度和细粒度的并行

缺点

存在引入难以调试的同步错误和竞争条件的风险
目前，只能在共享内存的多处理器平台高效运行
需要一个支持OpenMP的编译器
可扩展性是受到内存架构的限制
不支持比较和交换
缺乏可靠的错误处理
缺乏对线程与处理器映射的细粒度控制
在GPU上不能使用
很容易出现一些不能共享的代码
多线程的可执行文件的启动需要更多的时间，可能比单线程的运行的慢，因此，使用多线程一定要有其他有优势的地方
很多情况下使用多线程不仅没有好处，还会带来一些额外消耗

争议[编辑]

作为高层抽象，OpenMP并不适合需要复杂的线程间同步和互斥的场合。 OpenMP的另一个缺点是不能在非共享内存系统（如计算机集群）上使用。在这样的系统上，MPI使用较多。

编译器支持[编辑]

主流C/C++编译器，如gcc与visual C++，都内在支持OpenMP。一般都必须在程序中#include <omp.h>

gcc编译时需使用编译选项-fopenmp。但是，如果编译为目标文件与链接生成可执行文件是分开为两步操作，那么链接时需要给出附加库gomp，否则会在链接时报错“undefined reference to `omp_get_thread_num'"。

Visual C++需要在IDE的编译选项->语言->支持OpenMP。这实际上使用了编译选项/openmp

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。