分布式多线程检查点工具 DMTCP

LGPL
C/C++
Linux
2013-12-15
红薯

高性能计算/分布式计算等大量计算需要程序运行几天、几周甚至几个月,如果期间因为电力或者不可避免的问题导致程序中断会浪费大量的时间和人力,还 有超级计算机在这段时间里运行的电力成本。我们没有遇到过电力问题,不过我们最近遇到的场景是实验室需要做强制安全检查,要求关闭所有电脑,所以我们需要 一种工具能设置断点暂停程序、把状态保存到硬盘、再按照要求恢复,就像程序员用 IDE 调试程序一样,设置断点、单步跟踪(或恢复运行)。

在多主机、多线程的复杂分布式计算环境,给程序设置断点不是一件容易的事情,因为程序的某部分可能在其他主机上运行。DMTCP: Distributed MultiThreaded CheckPointing 是一个非常不错的工具,不需要修改 Linux 内核,不依赖内核和内核模块。

加载中

评论(0)

暂无评论

暂无资讯

暂无问答

Vim + Gdb 程序的完美集合

[ GDB ] gdb中查看源代码执行路径 tui就是 terminal UI的意思 gdb -tui 代码窗口相关命令: info win 显示窗口的大小 layout next 切换到下一个布局模式 layout prev 切换到上一个布局模式 ...

2011/11/03 20:24
9K
1
Linux调试工具

1. 使用printf调试 #ifdef DEBUG Printf(“valriable x has value = %d\n”, x) #endif 然后在编译选项中加入-DDEBUG 更复杂的调试应用如: #define BASIC_DEBUG 1 #define EXTRA_DEBUG 2 #d...

08/11 00:08
7
0

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部