本站消息

站长简介/公众号


站长简介:高级软件工程师,曾在阿里云,每日优鲜从事全栈开发工作,利用周末时间开发出本站,欢迎关注我的微信公众号:程序员总部,程序员的家,探索程序员的人生之路!分享IT最新技术,关注行业最新动向,让你永不落伍。了解同行们的工资,生活工作中的酸甜苦辣,谋求程序员的最终出路!

  价值13000svip视频教程,python大神匠心打造,零基础python开发工程师视频教程全套,基础+进阶+项目实战,包含课件和源码

  出租广告位,需要合作请联系站长

+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

2021-02(30)

2021-03(23)

Pytorch Load Dataset 多线程加载读取数据

发布于2021-12-02 00:24     阅读(763)     评论(0)     点赞(21)     收藏(4)



Pytorch Load Dataset 多线程加载读取数据

单线程读取数据时

以agnews dataset为例,num_worker=1时读取时间如下:

Load Test Data Spends 12.183895587921143 seconds
Load Test Data Spends 200.42685055732727 seconds

DataLoader(dataset, num_workers=2,collate_fn=collate_fn)

Load Test Data Spends 11.577017307281494 seconds
Load Train Data Spends 199.58622908592224 seconds

DataLoader(dataset, num_workers=4,collate_fn=collate_fn)

Load Test Data Spends 11.68491816520691 seconds
Load Train Data Spends 183.27479600906372 seconds

DataLoader(dataset, num_workers=8,collate_fn=collate_fn)

Load Test Data Spends 11.205335140228271 seconds
Load Train Data Spends 183.1354115009308 seconds

此时限制为GPU,CPU加载的矩阵 → \rightarrow GPU流水线。流水线处理时间是定死的。

GPU多卡:

  • 真2014

    多个GPU一起处理2014条数据。

  • 假1024

    多块GPU按块各处理总数据的一部分,最后汇总算loss平均值

原文链接:https://blog.csdn.net/weixin_43557139/article/details/121620138







所属网站分类: 技术文章 > 博客

作者:怪兽爸爸

链接:https://www.pythonheidong.com/blog/article/1106466/76bbdf0bb09add18a736/

来源:python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

21 0
收藏该文
已收藏

评论内容:(最多支持255个字符)