本站消息

站长简介/公众号


站长简介:逗比程序员,理工宅男,前每日优鲜python全栈开发工程师,利用周末时间开发出本站,欢迎关注我的微信公众号:程序员总部,程序员的家,探索程序员的人生之路!分享IT最新技术,关注行业最新动向,让你永不落伍。了解同行们的工资,生活工作中的酸甜苦辣,谋求程序员的最终出路!

  价值13000svip视频教程,python大神匠心打造,零基础python开发工程师视频教程全套,基础+进阶+项目实战,包含课件和源码

  出租广告位,需要合作请联系站长

+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

2020-10(6)

2020-11(13)

Python处理(加载、合并)多个csv文件

发布于2021-10-04 23:37     阅读(666)     评论(0)     点赞(4)     收藏(5)



 数据集介绍:本数据集是某化工系统的数据,一共有很多个月的,我这里就拿一个月的数据集,August_data(八月的数据集),一共有31个csv文件。

                     

方法一  for循环遍历+os.listdir(directory_path)+[ for file in tqdm] + os.path.join(path,file)

  1. import pandas as pd
  2. import numpy as np
  3. from tqdm import tqdm
  4. import os
  5. def get_data(path):
  6. df_list = []
  7. for file in tqdm(os.listdir(path)):##进度条
  8. file_path = os.path.join(path, file)
  9. df = pd.read_csv(file_path)
  10. df_list.append(df)
  11. df = pd.concat(df_list)
  12. return df
  13. cPath = '.\August_data'
  14. # cPath = 'F:/BaiduNetdiskDownload/宁东电厂数据及分析要求/宁东脱销系统优化-上海交大/SCR数据-2020-1/8月数据' #F:/BaiduNetdiskDownload/宁东电厂数据及分析要求/宁东脱销系统优化-上海交大/SCR数据-2020-1/8月数据
  15. # uPath = str(cPath)#uPath = unicode(cPath,'utf-8')
  16. # dirs = os.listdir(TEST_PATH)
  17. # print(dirs)
  18. test_df = get_data(cPath)
  19. print(test_df.head())
  20. # test_df.to_csv(path_or_buf="test.csv",index=False)#保存为CSV文件

 方法二   glob方法

  1. #!/usr/bin/env python
  2. # coding=utf-8
  3. import glob
  4. import time
  5. import csv
  6. import pandas as pd
  7. from tqdm import tqdm
  8. # a new file
  9. #open all the CSV file
  10. #遍历文件夹下所有csv文件
  11. TEST_PATH = '.\August_data'
  12. csv_list = glob.glob(f'{TEST_PATH}\*.csv')
  13. print('共有%s个CSV文件'% len(csv_list))
  14. # print (csv_list)
  15. def get_data():
  16. df_list = []
  17. for csv_file in csv_list:
  18. df = pd.read_csv(csv_file)
  19. df_list.append(df)
  20. df = pd.concat(df_list)
  21. print("Loading Oer")
  22. return df
  23. get_data()

参考

Python 读取多个CSV文件整合到一个CSV文件
 

Python --读取多个CSV文件特定行写入到新文件

Python os.listdir() 方法
 

glob模块使用教程​​​​​​​

glob模式匹配的规则​​​​​​​N​​​​​​​z

 pandas 之unique()函数与nunique()函数区别

总结

        两个办法都挺好的,浅层原理都是,得到文件夹下的各个文件的名字,然后利用该名字做遍历去加载csv。

# 如果目录名字为中文 需要转码处理:uPath = unicode(cPath,'utf-8'),但python2中的unicode()函数在python3中会报错:Python3没有unicode()这个函数,换成了 str()函数,但如果是csv本身数据不合规的处理起来还是麻烦,本身这套打法没问题。

如果对您有用的话的话,啦啦啦麻烦点个赞吧(●ˇ∀ˇ●)~~


 







所属网站分类: 技术文章 > 博客

作者:vike

链接:https://www.pythonheidong.com/blog/article/1050286/e4307ae09359bf94d1da/

来源:python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

4 0
收藏该文
已收藏

评论内容:(最多支持255个字符)