+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

2019-07(7)

2019-08(92)

2019-09(102)

2019-10(16)

2019-11(6)

作业:利用PCA对半导体制造数据(secom.data)进行降维

发布于2020-08-02 10:45     阅读(289)     评论(0)     点赞(18)     收藏(4)


数据集链接
提取码:l552

  1. 对数据进行处理,包括对nan进行处理。要注意,这里的文件是以.data形式给出,对.data文件的处理详见:python利用pandas读取.data文件并对nan进行处理
  2. 浏览本文前请先熟知PCA的基本原理及大致过程,详见:降维基础知识(样本均值、样本方差、中心矩阵)与PCA(最大投影方差,最小重构代价,SVD分解)
  3. 根据PCA理论:构建样本矩阵X、协方差矩阵S、中心矩阵H。
  4. 对S进行特征值分解,并取前K个特征值最大的特征向量(降成K维)。
  5. X与上述新构建的特征向量矩阵相乘,得到最终答案。

完整代码:

import pandas as pd
import numpy as np
from numpy import linalg

def load_file():
   data = pd.read_csv('manifold/secom.data', sep=' ', names=[i for i in range(590)])
   data = np.array(data)

   for i in range(data.shape[1]):
       temp = np.array(data)[:, i].tolist()
       mean = np.nanmean(temp)
       data[np.argwhere(np.isnan(data[:, i].T)), i] = mean

   return data


def pca(K):
    X = load_file()
    N = X.shape[0]
    En = np.eye(N)
    In = np.ones((N, 1), float)

    H = En - (1/N)*np.dot(In, In.T)  #定义中心矩阵
    S = (1/N)*np.dot(np.dot(X.T, H), X)  #定义协方差矩阵

    val, vec = linalg.eig(S)   #求解特征值与特征向量
    sorted_indices = np.argsort(-val)   #从大到小排序
    #取前K个最大的特征值的特征向量
    final = np.zeros((K, vec.shape[1]), float)
    for i in range(K):
        final[i, :] = vec[sorted_indices[i], :]

    final_data = np.dot(X, final.T)  #降为K为后的矩阵
    return final_data


if __name__ == '__main__':
    K = 250
    print(pca(K))


所属网站分类: 技术文章 > 博客

作者:好好学习

链接: https://www.pythonheidong.com/blog/article/469020/

来源: python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

18 0
收藏该文
已收藏

评论内容:(最多支持255个字符)