机器学习算法应用的常用技巧

news/2024/7/4 13:00:13

参考:Udacity ML纳米学位

1. 取样

数据量很大的时候,想要先选取少量数据来观察一下细节。

indices = [100,200,300]

# 把sample原来的序号去掉重新分配
samples = pd.DataFrame(data.loc[indices], columns = data.keys()).reset_index(drop = True)
print "Chosen samples:"
display(samples)

 

2. Split数据

sklearn.cross_validation.train_test_split 将数据分为 train 和 test 集。
sklearn

from sklearn import cross_validation
X = new_data
y = data['Milk']
X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y, test_size = 0.25, random_state = 0)
print len(X_train), len(X_test), len(y_train), len(y_test)

 

分离出 Features & Label

有时候原始数据并不指出谁是label,自己判断

# Store the 'Survived' feature in a new variable and remove it from the dataset
outcomes = full_data['Survived']
data = full_data.drop('Survived', axis=1)

 

3. 用 train 来训练模型,用 test 来检验

用 Decision Tree 来做个例子
sklearn

from sklearn import tree
regressor = tree.DecisionTreeRegressor()
regressor = regressor.fit(X_train, y_train)
score = regressor.score(X_test, y_test)

 

4. 判断 feature 间的关联程度

pd.scatter_matrix(data, alpha = 0.3, figsize = (14, 8), diagonal = 'kde');

 

5. scaling

当数据不符合正态分布的时候,需要做 scaling 的处理。常用的方法是取log。

pd.scatter_matrix(log_data, alpha = 0.3, figsize = (14,8), diagonal = 'kde');

 

scaling前后对比图:


 
 
 
 

6. Outliers

方法之一是 Tukey 方法,小于 Q1 – (1.5 × IQR) 或者大于 Q3 + (1.5 × IQR) 就被看作是outlier。

先把各个 feature 的 outlier 列出来并排好序:

for feature in log_data.keys():
    Q1 = np.percentile(log_data[feature], 25)
    Q3 = np.percentile(log_data[feature], 75)
    step = 1.5 * (Q3 - Q1)
    print "Outliers for feature '{}':".format(feature)
    print Q1, Q3, step
    display(log_data[~((log_data[feature]>=Q1-step) & (log_data[feature]<=Q3+step))].sort([feature]))

 

再配合 boxplot 观察,到底哪些 outlier 需要被移除:

plt.figure()
plt.boxplot([log_data.Fresh, log_data.Milk, log_data.Grocery, log_data.Frozen, log_data.Detergents_Paper, log_data.Delicassen], 0, 'gD');

 

 

7. 降维-PCA

n_components为降到多少维,用原数据fit后,再用transform转换成降维后的数据。

from sklearn.decomposition import PCA
pca = PCA(n_components = 6)
pca.fit(good_data)
reduced_data = pca.transform(good_data)
reduced_data = pd.DataFrame(reduced_data, columns = ['Dimension 1', 'Dimension 2'])

 

8. 聚类-选择类别数

用 silhouette coefficient 计算每个数据到中心点的距离,-1 (dissimilar) to 1 (similar) 根据这个系数来评价聚类算法的优劣。

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
cluster = KMeans(n_clusters=2, random_state=0).fit(reduced_data)
preds = cluster.predict(reduced_data)
score = silhouette_score(reduced_data, preds)

 

选择分数最大的个数作为聚类的类别数。


 
 

9. 恢复维度

例如数据,先经过 log,又经过 PCA降维, 要恢复回去,先用 pca.inverse_transform,再用 np.exp

log_centers = pca.inverse_transform(centers)
true_centers = np.exp(log_centers)
true_centers = pd.DataFrame(np.round(true_centers), columns = data.keys())

 

数据变化:


 
 

10. 自定义accuracy

分类问题可以自己写accuracy的函数

def accuracy_score(truth, pred):
    """ Return accuracy score for input truth and prediction"""
    
    if len(truth)==len(pred):
        return "Accuracy for prediction: {:.2f}%.".format((truth==pred).mean()*100)
    else:
        return "Numbers do not match!"

 

 


原文作者:不会停的蜗牛
链接:https://www.jianshu.com/p/00243fbff314
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


转载于:https://www.cnblogs.com/YangZnufe/p/8418398.html


http://www.niftyadmin.cn/n/4141111.html

相关文章

基于SPS平台信息系统文档属性存储及搜索方法

对于基本于SPS平台的信息系统&#xff0c;需要处理大量的文档对象&#xff0c;文档也存在许多属性信息&#xff0c;这些属性信息将决定文档的搜索效率及文档的描述程度&#xff0c;如何有效地对文档的属性进行存储&#xff0c;将是处理好这个功能的基础。文档的属性可以存储在D…

使用matplotlib的示例:调整字体-设置colormap和colorbar

使用matplotlib的示例&#xff1a;调整字体-设置colormap和colorbar # -*- coding: utf-8 -*- #********************************************************** import os import numpy as np import wlab #pip install wlab import matplotlib import matplotlib.cm as cm impo…

STM32建立基本项目

1、下载固件库解压 2、Keil建立项目&#xff0c;项目下建立三个文件夹3、各目录下从固件库中拷贝对应的目录 4、修改main.c文件 5、修改C 6、修改Include 7,编译。 转载于:https://www.cnblogs.com/zhaogaojian/p/8447977.html

关于windows窗体登录验证的思考

下午本来想适应一下登录验证的设计,结果错误接踵而来.纠正了大半天,还是没有搞定.本以为很快就可以搞定的...结果一直拖到晚上.先是在判断用户名或密码为空时进行了处理,原以为if (!textBox1.Text) 或者if (textBox1.Textnull) 就可以搞定.结果编译老是报错.......想了半天,于…

说说二维码

二维码是用某种特定的几何图形按一定规律在平面&#xff08;二维方向上&#xff09;分布的黑白相间的图形记录数据符号信息。最近通过道哥的文章发现一个二维码制作的网站&#xff1a;http://goqr.me/ 特别是在信息发展这么迅速的地方&#xff0c;二维码能够越来越快速的呈现出…

Codeforces 939D - Love Rescue

传送门&#xff1a;http://codeforces.com/contest/939/problem/D 本题是一个数据结构问题——并查集&#xff08;Disjoint Set&#xff09;。 给出两个长度相同&#xff0c;且仅由小写字母组成的字符串Ss[1..n]、Tt[1..n]。已知一个无序对(u,v)可以完成任意次的以下转换操作&a…

今天聊发兴致,写了一个 COM STEP BY STEP,结果。。。

太久没写C程序了&#xff0c;都忘记class声明后面的;号了&#xff0c;唉。。。。转载于:https://www.cnblogs.com/xiaotaoliang/archive/2005/07/20/196230.html

统计子目录大小情况并排序显示

http://blog.chinaunix.net/u/6542/showart.php?id394070使用 du -sh * 可以显示指定目录下各文件&#xff0f;目录的大小情况&#xff0c;但是输出结果不够人性化(human-readable)&#xff0c;以 /usr/share/目录为例du -sh /usr/share/* 会输出如下信息654K /usr/share/a…