Python分析信用卡反欺诈！骗我程序员，不存在的

发布时间：2019-10-16 02:21:15 所属栏目：教程来源：一枚程序媛呀

导读：前言：本文研究的是大数据量(284807条数据)下模型选择的问题，也参考了一些文献，但大多不够清晰，因此吐血整理本文，希望对大家有帮助; 本文试着从数据分析师的角度，设想拿到数据该如何寻找规律、选哪种模型来构建反欺诈模型?的角度来分析，以业务导向

副标题[/!--empirenews.page--]

前言：

本文研究的是大数据量(284807条数据)下模型选择的问题，也参考了一些文献，但大多不够清晰，因此吐血整理本文，希望对大家有帮助;

本文试着从数据分析师的角度，设想“拿到数据该如何寻找规律、选哪种模型来构建反欺诈模型?”的角度来分析，以业务导向为主，不深究算法原理;

下一篇文章会说明数据结构极度不平衡的情况下，该如何修正数据集、如何调整参数。

数据来源及项目概况

数据是从kaggle上看到的项目，具体链接如下：

https://www.kaggle.com/mlg-ulb/creditcardfraud

获取本例数据的，可在上述项目详情链接中下载数据。

数据集包含欧洲持卡人于2013年9月通过信用卡进行的交易。该数据集提供两天内发生的交易，其中在284,807笔交易中有492起欺诈行为。

数据集非常不平衡，负面类别(欺诈)占所有交易的0.172%。

它只包含数值输入变量，这是PCA变换的结果。不幸的是，由于保密问题，我们无法提供有关数据的原始特征和更多背景信息。特征V1，V2，... V28是用PCA获得的主要组件，唯一没有用PCA转换的特征是'Time'和'Amount'。

“时间”包含每个事务与数据集中第一个事务之间经过的秒数。
'金额'是交易金额，该特征可以用于依赖于例子的成本敏感性学习。
“Class”是响应变量，在欺诈的情况下其值为1，否则为0。

2、准备并初步查看数据集

# 导入包 
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
import matplotlib.gridspec as gridspec 
import seaborn as sns; plt.style.use('ggplot') 
import sklearn 
from sklearn.preprocessing import StandardScaler 
from sklearn.model_selection import train_test_split 
from sklearn.utils import shuffle 
from sklearn.metrics import confusion_matrix 
from sklearn.manifold import TSNE 
pass 
# 倒入并查看数据 
crecreditcard_data=pd.read_csv('./creditcard.csv') 
crecreditcard_data.shape,crecreditcard_data.info() 
<class 'pandas.core.frame.DataFrame'> 
RangeIndex: 284807 entries, 0 to 284806 
Data columns (total 31 columns): 
Time 284807 non-null float64 
V1 284807 non-null float64 
V2 284807 non-null float64 
V3 284807 non-null float64 
V4 284807 non-null float64 
V5 284807 non-null float64 
V6 284807 non-null float64 
V7 284807 non-null float64 
V8 284807 non-null float64 
V9 284807 non-null float64 
V10 284807 non-null float64 
V11 284807 non-null float64 
V12 284807 non-null float64 
V13 284807 non-null float64 
V14 284807 non-null float64 
V15 284807 non-null float64 
V16 284807 non-null float64 
V17 284807 non-null float64 
V18 284807 non-null float64 
V19 284807 non-null float64 
V20 284807 non-null float64 
V21 284807 non-null float64 
V22 284807 non-null float64 
V23 284807 non-null float64 
V24 284807 non-null float64 
V25 284807 non-null float64 
V26 284807 non-null float64 
V27 284807 non-null float64 
V28 284807 non-null float64 
Amount 284807 non-null float64 
Class 284807 non-null int64 
dtypes: float64(30), int64(1) 
memory usage: 67.4 MB 
((284807, 31), None) 
crecreditcard_data.describe() 
pass 
crecreditcard_data.head() 
pass 
# 看看欺诈与非欺诈的比例如何 
count_classes=pd.value_counts(crecreditcard_data['Class'],sort=True).sort_index() 
# 统计下具体数据 
count_classes.value_counts() 
# 也可以用count_classes[0],count_classes[1]看分别数据 
284315 1 
492 1 
Name: Class, dtype: int64 
count_classes.plot(kind='bar') 
plt.show()

0代表正常，1代表欺诈，二者数量严重失衡,极度不平衡，根本不在一个数量级上;

（编辑：52站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/7

尾页

怎么查看隐藏文件,教您	怎么降低cpu温度降低
电脑电池怎么用电脑电	换一个电脑主机多少钱