从基础到进阶：数据分析流程详解（SAS、Python 和 R 实操代码）

2024-10-23

从基础到进阶：数据分析流程详解（SAS、Python 和 R 实操代码）

一、数据分析的六大步骤

1. 问题定义
2. 数据收集
3. 数据清洗
4. 数据探索与可视化
5. 建模与预测
6. 结果解释与部署

1. 问题定义

在数据分析的起点，明确的目标定义至关重要。企业需要思考以下问题：

我们希望从数据中获得什么信息？
我们的业务痛点是什么？
有哪些可能的影响因素？

案例：电商网站客户流失率预测

例如，一个电商网站希望通过分析用户行为数据预测客户流失率（Churn Rate），从而进行个性化营销挽留客户。在这个案例中，我们的问题定义为：通过历史购买数据预测哪些客户可能在未来的一个月内不再购买商品。

2. 数据收集

数据收集是数据分析的基础环节。常见的数据来源包括：数据库中的业务数据、外部公开数据源、网络爬虫或API接口收集的实时数据。

Python 代码示例：从数据库中收集数据

import pandas as pd
import sqlite3

conn = sqlite3.connect('ecommerce.db')
query = "SELECT * FROM customers WHERE purchase_date >= '2023-01-01'"
data = pd.read_sql(query, conn)

print(data.head())

R 代码示例：从API获取数据

library(httr)

response <- GET("https://api.example.com/ecommerce/data")
data <- content(response, "parsed")

df <- as.data.frame(data)
head(df)

3. 数据清洗

收集到的数据通常包含空值、重复值、异常值等，因此我们需要进行数据清洗以保证数据质量。

Python 代码示例：处理空值和重复值

data.drop_duplicates(inplace=True)
data['customer_age'].fillna(data['customer_age'].mean(), inplace=True)
print(data.info())

SAS 代码示例：数据清洗

data clean_data;
    set ecommerce_data;
    if missing(age) then age = mean(age);
    if purchase_amount < 0 then purchase_amount = .;
run;

4. 数据探索与可视化

通过可视化，我们可以发现数据中的趋势和异常，从而为后续建模提供指导。

Python 代码示例：可视化客户年龄分布

import matplotlib.pyplot as plt

plt.hist(data['customer_age'], bins=30, color='blue', edgecolor='black')
plt.title('Customer Age Distribution')
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.show()

R 代码示例：绘制散点图

library(ggplot2)

ggplot(data, aes(x = customer_age, y = purchase_amount)) +
    geom_point() +
    labs(title="Age vs Purchase Amount", x="Age", y="Purchase Amount")

5. 建模与预测

数据建模是数据分析中最关键的一步。我们可以根据问题的性质选择不同的建模方法，例如分类模型、回归模型、聚类分析等。

Python 代码示例：使用逻辑回归模型预测客户流失

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

X = data[['customer_age', 'purchase_frequency', 'average_order_value']]
y = data['churn']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

model = LogisticRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

SAS 代码示例：逻辑回归模型

proc logistic data=ecommerce_data;
    model churn(event='1') = customer_age purchase_frequency average_order_value;
run;

6. 结果解释与部署

最后，我们需要解释模型的结果，并将其部署到业务中。

Python 代码示例：结果解释与客户分群

data['churn_probability'] = model.predict_proba(X)[:, 1]
high_risk_customers = data[data['churn_probability'] > 0.8]

print(high_risk_customers[['customer_id', 'churn_probability']])