12345678910111213141516171819202122232425 |
- import pandas as pd
- import numpy as np
- from scipy.stats import ttest_ind
- # 读取数据文件并创建 DataFrame 对象
- data = pd.read_csv('/Users/alvin/Downloads/sales.csv')
- # 数据清洗和预处理
- data = data.dropna() # 删除缺失值
- data = data[data['sales'] > 0] # 删除销售数量为 0 的数据
- # 计算销售总量和总价
- data['total_sales'] = data['sales'] * data['price']
- # 对数据进行分组统计,按照 'product_type' 列分组,然后计算每个分组中 'total_sales' 列的总和、平均值和标准差
- grouped_data = data.groupby('product_type')['total_sales'].agg([np.sum, np.mean, np.std])
- # 对两个产品类型的销售总量进行 T 检验,判断它们的均值是否有显著差异
- product1_sales = data[data['product_type'] == 'product1']['total_sales']
- product2_sales = data[data['product_type'] == 'product2']['total_sales']
- t_statistic, p_value = ttest_ind(product1_sales, product2_sales)
- # 输出统计结果
- print('销售数据统计结果:\n', grouped_data)
- print('两种产品类型的销售总量 T 检验结果:\n', 'T 统计量 =', t_statistic, 'p 值 =', p_value)
|