import pandas as pd import numpy as np from scipy.stats import ttest_ind # 读取数据文件并创建 DataFrame 对象 data = pd.read_csv('/Users/alvin/Downloads/sales.csv') # 数据清洗和预处理 data = data.dropna() # 删除缺失值 data = data[data['sales'] > 0] # 删除销售数量为 0 的数据 # 计算销售总量和总价 data['total_sales'] = data['sales'] * data['price'] # 对数据进行分组统计,按照 'product_type' 列分组,然后计算每个分组中 'total_sales' 列的总和、平均值和标准差 grouped_data = data.groupby('product_type')['total_sales'].agg([np.sum, np.mean, np.std]) # 对两个产品类型的销售总量进行 T 检验,判断它们的均值是否有显著差异 product1_sales = data[data['product_type'] == 'product1']['total_sales'] product2_sales = data[data['product_type'] == 'product2']['total_sales'] t_statistic, p_value = ttest_ind(product1_sales, product2_sales) # 输出统计结果 print('销售数据统计结果:\n', grouped_data) print('两种产品类型的销售总量 T 检验结果:\n', 'T 统计量 =', t_statistic, 'p 值 =', p_value)