tmp4.py 1.1 KB

12345678910111213141516171819202122232425
  1. import pandas as pd
  2. import numpy as np
  3. from scipy.stats import ttest_ind
  4. # 读取数据文件并创建 DataFrame 对象
  5. data = pd.read_csv('/Users/alvin/Downloads/sales.csv')
  6. # 数据清洗和预处理
  7. data = data.dropna() # 删除缺失值
  8. data = data[data['sales'] > 0] # 删除销售数量为 0 的数据
  9. # 计算销售总量和总价
  10. data['total_sales'] = data['sales'] * data['price']
  11. # 对数据进行分组统计,按照 'product_type' 列分组,然后计算每个分组中 'total_sales' 列的总和、平均值和标准差
  12. grouped_data = data.groupby('product_type')['total_sales'].agg([np.sum, np.mean, np.std])
  13. # 对两个产品类型的销售总量进行 T 检验,判断它们的均值是否有显著差异
  14. product1_sales = data[data['product_type'] == 'product1']['total_sales']
  15. product2_sales = data[data['product_type'] == 'product2']['total_sales']
  16. t_statistic, p_value = ttest_ind(product1_sales, product2_sales)
  17. # 输出统计结果
  18. print('销售数据统计结果:\n', grouped_data)
  19. print('两种产品类型的销售总量 T 检验结果:\n', 'T 统计量 =', t_statistic, 'p 值 =', p_value)