import pandas as pd
import numpy as np
from scipy.stats import ttest_ind

# 读取数据文件并创建 DataFrame 对象
data = pd.read_csv('/Users/alvin/Downloads/sales.csv')

# 数据清洗和预处理
data = data.dropna()  # 删除缺失值
data = data[data['sales'] > 0]  # 删除销售数量为 0 的数据

# 计算销售总量和总价
data['total_sales'] = data['sales'] * data['price']

# 对数据进行分组统计，按照 'product_type' 列分组，然后计算每个分组中 'total_sales' 列的总和、平均值和标准差
grouped_data = data.groupby('product_type')['total_sales'].agg([np.sum, np.mean, np.std])

# 对两个产品类型的销售总量进行 T 检验，判断它们的均值是否有显著差异
product1_sales = data[data['product_type'] == 'product1']['total_sales']
product2_sales = data[data['product_type'] == 'product2']['total_sales']
t_statistic, p_value = ttest_ind(product1_sales, product2_sales)

# 输出统计结果
print('销售数据统计结果：\n', grouped_data)
print('两种产品类型的销售总量 T 检验结果：\n', 'T 统计量 =', t_statistic, 'p 值 =', p_value)