详见:red_white_wine_quality数据集分析
(一)数据集概览
有两个样本:
winequality-red.csv
:红葡萄酒样本 red-wine 数据集
winequality-white.csv
:白葡萄酒样本 white-wine 数据集
每个样本都有得分从1到10的质量评分,以及若干理化检验的结果
(二)问题提出
根据此数据集中的列的直方图,以下哪个特征变量显示为右偏态?固定酸度、总二氧化硫、pH 值、酒精度根据质量对不同特征变量的散点图,以下哪个最有可能对质量产生积极的影响?_挥发性酸度、残糖、pH 值、酒精度某种类型的葡萄酒(红葡萄酒或白葡萄酒)是否代表更高的品质?哪个酸度水平的平均评分最高?酒精含量高的酒是否评分较高?口感较甜的酒是否评分较高?
(三)分析步骤
导入数据和库依赖import
修改不规范的列名rename
合并数据集append
基本数据分析:列数、缺失值统计、重复行统计duplicated
、唯一值数量unique
、平均值mean
等等
保存修改后的数据集to_csv
可视化探索plot
:绘制柱状图plot.hist
、查看偏态skew
、子图plt.subplots
分组并绘图:groupby