数据挖掘从入门到放弃(五)seaborn 的数据可视化
数据可视化可以让我们很直观的发现数据中隐藏的规律,察觉到变量之间的互动关系,帮助我们更好地解释现象和发现数据价值,做到一图胜千文的说明效果。
python数据分析的可视化库有:
matplotlib 是可视化的必备技能库,比较底层,api很多,学起来不太容易。
seaborn 是建构于matplotlib基础上,能满足绝大多数可视化需求。
matplotlib和seabron是静态可视化库,pyecharts有很好的web兼容性,可以进行可视化动态效果。
seaborn是一个面向对象可视化库,本次使用seaborn自带的tips(餐厅小费)数据集进行数据的分布探索,在遇到新的数据集合时候,分析问题不至于无从下手;
Seaborn通过sns.set()方法实现主题风格更改,可以设置5种风格的图表背景:darkgrid, whitegrid, dark, white, ticks,通过参数style设置,默认情况下为darkgrid风格:
import seaborn as sns
1、分布图(连续性变量):distplot()
# 1、分布图(连续性变量):distplot()

2、数量统计图(离散变量):countplot()
# 2、数量统计图(离散变量):countplot()

# countplot() 中x和y只能指定一个,指定x轴则y轴展示数量,指定y轴则x轴展示数量

3、两个变量的散点图:scatterplot()
# 3、两个变量的散点图:scatterplot()

4、根据属性值域绘制散点图:relplot()
# 4、根据属性值域绘制散点图:relplot()

5、两个变量的联合分布图jointplot()
# 5、两个变量的联合分布图jointplot()


6、箱线图:boxplot()
# 6、箱线图:boxplot()

7、不重叠散点图:swarmplot()
# 7、不重叠散点图:swarmplot()

8、有个变量属性的重叠散点图:stripplot()
# 8、有个变量属性的重叠散点图:stripplot()

# 一般swarmplot(),stripplot() 同boxplot()和violinplot()一同使用,既可以观察总体分布,也能看个体分布情况

9、小提琴图跟boxplot()用途一样
# 9、小提琴图跟boxplot()用途一样

10、绘制条件关系的多图网格:FacetGrid()
# 10、绘制条件关系的多图网格:FacetGrid()

# 比较随性的绘图方法,很灵活
11、barplot()函数
若输出的值域是离散值,我们可以将其转换成1/0的连续性,然后看特征属性的贡献度;
# 11、barplot()函数,直观绘制曲线图

一般掌握以上的绘图方法就能够确保够用,主要是熟能生巧,能够快速找到数据之间的关系,筛选有价值的数据字段,快速完成特征工程。