R语言大体概括。

xiaoxiao2021-02-28  122

一.数据分析所具备的知识和技能? 1.计算机基础  2.数学和统计知识  3.业务相关的 二.数据科学家的分类 1.数据开发  2.数据检测分析    3.数据挖掘  4.数据商人 三.完整的数据分析流程 1.定义研究问题,定义理性的数据集,确定能够获取什么数据,获取数据,清理数据 2.探索性分析(数据可视化),统计分析、建模(机器学习)等 3.解释/交流的结果(数据可视化),挑战结果(有没有其他的可能?)   书写报告(reproduccible原则) 假设驱动:是对于事实来假设 数据驱动:提出一写假设,再去分析 四.数据基础 观测 :例如是MySQL里的一条数据,也就是具体的数。      变量 :例如是MySQL里的一个字段    变量的类型可分为:数值(连续,离散)可以进行加减乘除,求平均等运算    和    分类(无序,有序)取值空间有限,不能进行运算两种 变量之间的关系(对应不同的可视化方法和统计分析方法) 两个数值之间 ........ ........ 数值变量 数据集中趋势的测量(均数,中位数,众数) 均值:是指平均数 中位数:是指排序后正中间的一个数,如果是偶数的话就是两个中间数的平均值 众数:出现次数最多的数 数据的分散趋势的测试(值域,方差,标准差,四方位距) 数据矩阵:整块的数据 数据可视化: 一个数值的变量:柱状图,点图,箱图 另个熟知的变量:散点图 分类变量 一个分类变量:频率表,条形表 两个分类变量:关联表,相对频率表,分段条形表,相对频率分段条形表,马赛克表 一个分类变量,一个数值变量:并排箱图
转载请注明原文地址: https://www.6miu.com/read-999996.html

最新回复(0)