• 自动秒收录
  • 软件:1973
  • 资讯:56860|
  • 收录网站:209068|

IT精英团

数据科学中10个重要概念和图表的意义

数据科学中10个重要概念和图表的意义

浏览次数:
评论次数:
编辑: 景同
信息来源: ITPUB
更新日期: 2022-06-21 21:16:42
摘要

来源:DeepHubIMBA本文共1200字,建议阅读5分钟“当算法给你一条曲线时,一定要知道这个曲线的含义!”1、偏差-方差权衡这是一个总是在机器学习最重要理论中名列前茅的概念。机器学习中的几乎所

  • 正文开始
  • 相关阅读
  • 推荐作品

来源:IMBA deep hub

这篇文章,共1200字,建议读读5分钟.

“当算法给你一条曲线的时候,一定要知道这条曲线的意义!”

1、偏差-方差权衡

font-variant-caps: normal;font-weight: 400;letter-spacing: 0.5440000295639038px;orphans: auto;text-align: justify;text-indent: 0px;text-transform: none;white-space: normal;widows: auto;word-spacing: 0px;-webkit-text-size-adjust: auto;-webkit-text-stroke-width: 0px;text-decoration: none;visibility: visible;'>

这是一个总是在机器学习最重要理论中名列前茅的概念。机器学习中的几乎所有算法(包括深度学习)都努力在偏差和方差之间取得适当的平衡,这个图清楚地解释了二者的对立关系。


2、基尼不纯度与熵


Gini(缺乏同质性的度量)和 Entropy(随机性的度量)都是决策树中节点不纯度的度量。

对于这两个概念更重要的是要了解它们之间的关系,以便能够在给定的场景中选择正确的指标。

基尼不纯度(系数)通常比熵更容易计算(因为熵涉及对数计算)

3、精度与召回曲线


精度-召回曲线显示了不同阈值的精度和召回率之间的权衡。曲线下面积大代表高召回率和高精度,其中高精度与低误报率相关,高召回率与低误报率相关。
它可以帮助我们根据需要选择正确的阈值。例如,如果我们的目标是减少类型 1 错误,我们需要选择高精度,而如果我们的目标是最小化类型 2 错误,那么我们应该选择一个阈值,使得召回率很高。

精度分母是一个变量:即假阳性(归类为阳性的负样本)每次都会变化。

召回分母是一个常数:它代表真值的总数,因此将始终保持不变。
这就是为什么下图 Precision 在结束时有一个波动,而召回始终保持平稳的原因。


4、ROC曲线


ROC 曲线是显示分类模型在所有分类阈值下的性能的图表。
这条曲线绘制了两个参数:
真阳性率误报率


此曲线下的面积(称为 AUC),也可用作性能指标。AUC 越高,模型越好。


5、弯头曲线(K-Means)


用于K-means算法中最优簇数的选择。
WCSS(簇内平方和)是给定簇中每个点与质心之间的平方距离之和。当我们用 K(簇数)值绘制 WCSS 时,该图看起来像一个肘部(弯头)。
随着聚类数量的增加,WCSS 值将开始下降。K = 1时WCSS值最大


6、Scree Plot (PCA)


它帮助我们在对高维数据执行主成分分析后,可视化每个主成分解释的变异百分比。
为了选择正确数量的主成分来考虑我们的模型,我们通常会绘制此图并选择能够为我们提供足够好的总体方差百分比的值。


7、线性和逻辑回归曲线



对于线性可分数据,我们可以进行线性回归或逻辑回归,二者都可以作为决策边界曲线/线。
但是,在逻辑回归的情况下,由于通常只有 2 个类别,因此具有线性直线决策边界可能不起作用,在一条直线上值从低到高非常均匀地上升,因为它不够陡峭在值突然上升后会得到很多临界的高值或者低值,最终会错误分类。因此,“边界”区域,即概率从高到低转变的区域并不真正存在。所以一般情况下会应用 sigmoid 变换将其转换为 sigmoid 曲线,该曲线在极端情况下是平滑的,在中间几乎是线性的。


8、支持向量机(几何理解)


9、标准正态分布规则(z -分布)


均值为0,标准差为1的特殊正态分布。

经验法则指出,按照正态分布观察到的数据中有 99.7% 位于平均值的 3 个标准差以内。

根据该规则,68% 的数据在一个标准差内,95% 在两个标准差内,99.7% 在三个标准差内。

10、学生 T 分布


T 分布(也称为学生 T 分布)是一系列分布,看起来几乎与正态分布曲线相同,只是更短和更宽/更胖。
当我们有较小的样本时,我们使用 t 分布而不是正态分布。
样本量越大,t 分布越像正态分布。事实上,在 30 个样本之后,T 分布几乎与正态分布完全一样。


最后总结


我们可能会遇到许多小而关键的概念,这些概念构成了我们做出决定或选择正确模型的基础。本文中提到的重要概念都可以通过相关的图表进行表示,这些概念是非常重要的,需要我们在看到其第一眼时就知道他的含义,如果你已经对上面的概念都掌握了,那么可以试试说明下图代表了什么:

「完」

转自:DeepHub IMBA 版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。
整顿00后职场?成立了“00后部门”
« 上一篇 2022-06-21
  • 整顿00后职场?成立了“00后部门”
    0阅读 0条评论 个赞
    整理|于轩出品|程序人生(ID:coder_life)据教育部统计,2022届高校应届毕业生人数高达1076万。同时,今年也是00后的第一个毕业季。随着大批00后涌入职场,作为职场新人的他们会有……
  • 数据湖VS数据仓库之争?万紫详解数据仓库与湖湖数据仓库的集成
    0阅读 0条评论 个赞
    随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。但……
  • 【网关对比】Java亿流量架构的网关设计思路
    0阅读 0条评论 个赞
    本文准备围绕七个点来讲网关,分别是网关的基本概念、网关设计思路、网关设计重点、流量网关、业务网关、常见网关对比,对基础概念熟悉的朋友可以根据目录查看自己感兴趣的部分。Part1什么是网关网关,很多地方……
  • 30个重要的Python字符串方法
    0阅读 0条评论 个赞
    以下文章来源于公众号-法纳斯特,作者小F字符串是Python中基本的数据类型,几乎在每个Python程序中都会使用到它。这次给大家介绍30个最重要的内置字符串方法,希望大家能从中找到对自己有帮助的技巧……
  • 用Elasticsearch实现分页的3种方法 还有谁不行?
    0阅读 0条评论 个赞
    一、from+size浅分页"浅"分页可以理解为简单意义上的分页。它的原理很简单,就是查询前20条数据,然后截断前10条,只返回10-20的数据。这样其实白白浪费了前10条的查询。GETtest……
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
  • 用Elasticsearch实现分页的3种方法 还有谁不行?
    0阅读 0条评论 个赞
    一、from+size浅分页"浅"分页可以理解为简单意义上的分页。它的原理很简单,就是查询前20条数据,然后截断前10条,只返回10-20的数据。这样其实白白浪费了前10条的查询。GETtest……
  • 数据库管理员必须学习的11个基本Linux命令
    0阅读 0条评论 个赞
    Linux系统庞大而复杂,经过总结,做为一名DBA,一些基本管理、网络管理、进阶应用、性能诊断、管道复杂应用、硬件相关传感命令都需要掌握,这篇文章,专门来讲做为一名DBA,必须学会的11个基本应用命令……
  • 在学校教授Python编程的理想IDE
    0阅读 0条评论 个赞
    在Linux中运行Python程序就像在终端中执行Python文件一样简单。但这对大多数人来说都不是很方便,也无助于调试程序。有多种IDE和文本编辑器可用于Python开发。PyC……
  • 数据科学中10个重要概念和图表的意义
    0阅读 0条评论 个赞
    来源:DeepHubIMBA本文共1200字,建议阅读5分钟“当算法给你一条曲线时,一定要知道这个曲线的含义!”1、偏差-方差权衡这是一个总是在机器学习最重要理论中名列前茅的概念。机器学习中的几乎所……
  • SpringBoot实现人脸识别功能!就这么简单
    0阅读 0条评论 个赞
    人脸识别因为起安全、便捷的特点,在当下的互联网产品中,可以说随处可见;常常用来解锁、授权、登录等,虽然用起来方便,但是要想自行实现,不仅难度高,耗时还长,好在有实力的互联网大厂已经为我们提供了现成SD……
  • 程序员如何创造一门编程语言?
    0阅读 0条评论 个赞
    作者|MdShuvo译者|弯月出品|CSDN(ID:CSDNnews)虽然每位开发人员都掌握了一种甚至多种编程语言,但你是否曾想过自己动手创建一种编程语言?首先,我们来看看什么是编……
  • 架构进化 本文终于说清楚了~
    1阅读 0条评论 个赞
    相信大家都听说过单体和我服务,那么,单体到微服务架构的数据是如何演进的呢?这是个有意思的话题。今天,我们一起来看看,希望大家都有收获和启发。京东白条的快速发展满足了当前人们日益增长的消费需求。在京东商……
  • Linux GNU C对标准C语言的扩展和增强
    1阅读 0条评论 个赞
    正文Linux上可用的C编译器是GNUC编译器,它建立在自由软件基金会的编程许可证的基础上,因此可以自由发布。GNUC对标准C进行一系列扩展,以增强标准C的功能。1.零长度和变量长度数组……
  • 运维必备!Linux运维数据实时同步服务部署
    1阅读 0条评论 个赞
    sersync服务介绍sersync服务特点sersync服务原理sersync环境部署sersync启动方案sersync扩展使用企业数据存储需求在生产环境中,有部分服务可能会实时更新数据。如果不小……
  • 谈谈MySQL的10大经典错误
    0阅读 0条评论 个赞
    今天就给大家列举MySQL数据库中,最经典的十大错误案例,并附有处理问题的解决思路和方法,希望能给刚入行,或数据库爱好者一些帮助,今后再遇到任何报错,我们都可以很淡定地去处理。学习任何一门技术的同……
  • 如何保证MySQL和Redis的数据一致性?
    1阅读 0条评论 个赞
    以下文章来源于公众号-楼仔,作者楼仔我直接先抛一下结论:在满足实时性的条件下,不存在两者完全保存一致的方案,只有最终一致性方案。根据网上的众多解决方案,总结出6种,直接看目录:不好的方案1.先……
  • 学习SQL必须知道的10个高级概念
    4阅读 0条评论 个赞
    随着数据量持续增长,对合格数据专业人员的需求也会增长。具体而言,对SQL流利的专业人士的需求日益增长,而不仅仅是在初级层面。因此,Stratascratch的创始人NathanRosidi以及我觉得……
  • 是时候告别Linux 5.17内核系列了
    0阅读 0条评论 个赞
    是时候告别Linux5.17内核系列了,因为它现在在kernel.org网站上被标记为EOL(End-of-Life),这意味着它将不再接收维护更新。LinuxKernel5.17于……
  • Spring Boot导致“堆外内存泄漏”的调查与经验总结
    0阅读 0条评论 个赞
    编辑:业余草tech.meituan.com/2019/01/03/spring-boot-native-memory-leak.html背景为了更好地实现对项目的管理,我们将组内一个项目迁移到MDP……
  • MySQL为什么不能用uuid作为主键?
    12阅读 0条评论 个赞
    前言在mysql中设计表的时候,mysql官方推荐不要使用uuid或者不连续不重复的雪花id(long形且唯一,单机递增),而是推荐连续自增的主键id,官方的推荐是auto_increment,那么为……
  • 数据库主键一定要自己增加吗?有哪些不推荐自我增加的场景?
    0阅读 0条评论 个赞
    我们平时建表的时候,一般会像下面这样。CREATETABLE`user`(`id`intNOTNULLAUTO_INCREMENTCOMMENT'主键',`name`char(10)NOTNULLDE……
  • Kubernetes抛弃Docker 不要慌!这里有一套实用的方法告诉你~
    1阅读 0条评论 个赞
    导读Kubernetes是一个可移植、可扩展的开源平台,用于管理容器化的工作负载和服务,可促进声明式配置和自动化。Kubernetes拥有一个庞大且快速增长的生态系统,其服务、支持和工具的使用范围……
  • 记住关系数据库设计的要领就够了!
    1阅读 0条评论 个赞
    摘要本文讨论关系数据库设计相关的一些内容,涉及关系模型,表结构设计等内容,以学生选修课程讲述设计过程,在尽量讲清楚设计要领的前提下,简化设计内容。本文基于MySQL数据库为基础,适合有一定关系型数据库……
  • 整顿00后职场?成立了“00后部门”
    0阅读 0条评论 个赞
    整理|于轩出品|程序人生(ID:coder_life)据教育部统计,2022届高校应届毕业生人数高达1076万。同时,今年也是00后的第一个毕业季。随着大批00后涌入职场,作为职场新人的他们会有……
  • 如何通过缓存提高系统性能
    1阅读 0条评论 个赞
    缓存在系统中最消耗性能的地方就是对数据库的访问了,一般来说,增、删、改操作不会出现什么性能问题,除非索引太多,并且数据量有十分庞大的情况下,这三个操作才会导致性能问题。一般可以限制单表索引的数量来提升……
最近发布资讯
更多