61 天前 / lxneng
小洛写在前面: 很多同学目前所做的业务分析工作,徒手分析即可 cover 业务需求,较少用到一些高阶的统计模型和机器学习上面的东西。渐渐的便会产生一种感觉,即数据分析满足业务需求即可,不需要会机器学习。 但我认为1、目前的工作不需要,不代表之后的工作不需要,我们应该着眼于我们整个数据分析生涯;2、掌握一些模型可以高效做一些定量分析,较徒手分析效率更高,更准;3、我们觉得一些东西没用,很可能是因为我们还没有发现如何去用 ;4、我们对自己的要求不应该止于满足业务需求,一些探索性专题非常依赖于机器学习 ; 基于以上...
146 天前 / hyper0x
↑↑↑关注后"星标"Datawhale 每日干货&每月组队学习,不错过Datawhale 干货 作者:太子长琴,Datawhale 优秀学习者本文对机器学习模型评估指标进行了完整总结。机器学习的数据集一般被划分为训练集和测试集,训练集用于训练模型,测试集则用于评估模型。针对不同的机器学习问题(分类、排序、回归、序列预测等),评估指标决定了我们如何衡量模型的好坏。 一、Accuracy 准确率是最简单的评价指标,公式如下: 但是存在明显的缺陷: 当样本分布不均匀时,指标的结果由占比大的类别决定。
184 天前 / ThoughtWorks
其实所有的开发模型都是为了解决一个问题:如何将需求变成软件。 最开始人们心目中的过程应该是这样的: 如何将需求变成软件 中间的“开发过程”开始很简单,只是硬件的一个配置。但这个配置越来越多,当这个配置多到难以理解时,就变成魔法了。这个魔法威力强大,但是神秘,且不可控。人们面对旺盛的需求,渴望解开魔法的面纱,将它牢牢控制在手心。于是各种开发模式纷纷登场。 瀑布模型瀑布模型是一个经典模型,不用废话,它一定在你心里。
212 天前 / KevinYan
刚开始学 Docker 的时候因为不知道 Docker 跟以前在 VirtualBox 里安的虚拟机还有 Vargrant 有啥区别,我都是习惯性的把开发环境里用的东西往单个容器里塞。后来看网上的教程还有别人分享的案例多了后,才知道把应用容器化的第一步是:要把应用用到的东西拆解放到多个容器里。慢慢地我发现不少人刚开始学 Docker 时候跟我一样都有刚接触时把 Docker 当虚拟机来用的问题,比如我特别早以前发过一篇文章《用 Docker-Compose 搭建 Laravel 开发环境》里,我用三个分别装着 PHP、MySQL 和 Nginx 的容器搭建了一个开发环境。
362 天前 / 叶锦鲤
模型、训练、算法这几个概念是机器学习和深度学习的最基础,现在看来有必要说明一下。以下所有解释均仅限于人工智能领域。 模型 模型是什么?通常形容 AI 语境下的模型一词时,比较多的情况会类比数学领域的函数。不过个人感觉,那样比较容易跑偏,不如我们先姑且将它理解成是“一个程序”吧。 模型这种“程序”接受输入,经过一系列内部处理,给出输出——在这一点上它和普通意义上的程序一样。 模型和普通程序不一样的是:后者是人类直接编写出来的,而前者则是经有另外一个人类编写的训练程序训练出来的。 从某种意义上可以说,模型是程序产生的程序。
366 天前 / 数据时光者
摘要:之前广告行业中那些趣事系列 2:BERT 实战 NLP 文本分类任务 ( 附 github 源码),我们通过 BERT 构建了二分类器。这里根据实际项目需要使用 BERT 构建多标签标注模型,可通过一个模型识别多类标签,极大提升建模效率。实际项目中会根据业务需要同时使用二分类器和多标签标注模型完成文本识别任务。 通过本篇学习,小伙伴们可以使用 BERT 模型来解决多标签标注任务。对数据挖掘、数据分析和自然语言处理感兴趣的小伙伴可以多多关注。
392 天前 / hyper0x
文 /Jasper Snoek 研究员和 Zachary Nado 研究工程师 Google Research 理想情况下,我们会使用深度学习等机器学习 (ML) 方法对与训练数据分布相同的数据进行预测。实际情况则有可能大不相同:相机镜头变得模糊、传感器性能下降,以及网络热点话题的变化等问题都会导致模型的训练数据分布与应用数据分布之间存在差异,进而导致所谓的 协变量偏移 (Covariate Shift)。例如,最近我们观察到,为胸部 X 光检测肺炎而训练的深度学习模型,在使用以前未曾见过的医院数据进行评估时,得到的精度水平大不相同。当然,部分原因是图像获取和处理方面存在细微差别。
459 天前 / 冰水比水冰
抵押型资源(CPU、NET)在 FIBOS 中抵押型资源有两种: CPU:表示消耗的链上的计算资源,单位是毫秒(ms)NET:表示消耗的链上的网络带宽,单位是 KB抵押型的资源需要用户在链上使用治理币来抵押才能获取资源,进行抵押后的治理币不可进行转账等操作,只有经过解抵押操作治理币才能进行正常转账,而解抵押的周期为 3 天。当然,如果进行解抵押操作,也就意味着释放了使用之前已抵押资源的权利。抵押型的资源可以自己给自己抵押,也可以给他人抵押。
513 天前 / openio
机器之心报道 参与:张倩、杜伟BERT 等大模型性能强大,但很难部署到算力、内存有限的设备中。为此,来自华中科技大学、华为诺亚方舟实验室的研究者提出了 TinyBERT,这是一种为基于 transformer 的模型专门设计的知识蒸馏方法,模型大小还不到 BERT 的 1/7,但速度是 BERT 的 9 倍还要多,而且性能没有出现明显下降。目前,该论文已经提交机器学习顶会 ICLR 2020。 论文:https://arxiv.org/abs/1909.10351 在自然语言处理(NLP)领域,BERT 等预训练语言模型极大地提升了诸多 NLP 任务的性能。
544 天前 / Thinkgamer
TransFM结合了FM和TransRec的思想,将其应用在序列推荐中,使用简单的模型对复杂的交互之间进行建模并能取得不错的效果。 ——文章概要 序列推荐模型TransRec,参考:点击阅读 该文的授权版本:TransFM【此文文末有留言送书活动】 概述论文是由Rajiv Pasricha和Julian McAuley两位大佬提出的发表在RecSys18 上的,是TransRec和FM的结合版本(论文下载地址:https://cseweb.ucsd.edu/~jmcauley/pdfs/recsys18a.pdf)。在下面会简单介绍TransRec和FM。
569 天前 / Sun
模型适配器: 后端数据与前端数据的桥梁 专注于解决前端那些老生常谈的问题(没碰到过算你赢), 如果你遇到过以下场景, 请试用一下 嵌套数据: 哎呀~报错了; 哦~访问 xxx 为空了啊空数据: 咦~怎么没有头像; 哦~需要一个默认头像啊格式化数据: 诶~要显示年月日; 但返回的数据是时间戳啊初衷在 Vue 或者其他视图层框架中, 如果直接使用如下插值表达式, 当嵌套对象(通常是后端返回的数据)中的某一层级为空时就会报错 TypeError: Cannot read property 'xxx' of undefined, 造成整个组件都无法渲染. {{a.aa.aaa}}为了解决这种问题, 让前端的视图层能够容错增...
628 天前 / 玲珑南书
原创:加多(某大型互联网公司资深 Java 开发工程师) 编辑:小君君(才云) 来源:技术原始积累 计算、网络、存储、安全一直是 Kubernetes 绕不开的话题。今天,我们就详细了解一下,Kubernetes 网络模型的那些事。 *注:万字长文,建议收藏后阅读! Kubernetes 对 Pod 之间如何进行组网通信提出了要求,Kubernetes 对集群网络有以下要求: 所有的 Pod 之间可以在不使用 NAT 网络地址转换的情况下相互通信; 所有的 Node 之间可以在不使用 NAT 网络地址转换的情况下相互通信; 每个 Pod 看到的自己的 IP 和其他 Pod 看到的一致。
630 天前 / mr7
导语:本系列文章一共有三篇,分别是 《科普篇 |推荐系统之矩阵分解模型》 《原理篇 |推荐系统之矩阵分解模型》 《实践篇 |推荐系统之矩阵分解模型》 第一篇用一个具体的例子介绍了MF是如何做推荐的。第二篇讲的是MF的数学原理,包括MF模型的目标函数和求解公式的推导等。第三篇回归现实,讲述MF算法在图文推荐中的应用实践。下文是第三篇——《实践篇 |推荐系统之矩阵分解模型》,敬请阅读。 本文是MF系列文章中的最后一篇,主要讲的是MF算法在图文推荐中的应用实践。无论是在召回层还是精排层,MF都有发挥作用。
631 天前 / 马蜂窝技术
点击上方“马蜂窝技术”,关注订阅更多优质内容 在用户个性化时代,垂直化、精细化的运营,被看作企业重要的竞争力。完整、清晰的用户画像体系,可以帮助企业从海量的用户信息中发掘每个用户的行为特性、潜在能力及兴趣等信息,从而为用户提供具有针对性的服务。 马蜂窝拥有海量的用户出行体验数据,在成长和发展的过程中一直在探索如何通过基于海量 UGC 的数据挖掘出每个用户的基本特征、对旅游主题、目的地的偏好和潜在兴趣,从而精准地定位和标记用户,将优质的内容、商品和服务与用户进行连接。