4 天前 / Thinkgamer
点击标题下「搜索与推荐 Wiki」可快速关注▼相关推荐▼1、CIKM 2020 | 一文详解美团 6 篇精选论文 2、Sentence2Vec & GloVe 算法原理、推导与实现 3、值得收藏|2020 年度文章汇总,不容错过的精彩强化学习系列学习笔记,结合《UCL 强化学习公开课》、《白话强化学习与 PyTorch》、网络内容,如有错误请指正,一起学习,文章比较长,建议先收藏再仔细观看! 强化学习基本介绍强化学习的中心思想是让智能体在环境中自我学习和迭代优化。
12 天前 / 超人汪小建
人类语言复杂性自然语言对于人类发展进程是至关重要的,可以说如果没有自然语言就不会有人类的文明,它也是人类独有的能力。想象一下,如果没有自然语言我们该如何进行思想交流,该如何进行人与人之间的协作?。 人类的自然语言发展到如今已经是高度成熟了,同时这也是一个相当复杂的系统,从字到单词到短语再到句子和段落,加上各种不同的表达形式和语境,真真算得上是“皇冠上的明珠”。 如果要去形容自然语言有多复杂好像也很难说清楚,那我们就以数学组合的角度来看自然语言的复杂度,当然用该例子也并不完全正确...
13 天前 / HueiFeng
机器学习中一类问题称为峰值检测,它旨在识别与大部分时序中明显不同但临时突发的数据值。及时检测到这些可疑的个体、事件或观察值很重要,这样才能尽量减少其产生。异常情况检测是检测时序数据离群值的过程,在给定的输入时序上指向“怪异”或不是预期行为的峰值。 通常有两种类型的时序异常检测: 峰值,指示系统中临时突发的异常行为。 更改点,指示系统中一段时间内持续更改的开始。 在 ML.NET 中,IID 峰值检测或 IID 更改点检测算法适用于独立且均匀分布的数据集。峰值检测不需要任何训练,这一点不像其他的机器学习场景,代码也非常简单。
20 天前 / ThoughtWorks
浅谈机器学习模型推理性能优化 2020 年 12 月 24 日 by 刘瀚文 Leave a Comment 前言在机器学习领域,清晰明了的数据预处理和表现优异的模型往往是数据科学家关注的重点,而实际生产中如何让模型落地、工程化也同样值得关注,工程化机器学习模型避不开的一个难点就是模型的推理(Inference / Serving)性能优化。 可能许多数据科学家都对模型的推理性能比较陌生,我举几个对推理性能有强要求的场景例子: 在公共安全领域中,视频监控中实时的人脸识别需要有实时的展示能力方便执法人员快速定位跟踪人员。
25 天前 / hyper0x
这个保姆级不是形容这份指南有多详细,而是形容这个指南会伴随你们一起成长哟(其实就是太多了写不完)。之后的更新都会定期发文并汇总在 Github 上,欢迎催更: https://github.com/leerumor/nlp_tutorial 下面开始学!习!(敲黑板) 如何系统地学习机器学习是一门既重理论又重实践的学科,想一口吃下这个老虎是不可能的,因此学习应该是个循环且逐渐细化的过程。 首先要有个全局印象,知道 minimum 的情况下要学哪些知识点: 之后就可以开始逐个击破,但也不用死磕,控制好目标难度,先用三个月时间进行第一轮学习: 读懂机器学习、深度学习原理...
26 天前 / lxneng
k-means 属于无监督学习算法,无监督算法的内涵是观察无标签数据集自动发现隐藏结构和层次,在无标签数据中寻找隐藏规律。聚类模型在数据分析当中的应用:既可以作为一个单独过程,用于寻找数据内在规律,也可以作为分类等其他分析任务的前置探索。 例如我们想探寻我们产品站内都有哪些社交行为群体,刚开始拍脑门想可能并不会很容易,这时候可以根据用户属性、行为对用户进行聚类,根据结果将每个簇定义为一类社交群体,基于这些类训练后续的分类模型,给用户打标签后进行个性化推荐、运营。
31 天前 / figo
机器之心报道 机器之心编辑部 如何基本不用 GAN 把照片生成简笔画?这个项目就做到了。 先前,机器之心报道过简笔画生成人脸。而 AI 从人脸生成简笔画的效果如何呢? 先看几张效果图! 《老友记》多人照片转换效果: 还有男神基努 · 里维斯 效果是不是出奇的好?更有意思的是,这种创作线稿的方法并没有使用大多数类似工具会用到的生成对抗网络 GAN。 目前,该项目在 Reddit 上已经有超高热度,项目名为 ArtLine,github star 量也已经超过 700。如果你想尝试一下自己的照片,项目作者 Vijish Madhavan 也把代码放在了 Google Colab 上,运行即可。
33 天前 / hyper0x
↑↑↑关注后"星标"Datawhale 每日干货 &每月组队学习,不错过 Datawhale 干货 作者:李祖贤 深圳大学,Datawhale 高校群成员 知乎地址:http://www.zhihu.com/people/meng-di-76-92 我今天主要介绍机器学习集成学习方法中三巨头之一的 XGBoost,这个算法在早些时候机器学习比赛内曾经大放异彩,是非常好用的一个机器学习集成算法。 XGBoost 是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。它在 Gradient Boosting 框架下实现机器学习算法。XGBoost 提供了并行树提升(也称为 GBDT,GBM),可以快速准确地解决许多数据科学问题。
38 天前 / kafeidou
阿里妹导读:有人的地方就有江湖。广告作为互联网公司商业变现最为直接快捷的途径,广告作弊已经形成了一个有完整链条的黑产行业。如何通过技术手段识别并防范广告作弊?本文通过介绍常见的广告计费模式和虚假流量的获益形式和发生机制,分析广告点击反作弊的核心问题,分享相关的反作弊实践经验,详解反作弊技术体系及核心算法。 本文作者:黎伟斌 ( 德策),张红春 ( 樊迟),孟晓楠 ( 潇楠),周洋 ( 贾让)。 背景 世界广告主联盟 WFA 表示 [1]“若不采取措施,2025 年虚假广告花费将高达 500 亿美元,仅次于毒品交易金额,成为世界第二大非法营收”。
42 天前 / 小米壳
Pandas 提供快速,灵活和富于表现力的数据结构,是强大的数据分析 Python 库。 本文收录于机器学习前置教程系列。 一、Series 和 DataFramePandas 建立在 NumPy 之上,更多 NumPy 相关的知识点可以参考我之前写的文章《前置机器学习(三):30 分钟掌握常用 NumPy 用法》。 《前置机器学习(三):30 分钟掌握常用 NumPy 用法》:http://blog.caiyongji.com/2020/12/06/pre-ml-numpy-3.html Pandas 特别适合处理表格数据,如 SQL 表格、EXCEL 表格。有序或无序的时间序列。具有行和列标签的任意矩阵数据。
43 天前 / 美团技术团队
总第 429 篇 2020 年 第 53 篇 会话推荐是推荐领域的一个子分支, 美团平台增长技术部也在该领域不断地进行探索。不久前,该部门提出的跨会话信息感知的时间卷积神经网络模型 CA-TCN 被国际会议 ICDM NeuRec Workshop 2020 接收。本文会对论文中的 CA-TCN 模型进行介绍,希望能对从事相关工作的同学有所帮助或者启发。ICDM 的全称 International Conference on Data Mining,是由 IEEE 举办的世界顶级数据挖掘研究会议,该会议涵盖了统计、机器学习、模式识别、数据库、数据仓库、数据可视化、基于知识的系统和高性能计算等数据挖掘相关领域。
45 天前 / 我爱计算机视觉
对比学习的概念很早就有了,但真正成为热门方向是在 2020 年的 2 月份,Hinton 组的 Ting Chen 提出了 SimCLR,用该框架训练出的表示以 7% 的提升刷爆了之前的 SOTA,甚至接近有监督模型的效果。 在 SimCLR 推出后,各路大佬们又陆续提出了不少有意义的工作,本文将对 2020 年的一些对比学习经典研究进行总结,方便大家快速掌握这个方向的原理和发展脉络。 首先再简要说下对比学习的基本原理,先从无监督表示学习讲起。表示学习的目标是为输入 学习一个表示 ,最好的情况就是知道 就能知道 。
48 天前 / ThoughtWorks
机器学习平台是一款集数据集、特征工程、模型训练、评估、预测、发布于一体的全流程开发和部署的工作平台。其数据量大、数据多样性、支持算法种类多,加上算法模型结果不确定、集成复杂等等特点;这会给 QA 的工作带来怎样挑战、以及如何克服,本文一一揭晓。 在谈测试机器学习平台带给 QA 的挑战之前,先了解一下机器学习平台是什么? 机器学习平台是一款集数据集、特征工程、模型训练、评估、预测、发布于一体的全流程开发和部署的工作平台,为数据科学家提供端到端的一站式的服务,帮助他们脱离繁琐的工程化开发,从而帮助他们提高工作效率。
57 天前 / hyper0x
关注上方“数据挖掘工程师”,选择星标,关键时间,第一时间送达! 导读 日前,通俗易懂的推导了三种集成学习的原理及主要公式,今天本文基于 Python 从 0 开始手动实现一个 Adaboost 分类器,文中提供完整代码。 01 Adaboost 基本原理回顾 Adaboost 作为一种提升集成算法,核心思想是不断训练弱学习器,来针对性的提升前一轮中预测错误样本的权重,最终通过加权所有弱学习器的训练结果得到最终分类标签。
59 天前 / 高飞
翻译:精致码农 - 王亮 原文:http://dwz.win/XnM .NET 5 旨在提供统一的运行时和框架,使其在各平台都有统一的运行时行为和开发体验。微软发布了与 .NET 协作的大数据(.NET for Spark)和机器学习(ML.NET)工具,这些工具共同提供了富有成效的端到端体验。在本文中,我们将介绍 .NET for Spark、大数据、ML.NET 和机器学习的基础知识,我们将研究其 API 和功能,向你展示如何开始构建和消费你自己的 Spark 作业和 ML.NET 模型。 什么是大数据 大数据是一个几乎不言自明的行业术语。