7 天前 / 数据叔
推荐原创专栏大叔的大数据杂谈 【每日五分钟学习大数据】系列No.20 上一篇文章简单地介绍过了ES的相关概念,还没看的同学快去复习下: ES是什么?看完这篇就不要再问这种低级问题了! 文章的最后提到了倒排索引,不知道有没有勾起大家的好奇心,ES的索引是怎么做,为什么他会被广泛地叫做搜索引擎而不是数据库?根源在它的索引,所以这一篇带你一探究竟。 言归正传,说起索引肯定是绕不开经典的B-Tree,来看两张图简单回顾下你们大学的课本内容。 B-Tree B+Tree B+Tree是B-Tree的优化,两者的区别由图应该是可以看得比较清楚......
11 天前 / 数据叔
【每日五分钟学习大数据】系列No.19 最近在给公司其他部门的同事输出关于 ElasticSearch (下面都简称ES) 的培训,内容从入门到(精通/放弃),反响还不错,有望在年底再冲一波绩效,哈哈。所以,独乐乐不如众乐乐,我整理了下大纲,脱敏了一些内容,发出来给大家一起学习一下,先从最基础的开始,后面会一步步深入,欢迎持续关注。 言归正传,要说ES那不得不先提一下 Apache Lucene,Lucene 是当下最先进、高性能、全功能的搜索引擎库。 而ES是用 Java 编写的,它的内部使用 Lucene 做索引与搜索,但是它的目的是使全文检索变得简单, 通......
14 天前 / hivefans东杰
一、前言数据平台已迭代三个版本,从头开始遇到很多常见的难题,终于有片段时间整理一些已完善的文档,在此分享以供所需朋友的实现参考,少走些弯路,在此篇幅中偏重于ES的优化,关于HBase,Hadoop的设计优化估计有很多文章可以参考,不再赘述。 二、需求说明项目背景:在一业务系统中,部分表每天的数据量过亿,已按天分表,但业务上受限于按天查询,并且DB中只能保留3个月的数据(硬件高配),分库代价较高。 改进版本目标:数据能跨月查询,并且支持1年以上的历史数据查询与导出。 按条件的数据查询秒级返回。 三、Elasticsearch检索原理3......
19 天前 / 知了一笑
一、安装和简介ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。 环境搭建 Linux系统:centos7下搭建ElasticSearch中间件,常用接口演示 二、与SpringBoot2整合1、核心依赖 org.springframework.boot spring-boot-starter-data-elasticsearch ${spring-boot.version} 2、配置文件spring: application: name:ware-elastic-search data: elasticsearch: #默......
40 天前 / laoyang360
1、调查:你的Elasticsearch怎么做的安全防护?背景:大家知道elasticsearch早期版本安全部分收费(7.1 & 6.8 版本之前),实际中各个公司6.x,5.x,2.x,1.x都有在用,且非少数。群随机投票结果如下: 通过留言发现,大家使用2的比较多,历史包袱重,真正升级7.X的企业还不太多。Medcl在《给你 10 个升级到 Elastic Stack 7 的理由!》分享中提到升级到最新版本“更安全”的核心理由。 之前文章中也有过探讨:你的Elasitcsearch集群在裸奔吗?的确,安全问题已经成为公司使用Elasticsearch必须考虑的问题之一。2、说到Elasticsearch安全,你想......
51 天前 / Badb0y
游戏直播行业龙头斗鱼在 2019 年 Q2 的平均 MAU 再创新高,达到 1.628 亿。每天,超大量的用户使用斗鱼各客户端参与线上互动,斗鱼需要对客户端采集到的性能数据进行统计和分析,开发出具有多维度分析图表和数据监控的 APM (Application Performance Monitoring,应用性能监控) 平台。最初,斗鱼采用了市面上非常流行的 Elasticsearch (简称 ES)实时聚合实现。运行一段时间后,基于 ES 的方案面临用户查询时间长、数据精度丢失等问题,斗鱼采用 Apache Kylin 替换 Elasticsearch, 对 APM 平台中存在的问题进行优化。不试不知道,一试吓一跳......
63 天前 / gongyouliu
点击上方“大数据与人工智能”,“星标或置顶公众号”第一时间获取好内容 作者丨斌迪 HappyMint编辑丨Zandy 导语 本篇文章为大家带来ES面试指南,题目大部分来自于网络上,有小部分是来自于工作中的总结,每个题目会给出一个参考答案,希望对大家面试大数据分析师能够有所帮助。 为什么考察Elasticsearch? Elasticsearch是一个近实时的搜索平台,在大数据生态系统中占据重要的地位。我们必须要了解其基本原理和概念,一方面可以对数据分析工作中排查问题有比较大的帮助,另一方面方便我们与他人沟通交流。 精......
65 天前 / sjf0115
背景说明 线上业务反应使用Flink消费上游kafka topic里的轨迹数据出现backpressure,数据积压严重。单次bulk的写入量为:3000/50mb/30s,并行度为48。针对该问题,为了避免影响线上业务申请了一个与线上集群配置相同的ES集群。本着复现问题进行优化就能解决的思路进行调优测试。 测试环境elasticsearch 2.3.3 flink 1.6.3 flink-connector-elasticsearch2_2.11 八台SSD,56核 :3主5从 Rally分布式压测ES集群从压测结果来看,集群层面的平均写入性能大概在每秒10w+的doc。 Flink写入测试配置文件 1config.put("cluster.name",ConfigUtil.......
68 天前 / 鸡尾巴
作者: admin时间: 2019-09-20分类: elasticsearch背景增加字段的时候手残,将 float 类型的字段,加了 " , 自动识别为了 text 类型,想要修改 mapping 的时候发现 Elastic search 的 mapping 建立之后就不能更新了 !! 解决方案大体方案是 建立一个新的 索引 index_v2, 然后 reindex ,再将旧索引删掉,最后建立一个 alias 到 index_v2 talk is less,show me the code参数说明当前索引 index_v1目标索引 index_v2第一步,建立一个新的索引 index_v2 (mappings 替换成你需要的)curl -X PUT "http://localhost:9200/index_v2" -H 'Content-Type: ......
76 天前 / GO语言中文网
点击上方蓝色“Go语言中文网”关注我们,设个星标,天天学习Go Elastic client[1] 是一款很不错的针对 Go 语言的 Elasticsearch 客户端,在Working With Elasticsearch[2] 一文中,我用它举例解释了如何对文档建立索引并搜索文档。你如果希望代码能正常执行,不会被重构或者修改所影响,那么你必须要有一个能覆盖所有代码的测试用例。 在本文中我将教你如何用 Go 语言与 Elasticsearch 做单元测试。并且,此方法也适用于几乎所有语言调用外部 RESTful API. 服务调用 Elasticsearch 假设你有一个日志服务,能够获取获取某个应用,最近 n 条日志。......
76 天前 / openio
每个人都会犯错,别再让相同的错误一再发生,别再让我们为那些错误付出沉痛的代价。 清单不是写在纸上的,而是印在心上的。我们别无选择,清单,正在一步步变革我们的生活,变革这个复杂的世界...... ——[美] 阿图-葛尔德《清单革命》 01 Elasticsearch基础认知 重磅 | Elasticsearch7.X学习路线图 终于等到你,Elasticsearch7.X视频教程发布! Elasticsearch 7.0 正式发布,盘他! 干货 | Elasticsearch 7.1免费安全功能全景认知 死磕 Elasticsearch 方法论:普通程序员高效精进的 10 大狠招! Elasticsearch学习,请先看这一篇......
82 天前 / 编程一生
背景 事情是这样的。一天下午4点42分左右。业务反馈我开发的服务在测试环境出现问题,返回资源数据是0。查日志发现是ES访问超时。相当于数据库挂了。持续了20多分钟自己恢复。 咨询了ES团队,最终得到下面的答复: 当前集群现状:1)当前集群数据IO最高的索引为XXX,数据量很小(100mb) 2)但是读写都很大(读>1000QPS,写>1000QPS) ,使用的是线下环境的机器3)索引分了10个片,4个副本问题分析:1)线下环境的机器之前了解到测试环境硬盘性能本来就很差,这个需要业务SRE一块来确定2)查询的时候,会一次性查询10个片,这样可能会查10台机器的数据,很......
84 天前 / 大数据入门工程师
近期笔者公司有需求需要将短视频评论数据进行分词词云展示,分析TopN内容,体验了一下搜索引擎的魅力。此文所有的内容都是基于最新版本的Elastic Search,版本为7.3。更多用法可以参考官网:传送门 Elastic Search介绍 Elastic Search是位于Elastic Stack核心的分布式搜索和分析引擎,Logstash和Beats有助于收集、聚合和丰富数据,并且将数据存储在Es中。Kibana有助于我们能够交互式探索、可视化数据并且能够对进行洞察,管理和监控堆栈。 核心概念 Cluster: 一个集群就是由多个节点组织在一起,它们共同持有所有的数据,并提供......
102 天前 / 公众号_小哈学Java
点击上方“小哈学Java”,选择“星标” 回复“666”,领取100G独家整理的学习资料哟~ 在 Elasticsearch 中,索引是一个非常重要的概念,它是具有相同结构的文档集合。类比关系型数据库,比如 Mysql, 你可以把它对标看成和库同级别的概念。 今天小哈将带着大家了解, 在 Elasticsearch 中,都是如何对索引进行操作的。 目录一、创建索引 二、删除索引 三、获取索引信息 四、打开/关闭索引 一、创建索引1.1 开始创建索引您可以通过 Elasticsearch 的 RESTFul API 来创建索引: PUT http://127.0.0.1:9200/commodity 注意:默认......
111 天前 / laoyang360
1、引言Elasticsearch是非常灵活且功能丰富的搜索引擎,它提供了许多不同查询数据的方法。在实战业务场景中,经常会出现远远低于预期查询速度的慢查询。作为分布式系统的Elasticsearch,可能有各种影响查询性能的因素,包括外部因素,如负载均衡设置,网络延迟(带宽,NIC卡/驱动程序)等。本文主要讨论可能导致慢查询的原因以及如何在Elasticsearch的上下文中识别它们?本文主要源于常见慢查询故障的排除方法,阅读本文的前提需要你对Elasticsearch的原理有大致的了解。如果不了解Elastic相关原理,可以移步:elastic.blog.csdn.net 或 历史文......