书籍推荐:基于lucene的搜索服务器《elasticsearh权威指南》,可以快速搜集日志、报警、站内搜索引擎、分析等工作

作者: admin 分类: 技术书籍 发布时间: 2019-06-03 22:52  阅读: 254 views

书籍推荐:基于lucene的搜索服务器《elasticsearh权威指南》

推荐指数:***** 五颗星

读书说明

这本是依据elasticsearch2.0的规则编写,现在已经出到es7.0,可能部分方法已经不适用,请查阅最新的英文文档。

读书感受:实际应用过程中的问题,逐一迎刃而解,很受用。


读书背景

那段时间正在调研日志搜集分析系统的相关框架与实践,在公司进行应用,对错误日志能够有效报警,减少挨个登录查询服务器日志的操作。最开始是本地搭建使用的splunk,也挺好用,但是要破解,部分功能有限制,又开始查找其他方案,可以查看下【 环境搭建之日志搜集/采集服务系统对比(logtail/hadoop/elk/splunk/appender)】,最终选定了es。开始了一系列的操作,环境搭建、邮件报警、破解铂金版、日志优化、索引优化、日志切割、调用api对索引数据增删改查、分词处理、solr替换es方案处理、其他优化等。可以查看以下各节点信息

(ElasticSearch+LogStash+Kibana)ELK搭建在Mac/Linux系统上6.4.2版本
环境搭建之linux下ELK搭建好之后配置sentinl插件,进行邮件告警
ELK环境搭建之filebeat根据不同的监控日志文件建立不同的索引
Java连接ElasticSearch(low-level-rest-client)的配置和数据的增加/查询
脚本清理最近X日之前的ELK日志文件,优化磁盘空间
使用kibana的开发工具console做一些elasticsearch的基本查询和设置
ELK搭建环境之配置logstash监听文件并利用grok|ruby插件进行切割利于统计
通过curl或者http请求对elasticsearch中的数据进行增删改查
java使用transportClient连接elasticsearch并做接口实现增删改查ES6.4.3版本
elasticsearch6.4.2安装x-pack安全认证后,java如何使用transportclient连接/resthighlevelclient连接
JAVA程序多线程批量初始化ES数据时产生的异常问题以及解惑记录
JAVA连接ES使用IK分词器进行中文分词及elasticsearch的分词器使用说明附官方文档
单独安装elasticsearch6.x并破解xpack开启SSL认证进行测试使用
记一次现有项目中的solr切换es方案及说明
elasticsearch的mapping映射类型和字段限制,通过建立索引模板达到字段映射匹配的要求
java客户端连接elasticsearch做一些QueryBuilders简单条件查询测试[模糊查询、多条件查询、范围查询、精确查询]
ES中使搜索词通过ik分词后匹配多个文档字段,根据字段权重和最大匹配原则进行返回的QueryBuilders创建
利用logstash6.4.2监控access访问日志并切割,使用geoip插件分析ip地址在kibana控制台形成用户热点地图

后来,需要将近期工作内容进行整理并分享给大家,但是心中还是带着很多的疑问。所以,静下心来,认真读了下。

《elasticsearh权威指南》这本官方说明,心中的疑问一个一个被解开,而且愈加佩服es作者的强大。对近期的工作内容又有的更深的理解,而且有了很多的改进方案。这种感觉很好,这本书完全是对自己之前工作的一个很大的补充。尤其是实践之后在去研读原理、过程。茅塞顿开啊。所以自我感觉很有用。

记录一些优化方式:
1.集群增加-分片不调整的情况下增加副本
2.调整字段域的index属性  (新版本中有变动)
analyzed:首先分析字符串,然后索引它。
not_analyzed: 索引的是精确值,不会对它进行分析。
no  不索引这个域。这个域不会被搜索到。
3. 使用查询还是过滤(filter过滤会缓存、不计算相关性)
4. multi_match中避免出现not_analyzed字段
5. 元字段 _all 的处理
6. 内存数据刷到硬盘的时间设置
7. 文档结构调整,(针对搜索,合并搜索项等)

当然,这只是一部分,还有很多优化方式,根据实际情况进行调整。

书籍掠影:

摘抄部分目录,方便一览是否有自己需要的东西

序言

前言
  谁应该读这本书
  为什么我们要写这本书
  Elasticsearch版本 
  如何读这本书
  本书导航
  在线资源
  本书协议约定
  使用代码示例
  鸣谢

基础入门
  你知道的,为了搜索...
    安装并运行Elasticsearch
    和elasticsearch交互
    面向文档
    适应新环境
    索引雇员文档
    检索文档
    轻量搜索
    使用查询表达式搜索
    更复杂的搜索
    全文搜索
    短语搜索
    高亮搜索
    分析
    教程结语
    分布式特性
    后续步骤
  集群内的原理
    空集群
    集群健康
    添加索引
    添加故障转移
    水平扩容
    应对故障
  数据输入和输出
    什么是文档?
    文档元数据
    索引文档
    取回一个文档
    检查文档是否存在
    更新整个文档
    创建新文档
    删除文档
    处理冲突
    乐观并发控制
    文档的部分更新
    取回多个文档
    代价较小的批量操作
  分布式文档存储
    路由一个文档到一个分片中
    主分片和副本分片如何交互
    新建、索引和删除文档
    取回一个文档 
    局部更新文档
    多文档模式
  搜索-最基本的工具
    空搜索
    多索引、多类型
    分页
    轻量搜索
  映射和分析
    精确值VS全文
    倒排索引
    分析与分析器
    映射
    复杂核心域类型
  请求体查询
    空查询
    查询表达式
    查询与过滤
    最重要的查询
    组合多查询
    验证查询
  排序与相关性
    排序
    字符串排序与多字段
    什么是相关性?
    Doc Values介绍
  执行分布式检索
    查询阶段
    取回阶段
    搜索选项
    游标查询scroll
  索引管理
    创建一个索引
    删除一个索引
    索引设置
    配置分析器
    自定义分析器
    类型和映射
    根对象
    动态映射
    自定义动态映射
    缺省映射
    重新索引你的数据
    索引别名和零停机
  分片内部原理
    使文本可以被搜索
    动态更新索引
    近实时搜索
    持久化变更
   段合并

深入搜索
  结构化搜索
    ...
  全文搜索
    ...
  多字段搜索
    ...
  近似匹配
    ...
  部分匹配
    ...
  控制相关度
    ...

处理人类语言
  开始处理各种语言
  词汇识别
  归一化词元
  将单词还原为词根
  停用词:性能与精度
  同义词
  拼写错误

聚合
  ...
地理位置
  地理坐标点
  Geohashes
  地理位置聚合
  地理形状

数据建模
  关联关系处理
  嵌套对象
  父-子关系文档
  扩容设计

管理、监控和部署
  监控
  部署
    ...
  部署后

推荐人群:

1.想了解搜索引擎的工作原理的同学
2.想利用数据库中的数据做些附加价值分析的同学
3.想在实际工作中应用‘全文搜索’功能的同学
4.想了解分析语义解析的方法方式的同学
5.想了解搜索词与搜索结果相关性、评分的一些机制、方式的同学
6.其他.... 非常多

推荐理由:

由于是elasticsearch的权威指南,索引很多知识点讲述的是比较细致的。结合部分数据|图片示例,能更好的理解设计思路等。对我来说是很有用的。

官网地址:

《elasticsearh权威指南》 链接: https://www.elastic.co/guide/cn/elasticsearch/guide/current/index.html


   原创文章,转载请标明本文链接: 书籍推荐:基于lucene的搜索服务器《elasticsearh权威指南》,可以快速搜集日志、报警、站内搜索引擎、分析等工作

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!

发表评论

电子邮件地址不会被公开。 必填项已用*标注

更多阅读