Elasticsearch学习心得：从入门到实践

本文发布于537 天前，其中的信息可能已经过时，如有错误请发送邮件到Sunshineforluck@163.com

一、Elasticsearch的核心价值

1.1 分布式搜索与分析引擎

Elasticsearch（简称ES）基于Lucene构建，专为处理海量数据的实时搜索、日志分析和数据可视化场景设计。其核心优势包括：

近实时检索：数据写入后1秒内可检索。
水平扩展性：通过分片（Shard）机制实现集群扩容。
丰富的查询语法：支持全文检索、聚合分析、地理位置查询等。

1.2 典型应用场景

日志集中管理（如ELK技术栈）
电商商品搜索与推荐
安全监控（SIEM系统）

二、核心功能实践笔记

2.1 索引模板（Index Template）

通过模板统一管理索引配置，避免重复定义映射和设置。例如：

PUT _template/my_template
{
  "index_patterns": ["logs-*"],
  "settings": {
    "number_of_shards": 3,
    "number_of_replicas": 1
  },
  "mappings": {
    "properties": {
      "@timestamp": { "type": "date" },
      "message": { "type": "text" }
    }
  }
}

关键点：

使用order参数控制模板优先级（值越大优先级越高）。
通配符*匹配索引名称（如logs-app-*）。

2.2 映射（Mapping）

定义字段类型和分词规则，确保数据一致性：

PUT /products
{
  "mappings": {
    "properties": {
      "name": { "type": "text", "analyzer": "ik_max_word" },
      "price": { "type": "double" },
      "tags": { "type": "keyword" }
    }
  }
}

经验：

text类型适合全文检索，keyword适合精确匹配。
中文分词推荐使用ik插件（需单独安装）。

2.3 别名（Alias）

实现索引无缝切换与查询路由：

POST /_aliases
{
  "actions": [
    { "add": { "index": "logs-2025", "alias": "current_logs" } }
  ]
}

优势：

解耦业务代码与物理索引名称。
支持零停机重建索引（通过别名切换）。

三、性能优化技巧

3.1 分片策略

单个分片大小建议控制在10-50GB
避免过度分片（每个分片消耗资源）
使用_shrinkAPI合并小分片

3.2 写入优化

PUT /logs/_settings
{
  "index": {
    "refresh_interval": "30s",
    "translog.durability": "async"
  }
}

（通过降低刷新频率提升吞吐量）

四、学习资源推荐

官方文档：Elasticsearch Guide
书籍：《Elasticsearch权威指南》
实战课程：极客时间《Elasticsearch核心技术与实》

下一步计划：

深入理解ES的聚合分析原理
实践ILM（索引生命周期管理）策略
完成集群压力测试