本文主要记录官方文档学习过程 https://www.elastic.co/guide/en/elasticsearch/reference/7.6/getting-started.html
快速开始
运行es
环境准备
由于我使用的win10,所有环境基于windows环境。
jdk:java version "1.8.0_211"
es版本:7.6.2
(这里提供一个下载地址:https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.6.2-windows-x86_64.zip)
启动
安装好jdk,解压好es后,我们就可以启动了
找到es的安装目录下面的bin目录,我这里是:C:\Users\admin\workspace\Enviroments\es\kibana-7.6.2-windows-x86_64\bin
Shift+鼠标右键在bin目录中打开powershell,执行命令:**.\elasticsearch.bat**
这样,我们就启动成功了一个es实例,下面我们可以通过cat API来验证下,有两种方式:
- 如果你安装了Kibana,直接在控制台输入:
GET /_cat/health?v
(推荐这种方式,学习阶段比较方便,后面也是这种方式来实验) - 也可以使用curl命令,打开cmd,执行命令:
curl -XGET "http://localhost:9200/_cat/health?v"
warning:
注意,上面第二种方式,在powershell中报错,可以改用以下方式:
curl -uri "http://localhost:9200/_cat/health?v" -Method 'GET'
结果大概是这样的:
上面的启动命令只是单节点启动,多节点得话,可以试试以下命令:
.\elasticsearch.bat -E path.data=data2 -E path.logs=log2
.\elasticsearch.bat -E path.data=data3 -E path.logs=log3
索引文件
在启动好了es后,我们可以为一些数据建立索引。方式如下:
PUT /customer/_doc/1
{
"name": "zhangshan"
}
注意:如果,不加id,es会自动生成一个id
上面请求创建一个名为customer的索引(如果不存在创建),添加一个ID为1的新文档,存储name字段并为其创建索引。执行后,返回结果如下:
![创建文档]/images/createDocument.png “POST结果返回”)
新建后,我们可以查询我们创建的文档:
GET /customer/_doc/1
结果如下:
{
"_index" : "customer",
"_type" : "_doc",
"_id" : "1",
"_version" : 1,
"_seq_no" : 0,
"_primary_term" : 1,
"found" : true,
"_source" : {
"name" : "zhangshan"
}
}
批量索引
当文档数量过大的时候,我们可以通过批量索引的方式来提高插入效率,具体操作如下:
- 下载json文件,我们可以使用官网的文件,下载地址如下:accounts.json
- 在下载的文件目录下,打开gitbash,执行命令:
curl -H "Content-Type: application/json" -XPOST "localhost:9200/mybank/_bulk?pretty&refresh" --data-binary "@accounts.json"
- 然后在Kibana中执行命令:
GET /_cat/indices
,可以看到有mybank的文档
开始查找
我们完成上面导入数据操作后,就可以试着通过_search
端点查询数据。例如:
GET /mybank/_search
{
"query": { "match_all": {} },
"sort": [
{ "account_number": "asc" }
]
}
上面的从mybank总索引所有文档,并将其按照account_number升序排序,执行后得到的结果如下:
{
"took" : 23,
"timed_out" : false,
"_shards" : {
"total" : 1,
"successful" : 1,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 1000,
"relation" : "eq"
},
"max_score" : null,
"hits" : [
{
"_index" : "mybank",
"_type" : "_doc",
"_id" : "0",
"_score" : null,
"_source" : {
"account_number" : 0,
"balance" : 16623,
"firstname" : "Bradshaw",
"lastname" : "Mckenzie",
"age" : 29,
"gender" : "F",
"address" : "244 Columbus Place",
"employer" : "Euron",
"email" : "bradshawmckenzie@euron.com",
"city" : "Hobucken",
"state" : "CO"
},
"sort" : [
0
]
},...]
}
}
返回信息,相关字段解释:
took
- es查询所需的时间,单位是毫秒(milliseconds)timed_out
- 搜索请求是否超时_shards
- 搜索了多少个分片(total),以及成功(successful),失败(failed)或跳过(skipped)了多少个分片max_score
- 最相关文件的分数hits.total.value
- 找到多少相关文档hits.sort
- 文档的排序位置(不按相关性得分排序时)hits._score
- 文档的相关性得分(使用match_all时不适用)
es每次请求相互独立,不会维护相关状态信息,如果要分页搜索,请使用from
和size
参数,如下:
GET /mybank/_search
{
"query": { "match_all": {} },
"sort": [
{ "account_number": "asc" }
],
"from": 10,
"size": 10
}
我们现在了解基本的查询结构,可以做一些其他的查询。比如,在字段中搜索特定词,可以用match
搜索,查找address
中包含mill
或者lane
的文档,案例如下:
GET /bank/_search
{
"query": { "match": { "address": "mill lane" } }
}
如果,只想查包含mill lane
的文档,可以使用match_phrase
查询,如下:
GET /mybank/_search
{
"query": { "match_phrase": { "address": "mill lane" } }
}
为了构造更加复杂的查询,需要使用bool
查询控制数据范围。可以根据可以根据需要(必须匹配),期望(应该匹配)或不期望(必须不匹配)指定条件,案例如下:
GET /mybank/_search
{
"query": {
"bool": {
"must": [
{ "match": { "age": "40" } }
],
"must_not": [
{ "match": { "state": "ID" } }
]
}
}
}
以上查询的是,包含所有age=40,并且state=ID的文档。布尔查询中每个should
must
和not_must
被视为查询子句,must
和should
的查询会提高文档的相关性分数,分数越高,文档越匹配查询。默认,es返回按这些相关性分数排名的文档。
must_not
条件被视为过滤器,它只影响结果是否在文件中,但不会影响文件的评分方式。还可以显式指定任意过滤器以包含或排除文档,如下:
GET /mybank/_search
{
"query": {
"bool": {
"must": { "match_all": {} },
"filter": {
"range": {
"balance": {
"gte": 20000,
"lte": 30000
}
}
}
}
}
}
以上请求使用范围过滤器将结果限制为余额在20,000美元到30,000美元(含)之间的帐户
使用聚合分析结果
Elasticsearch聚合使您能够获取有关搜索结果的信息,并回答诸如“德克萨斯州有多少个帐户持有人?”之类的问题。 或“田纳西州的平均帐户余额是多少?” 您可以在一个请求中搜索文档,过滤命中并使用汇总分析结果。
例如,以下请求将银行索引中的所有帐户按状态分组,并以降序返回帐户数量最多的十个州:
GET /mybank/_search
{
"size": 0,
"aggs": {
"group_by_state": {
"terms": {
"field": "state.keyword"
}
}
}
}
返回结果如下:
{
"took": 29,
"timed_out": false,
"_shards": {
"total": 5,
"successful": 5,
"skipped" : 0,
"failed": 0
},
"hits" : {
"total" : {
"value": 1000,
"relation": "eq"
},
"max_score" : null,
"hits" : [ ]
},
"aggregations" : {
"group_by_state" : {
"doc_count_error_upper_bound": 20,
"sum_other_doc_count": 770,
"buckets" : [ {
"key" : "ID",
"doc_count" : 27
}, {
"key" : "TX",
"doc_count" : 27
}, {
"key" : "AL",
"doc_count" : 25
}, {
"key" : "MD",
"doc_count" : 25
}, {
"key" : "TN",
"doc_count" : 23
}, {
"key" : "MA",
"doc_count" : 21
}, {
"key" : "NC",
"doc_count" : 21
}, {
"key" : "ND",
"doc_count" : 21
}, {
"key" : "ME",
"doc_count" : 20
}, {
"key" : "MO",
"doc_count" : 20
} ]
}
}
}
上面buckets
存储的是state
字段的值,doc_state
显示每个state下的值,例如你可以看到有27个账户在state=ID
条件下。由于size=0
,所以查询结果只包含聚合结果。
总而言之,你可以利用聚合来对每次查询结果进行一个数据聚合分析。