hbase(coprocessor)-es构建二级索引(完整版)_hbase使用coprocessor构建二级索引详细步骤-程序员宅基地

hbase(coprocessor)整合es构建二级索引

一.简介

HBase包含两种协处理器：Observers和Endpoint

1.RegionObserver:

eg:可以在客户端进行get操作时，通过preGet进行权限控制

//主要方法：
preOpen, postOpen: Called before and after the region is reported as online to the master.

preFlush, postFlush: Called before and after the memstore is flushed into a new store file.

preGet, postGet: Called before and after a client makes a Get request.

preExists, postExists: Called before and after the client tests for existence using a Get.

prePut and postPut: Called before and after the client stores a value.

preDelete and postDelete: Called before and after the client deletes a value.

2.WALObserver

提供基于WAL的写和刷新WAL文件的操作，一个regionserver上只有一个WAL的上下文。

preWALWrite/postWALWrite: called before and after a WALEdit written to WAL.

3.MasterObserver：

提供基于诸如ddl的的操作检查，如create, delete, modify table等，同样的当客户端delete表的时候通过逻辑检查时候具有此权限场景等。其运行于Master进程中。

preCreateTable/postCreateTable: Called before and after the region is reported as online to the master.

preDeleteTable/postDeleteTable

4.Endpoint Coprocessor:

Endpoint processors allow you to perform computation at the location of the data. An example is the need to calculate a running average or summation for an entire table which spans hundreds of regions.

In contrast to observer coprocessors, where your code is run transparently, endpoint coprocessors must be explicitly invoked using the CoprocessorService() method available in Table or HTable.

Endpoint Coprocessor需要结合客户端代码进行rpc通信来实现数据的搜集归并。而observer coprocessor只会在server端运行，且仅在特定操作后触发相应的代码。

Starting with HBase 0.96, endpoint coprocessors are implemented using Google Protocol Buffers (protobuf). For more details on protobuf, see Google’s Protocol Buffer Guide. Endpoints Coprocessor written in version 0.94 are not compatible with version 0.96 or later. See HBASE-5448). To upgrade your HBase cluster from 0.94 or earlier to 0.96 or later, you need to reimplement your coprocessor.

HBase 0.94更新到0.96之后的版本，coprocessor也发生了改变（0.96采用了protobuf）。

思考：10亿数据求top10000

二.RegionObserver的代码实现：

package myAPI3;

import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.Cell;
import org.apache.hadoop.hbase.CellUtil;
import org.apache.hadoop.hbase.CoprocessorEnvironment;
import org.apache.hadoop.hbase.client.Delete;
import org.apache.hadoop.hbase.client.Durability;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.coprocessor.BaseRegionObserver;
import org.apache.hadoop.hbase.coprocessor.ObserverContext;
import org.apache.hadoop.hbase.coprocessor.RegionCoprocessorEnvironment;
import org.apache.hadoop.hbase.regionserver.wal.WALEdit;
import org.apache.hadoop.hbase.util.Bytes;
import org.elasticsearch.client.Client;


import java.io.IOException;
import java.util.HashMap;
import java.util.List;
import java.util.Map;


public class DataSyncObserver extends BaseRegionObserver {
   
    

   private static Client client = null;
   private static final Log LOG = LogFactory.getLog(DataSyncObserver.class);


   /**
    * 读取HBase Shell的指令参数
    *
    * @param env
    */
   private void readConfiguration(CoprocessorEnvironment env) {
   
    
       Configuration conf = env.getConfiguration();
       Config.clusterName = conf.get("es_cluster");
       Config.nodeHost = conf.get("es_host");
       Config.nodePort = conf.getInt("es_port", -1);
       Config.indexName = conf.get("es_index");
       Config.typeName = conf.get("es_type");

       //LOG.info("observer -- started with config: " + Config.getInfo());
   }


   @Override
   public void start(CoprocessorEnvironment env) throws IOException {
   
    
       LOG.info("-----------------------------------starting-------------------------------------------------------------------------------------")

本文链接：https://blog.csdn.net/The_Inertia/article/details/103695138

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

Swift 包管理器 (SPM)：管理 iOS 中的依赖关系_ios spm-程序员宅基地

文章浏览阅读845次，点赞29次，收藏7次。Swift 包管理器 (SPM)：管理 iOS 中的依赖关系_ios spm

SCI论文润色真有必要吗？-程序员宅基地

文章浏览阅读381次，点赞10次，收藏7次。总的来说，sci论文润色虽然不会改变论文的学术内容和贡献，但它能够显著的提升论文的质量和可读性，从而增加论文被接受和引用的机会。在论文投稿前都是需要润色的，特别是英文论文投稿，一定得靠谱。但如果是一些小问题，比如语法语句错误，专业言论不恰当，那么你的文章会在投稿过程中外审评定完以后，也会给你返修意见和修改机会。如果是新作者，或者是对自己的语言能力不那么自信，那么是很有必要的。其他人的视角可能会发现你忽略的错误或不清晰的表达，同时也可以提供有关论文结构和逻辑的反馈意见。关于SCI论文润色的常见方法。

Prometheus监控数据格式的学习-程序员宅基地

文章浏览阅读1.1k次，点赞33次，收藏9次。Prometheus 指标（metrics）的数据形式是一种简单的文本格式（容易通过 HTTP 协议被 Prometheus 服务器拉取）。每一行包含了一个指标的数据，通常包括指标名称、可选的一组标签以及指标的值。Prometheus 的指标数据可以有不同类型，如 Counter、Gauge、Histogram 和 Summary，它们的表示形式会有所不同。

数字图像处理(10): OpenCV 图像阈值化处理_binarization threshold-程序员宅基地

文章浏览阅读5.6k次，点赞26次，收藏43次。目录1 什么是阈值化-threshold()2 二进制阈值化3 反二进制阈值化4 截断阈值化5 反阈值化为06 阈值化为07 小结参考资料1 什么是阈值化-threshold()图像的二值化或阈值化 (Binarization)旨在提取图像中的目标物体，将背景以及噪声区分开来。通常会设定一个阈值，通过阈值将图像的像素划分为两类：大于阈值的..._binarization threshold

CSS flex布局的使用之逆战班系列_nzjustify无效-程序员宅基地

文章浏览阅读102次。一、什么是flex布局Flex是Flexible Box的缩写，也称“弹性布局”，用来为盒状模型提供最大的灵活性。任何一个容器都可以指定为Flex布局。注：设为Flex布局以后，子元素的float、clear和vertical-align属性将失效。二、基本概念采用Flex布局的元素，称为Flex容器（flex container），简称”容器”。它的所有子元素自动成为容器成员，称为F..._nzjustify无效

SpringBoot 疫苗接种管理系统--83448 (免费领源码、附论文）可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C++、python、数据可视化、大数据、全套文案-程序员宅基地

文章浏览阅读70次。本次系统设计中，以用户的实际操作感作为整体开发的出发点，结合Java开发语言对软件开发原理，本次软件的开发以实际运用作为出发点，以改善疫苗接种管理效率为目的，使用SpingBoot框架技术整体开发源程序，最终实现一个改善疫苗接种管理系统。在整体的开发过程中，首先了解用户的需要，分析现状及问题点，参考成熟的类似系统，不断改进，最终实现系统的设计开发。

随便推点

使用安卓模拟器时提示关闭hyper-v_hyperv影响模拟器-程序员宅基地

文章浏览阅读1.6w次。本电脑是宏碁传奇X，cpu是r7 5800u，显卡rtx3050；使用了雷电、mumu两款安卓模拟器，雷电启动报错g_bGuestPowerOff fastpipeapi.cpp:1161，使用了网上的所有方案都不行，包括开启VT（amd开启SVM），命令关闭hyper-v服务等；尝试mumu模拟器，安装时支持vt项检测不通过，后来发现mumu模拟器在amd的cpu上只支持32位版，换装32位版检测通过，但是只要打开模拟器就提示需要关闭hyper-v，我已经确认关闭后，启动依旧这样提示，查找了网上很_hyperv影响模拟器

【大厂秘籍】系列 - Mysql索引详解-程序员宅基地

文章浏览阅读564次。MySQL官方对索引定义：是存储引擎用于快速查找记录的一种数据结构。需要额外开辟空间和数据维护工作。● 索引是物理数据页存储，在数据文件中（InnoDB，ibd文件），利用数据页(page)存储。● 索引可以加快检索速度，但是同时也会降低增删改操作速度，索引维护需要代价。

CSS实现当鼠标停留在一个元素上时，使得两个元素的样式发生改变_css鼠标悬浮修改其他元素样式-程序员宅基地

文章浏览阅读825次。使用兄弟选择器实现同时改变两个元素的样式_css鼠标悬浮修改其他元素样式

文献学习-40-基于可迁移性引导的多源模型自适应医学图像分割-程序员宅基地

文章浏览阅读4.8k次，点赞32次，收藏43次。香港中文大学袁奕萱教授团队提出了一种名为多源模型自适应 (MSMA) 的新型无监督域适应方法。MSMA 旨在仅利用预训练的源模型（而非源数据）将知识迁移到未标记的目标域，从而实现对目标域的有效分割。

（4）FPGA开发工具介绍（第1天）-程序员宅基地

文章浏览阅读8.8k次。（4）FPGA开发工具介绍（第1天）1 文章目录1）文章目录2）FPGA初级课程介绍3）FPGA初级课程架构4）FPGA开发工具介绍（第1天）5）技术交流6）参考资料2 FPGA初级课程介绍1）FPGA初级就业课程共100篇文章，目的是为了让想学FPGA的小伙伴快速入门。2）FPGA初级就业课程包括FPGA简介、Verilog HDL基本语法、Verilog HDL 入门实例、FPGA入门实例、Xilinx FPGA IP core设计、Xilinx FPGA原语与U_fpga开发工具

js中的定时器如何使用_js定时器用法-程序员宅基地

文章浏览阅读1.4k次。JS提供了一些原生方法来实现延时去执行某一段代码，下面来简单介绍一下setTiemout、setInterval、setImmediate、requestAnimationFrame。首先，我们先来了解一下什么是定时器：JS提供了一些原生方法来实现延时去执行某一段代码下面来简单介绍一下setTimeout() ：在指定的毫秒数后调用函数或计算表达式。setTimeout(code,millisec,lang)参数描述code 必需。要调用的函数后要执行的 JavaScript 代码串。_js定时器用法