solr
INDICE DE MESA DE HIVE2 EN SOLR USANDO SOLR DIH
Buscar..
Introducción
Esta documentación proporciona una forma de conectarse a Hive utilizando el controlador de importación de datos SOLR e indexar los datos en SOLR. Esta es una documentación interesante porque no pude encontrarla en internet.
El manejador básicamente maneja más de 80 millones de registros, lo que significa que definitivamente se necesita una infraestructura sólida con buenas CPU y memoria.
Observaciones
No dude en comunicarse con nosotros e intentaremos ayudarlo lo más posible.
Pasos
Primero obtuvimos los jars hive2 y lo hicimos funcionar a través de java para comprobar la conectividad. Luego nos dimos cuenta de que los frascos a utilizar son:
- hadoop-common-2.7.0-mapr-1703.jar
- hive-common-2.1.1-mapr-1703-r1.jar
- hive-jdbc-2.1.1-mapr-1703-r1-standalone.jar
Si está utilizando SOLR Cloud, estos archivos deben transferirse a la máquina virtual donde se instala SOLR y luego se hace referencia en solrconfig.xml como este:
Importar parte en solrconfig.xml
<lib dir = "/ users / path_to_folder_with_jar" regex = ". *. jar" />
Entonces esta es la parte más importante: la cadena de conexión de tu colmena:
Parte de conexión
<dataConfig> <dataSource name = "ABC" driver = "org.apache.hive.jdbc.HiveDriver" url = "jdbc: hive2: //....connectionString" user = "username" password = "password" />
<document name = "collection_name">
<entity name = "collection_lookup" query = "select unique_key como id desde table_name">
</ entidad>
</ document>
</ dataConfig>
Empuje config a través de zookeeper
server / scripts / cloud-scripts / zkcli.sh -zkhost host1: 2181, host2: 2181 -cmd upconfig -confname configName -confdir server / solr / configsets / folder /
Vaya a http: // host: 8983 / solr / # / collection_name / dataimport // dataimport, luego verifique la depuración y primero verifique con 10 o 20 registros.
Verás los datos fluyendo. CHEERS !! Puedo ayudarte si quieres seguir discutiendo, pero supongo que esto debería funcionar. Está funcionando para mí.