solr
INDICARE LA TAVOLA HIVE2 IN SOLR UTILIZZANDO SOLR DIH
Ricerca…
introduzione
Questa documentazione fornisce un modo per connettersi all'hive utilizzando SOLR Data Import Handler e indicizzare i dati in SOLR. Questa è una documentazione interessante perché non riuscivo a trovarla su internet.
Il gestore gestisce fondamentalmente più di 80 milioni di record, il che significa che è necessaria una solida infrastruttura con buone CPU e memoria.
Osservazioni
Non esitare a contattarci e cercheremo di aiutarti il più possibile.
passi
Abbiamo ottenuto i jar hive2 per primi e abbiamo lavorato su java per verificare la connettività. Poi ci siamo resi conto che i vasi da utilizzare sono:
- Hadoop-common-2.7.0-MAPR-1703.jar
- alveare-common-2.1.1-MAPR-1703-r1.jar
- alveare-JDBC-2.1.1-MAPR-1703-r1-standalone.jar
Se si utilizza SOLR Cloud, questi jar devono essere trasferiti alla VM in cui è installato SOLR e quindi fatto riferimento in solrconfig.xml in questo modo:
Importa la parte in solrconfig.xml
<lib dir = "/ users / path_to_folder_with_jar" regex = ". *. jar" />
Quindi questa è la parte più importante: la stringa di connessione alveare:
Parte di connessione
<dataConfig> <dataSource name = "ABC" driver = "org.apache.hive.jdbc.HiveDriver" url = "jdbc: hive2: //....connectionString" user = "username" password = "password" />
<nome documento = "nome_collusione">
<entity name = "collection_lookup" query = "seleziona unique_key come id da table_name">
</ entity>
</ document>
</ dataConfig>
Spingere config attraverso zookeeper
server / script / cloud-scripts / zkcli.sh -zkhost host1: 2181, host2: 2181 -cmd upconfig -confname configName -confdir server / solr / configsets / cartella /
Vai a http: // host: 8983 / solr / # / collection_name / dataimport // dataimport quindi controlla il debug e controlla prima con 10 o 20 record.
Vedrai il flusso dei dati. SALUTI !! Posso aiutarti se vuoi discutere ulteriormente ma presumo che ciò dovrebbe essere fatto. Funziona per me.