solr
INDEKSOWANIE TABELI HIVE2 W SOLR ZA POMOCĄ SOLR DIH
Szukaj…
Wprowadzenie
Ta dokumentacja zapewnia sposób połączenia z gałęzią za pomocą modułu obsługi importu danych SOLR i indeksowania danych w SOLR. To interesująca dokumentacja, ponieważ nie mogłem jej znaleźć w Internecie.
Program obsługi obsługuje w zasadzie ponad 80 milionów rekordów, co oznacza silną infrastrukturę z dobrymi procesorami, a pamięć jest zdecydowanie potrzebna.
Uwagi
Skontaktuj się z nami, a my postaramy się pomóc w jak największym stopniu.
Kroki
Najpierw dostaliśmy słoiki hive2 i sprawiliśmy, że działały one przez java, aby sprawdzić łączność. Potem zdaliśmy sobie sprawę, że słoiki do użycia to:
- hadoop-common-2.7.0-mapr-1703.jar
- hive-common-2.1.1-mapr-1703-r1.jar
- hive-jdbc-2.1.1-mapr-1703-r1-standalone.jar
Jeśli używasz SOLR Cloud, słoiki te należy przenieść na maszynę wirtualną, na której jest zainstalowany SOLR, a następnie odwołać się do niego w pliku solrconfig.xml w następujący sposób:
Zaimportuj część do pliku solrconfig.xml
<lib dir = "/ users / path_to_folder_with_jar" regex = ". *. jar" />
To jest najważniejsza część: Twój ciąg połączenia gałęzi:
Część połączenia
<dataConfig> <dataSource name = "ABC" driver = "org.apache.hive.jdbc.HiveDriver" url = "jdbc: hive2: //....connectionString" user = "nazwa użytkownika" hasło = "hasło" />
<nazwa dokumentu = „nazwa_kolekcji”>
<nazwa jednostki = "kolekcja_wyszukania" zapytanie = "wybierz unikalny klucz jako identyfikator z nazwy_tabeli">
</ podmiot>
</ document>
</ dataConfig>
Wciśnij config przez dozorcę
server / scripts / cloud-scripts / zkcli.sh -zkhost host1: 2181, host2: 2181 -cmd upconfig -confname configName -confdir server / solr / configsets / folder /
Przejdź do http: // host: 8983 / solr / # / nazwa_kolekcji / dataimport // dataimport, a następnie sprawdź debugowanie i najpierw sprawdź 10 lub 20 rekordów.
Zobaczysz przepływ danych. TWOJE ZDROWIE !! Mogę pomóc, jeśli chcesz dyskutować dalej, ale zakładam, że tak powinno być. To działa dla mnie.