수색…


소개

이 문서는 SOLR 데이터 가져 오기 처리기를 사용하여 하이브에 연결하고 SOLR에서 데이터를 인덱싱하는 방법을 제공합니다. 이것은 인터넷을 통해 찾을 수 없기 때문에 흥미로운 문서입니다.

처리기는 기본적으로 8 천만 개 이상의 레코드를 처리하므로 좋은 CPU와 메모리가있는 강력한 인프라가 반드시 필요합니다.

비고

언제든지 저희에게 연락을 주시면 최대한 많이 도와 드리겠습니다.

단계

우리는 hive2 항아리를 먼저 가지고 있고 연결성을 확인하기 위해 java를 통해 작업하도록했습니다. 그런 다음 사용할 항아리가 다음과 같다는 사실을 깨달았습니다.

  1. hadoop-common-2.7.0-mapr-1703.jar
  2. hive-common-2.1.1-mapr-1703-r1.jar
  3. hive-jdbc-2.1.1-mapr-1703-r1-standalone.jar

SOLR 클라우드를 사용하는 경우 이러한 병은 SOLR이 설치된 VM에 전송되고 다음과 같이 solrconfig.xml에서 참조됩니다.

solrconfig.xml에서 파트 가져 오기

<lib dir = "/ users / path_to_folder_with_jar"regex = ". *. jar"/>

다음은 가장 중요한 부분입니다. 하이브 연결 문자열 :

연결 부분

<dataConfig> <dataSource name = "ABC"driver = "org.apache.hive.jdbc.HiveDriver"url = "jdbc : hive2 : //....connectionString"user = "username"password = "password"/>

<document name = "collection_name">

<entity name = "collection_lookup"query = "select unique_key from table_name">

</ entity>

</ document>

</ dataConfig>

사육사를 통해 설정 푸시

서버 / 스크립트 / 클라우드 스크립트 / zkcli.sh -zkhost host1 : 2181, host2 : 2181 -cmd upconfig -confname configName -confdir server / solr / configsets /

http : // host : 8983 / solr / # / collection_name / dataimport // dataimport로 이동 한 다음 디버그를 확인하고 10 또는 20 개의 레코드로 먼저 확인하십시오.

데이터 흐름이 표시됩니다. CHEERS !! 더 이상의 논의를 원한다면 도움을 줄 수 있지만이 일을해야한다고 생각합니다. 그것은 나를 위해 일하고있다.



Modified text is an extract of the original Stack Overflow Documentation
아래 라이선스 CC BY-SA 3.0
와 제휴하지 않음 Stack Overflow