solr
SOLR DIHを使用してSOLR内のハイブ2のインデックスを作成する
サーチ…
前書き
このドキュメントでは、SOLRデータインポートハンドラを使用してハイブに接続し、SOLRのデータをインデックスする方法を示します。私はインターネット上でそれを見つけることができなかったので、これは興味深いドキュメントです。
ハンドラは基本的に8000万以上のレコードを処理します。つまり、優れたCPUとメモリを備えた強力なインフラストラクチャが必要です。
備考
お気軽にお問い合わせください。可能な限りお手伝いします。
ステップ
私たちは最初にhive2 jarを取得し、javaを使って接続を確認するようにしました。それから、使用する瓶は次のとおりです。
- hadoop-common-2.7.0-mapr-1703.jar
- hive-common-2.1.1-mapr-1703-r1.jar
- hive-jdbc-2.1.1-mapr-1703-r1-standalone.jar
SOLR Cloudを使用している場合、これらのjarはSOLRがインストールされているVMに転送され、solrconfig.xmlで次のように参照されます。
solrconfig.xmlのパートのインポート
<lib dir = "/ users / path_to_folder_with_jar" regex = "。*。jar" />
次に、これが最も重要な部分です:あなたのハイブ接続文字列:
接続部
<dataConfig> <dataSource name = "ABC" driver = "org.apache.hive.jdbc.HiveDriver" url = "jdbc:hive2://....connectionString" user = "username" password = "password" />
<document name = "collection_name">
<entity name = "collection_lookup" query = "table_nameのIDとしてunique_keyを選択します">
</ entity>
</ document>
</ dataConfig>
zookeeperを通して設定をプッシュする
サーバー/スクリプト/クラウドスクリプト/ zkcli.sh -zkhost host1:2181、host2:2181 -cmd upconfig -confname configName -confdir server / solr / configsets /
http:// host:8983 / solr /#/ collection_name / dataimport // dataimportに行き 、デバッグをチェックし、最初に10または20のレコードでチェックします。
データが流れています。チアーズ!!あなたがさらに議論したいと思うなら私は助けることができますが、私はこれがすべきと仮定しています。それは私のために働いています。