खोज…


टिप्पणियों

SparkR पैकेज आप स्पार्क क्लस्टर के शीर्ष पर वितरित डेटा फ्रेम के साथ काम करते हैं। ये आपको बहुत बड़े डेटासेट पर चयन, फ़िल्टरिंग, एकत्रीकरण जैसे संचालन करने की अनुमति देते हैं। स्पार्कआर अवलोकन स्पार्क पैकेज प्रलेखन

सेटअप स्पार्क संदर्भ

R में स्पार्क संदर्भ सेट करें

स्पार्क्स वितरित डेटाफ्रेम के साथ काम करना शुरू करने के लिए, आपको अपने आर प्रोग्राम को मौजूदा स्पार्क क्लस्टर के साथ जोड़ना होगा।

library(SparkR)
sc <- sparkR.init() # connection to Spark context
sqlContext <- sparkRSQL.init(sc) # connection to SQL context

यहां बताया गया है कि अपने आईडीई को स्पार्क क्लस्टर से कैसे जोड़ा जाए।

स्पार्क क्लस्टर प्राप्त करें

स्थापित निर्देशों के साथ एक अपाचे स्पार्क परिचय विषय है । मूल रूप से, आप स्थानीय रूप से जावा ( निर्देश देखें ) या उपयोग (गैर-मुक्त) क्लाउड एप्लिकेशन (जैसे Microsoft Azure [विषय साइट] , IBM ) के माध्यम से एक स्पार्क क्लस्टर को नियोजित कर सकते हैं।

कैश डेटा

क्या:

कैशिंग स्पार्क में गणना का अनुकूलन कर सकते हैं। कैशिंग मेमोरी में डेटा स्टोर करता है और दृढ़ता का एक विशेष मामला है। यहाँ बताया गया है कि स्पार्क में RDD कैश करने पर क्या होता है।

क्यों:

मूल रूप से, कैशिंग एक अंतरिम आंशिक परिणाम बचाता है - आमतौर पर परिवर्तनों के बाद - आपके मूल डेटा का। इसलिए, जब आप कैश की गई RDD का उपयोग करते हैं, तो पहले से परिवर्तित किए गए डेटा को फिर से दर्ज किए बिना मेमोरी से पहले से ट्रांसमिट किए गए डेटा को एक्सेस किया जाता है।

किस तरह:

यहाँ एक उदाहरण है कि बड़े डेटा (यहाँ 3 जीबी बड़ा सीएसवी) को जल्दी से मेमोरी स्टोरेज से कैसे एक्सेस किया जाए, जब इसे अधिक एक्सेस किया जाए तो एक बार:

library(SparkR)
# next line is needed for direct csv import:
Sys.setenv('SPARKR_SUBMIT_ARGS'='"--packages" "com.databricks:spark-csv_2.10:1.4.0" "sparkr-shell"')
sc <- sparkR.init()
sqlContext <- sparkRSQL.init(sc)

# loading 3 GB big csv file:  
train <- read.df(sqlContext, "/train.csv", source = "com.databricks.spark.csv", inferSchema = "true")
cache(train)
system.time(head(train))
# output: time elapsed: 125 s. This action invokes the caching at this point.
system.time(head(train))
# output: time elapsed: 0.2 s (!!)

RDDs बनाएँ (लचीला वितरित डेटासेट)

डेटाफ्रेम से:

mtrdd <- createDataFrame(sqlContext, mtcars)

सीएसवी से:

सीएसवी के लिए, आपको स्पार्क संदर्भ आरंभ करने से पहले पर्यावरण में सीएसवी पैकेज जोड़ना होगा:

Sys.setenv('SPARKR_SUBMIT_ARGS'='"--packages" "com.databricks:spark-csv_2.10:1.4.0" "sparkr-shell"') # context for csv import read csv -> 
sc <- sparkR.init()
sqlContext <- sparkRSQL.init(sc)

फिर, आप स्तंभों में डेटा के डेटा स्कीमा को जोड़कर csv को लोड कर सकते हैं:

train <- read.df(sqlContext, "/train.csv", header= "true", source = "com.databricks.spark.csv", inferSchema = "true")

या डेटा स्कीमा को पहले से निर्दिष्ट करके:

 customSchema <- structType(
    structField("margin", "integer"),
    structField("gross", "integer"),
    structField("name", "string"))

 train <- read.df(sqlContext, "/train.csv", header= "true", source = "com.databricks.spark.csv", schema = customSchema)


Modified text is an extract of the original Stack Overflow Documentation
के तहत लाइसेंस प्राप्त है CC BY-SA 3.0
से संबद्ध नहीं है Stack Overflow