apache-spark => 스칼라의 텍스트 파일과 작업

소개

텍스트 파일을 읽고 그 파일에 대한 작업을 수행합니다.

경로에서 텍스트 파일 읽기 :

val sc: org.apache.spark.SparkContext = ???
sc.textFile(path="/path/to/input/file")

와일드 카드를 사용하여 파일 읽기 :

sc.textFile(path="/path/to/*/*")

최소 파티션 수를 지정하는 파일 읽기 :

sc.textFile(path="/path/to/input/file", minPartitions=3)

Spark의 조인 :

텍스트 파일 1 읽기

val txt1=sc.textFile(path="/path/to/input/file1")

예 :

  A B
  1 2
  3 4

텍스트 파일 2 읽기

val txt2=sc.textFile(path="/path/to/input/file2")

예 :

  A C
  1 5
  3 6

결과에 가입하고 인쇄하십시오.

txt1.join(txt2).foreach(println)

예 :

  A B C
  1 2 5
  3 4 6

위의 조인은 첫 번째 열을 기반으로합니다.

Modified text is an extract of the original Stack Overflow Documentation

아래 라이선스 CC BY-SA 3.0

와 제휴하지 않음 Stack Overflow