<h2>Read</h2>
Read DataFrame with schema
<pre class="language-scala"><code class="language-scala">val df = spark.read.schema(schema).option("sep","\u0007").option("inferSchema", “false").csv("/path/to/data")
</code></pre>
Infer schema:
<pre class="language-scala"><code class="language-scala">val df = spark.read.option("sep","\u0007").option("inferSchema", "true").csv("/path/to/data")
</code></pre>
<h2>Read From HDFS</h2>
<pre class="language-scala"><code class="language-scala">def read(path: String)(implicit sc: SparkContext): String = {
 val conf = sc.hadoopConfiguration
 val fs = FileSystem.get(conf)
 val in = fs.open(new Path(path))
 scala.io.Source.fromInputStream(in).mkString
}

def readHeader(path: String, delimiter: String = ",")(implicit sc: SparkContext): Array[String] = {
 val header = read(path).trim
 header.split(delimiter, -1).map(_.trim)
}
</code></pre>
<h2>Write</h2>
<h3>Write to local</h3>
<pre class="language-scala"><code class="language-scala">Files.write(
 Paths.get(path),
 df.mkString("\n").getBytes,
 StandardCharsets.UTF_8,
 StandardOpenOption.CREATE)
</code></pre>
<h3>Write to HDFS</h3>
Save in one file(use repartition)
<pre class="language-scala"><code class="language-scala">df.repartition(1).write
 .format("com.databricks.spark.csv")
 .option("header", "true")
 .save(path)
</code></pre>
Append
<pre class="language-scala"><code class="language-scala">df.write.mode(SaveMode.Append).save(path)
</code></pre>
overwrite
<pre class="language-scala"><code class="language-scala">df.write.mode(SaveMode.Overwrite).save("output/")
</code></pre>
with partition
<pre class="language-scala"><code class="language-scala">df.write.partitionBy("zipcode").format("json").save(path)}
</code></pre>

Spark - IO

Read

Read From HDFS

Write

Write to local

Write to HDFS