pyspark 读取csv文件创建DataFrame的两种方法

yipeiwu_com6年前Python基础

方法一:用pandas辅助

from pyspark import SparkContext 
from pyspark.sql import SQLContext 
import pandas as pd 
sc = SparkContext()
sqlContext=SQLContext(sc) 
df=pd.read_csv(r'game-clicks.csv') 
sdf=sqlc.createDataFrame(df) 

方法二:纯spark

from pyspark import SparkContext 
from pyspark.sql import SQLContext
sc = SparkContext()
sqlContext = SQLContext(sc)
sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('game-clicks.csv')

以上这篇pyspark 读取csv文件创建DataFrame的两种方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

Python实现基于POS算法的区块链

Python实现基于POS算法的区块链

区块链中的共识算法 在比特币公链架构解析中,就曾提到过为了实现去中介化的设计,比特币设计了一套共识协议,并通过此协议来保证系统的稳定性和防攻击性。 并且我们知道,截止目前使用最广泛,...

Python turtle绘画象棋棋盘

Python turtle绘画象棋棋盘

通过使用turtle绘画象棋棋盘,供大家参考,具体内容如下 # 绘制象棋棋盘 import turtle t = turtle.Pen() t.width(2) # 设置画笔粗细...

Python 获取 datax 执行结果保存到数据库的方法

执行 datax 作业,创建执行文件,在 crontab 中每天1点(下面有关系)执行: 其中 job_start 及 job_finish 这两行记录是自己添加的,为了方便识别出哪张表...

python微信跳一跳系列之自动计算跳一跳距离

python微信跳一跳系列之自动计算跳一跳距离

到现在为止,我们通过前面几篇博文的描述和分析,已经可以自动实现棋子、棋盘位置的准确判断,计算一下两个中心点之间的距离,并绘制在图形上,效果如下。 效果 图中的棋子定位采用HSV颜色识别...

python绘制彩虹图

python绘制彩虹图

本文实例为大家分享了python绘制彩虹图的具体代码,供大家参考,具体内容如下 from turtle import * #控制彩虹路径 def path(pen, r, g,...