pyspark 读取csv文件创建DataFrame的两种方法

yipeiwu_com6年前Python基础

方法一:用pandas辅助

from pyspark import SparkContext 
from pyspark.sql import SQLContext 
import pandas as pd 
sc = SparkContext()
sqlContext=SQLContext(sc) 
df=pd.read_csv(r'game-clicks.csv') 
sdf=sqlc.createDataFrame(df) 

方法二:纯spark

from pyspark import SparkContext 
from pyspark.sql import SQLContext
sc = SparkContext()
sqlContext = SQLContext(sc)
sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('game-clicks.csv')

以上这篇pyspark 读取csv文件创建DataFrame的两种方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

Python上下文管理器类和上下文管理器装饰器contextmanager用法实例分析

本文实例讲述了Python上下文管理器类和上下文管理器装饰器contextmanager用法。分享给大家供大家参考,具体如下: 一. 什么是上下文管理器 上下文管理器是在Python2....

详谈python中冒号与逗号的区别

注意if\while\for等(或函数定义)语句在结尾处包含一个冒号——我们通过它告诉python下面跟着一个语句块。 --------------冒号的用法 if guess ==...

用django设置session过期时间的方法解析

session的超时时间设置 settings中 SESSION_COOKIE_AGE=60*30 30分钟。 SESSION_EXPIRE_AT_BROWSER_CLOSE...

基于python解线性矩阵方程(numpy中的matrix类)

这学期有一门运筹学,讲的两大块儿:线性优化和非线性优化问题。在非线性优化问题这里涉及到拉格朗日乘子法,经常要算一些非常变态的线性方程,于是我就想用python求解线性方程。查阅资料的过程...

Python工程师面试必备25条知识点

Python工程师面试必备25条Python知识点: 1.到底什么是Python?你可以在回答中与其他技术进行对比 下面是一些关键点: Python是一种解释型语言。这就是说,与C语言和...