pyspark 读取csv文件创建DataFrame的两种方法

yipeiwu_com6年前Python基础

方法一:用pandas辅助

from pyspark import SparkContext 
from pyspark.sql import SQLContext 
import pandas as pd 
sc = SparkContext()
sqlContext=SQLContext(sc) 
df=pd.read_csv(r'game-clicks.csv') 
sdf=sqlc.createDataFrame(df) 

方法二:纯spark

from pyspark import SparkContext 
from pyspark.sql import SQLContext
sc = SparkContext()
sqlContext = SQLContext(sc)
sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('game-clicks.csv')

以上这篇pyspark 读取csv文件创建DataFrame的两种方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

python实现淘宝购物系统

本文实例为大家分享了python淘宝购物系统的具体代码,供大家参考,具体内容如下 代码如下: #刚创建账户所拥有的钱 money = 0 #定义商品列表 goods_list =...

python 实现turtle画图并导出图片格式的文件

python 实现turtle画图并导出图片格式的文件

如下所示: from turtle import* import turtle setup(800,700,300,50) penup() seth(90) fd(100) seth...

Django 查询数据库并返回页面的例子

views.py 视图文件 message = None all_message = UserMessage.objects.filter(name='测试2') if...

python3+django2开发一个简单的人员管理系统过程详解

python3+django2开发一个简单的人员管理系统过程详解

一、基础环境准备 windows环境: Pycharm python3.6 Django2.0.1 Mysql5.7 安装django 在pycharm termin...

讲解Python中fileno()方法的使用

 fileno()方法返回所使用的底层实现,要求从操作系统I/O操作的整数文件描述符。 语法 以下是fileno()方法的语法: fileObject.fileno();...