pyspark 读取csv文件创建DataFrame的两种方法

yipeiwu_com6年前Python基础

方法一:用pandas辅助

from pyspark import SparkContext 
from pyspark.sql import SQLContext 
import pandas as pd 
sc = SparkContext()
sqlContext=SQLContext(sc) 
df=pd.read_csv(r'game-clicks.csv') 
sdf=sqlc.createDataFrame(df) 

方法二:纯spark

from pyspark import SparkContext 
from pyspark.sql import SQLContext
sc = SparkContext()
sqlContext = SQLContext(sc)
sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('game-clicks.csv')

以上这篇pyspark 读取csv文件创建DataFrame的两种方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

Django 框架模型操作入门教程

本文实例讲述了Django 框架模型操作。分享给大家供大家参考,具体如下: Django 对各种数据库提供了很好的支持,包括:PostgreSQL、MySQL、SQLite、Oracle...

python与C、C++混编的四种方式(小结)

混编的含义有两种, 一种是在python里面写C 一种是C里面写python 本文主要是进行简化,方便使用。 ######################################...

influx+grafana自定义python采集数据和一些坑的总结

influx+grafana自定义python采集数据和一些坑的总结

先上网卡数据采集脚本,这个基本上是最大的坑,因为一些数据的类型不正确会导致no datapoint的错误,真是令人抓狂,注意其中几个key的值必须是int或者float类型,如果你不慎写...

在Pycharm中调试Django项目程序的操作方法

在Pycharm中调试Django项目程序的操作方法

最近利用Django开发了一个小网站,但是遇到问题无法调试。查阅资料找到如下方法配置Pycharm对Django进行调试 步骤如下: 1 首先在Pycharm中打开你的Django项目,...

django 创建过滤器的实例详解

django 创建过滤器 一、需求来源: 假如有一个模板文件有一个字符串变量,这个字符串变量中不能有任何的空格,而恰恰这个模板被很多个视图函数多调用,那么你每次在视图函数中穿这个字符串变...