pyspark 读取csv文件创建DataFrame的两种方法

yipeiwu_com6年前Python基础

方法一:用pandas辅助

from pyspark import SparkContext 
from pyspark.sql import SQLContext 
import pandas as pd 
sc = SparkContext()
sqlContext=SQLContext(sc) 
df=pd.read_csv(r'game-clicks.csv') 
sdf=sqlc.createDataFrame(df) 

方法二:纯spark

from pyspark import SparkContext 
from pyspark.sql import SQLContext
sc = SparkContext()
sqlContext = SQLContext(sc)
sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('game-clicks.csv')

以上这篇pyspark 读取csv文件创建DataFrame的两种方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

python 示例分享---逻辑推理编程解决八皇后

可以和Haskell , Prolog 一样做到模式匹配, 建立逻辑推到规则,描述问题,得出答案。 from pyDatalog import pyDatalog pyDatalo...

windows下Python安装、使用教程和Notepad++的使用教程

windows下Python安装、使用教程和Notepad++的使用教程

一、Python下载 1.进入Python官网:https://www.python.org/ 2.选择windows版本(Download > Windows) 3.点击下载P...

Python生成验证码、计算具体日期是一年中的第几天实例代码详解

1、约瑟夫环问题 《幸运的基督徒》 有15个基督徒和15个非基督徒在海上遇险,为了能让一部分人活下来不得不将其中15个人扔到海里面去,有个人想了个办法就是大家围成一个圈,由某个人开始从1...

关于numpy中eye和identity的区别详解

两个函数的原型为: np.identity(n, dtype=None) np.eye(N, M=None, k=0, dtype=<type ‘float'>); np.i...

基于python的BP神经网络及异或实现过程解析

基于python的BP神经网络及异或实现过程解析

BP神经网络是最简单的神经网络模型了,三层能够模拟非线性函数效果。 难点: 如何确定初始化参数? 如何确定隐含层节点数量? 迭代多少次?如何更快收敛? 如何获得全局最...