pyspark 读取csv文件创建DataFrame的两种方法

yipeiwu_com6年前Python基础

方法一:用pandas辅助

from pyspark import SparkContext 
from pyspark.sql import SQLContext 
import pandas as pd 
sc = SparkContext()
sqlContext=SQLContext(sc) 
df=pd.read_csv(r'game-clicks.csv') 
sdf=sqlc.createDataFrame(df) 

方法二:纯spark

from pyspark import SparkContext 
from pyspark.sql import SQLContext
sc = SparkContext()
sqlContext = SQLContext(sc)
sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('game-clicks.csv')

以上这篇pyspark 读取csv文件创建DataFrame的两种方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

Python3.7中安装openCV库的方法

1.首先自己直接在cmd中输入 pip3 install openCV是不可行的,即需要自己下载安装包本地安装 2.openCV库 下载地址http://www.lfd.uci.edu/...

Django ORM 聚合查询和分组查询实现详解

Django ORM 聚合查询和分组查询实现详解

models.py: from django.db import models # 出版社 class Publisher(models.Model): id = models...

解决django后台管理界面添加中文内容乱码问题

在学习使用django做一个简单的个人博客项目,通过admin后台添加中文文章内容的时候,遇到中文内容显示乱码的问题。 排除了网上资料中的提到的几个问题: 1.数据上传默认采用的是un...

Python实现的合并两个有序数组算法示例

本文实例讲述了Python实现的合并两个有序数组算法。分享给大家供大家参考,具体如下: 思路 按位循环比较两个数组,较小元素的放入新数组,下标加一(注意,较大元素对应的下标不加一),直到...

Python企业编码生成系统之主程序模块设计详解

本文实例讲述了Python企业编码生成系统之主程序模块。分享给大家供大家参考,具体如下: 一 点睛 主程序模块包括三部分: 1 主程序初始化 2 主程序界面 3 主程序逻辑 下面分别介绍...