pyspark 读取csv文件创建DataFrame的两种方法

yipeiwu_com6年前Python基础

方法一:用pandas辅助

from pyspark import SparkContext 
from pyspark.sql import SQLContext 
import pandas as pd 
sc = SparkContext()
sqlContext=SQLContext(sc) 
df=pd.read_csv(r'game-clicks.csv') 
sdf=sqlc.createDataFrame(df) 

方法二:纯spark

from pyspark import SparkContext 
from pyspark.sql import SQLContext
sc = SparkContext()
sqlContext = SQLContext(sc)
sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('game-clicks.csv')

以上这篇pyspark 读取csv文件创建DataFrame的两种方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

解决Pycharm界面的子窗口不见了的问题

解决Pycharm界面的子窗口不见了的问题

pycharm程序界面一般有很多子窗口,如图1所示。 pycharm项目视图-运行窗口 图1 Pycharm子窗口 如果你发现某些子窗口不见了,图2是最过分的情形,无须担心。 图2...

Pandas统计重复的列里面的值方法

pandas 代码如下: import pandas as pd import numpy as np salaries = pd.DataFrame({ 'name': ['B...

基于Python的XSS测试工具XSStrike使用方法

基于Python的XSS测试工具XSStrike使用方法

简介 XSStrike 是一款用于探测并利用XSS漏洞的脚本 XSStrike目前所提供的产品特性: 对参数进行模糊测试之后构建合适的payload 使用payload对参数进行穷举匹配...

使用python存储网页上的图片实例

使用python存储网页上的图片实例

本文介绍在已知网络图片的地址下,存储图片到本地 本文例子随便选择LOFTER上一张图片,复制图片的地址,如下图所示 在Python中输入代码 import requests #图...

win10下Python3.6安装、配置以及pip安装包教程

win10下Python3.6安装、配置以及pip安装包教程

0.目录 1.前言 2.安装python 3.使用pip下载、安装包 3.1 安装Scrapy 3.2 安装PyQt 3.3 同时安装多个包 3.4 pip的常用命令 1.前言 之前在电...