新到公司实习,在公司电脑上配置了一遍环境,今天又在自己笔记本上配置了一遍,记录下来以便以后翻阅。
刚进公司会分配给一个端口和账号,首先使用Xshell登录hadoop集群,把集群里面的数据下载到自己账户里面。
然后再用winSCP把集群账号上的数据下载到本地
这两个东西可以独立安装,也可以更改安装路径。
安装包源链接网址:
winSCP: 官网链接(需要用IE浏览器打开)
Xshell: 6.0破解版()
安装包百度云地址:链接:https://pan.baidu.com/s/1DE0znWzirsgGq8af5Ch6Tw 密码:wey0
java_scala_idea的配置
词袋统计测试程序
下载链接:注意同意条款才可以下载
百度云链接:链接:https://pan.baidu.com/s/1umj9iv4ZJo-5r-p5B2xHvw 密码:uoc6
首先要下载java包,我把它们都安装到了L:/java目录下。配置环境变量的时候对应改成:
下载链接:官网
百度云链接:链接:https://pan.baidu.com/s/1MgWK1taGpAm7A2upt26DDQ 密码:ewtj
进入官网后选择:.msi文件安装,同样安装到了L盘。
添加环境变量:
官网下载:点击打开链接
百度云(ultimate):链接:https://pan.baidu.com/s/1jQGrOFigCOatoBCJpe9nVA 密码:0gpk
安装的是ultimate版本。(这次是用学校邮箱注册的,在按照过程中会让你填邮箱)
另外就是安装scala的时候要选择语言(languages)项。
注意在新建项目时,要选择java包(如果配置java时选择默认安装路径就会自动识别),否则在更新sbt配置的时候会报错:
在导入java包文件路径之后,在sbt中输入以下代码可以成功配置:
name := "scala" version := "0.1" scalaVersion := "2.11.7" //libraryDependencies += "org.apache.spark" %% "spark-core" % "2.0.0" libraryDependencies ++= Seq("com.databricks" %% "spark-avro" % "4.0.0", "org.apache.spark" %% "spark-sql" % "2.0.1", "org.apache.spark" %% "spark-core" % "2.0.1")1、这一段代码来自于国外网友的sbt设置,如果分段写libraryDependencies运行会报错。
2、另一个关键问题在于spark-sql和spqrk-core的版本要一致(一般spark-core是2.XX,sql也是2.XX),以及scala的版本要和spark-core一致,这个可以取spark官网查。如果不修改下载源的话,需要耐心等待大概15分钟左右。
3、PS:新建sbt工程后会有默认的scalaVersion ,可以随意修改其版本,我安装的是2.11.0,这里改成了2.11.7。
到这一步,就可以创建一个熟悉的saprkSQL的DataFrame啦。
