课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
.NET for Apache Spark 1.0现已发布,这是一个用于Spark大数据的.NET框架,可以让.NET开发者轻松地使用Apache Spark。
该软件包由微软和.NET Foundation牵头,经过大约两年的开发。在2019年的Spark + AI峰会上,微软曾宣布推出.NET for Apache Spark,并发布了首个预览版本v0.1.0。
1.0版本包括以下内容:
支持面向.NET Standard 2.0的.NET应用程序(建议使用.NET Core 3.1或更高版本)。
支持Apache Spark 2.4/3.0 DataFrame API,包括编写Spark SQL的功能。例如:
var spark = SparkSession.Builder().GetOrCreate();
var tweets = spark.Read().Schema("date STRING, time STRING, author STRING, tweet STRING").Format("csv").Load(inputfile);
tweets = tweets.GroupBy(Lower(Col("author")).As("author"))
.Agg(Count("tweet").As("tweetcount"))
.OrderBy(Desc("tweetcount"));
tweets.Write().SaveAsTable("tweetcount");
spark.Sql(@"SELECT * FROM tweetcount").show();
能够使用.NET用户自定义函数(UDF)编写Apache Spark应用程序。例如:
// Define and register UDF
var concat = Udf<int?, string, string>((age, ame)=>name+age);
// Use UDF
df.Filter(df["age"] > 21).Select(concat(df["age"], df["name"]).Show();
提供API扩展框架以添加对其他Spark库的支持。当前包括对Linux foundation Delta Lake、Microsoft OSS Hyperspace、ML.NET、以及对Apache Spark’s MLLib functionality的支持。
在Spark运行时和.NET UDFs之间移动数据的性能工作和改进pickling interop以及对Apache Arrow的支持。
竞争优势:没有使用UDF的.NET for Apache Spark程序与基于Scala和PySpark的非UDF Spark应用程序显示出相同的速度。如果应用程序包含UDF,.NET for Apache Spark程序的速度至少和PySpark程序一样快,一般来说更快。
下载地址:#/packages/Microsoft.Spark
选择的人多的机构就是好机构,达内每年近10万学员的选择,来达内给你一个不一样的培训体验。达内目前开设24大课程体系,Java编程、UI设计、网络营销、web前端培训等课程。达内每月开设免费课程试听训练营,欢迎来电预约免费试听,领取免费课程资料。来合肥net培训,让你的人生有不一样的精彩。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!