×

大数据

Databricks连城:Spark打造一体化大数据流水线

站长资讯网友投稿帖 站长资讯网友投稿帖 发表于2024-03-30 浏览4968 评论0
连城老师目前专注于以Spark为主的大数据分析系统,Spark SQL为Spark提供了原生的SQL关系查询能力,并进一步增强了Spark操纵结构化数据的能力。演讲伊始,连城率先分享了当今大数据的问题以及数据分析流程,通常的做法是在hadoop之上刻画框架。因此所有流程是基于HDFS,所得到的是有效的数据处理结果占比全部数据处理的比例并不高。