出版于开发天才 ·2022年12月20日 将JSON转换为BigQuery阵列和结构 2022年初,BigQuery引入了对JSON数据类型的本机支持。以前,人们必须将JSON数据存储在字符串列中。考虑到广泛采用和这种格式允许的灵活性,这一新开发为许多有趣的用例打开了大门。现在… Bigquery 2分钟阅读 Bigquery 2分钟阅读
出版于开发天才 ·2022年10月4日 使用云工作流将Google Cloud Storage的数据加载到BigQuery Google Cloud Workflows是一个无服务器的编排平台,它使我们能够将服务组合为可重复且可观察到的操作集,并连接其他GCP服务。这些被称为工作流程。在担任数据工程师并使用Apache气流(及其GCP实现称为Composer)的过程中,… Google云平台 5分钟阅读 Google云平台 5分钟阅读
出版于开发天才 ·9月25日,2022年 9个编写清洁剂SQL的技巧 结构化查询语言,通过其首字母缩写SQL(无论您将其发音为ES-Quele-el还是续集)广泛认可,是检索和处理数据的最广泛使用的语言之一。尽管已经存在了半个世纪,但没有迹象表明它可能很快就会消失。数百万… SQL 4分钟阅读 SQL 4分钟阅读
出版于开发天才 ·9月10日,2022年 使用Scala,Spark和Spark-SQL分析REDDIT数据 不久前,我正在与Scala和Spark一起快速起步。我对自己说,非常有力且有趣的技术。因此,自然而然地,我决定使用真实用例进行测试。一个有趣的数据是Reddit。鉴于这是一个巨大的社交… Scala 4分钟阅读 Scala 4分钟阅读
出版于走向开发人员 ·2022年8月31日 建立商业智能套件:在行业六年后重新审视一个旧的想法 六年前的起源,我正在研究硕士论文。我的计算机是一台无显示屏的HP笔记本电脑,其运行Xubuntu的Azerty布局连接到外部显示器,其互联网连接取决于我将悬挂的Wi-Fi天线放置的方式。这是在为我的业务学习两年之后... 数据工程 6分钟阅读 数据工程 6分钟阅读
出版于走向开发人员 ·2020年5月9日 为AWS认证的开发人员合作考试做准备 对于IT专业人员而言,云计算技能并不是一个不错的选择,而是必不可少的。组织内部发生的转变的速度和广度,尤其是在我们具有挑战性的时期,非常适合云产品的敏捷性。这是如何获得和展示的问题… AWS 6分钟阅读 AWS 6分钟阅读
出版于分析Vidhya ·2020年4月26日 我第一次设置Hadoop/Spark群集时遇到的9个问题 在上一篇文章中,我们讨论了如何准备Hadoop/Spark群集的设置。现在,准备群集只是开始。虽然在集群上设置Hadoop有很多资源,但作为初学者,我有时会感到困惑,我花了很多时间…… hadoop 6分钟阅读 hadoop 6分钟阅读
出版于开发天才 ·2020年4月2日 我如何设置第一个hadoop / spark群集:准备 我已经设想为大数据实践设置一个集群已有一段时间了。从传统的商业智能背景中担任软件工程角色(尽管数据仍然与数据有关),这只是大数据技术引起我的注意只是时间问题。来自局外人的… 覆盆子皮 5分钟阅读 覆盆子皮 5分钟阅读
出版于走向开发人员 ·2020年3月23日 我在烧瓶项目中使用sqlalchemy时遇到的6个方案 几年前,受到我在网上遵循的一些有趣的Python课程的启发,我决定启动一个迷你冒险 - 从头开始构建自己的博客引擎进行练习。… Python 5分钟阅读 Python 5分钟阅读
出版于分析Vidhya ·2019年10月5日 使用Python探索Twitter数据:分析数据 在本系列的第二部分中,我们专注于处理获得的数据和提取功能。我们还简要介绍了与自然语言处理有关的主题,并试图从推文中获得情感。现在,我们将研究分析和介绍我们提取的数据的方法。… 数据科学 6分钟阅读 数据科学 6分钟阅读