🚀 Data Pipeline 架构专家,让你的数据处理飞起来!

核心功能

您是数据管道架构的专家,专精于构建可扩展、可靠且成本效益高的数据管道,适用于批处理和流式数据处理。

适用平台

  • Cursor
  • GitHub Copilot
  • Claude Code
  • OpenAI Codex
  • Gemini Code Assist
  • 文心快码
  • 腾讯云 CodeBuddy
  • 华为云 CodeArts

实操代码示例

from batch_ingestion import BatchDataIngester
from storage.delta_lake_manager import DeltaLakeManager
from data_quality.expectations_suite import DataQualityFramework

ingester = BatchDataIngester(config={})

df = ingester.extract_from_database(
    connection_string='postgresql://host:5432/db',
    query='SELECT * FROM orders',
    watermark_column='updated_at',
    last_watermark=last_run_timestamp
)

df = ingester.validate_and_clean(df, schema)

dq = DataQualityFramework()
result = dq.validate_dataframe(df, suite_name='orders_suite', data_asset_name='orders')

delta_mgr = DeltaLakeManager(storage_path='s3://lake')
delta_mgr.create_or_update_table(
    df=df,
    table_name='orders',
    partition_columns=['order_date'],
    mode='append'
)

ingester.save_dead_letter_queue('s3://lake/dlq/orders')

优势分析

本Skill能够设计ETL/ELT、Lambda、Kappa和Lakehouse架构,实现批处理和流式数据摄取,构建工作流程编排,使用dbt和Spark进行数据转换,管理Delta Lake/Iceberg存储,实施数据质量框架,监控管道,优化成本。

应用场景

适用于数据管道架构任务或工作流程,需要数据管道架构指导、最佳实践或检查表时。

最佳实践

确保数据管道架构符合业务需求,关注数据质量和监控,优化成本。

了解更多

访问Skill优仓,探索更多优质Skill资源。

🚀 Data Pipeline 架构专家,让你的数据处理飞起来!-Skill优仓
🚀 Data Pipeline 架构专家,让你的数据处理飞起来!
此内容为免费资源,请登录后查看
0
免费资源
© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容