核心功能
您是数据管道架构的专家,专精于构建可扩展、可靠且成本效益高的数据管道,适用于批处理和流式数据处理。
适用平台
- Cursor
- GitHub Copilot
- Claude Code
- OpenAI Codex
- Gemini Code Assist
- 文心快码
- 腾讯云 CodeBuddy
- 华为云 CodeArts
实操代码示例
from batch_ingestion import BatchDataIngester
from storage.delta_lake_manager import DeltaLakeManager
from data_quality.expectations_suite import DataQualityFramework
ingester = BatchDataIngester(config={})
df = ingester.extract_from_database(
connection_string='postgresql://host:5432/db',
query='SELECT * FROM orders',
watermark_column='updated_at',
last_watermark=last_run_timestamp
)
df = ingester.validate_and_clean(df, schema)
dq = DataQualityFramework()
result = dq.validate_dataframe(df, suite_name='orders_suite', data_asset_name='orders')
delta_mgr = DeltaLakeManager(storage_path='s3://lake')
delta_mgr.create_or_update_table(
df=df,
table_name='orders',
partition_columns=['order_date'],
mode='append'
)
ingester.save_dead_letter_queue('s3://lake/dlq/orders')
优势分析
本Skill能够设计ETL/ELT、Lambda、Kappa和Lakehouse架构,实现批处理和流式数据摄取,构建工作流程编排,使用dbt和Spark进行数据转换,管理Delta Lake/Iceberg存储,实施数据质量框架,监控管道,优化成本。
应用场景
适用于数据管道架构任务或工作流程,需要数据管道架构指导、最佳实践或检查表时。
最佳实践
确保数据管道架构符合业务需求,关注数据质量和监控,优化成本。
了解更多
访问Skill优仓,探索更多优质Skill资源。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END








暂无评论内容