Cursor用户救命稻草！别再手动检查数据了😭，用这个Data Quality Skill自动搞定dbt和Great Expectations测试，亲测好用🔥-Skill优仓

别让脏数据毁了你的数据管道！

“Garbage in, garbage out.” 这句古老的编程谚语在数据时代显得尤为刺耳。多少个深夜，数据工程师和分析师们因为一个小数点、一个异常值或者一批缺失数据而焦头烂额，辛苦搭建的数据管道瞬间信任崩塌。手动排查、临时脚本、会议扯皮……这些场景是不是让你感到无比熟悉？现在，是时候终结这场混乱了！隆重介绍Data Quality Frameworks Skill，一个帮你自动化构建数据质量防火墙的宝藏工具，让你的数据从源头就变得干净、可靠。

核心功能

这个Skill不是一个单一的工具，而是一套集成了业界主流数据质量框架的最佳实践集合。它能帮你轻松实现以下核心功能：

集成Great Expectations：通过编写声明式的Python代码，创建全面的“期望套件”（Expectation Suite）。你可以定义列值不能为空、必须唯一、符合特定格式、在某个范围内等数十种内置期望，覆盖数据质量的方方面面。
利用dbt测试：将数据质量检查无缝嵌入到你的dbt转换流程中。无论是简单的非空、唯一测试，还是复杂的业务逻辑断言，都可以通过简洁的YAML配置或自定义SQL来完成，实现“测试即文档”。
建立数据契约（Data Contracts）：通过标准化的YAML文件定义数据生产者和消费者之间的协议。明确字段、格式、质量标准和SLA，从根本上解决上下游团队因数据变更导致的问题，实现真正的“契约式数据开发”。
自动化验证与告警：将数据质量检查作为CI/CD流水线的一部分。在数据处理的每个关键节点自动触发验证，一旦发现问题，立即通过Slack等方式发送告警，实现主动式问题发现与处理。

适用平台

这款Data Quality Frameworks Skill完美适配所有主流AI编程助手和IDE，堪称它们的“最强外挂”。无论你使用的是Cursor、GitHub Copilot、Claude Code，还是OpenAI Codex、Gemini Code Assist，甚至是国内的文心快码、腾讯云CodeBuddy和华为云CodeArts，都可以通过这个Skill让AI更深刻地理解你的数据质量意图。当AI拥有了数据质量的“上下文”后，它生成的代码将不再是简单的逻辑堆砌，而是自带质量保障的健壮代码。

实操代码示例

纸上谈兵终觉浅，让我们看看在实际项目中如何应用。下面是几个典型的代码片段，展示了其强大的声明式能力。

示例1：使用Great Expectations定义期望套件

通过Python代码，我们可以为一张订单表定义一套完整的质量规则。

# expectations/orders_suite.py
import great_expectations as gx
from great_expectations.core import ExpectationSuite
from great_expectations.core.expectation_configuration import ExpectationConfiguration

def build_orders_suite() -> ExpectationSuite:
    suite = ExpectationSuite(expectation_suite_name='orders_suite')

    # 字段完整性
    suite.add_expectation(ExpectationConfiguration(
        expectation_type='expect_table_columns_to_match_set',
        kwargs={
            'column_set': ['order_id', 'customer_id', 'amount', 'status', 'created_at'],
            'exact_match': False
        }
    ))

    # 主键约束
    suite.add_expectation(ExpectationConfiguration(
        expectation_type='expect_column_values_to_not_be_null',
        kwargs={'column': 'order_id'}
    ))
    suite.add_expectation(ExpectationConfiguration(
        expectation_type='expect_column_values_to_be_unique',
        kwargs={'column': 'order_id'}
    ))

    # 枚举值约束
    suite.add_expectation(ExpectationConfiguration(
        expectation_type='expect_column_values_to_be_in_set',
        kwargs={
            'column': 'status',
            'value_set': ['pending', 'processing', 'shipped', 'delivered', 'cancelled']
        }
    ))

    # 数值范围约束
    suite.add_expectation(ExpectationConfiguration(
        expectation_type='expect_column_values_to_be_between',
        kwargs={
            'column': 'amount',
            'min_value': 0,
            'max_value': 100000,
            'strict_min': True
        }
    ))

    # 数据新鲜度检查
    suite.add_expectation(ExpectationConfiguration(
        expectation_type='expect_column_max_to_be_between',
        kwargs={
            'column': 'created_at',
            'min_value': {'$PARAMETER': 'now - timedelta(days=1)'},
            'max_value': {'$PARAMETER': 'now'}
        }
    ))

    return suite

示例2：在dbt中声明数据测试

在dbt的模型配置文件中，直接为字段添加测试，简单直观。

# models/marts/core/_core__models.yml
version: 2

models:
  - name: fct_orders
    description: 订单事实表
    columns:
      - name: order_id
        description: 主键
        tests:
          - unique
          - not_null

      - name: customer_id
        description: 外键，关联到客户维度表
        tests:
          - not_null
          - relationships:
              to: ref('dim_customers')
              field: customer_id

      - name: order_status
        tests:
          - accepted_values:
              values:
                ['pending', 'processing', 'shipped', 'delivered', 'cancelled']

      - name: total_amount
        tests:
          - not_null
          - dbt_utils.expression_is_true:
              expression: '>= 0'

示例3：定义数据契约

使用YAML文件清晰地定义数据的所有权、结构、质量标准和SLA。

# contracts/orders_contract.yaml
apiVersion: datacontract.com/v1.0.0
kind: DataContract
metadata:
  name: orders
  version: 1.0.0
  owner: data-platform-team

info:
  title: Orders Data Contract
  description: 来自电商平台的订单事件数据契约

schema:
  type: object
  properties:
    order_id:
      type: string
      format: uuid
      required: true
      unique: true

    status:
      type: string
      enum: [pending, processing, shipped, delivered, cancelled]

quality:
  type: SodaCL
  specification:
    checks for orders:
      - row_count > 0
      - missing_count(order_id) = 0
      - duplicate_count(order_id) = 0
      - freshness(created_at) < 24h

sla:
  availability: 99.9%
  freshness: 1 hour

优势分析

一站式解决方案：它将Great Expectations、dbt tests和Data Contracts三大主流框架的精髓融为一体，你无需在不同工具间纠结选择，开箱即用。
声明式与自动化：告别繁琐的命令式脚本。通过简单的Python或YAML文件声明你的数据质量意图，剩下的交给自动化流程，极大降低了维护成本。
与业务流程深度融合：测试不再是孤立的环节，而是与dbt的数据转换、CI/CD的部署流程紧密结合，实现了数据质量的“内建”而非“外挂”。
高度可扩展：除了丰富的内置规则，你还可以轻松编写自定义测试逻辑（如dbt的宏或Great Expectations的自定义期望），满足独特的业务需求。

应用场景

这个Skill几乎适用于所有需要处理数据的场景，尤其是：

数据仓库ETL/ELT：在数据加载到数仓的每个阶段（源、暂存、维度、事实）进行验证，确保入库数据的准确性和一致性。
机器学习特征工程：在模型训练前，验证特征的分布、完整性和有效性，从源头防止模型因脏数据而产生偏差。
跨团队数据协作：当你是数据提供方时，使用数据契约向你的下游（如BI、算法团队）提供清晰、可靠的数据保证，避免无休止的沟通和扯皮。
关键业务报表：为核心报表所依赖的数据源设置严格的质量监控和告警，确保决策者看到的数据永远是可信的。

最佳实践

要将数据质量保障体系真正落地，除了使用工具，更需要遵循一些关键原则：

质量左移，尽早测试：不要等到数据进入应用层才发现问题。在数据源接入的第一时间就进行验证，问题发现得越早，修复成本越低。
版本化你的规则：像管理代码一样，使用Git等工具来版本化你的期望套件、dbt测试和数据契约。这使得变更可追溯，协作更清晰。
告警必须可行动：测试失败时的告警不应只是噪音。确保告警信息清晰、直达负责人，并包含足够上下文以快速定位问题。
从关键业务指标开始：不要试图第一天就测试所有表的全部字段。从对业务影响最大的核心表和关键字段开始，逐步扩大覆盖范围，实现价值驱动。

通过建立这样一套强大的自动化数据质量保障体系，数据团队终于可以从无休止的“救火队员”角色中解放出来，将更多精力投入到真正的数据价值挖掘上。为了系统地管理和复用这些宝贵的Data Quality Skills，强烈建议将它们沉淀到你的Skill优仓个人知识库中，让团队的每一次实践都成为可复用的资产，持续赋能未来的数据项目。