modes/assessment-dev/rules/4_decision_guidance.xml

<decision_guidance>
# Assessment Developer Decision Guidance

## When to Use Each Skill

### assessment-validator
- **Use when:** Creating new assessments
- **Use when:** Reviewing existing assessments for alignment
- **Skip when:** Assessment has already been validated

### item-analysis-tool
- **Use when:** Analyzing pilot test data
- **Use when:** Reviewing item performance after administration
- **Skip when:** Items have not yet been administered

### rubric-generator
- **Use when:** Creating rubrics for performance assessments
- **Use when:** Developing scoring guides for open-ended items
- **Skip when:** Assessment is entirely selected-response

### bias-detector
- **Use when:** Reviewing all new items
- **Use when:** Preparing assessment for diverse audience
- **Skip when:** Items have already been reviewed for bias

### adaptive-logic-designer
- **Use when:** Designing computerized adaptive tests
- **Use when:** Creating branching assessment paths
- **Skip when:** Assessment is linear/fixed

## Assessment Decisions

### Item Type Selection
- **Multiple choice:** Efficient, reliable, good for knowledge/comprehension
- **Short answer:** Tests recall and brief explanation
- **Essay:** Tests higher-order thinking, writing skills
- **Performance task:** Tests application in authentic context
- **Portfolio:** Tests growth over time

### Number of Items
- **Rule of thumb:** 3-5 items per objective for reliable measurement
- **Short quiz:** 5-10 items (formative)
- **Unit test:** 20-30 items (summative)
- **Comprehensive exam:** 50-100 items

### Difficulty Distribution
- **Easy (p > 0.7):** 20-30% of items
- **Medium (0.4 < p < 0.7):** 40-50% of items
- **Hard (p < 0.4):** 20-30% of items

## Trade-offs to Consider

| Decision | Benefit | Cost |
|----------|---------|------|
| More items | More reliable measurement | Longer test time, fatigue |
| More MC items | Easier to score, reliable | Limited higher-order measurement |
| More open-ended | Richer data, higher-order | Harder to score, subjective |
| Adaptive testing | Precise measurement, efficient | Complex to develop, requires item bank |
</decision_guidance>
chore: release v1.1.0 - add Support Team Guide and User Guide, update all docs to v1.1.0 2026-04-23 23:07:19 -06:00			`<decision_guidance>`
			`# Assessment Developer Decision Guidance`

			`## When to Use Each Skill`

			`### assessment-validator`
			`- Use when: Creating new assessments`
			`- Use when: Reviewing existing assessments for alignment`
			`- Skip when: Assessment has already been validated`

			`### item-analysis-tool`
			`- Use when: Analyzing pilot test data`
			`- Use when: Reviewing item performance after administration`
			`- Skip when: Items have not yet been administered`

			`### rubric-generator`
			`- Use when: Creating rubrics for performance assessments`
			`- Use when: Developing scoring guides for open-ended items`
			`- Skip when: Assessment is entirely selected-response`

			`### bias-detector`
			`- Use when: Reviewing all new items`
			`- Use when: Preparing assessment for diverse audience`
			`- Skip when: Items have already been reviewed for bias`

			`### adaptive-logic-designer`
			`- Use when: Designing computerized adaptive tests`
			`- Use when: Creating branching assessment paths`
			`- Skip when: Assessment is linear/fixed`

			`## Assessment Decisions`

			`### Item Type Selection`
			`- Multiple choice: Efficient, reliable, good for knowledge/comprehension`
			`- Short answer: Tests recall and brief explanation`
			`- Essay: Tests higher-order thinking, writing skills`
			`- Performance task: Tests application in authentic context`
			`- Portfolio: Tests growth over time`

			`### Number of Items`
			`- Rule of thumb: 3-5 items per objective for reliable measurement`
			`- Short quiz: 5-10 items (formative)`
			`- Unit test: 20-30 items (summative)`
			`- Comprehensive exam: 50-100 items`

			`### Difficulty Distribution`
			`- Easy (p > 0.7): 20-30% of items`
			`- Medium (0.4 < p < 0.7): 40-50% of items`
			`- Hard (p < 0.4): 20-30% of items`

			`## Trade-offs to Consider`

			`\| Decision \| Benefit \| Cost \|`
			`\|----------\|---------\|------\|`
			`\| More items \| More reliable measurement \| Longer test time, fatigue \|`
			`\| More MC items \| Easier to score, reliable \| Limited higher-order measurement \|`
			`\| More open-ended \| Richer data, higher-order \| Harder to score, subjective \|`
			`\| Adaptive testing \| Precise measurement, efficient \| Complex to develop, requires item bank \|`
			`</decision_guidance>`