html 中的 `data-ccp-props` 是 microsoft office(尤其是 word 和 office 365)复制粘贴到富文本编辑器时自动注入的私有元数据,用于保留格式状态;它非标准、无语义,且常导致 html 验证失败或编辑器解析异常。
data-ccp-props 并非开发者主动添加的语义化属性,而是 Microsoft Office 套件(包括 Word、Outlook、Office 365 Web)在“智能粘贴”(Smart Paste)机制下生成的内部标记。当用户从 Word 文档中复制内容并粘贴至支持富文本粘贴的 WYSIWYG 编辑器(如 TinyMCE、CKEditor、Quill 或自研编辑器)时,Office 会将格式上下文以 JSON 字符串形式嵌入 data-ccp-props 属性中,例如:
这类属性通常伴随其他 Office 特有属性一同出现,如 data-ccp-parastyle、data-contrast、class="SCXW... BCX8" 等——它们共同构成 Office 的“剪贴板协议扩展”,仅在 Office 生态内有意义,对标准 HTML 渲染、可访问性(a11y)、SEO 或现代前端框架(React/Vue)均无益处,反而可能:
✅ 推荐处理方案:
客户端粘贴净化(推荐):在编辑器 paste 事件中拦截并移除 Office 相关属性:
editor.on('paste', (event) => {
const html = event.data.dataValue;
// 移除所有 data-ccp-*、data-contrast、Office 类名等
const cleaned = html
.replace(/data-ccp-\w+="[^"]*"/gi, '')
.replace(/data-contrast="[^"]*"/gi, '')
.replace(/class="[^"]*(SCXW|BCX)\w*[^"]*"/gi, '');
event.data.dataValue = cleaned;
});服务端统一过滤(强保障):使用 HTML sanitizer(如 DOMPurify、sanitize-html)配置白名单,显式剔除 data-ccp-* 属性:
const sanitizeHtml = require('sanitize-html');
const clean = sanitizeHtml(dirtyHtml, {
allowedAttributes: {
'*': ['class', 'style', 'id', 'lang', 'aria-*'],
'a': ['href', 'target'],
'img': ['src', 'alt']
},
// 显式禁止 data-ccp-* 属性
exclusiveFilter: (frame) =>
frame.tag === 'span' &&
Object.keys(frame.attribs).some(attr => attr.startsWith('data-ccp-'))
});编辑器配置层面规避:启用“纯文本粘贴”快捷键(如 Ctrl+Shift+V),或在初始化时设置 pasteAsPlainText: true(TinyMCE)或 pastePlainText: true(CKEditor 5)。
⚠️ 注意:切勿依赖正则全局替换 data-* ——这会误删业务必需的合法自定义属性(如 data-track-id)。应精准匹配 data-ccp- 前缀,并结合上下文(如特定 class 名或父容器)提升清洗准确性。
总结:data-ccp-props 是 Office 粘贴行为的副产品,不是标准实践,也不应进
入生产 HTML 流水线。将其视为“富文本污染源”,在粘贴入口或入库前主动剥离,是保障内容干净、系统健壮与团队协作效率的关键一步。