🇨🇳🇺🇸 中英文单词分离
将中英文混排文本自动分离,提取中文和英文部分,统计各自占比。
ℹ️ 使用说明
• 在文本框中粘贴中英文混排的文本内容
• 点击「分离文本」按钮,工具自动提取中文和英文部分
• 中文部分:提取所有汉字(Unicode CJK统一表意文字)
• 英文部分:提取所有英文字母组成的单词和缩写
• 其他字符:包括数字、标点符号、特殊符号等
• 占比条直观显示中文和英文在总字符中的比例
• 各部分均可一键复制,方便分别使用
📝 关于中英文分离
中英文混排文本在科技文档、学术论文、技术博客、双语学习材料中非常常见。将混排文本中的中文和英文成分分离出来,有助于统计文档的双语成分比例、分别处理不同语言的内容、提取专业术语列表,以及分析文本的语言组成结构。本工具基于Unicode字符范围进行精确识别,支持简体中文和繁体中文汉字、英文字母(大小写)、数字和标点符号的分类提取。所有处理均在浏览器本地完成,文本数据不会上传至任何服务器。
❓ 常见问题
中英文混排时,常需要分别处理:例如为中文加拼音、统计英文单词数、生成双语对照翻译、提取专有名词等。手工复制粘贴效率低下,本工具一键完成。
通过 Unicode 字符范围判断:汉字(CJK Unified Ideographs U+4E00-U+9FFF)和日韩文字属于"中文侧",A-Z/a-z 字母属于"英文侧"。数字、标点、空格按规则分类。
支持。日文假名、平假名、片假名和韩文 Hangul 字符都会被归为"中文侧"(与 CJK 一起处理)。如需单独区分日韩,请使用 lang-detector 工具。
可以。本工具有"分离显示"和"分离并保留原顺序"两种模式。前者按语种分组排列,后者按原文中出现的位置重新组合。推荐"保留原顺序"模式用于翻译等场景。