昵称变体识别
识别以网络用语、方言、外语、符号、谐音、变形字词等形式出现、不断变化、隐藏较深的违规昵称
业务场景:
游戏、论坛等app昵称存量可达千万,昵称涉重要国家机关工作人员则构成严重违规。模型可高效审核昵称违规情况,识别以网络用语、方言、外语、符号、谐音、变形字词等形式出现、不断变化、隐藏较深的昵称违规。
技术描述:
基于BERT中文预训练模型,添加sequence分类层,在昵称数据集上做fine-tune后训练出变体识别模型。