bert-large-portuguese-cased-legal-mlm-nli-sts-v1-openmind技术白皮书MLM、NLI、STS训练策略详解【免费下载链接】bert-large-portuguese-cased-legal-mlm-nli-sts-v1-openmind项目地址: https://ai.gitcode.com/hf_mirrors/jeffding/bert-large-portuguese-cased-legal-mlm-nli-sts-v1-openmindbert-large-portuguese-cased-legal-mlm-nli-sts-v1-openmind是一款基于BERTimbau架构的葡萄牙语法律领域专用语义模型通过创新的MLM预训练、NLI精调与STS优化三级训练策略实现了对法律文本的深度语义理解与向量化表示。该模型能够将法律句子和段落映射到1024维稠密向量空间为法律语义搜索、案例聚类分析等应用提供强大支持。核心技术架构解析基础模型架构该模型基于BERTimbau large架构构建具备24层隐藏层和16个注意力头隐藏层维度达1024词汇表大小为29794。模型采用双向Transformer结构支持最长512个token的文本输入通过config.json配置文件可查看完整参数细节。三级训练策略模型训练采用循序渐进的三级优化策略每阶段均针对法律文本特性进行专门优化1. MLM预训练阶段以葡萄牙语法律领域语料为基础采用掩码语言模型MLM技术进行预训练。使用来自30000余份法律文档的句子数据集stjiris/portuguese-legal-sentences-v0在学习率1e-5的设置下训练15000步使模型初步掌握法律专业术语和句式结构。2. NLI精调阶段通过自然语言推理NLI任务进一步优化模型的语义理解能力。采用16的批次大小和2e-5的学习率让模型学习法律文本间的逻辑关系增强对法律论证结构的把握能力。3. STS优化阶段最后针对语义文本相似度STS任务进行专项微调融合多个葡萄牙语STS数据集assinassin2stsb_multi_mt ptIRIS STS在学习率1e-5的配置下完成最终优化使模型能够精准度量法律文本间的语义相似度。性能评估结果模型在多个葡萄牙语STS数据集上表现优异皮尔逊相关系数Pearson Correlation如下assin数据集0.7774assin2数据集0.8098stsb_multi_mt pt数据集0.8359IRIS STS数据集0.7857这些评估结果表明该模型在法律文本语义理解方面达到了较高水平特别适用于葡萄牙语法律领域的语义搜索和相似案例检索任务。快速上手指南环境准备首先确保安装必要的依赖包可参考examples/requirements.txt文件transformers4.37.0psutilaccelerateprotobufeinops模型使用示例使用Openmind框架from openmind import AutoTokenizer, AutoModel import torch # Mean Pooling - 考虑注意力掩码的正确平均 def mean_pooling(model_output, attention_mask): token_embeddings model_output[0] # 模型输出的第一个元素包含所有token嵌入 input_mask_expanded attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float() return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min1e-9) # 加载模型和分词器 tokenizer AutoTokenizer.from_pretrained(jeffding/bert-large-portuguese-cased-legal-mlm-nli-sts-v1-openmind, trust_remote_codeTrue) model AutoModel.from_pretrained(jeffding/bert-large-portuguese-cased-legal-mlm-nli-sts-v1-openmind, trust_remote_codeTrue) # 法律句子示例 sentences [O advogado apresentou as provas ao juíz., O juíz leu as provas.] # 分词处理 encoded_input tokenizer(sentences, paddingTrue, truncationTrue, return_tensorspt) # 计算嵌入 with torch.no_grad(): model_output model(**encoded_input) # 执行池化操作 sentence_embeddings mean_pooling(model_output, encoded_input[attention_mask]) print(句子嵌入结果) print(sentence_embeddings)使用Sentence-Transformersfrom sentence_transformers import SentenceTransformer # 加载模型 model SentenceTransformer(stjiris/bert-large-portuguese-cased-legal-mlm-nli-sts-v1) # 法律句子示例 sentences [Isto é um exemplo jurídico, Este é outro exemplo legal] # 生成嵌入 embeddings model.encode(sentences) print(embeddings)完整模型结构模型采用SentenceTransformer架构包含Transformer编码层和池化层SentenceTransformer( (0): Transformer({max_seq_length: 514, do_lower_case: False}) with Transformer model: BertModel (1): Pooling({word_embedding_dimension: 1028, pooling_mode_cls_token: False, pooling_mode_mean_tokens: True, pooling_mode_max_tokens: False, pooling_mode_mean_sqrt_len_tokens: False, pooling_mode_weightedmean_tokens: False, pooling_mode_lasttoken: False}) )池化层采用均值池化策略通过1_Pooling/config.json文件配置确保生成的句子嵌入能够准确反映法律文本的语义特征。应用场景与价值该模型特别适用于葡萄牙语法律领域的以下应用法律案例语义检索快速找到相似法律案例和判决法律文档聚类分析自动对法律文档进行主题分类合同条款相似度比较识别合同中的相似条款和潜在风险法律问答系统提升法律智能问答的准确性和相关性作为Project IRIS的一部分该模型已成功应用于葡萄牙最高法院的语义搜索系统为司法决策提供了有力支持。引用与贡献如果您在研究或项目中使用了本模型请引用以下文献InProceedings{MeloSemantic, authorMelo, Rui and Santos, Pedro A. and Dias, Jo{\~a}o, titleA Semantic Search System for the Supremo Tribunal de Justi{\c{c}}a, booktitleProgress in Artificial Intelligence, year2023, publisherSpringer Nature Switzerland, addressCham, pages142--154 } inproceedings{souza2020bertimbau, author {F{\a}bio Souza and Rodrigo Nogueira and Roberto Lotufo}, title {{BERT}imbau: pretrained {BERT} models for {B}razilian {P}ortuguese}, booktitle {9th Brazilian Conference on Intelligent Systems, {BRACIS}}, year {2020} }本模型由rufimelo99主要贡献基于NeuralMind的BERTimbau模型进行法律领域适配与优化。获取与安装要开始使用本模型可通过以下方式获取git clone https://gitcode.com/hf_mirrors/jeffding/bert-large-portuguese-cased-legal-mlm-nli-sts-v1-openmind模型文件包含完整的预训练权重和配置可直接用于生产环境或进一步微调以适应特定法律应用场景。通过结合先进的BERT架构与专业的法律语料训练bert-large-portuguese-cased-legal-mlm-nli-sts-v1-openmind为葡萄牙语法律自然语言处理提供了强大工具推动法律智能系统的发展与应用。【免费下载链接】bert-large-portuguese-cased-legal-mlm-nli-sts-v1-openmind项目地址: https://ai.gitcode.com/hf_mirrors/jeffding/bert-large-portuguese-cased-legal-mlm-nli-sts-v1-openmind创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
bert-large-portuguese-cased-legal-mlm-nli-sts-v1-openmind技术白皮书:MLM、NLI、STS训练策略详解
发布时间:2026/6/15 15:29:02
bert-large-portuguese-cased-legal-mlm-nli-sts-v1-openmind技术白皮书MLM、NLI、STS训练策略详解【免费下载链接】bert-large-portuguese-cased-legal-mlm-nli-sts-v1-openmind项目地址: https://ai.gitcode.com/hf_mirrors/jeffding/bert-large-portuguese-cased-legal-mlm-nli-sts-v1-openmindbert-large-portuguese-cased-legal-mlm-nli-sts-v1-openmind是一款基于BERTimbau架构的葡萄牙语法律领域专用语义模型通过创新的MLM预训练、NLI精调与STS优化三级训练策略实现了对法律文本的深度语义理解与向量化表示。该模型能够将法律句子和段落映射到1024维稠密向量空间为法律语义搜索、案例聚类分析等应用提供强大支持。核心技术架构解析基础模型架构该模型基于BERTimbau large架构构建具备24层隐藏层和16个注意力头隐藏层维度达1024词汇表大小为29794。模型采用双向Transformer结构支持最长512个token的文本输入通过config.json配置文件可查看完整参数细节。三级训练策略模型训练采用循序渐进的三级优化策略每阶段均针对法律文本特性进行专门优化1. MLM预训练阶段以葡萄牙语法律领域语料为基础采用掩码语言模型MLM技术进行预训练。使用来自30000余份法律文档的句子数据集stjiris/portuguese-legal-sentences-v0在学习率1e-5的设置下训练15000步使模型初步掌握法律专业术语和句式结构。2. NLI精调阶段通过自然语言推理NLI任务进一步优化模型的语义理解能力。采用16的批次大小和2e-5的学习率让模型学习法律文本间的逻辑关系增强对法律论证结构的把握能力。3. STS优化阶段最后针对语义文本相似度STS任务进行专项微调融合多个葡萄牙语STS数据集assinassin2stsb_multi_mt ptIRIS STS在学习率1e-5的配置下完成最终优化使模型能够精准度量法律文本间的语义相似度。性能评估结果模型在多个葡萄牙语STS数据集上表现优异皮尔逊相关系数Pearson Correlation如下assin数据集0.7774assin2数据集0.8098stsb_multi_mt pt数据集0.8359IRIS STS数据集0.7857这些评估结果表明该模型在法律文本语义理解方面达到了较高水平特别适用于葡萄牙语法律领域的语义搜索和相似案例检索任务。快速上手指南环境准备首先确保安装必要的依赖包可参考examples/requirements.txt文件transformers4.37.0psutilaccelerateprotobufeinops模型使用示例使用Openmind框架from openmind import AutoTokenizer, AutoModel import torch # Mean Pooling - 考虑注意力掩码的正确平均 def mean_pooling(model_output, attention_mask): token_embeddings model_output[0] # 模型输出的第一个元素包含所有token嵌入 input_mask_expanded attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float() return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min1e-9) # 加载模型和分词器 tokenizer AutoTokenizer.from_pretrained(jeffding/bert-large-portuguese-cased-legal-mlm-nli-sts-v1-openmind, trust_remote_codeTrue) model AutoModel.from_pretrained(jeffding/bert-large-portuguese-cased-legal-mlm-nli-sts-v1-openmind, trust_remote_codeTrue) # 法律句子示例 sentences [O advogado apresentou as provas ao juíz., O juíz leu as provas.] # 分词处理 encoded_input tokenizer(sentences, paddingTrue, truncationTrue, return_tensorspt) # 计算嵌入 with torch.no_grad(): model_output model(**encoded_input) # 执行池化操作 sentence_embeddings mean_pooling(model_output, encoded_input[attention_mask]) print(句子嵌入结果) print(sentence_embeddings)使用Sentence-Transformersfrom sentence_transformers import SentenceTransformer # 加载模型 model SentenceTransformer(stjiris/bert-large-portuguese-cased-legal-mlm-nli-sts-v1) # 法律句子示例 sentences [Isto é um exemplo jurídico, Este é outro exemplo legal] # 生成嵌入 embeddings model.encode(sentences) print(embeddings)完整模型结构模型采用SentenceTransformer架构包含Transformer编码层和池化层SentenceTransformer( (0): Transformer({max_seq_length: 514, do_lower_case: False}) with Transformer model: BertModel (1): Pooling({word_embedding_dimension: 1028, pooling_mode_cls_token: False, pooling_mode_mean_tokens: True, pooling_mode_max_tokens: False, pooling_mode_mean_sqrt_len_tokens: False, pooling_mode_weightedmean_tokens: False, pooling_mode_lasttoken: False}) )池化层采用均值池化策略通过1_Pooling/config.json文件配置确保生成的句子嵌入能够准确反映法律文本的语义特征。应用场景与价值该模型特别适用于葡萄牙语法律领域的以下应用法律案例语义检索快速找到相似法律案例和判决法律文档聚类分析自动对法律文档进行主题分类合同条款相似度比较识别合同中的相似条款和潜在风险法律问答系统提升法律智能问答的准确性和相关性作为Project IRIS的一部分该模型已成功应用于葡萄牙最高法院的语义搜索系统为司法决策提供了有力支持。引用与贡献如果您在研究或项目中使用了本模型请引用以下文献InProceedings{MeloSemantic, authorMelo, Rui and Santos, Pedro A. and Dias, Jo{\~a}o, titleA Semantic Search System for the Supremo Tribunal de Justi{\c{c}}a, booktitleProgress in Artificial Intelligence, year2023, publisherSpringer Nature Switzerland, addressCham, pages142--154 } inproceedings{souza2020bertimbau, author {F{\a}bio Souza and Rodrigo Nogueira and Roberto Lotufo}, title {{BERT}imbau: pretrained {BERT} models for {B}razilian {P}ortuguese}, booktitle {9th Brazilian Conference on Intelligent Systems, {BRACIS}}, year {2020} }本模型由rufimelo99主要贡献基于NeuralMind的BERTimbau模型进行法律领域适配与优化。获取与安装要开始使用本模型可通过以下方式获取git clone https://gitcode.com/hf_mirrors/jeffding/bert-large-portuguese-cased-legal-mlm-nli-sts-v1-openmind模型文件包含完整的预训练权重和配置可直接用于生产环境或进一步微调以适应特定法律应用场景。通过结合先进的BERT架构与专业的法律语料训练bert-large-portuguese-cased-legal-mlm-nli-sts-v1-openmind为葡萄牙语法律自然语言处理提供了强大工具推动法律智能系统的发展与应用。【免费下载链接】bert-large-portuguese-cased-legal-mlm-nli-sts-v1-openmind项目地址: https://ai.gitcode.com/hf_mirrors/jeffding/bert-large-portuguese-cased-legal-mlm-nli-sts-v1-openmind创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考