您现在的位置是:亿华云 > IT科技类资讯
谷歌ALBERT模型V2+中文版来了,GitHub热榜第二
亿华云2025-10-09 12:56:50【IT科技类资讯】4人已围观
简介本文经AI新媒体量子位公众号ID:QbitAI)授权转载,转载请联系出处。比BERT模型参数小18倍,性能还超越了它。这就是谷歌前不久发布的轻量级BERT模型——ALBERT。不仅如此,还横扫各大“性
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,谷歌转载请联系出处。模型
比BERT模型参数小18倍,文版性能还超越了它。热榜
这就是谷歌谷歌前不久发布的轻量级BERT模型——ALBERT。
不仅如此,模型还横扫各大“性能榜”,文版在SQuAD和RACE测试上创造了新的热榜SOTA。
而最近,谷歌谷歌开源了中文版本和Version 2,模型项目还登上了GitHub热榜第二。文版

与初代ALBERT性能相比结果如下。

平均来看,ALBERT-xxlarge比v1略差一些,原因有以下2点:
额外训练了1.5M步(两个模型的唯一区别就是训练1.5M和3M步);
对于v1,在BERT、Roberta和XLnet给出的参数集中做了一点超参数搜索;对于v2,只是采用除RACE之外的V1参数,其中使用的学习率为1e-5和0 ALBERT DR。总的来说,Albert是BERT的轻量版, 使用减少参数的亿华云计算技术,允许大规模的配置,克服以前的内存限制。

Basehttps://storage.googleapis.com/albert_models/albert_base_zh.tar.gz
Largehttps://storage.googleapis.com/albert_models/albert_large_zh.tar.gz
XLargehttps://storage.googleapis.com/albert_models/albert_xlarge_zh.tar.gz
Xxlargehttps://storage.googleapis.com/albert_models/albert_xxlarge_zh.tar.gz
ALBERT v2下载地址
Base
[Tar File]:
https://storage.googleapis.com/albert_models/albert_base_v2.tar.gz
[TF-Hub]:
https://tfhub.dev/google/albert_base/2Large
[Tar File]:
https://storage.googleapis.com/albert_models/albert_large_v2.tar.gz
[TF-Hub]:
https://tfhub.dev/google/albert_large/2XLarge
[Tar File]:
https://storage.googleapis.com/albert_models/albert_xlarge_v2.tar.gz
[TF-Hub]:
https://tfhub.dev/google/albert_xlarge/2Xxlarge
[Tar File]:
https://storage.googleapis.com/albert_models/albert_xxlarge_v2.tar.gz
[TF-Hub]:
https://tfhub.dev/google/albert_xxlarge/2预训练模型
可以使用 TF-Hub 模块:
Base
[Tar File]:
https://storage.googleapis.com/albert_models/albert_base_v1.tar.gz
[TF-Hub]:
https://tfhub.dev/google/albert_base/1Large
[Tar File]:
https://storage.googleapis.com/albert_models/albert_large_v1.tar.gz
[TF-Hub]:
https://tfhub.dev/google/albert_large/1XLarge
[Tar File]:
https://storage.googleapis.com/albert_models/albert_xlarge_v1.tar.gz
[TF-Hub]:
https://tfhub.dev/google/albert_xlarge/1Xxlarge
[Tar File]:
https://storage.googleapis.com/albert_models/albert_xxlarge_v1.tar.gz
[TF-Hub]:
https://tfhub.dev/google/albert_xxlarge/1TF-Hub模块使用示例:
tags=set()ifis_training:tags.add("train")albert_module=hub.Module("https://tfhub.dev/google/albert_base/1",tags=tags,trainable=True)albert_inputs=dict(input_ids=input_ids,input_mask=input_mask,segment_ids=segment_ids)albert_outputs=albert_module(inputs=albert_inputs,signature="tokens",as_dict=True)#Ifyouwanttousethetoken-leveloutput,use#albert_outputs["sequence_output"]instead.output_layer=albert_outputs["pooled_output"]预训练说明
要预训练ALBERT,可以使用run_pretraining.py:
pipinstall-ralbert/requirements.txtpython-malbert.run_pretraining\--input_file=...\--output_dir=...\--init_checkpoint=...\--albert_config_file=...\--do_train\--do_eval\--train_batch_size=4096\--eval_batch_size=64\--max_seq_length=512\--max_predictions_per_seq=20\--optimizer=lamb\--learning_rate=.00176\--num_train_steps=125000\--num_warmup_steps=3125\--save_checkpoints_steps=5000GLUE上的微调
要对 GLUE 进行微调和评估,可以参阅该项目中的run_glue.sh文件。
底层的用例可能希望直接使用run_classifier.py脚本。
run_classifier.py可对各个 GLUE 基准测试任务进行微调和评估。
比如 MNLI:
pipinstall-ralbert/requirements.txtpython-malbert.run_classifier\--vocab_file=...\--data_dir=...\--output_dir=...\--init_checkpoint=...\--albert_config_file=...\--spm_model_file=...\--do_train\--do_eval\--do_predict\--do_lower_case\--max_seq_length=128\--optimizer=adamw\--task_name=MNLI\--warmup_step=1000\--learning_rate=3e-5\--train_step=10000\--save_checkpoints_steps=100\--train_batch_size=128可以在run_glue.sh中找到每个GLUE任务的default flag。
从TF-Hub模块开始微调模型:
albert_hub_module_handle==https://tfhub.dev/google/albert_base/1在评估之后,脚本应该报告如下输出:
*****Evalresults*****global_step=...loss=...masked_lm_accuracy=...masked_lm_loss=...sentence_order_accuracy=...sentence_order_loss=...在SQuAD上微调
要对 SQuAD v1上的预训练模型进行微调和评估,请使用 run SQuAD v1.py 脚本:
pipinstall-ralbert/requirements.txtpython-malbert.run_squad_v1\--albert_config_file=...\--vocab_file=...\--output_dir=...\--train_file=...\--predict_file=...\--train_feature_file=...\--predict_feature_file=...\--predict_feature_left_file=...\--init_checkpoint=...\--spm_model_file=...\--do_lower_case\--max_seq_length=384\--doc_stride=128\--max_query_length=64\--do_train=true\--do_predict=true\--train_batch_size=48\--predict_batch_size=8\--learning_rate=5e-5\--num_train_epochs=2.0\--warmup_proportion=.1\--save_checkpoints_steps=5000\--n_best_size=20\--max_answer_length=30对于 SQuAD v2,使用 run SQuAD v2.py 脚本:
pipinstall-ralbert/requirements.txtpython-malbert.run_squad_v2\--albert_config_file=...\--vocab_file=...\--output_dir=...\--train_file=...\--predict_file=...\--train_feature_file=...\--predict_feature_file=...\--predict_feature_left_file=...\--init_checkpoint=...\--spm_model_file=...\--do_lower_case\--max_seq_length=384\--doc_stride=128\--max_query_length=64\--do_train\--do_predict\--train_batch_size=48\--predict_batch_size=8\--learning_rate=5e-5\--num_train_epochs=2.0\--warmup_proportion=.1\--save_checkpoints_steps=5000\--n_best_size=20\--max_answer_length=30传送门
GitHub项目地址:
https://github.com/google-research/ALBERT服务器托管很赞哦!(34821)
相关文章
- .net 适用于从事Internet相关的网络服务的机构或公司
- 每个Web开发人员都应该知道的七个CSS核心概念
- 火山引擎 A/B 测试私有化实践
- TIOBE5月编程语言排行出炉!有哪些新看点?
- 一下域名,看有没有显示出你所解析的IP,如果有,就说明解析是生效的;如果没有,就说明解析是不生效的。
- 15 个 Webpack 优化点,速度提升70%,体积减小80%!
- 汇总:Web前端开发程序员必备工具有哪些?
- 学习Python,常用的这22个库怎能不掌握?
- 第六:这个圈子里的域名确实是赚钱的一些大玩家,至于小米农,有多少赚钱?几乎没有,也就是说,轿子里只有一个人,而且大多数人都抬着轿子。
- Linux容器技术的实现原理
热门文章
站长推荐
一下域名,看有没有显示出你所解析的IP,如果有,就说明解析是生效的;如果没有,就说明解析是不生效的。
记一次生产数据库sql优化案例--23秒优化到0.9秒
太极限了,JDK的这个Bug都能被我踩到
一种支持泛型解析的PHPScf无痕化技术方案
用户邮箱的静态密码可能已被钓鱼和同一密码泄露。在没有收到安全警报的情况下,用户在适当的时间内不能更改密码。在此期间,攻击者可以随意输入帐户。启用辅助身份验证后,如果攻击者无法获取移动电话动态密码,他将无法进行身份验证。这样,除非用户的电子邮件密码和手机同时被盗,否则攻击者很难破解用户的邮箱。
进来做几道 JavaScript 基础题找找自信?
MySQL数据库目录下面的db.opt是干什么用的?
大数据需求使用的六个Hadoop发行版