| 111 | 0 | 439 |
| 下载次数 | 被引频次 | 阅读次数 |
大数据时代海量社交媒体文本中蕴含的灾害信息是防灾减灾研究和应用的重要资源。该文针对灾害信息学领域面临的涉灾数据获取困难及信息抽取精度受限等问题,以地质灾害为研究对象,设计了一种“数据获取—数据识别—信息抽取”的方法框架,实现涉灾信息数据的准确自动识别,并进一步提升灾害信息抽取精度,从而有效获取地质灾害信息。具体而言,在数据获取方面,通过主题爬虫与SimHash算法实现数据采集和去重清洗,解决数据冗余问题;在数据识别方面,选取支持向量机分类模型对微博灾害短文本进行自动分类识别,其分类精度(大于90%)优于其他分类器模型,能准确识别灾害短文本数据;在信息抽取方面,构建地质灾害领域实体识别语料库并引入预训练模型和对抗训练层对网络模型进行优化改进,设计基于RBC-ADV的灾害信息识别模型,进一步提升地质灾害实体信息识别效果,实验表明,该模型在测试集上的表现优于当前主流模型。最后,为实现灾情信息的应用,针对地质灾害时空信息模糊性问题设计相应的推理补全方法予以解决,同时以“1·22云南镇雄山体滑坡”为实验案例,验证了RBC-ADV模型有效可行,能为灾害管理部门感知灾情信息、做出救援决策提供更全面的数据和信息支撑。
Abstract:In the era of big data,disaster-related information embedded in massive social media texts serves as a valuable resource for both research and applications in disaster prevention and mitigation.Addressing the challenges of acquiring disaster-related data and improving the accuracy of information extraction in the field of disaster informatics,this study focuses on geological hazards and proposes a methodological framework entitled "data acquisition-data identification-information extraction" to enable accurate and automatic recognition of disaster-related information while enhancing the precision of disaster information extraction,thereby facilitating effective access to geological disaster data.Specifically,for data acquisition,the subject crawler combined with the SimHash algorithm is employed to collect,deduplicate and clean data,mitigating issues of redundancy.For data identification,a support vector machine(SVM)classification model is adopted to automatically categorize disaster-related short texts from Weibo.Comparative experiments demonstrate that the model achieves a classification accuracy of over 90%,outperforming other classifiers and enabling reliable filtering of disaster-related short texts.Regarding information extraction,a corpus for named entity recognition in the domain of geological disasters is constructed,and a disaster information recognition model based on RBC-ADV is designed.The model is further optimized by incorporating apre-training model and an adversarial training layer,which significantly improves the recognition performance for geological disaster entities.Experimental results show that the proposed model surpasses current mainstream models on the test set.Finally,to support practical application of disaster information,a reasoning and completion method is designed to address the ambiguity of spatiotemporal information in geological disaster reports.A case study of the "January 22landslide in Zhenxiong,Yunnan" is conducted to validate the effectiveness and feasibility of the proposed social media text mining method.The results confirm that the method can provide comprehensive data and informational support for disaster agency in situational awareness and rescue decision-making.
[1]佚名.2023年全国自然灾害基本情况发布[N].中国应急管理报,2024-01-22(001).
[2]周利敏.大数据时代的社交媒体与自然灾害治理[J].人文杂志,2021(1):102-109.
[3]居玥.基于社交媒体的应急救援信息挖掘[D].南京:南京邮电大学,2023.
[4]韩雪华,王卷乐,卜坤,等.基于Web文本的灾害事件信息获取进展[J].地球信息科学学报,2018,20(8):1037-1046.
[5]王鑫,罗年学,赵前胜.基于社交媒体短文本的城市内涝灾情信息识别与分析[J].测绘与空间地理信息,2025,48(4):41-44.
[6]侯华伟,慎利,贾嘉楠,等.基于社交文本的洪涝信息抽取与时空演变分析[J].地理与地理信息科学,2025,41(2):1-9.
[7]马莹雪,赵吉昌.自然灾害期间微博平台的舆情特征及演变:以台风和暴雨数据为例[J].数据分析与知识发现,2021,5(6):66-79.
[8]黄宗财,仇培元,王海波,等.结合事件和语境特征的台风事件信息抽取方法[J].测绘科学技术学报,2019,36(2):209-214.
[9]文鑫涛,郑通彦,王钟浩,等.面向历史灾害地震的Web信息精确抽取与分析方法[J].中国地震,2021,37(4):819-828.
[10]刘思源.面向Web文本的滑坡灾害信息提取技术研究[D].成都:西南交通大学,2015.
[11]晋磊,徐鹏,黎杰,等.基于Word2Vec模型的泥石流多源灾害数据融合研究[J].人民黄河,2025,47(7):97-102.
[12]张萌,陈佳惠,孙然然,等.基于规则的城市轨道交通安全事件信息抽取及其知识元表示[J].科学技术与工程,2021,21(15):6435-6440.
[13]王思懿.社交媒体数据中水灾事件信息抽取技术研究[D].沈阳:沈阳建筑大学,2024.
[14]孙维维,潘贤章,刘杰,等.不同自然语言处理方法在土壤环境污染调查报告文本信息抽取中的对比研究[J].环境科学研究,2024,37(3):607-615.
[15]余晨,毛喆,高嵩.基于规则的海事自由文本信息抽取方法研究[J].交通信息与安全,2017,35(2):40-47.
[16]王浩畅,周郴莲,PETRESCU M G.基于深度学习的事件抽取研究综述[J].软件学报,2023,34(8):3905-3923.
[17]吴建华,胡烈云,赵宇,等.基于BiLSTM-CRF与分类分层标注的微博中突发事件时空信息精细识别方法[J].地理与地理信息科学,2021,37(3):1-8.
[18]刘淑涵,王艳东,付小康.利用卷积神经网络提取微博中的暴雨灾害信息[J].地球信息科学学报,2019,21(7):1009-1017.
[19]张乐,张海龙,李锋,等.融合BERT-BiLSTM-CRF的城市内涝灾害风险要素识别方法研究[J].安全与环境学报.2025,25(8):3176-3188.
[20] WANG Y D,WANG T,YE X Y,et al.Using social media for emergency response and urban sustainability:a case study of the 2012 Beijing rainstorm[J].Sustainability,2015,8(1):25.
[21]邬柯杰,吴吉东,叶梦琪.社交媒体数据在自然灾害应急管理中的应用研究综述[J].地理科学进展,2020,39(8):1412-1422.
[22]周传婷.大数据分析与挖掘在社交媒体中的应用研究[J].中国信息化,2023(11):111-112.
[23]梁超.基于Simhash与CNN的技术博客网页去重技术研究[D].哈尔滨:哈尔滨理工大学,2 0 2 3.
[24]黄婵.社交媒体热点事件挖掘与传播机制研究:基于事件网络文本表示模型[J].互联网周刊,2023(20):18-20.
[25]黄萍,孟航,朱惠娟.基于CNN-LSTM模型的短文本分类模型研究[J].佳木斯大学学报(自然科学版),2023,41(4):6-11.
[26]杨超宇,陈雯君,耿显亚.基于改进SVM的中文专利文本分类比较研究[J].武汉理工大学学报(信息与管理工程版),2023,45(2):292-298.
[27]王清.基于随机森林的图书馆馆藏文献自动分类方法[J].自动化技术与应用,2022,14(7):51-53.
[28]孙亮.基于朴素贝叶斯的新闻分类算法的研究与分析[J].信阳农林学院学报,2023,33(3):108-111.
[29]叶鹏.基于微博文本的台风灾害事件过程信息探测方法研究[D].南京:南京师范大学,2020.
[30]张雪英,张春菊,汪陈,等.面向中文文本的地质语义信息标注与语料库构建[J].高校地质学报,2023,29(3):429-438.
[31] XU Z.RoBERTa-wwm-ext fine-tuning for Chinese text classification[EB/OL].(2021-01-24)[2025-05-16].https://arxiv.org/abs/2103.00492.
[32] ZHANG Y Q,WANG Y,LI B C.Identifying named entities of Chinese electronic medical records based on RoBERTa-wwm dynamic fusion model[J].Data Analysis and Knowledge Discovery,2022,6(2/3):242-250.
[33]喻金平,朱伟锋,廖列法.基于RoBERTa-wwm-BiLSTM-CRF的扶持政策文本实体识别研究[J].计算机工程与科学,2023,45(8):1498-1507.
[34]GAN W C,LIN Y P,YU G B,et al.Qtrade AI at SemEval-2022 task 11:an unified framework for multilingual NER task[EB/OL].(2022-04-14)[2025-05-16].https://arxiv.org/abs/2204.07459.
[35]王钟浩.基于改进BERT算法的地震应急信息文本智能提取技术研究[D].廊坊:防灾科技学院,2023.
[36]余本功,范招娣.面向自然语言处理的条件随机场模型研究综述[J].信息资源管理学报,2020,10(5):96-111.
[37]谭章禄,陈孝慈.改进的分类器分类性能评价指标研究[J].统计与信息论坛,20 2 0,3 5(9):3-8.
基本信息:
DOI:
中图分类号:P694;TP391.1
引用信息:
[1]蔡俊昊,胡卓玮,王俊杰.基于社交媒体文本的地质灾害信息获取方法[J].地理与地理信息科学,2025,41(05):10-18.
基金信息:
国家重点研发计划项目(2023YFF1303703)
