Coding and Paper Letter(七十一)

这个系列有点久没更新,最近事情比较多。后面会继续坚持资源整理。

1 Coding:

1.R语言包ggcorrplot2,ggplot2的拓展包,类似于corrplot包的功能,用于绘制相关系数图。在这个系列的第十七篇里有另一个相关的包,有兴趣的同学可以做下比较。

ggcorrplot2

2.R代码的分析,可重现研究与审查。

CodeDepends

3.简化你的ONNX模型,ONNX在本系列的六十二篇里有提到相关的平台。ONNX是指Open Neural Network Exchange(ONNX,开放神经网络交换)格式,是一个用于表示深度学习模型的标准,可使模型在不同框架之间进行转移。

onnx simplifier

4.R语言包quizlite,目标是生成轻量级测验。

quizlite

5.开放研究网络(OTN)是一个全球性的,分散的研究人员和机构团体,欢迎任何致力于标准化和整合所有生物特征数据的人员。 我们以开放科学的原则为指导,特别是开放方法,开放源代码和开放数据。

open traits network.github.io

6.其目的是记录以前在OzUnconf事件中创建的数据集,以及其他有趣且独特的澳大利亚数据集和资源。

OZdatasets

7.构建一个模型用于识别卫星影像中的作物损失。Python代码。

crop loss EPAR

8.机器学习用于全球发展。Radiant Earth Foundation是一个非营利组织,其使命是改善开放地理空间资源的发现,访问,交付和应用,以支持全球开发社区(GDC)。 通过与开发社区,商业和学术专家合作,Radiant Earth Foundation通过集成和利用最新的Earth Observation(EO)和Machine Learning(ML)技术来实现这些目标。

ml4gd

9.regl通过删除尽可能多的共享状态来简化WebGL编程。 为此,它将WebGL API替换为两个基本抽象,资源和命令。

regl

10.R语言包Metrics,用于评估机器学习算法精度的各类指标计算。

Metrics

11.R语言包cgraph,允许在R中创建,评估和区分计算图。计算图是通过其(基本)运算分解的多元函数的图形表示。 图中的节点表示数组,而边表示数组之间的依存关系。 将功能表示为计算图的优点在于,这可以通过自动微分来区分功能。 “ cgraph”软件包支持各种功能,包括基本算术,三角函数和线性代数函数。 它通过反向自动微分来区分计算图。 该软件包的灵活体系结构使其可用于解决各种问题,包括局部灵敏度分析,基于梯度的优化和机器学习。

cgraph

12.可以在git提交信息中心插入表情。

gitmoji

13.R语言包cubelyr,数据立方体dplyr后端。

cubelyr

14.一个实现数据和ML管道软件工程最佳实践的Python库。

kedro

15.使用朴素贝叶斯,SVM,CNN,LSTM等对推文进行情感分析。

twitter sentiment analysis

16.pygeoapi提供了地理空间数据的API。

pygeoapi

17.pkuseg:一个多领域中文分词工具包。

pkuseg python

18.R语言包d3.format,R的d3格式接口。

d3.format

19.斯坦福地震数据集(STEAD):用于AI的地震信号全球数据集。

STEAD

20.AGU 2019秋季会议的研讨会材料“Best Practices for Developing and Sustaining Your Open-Source Research Software”。

2019 agu oss

21.这些课程材料涵盖了2019年秋季在哥本哈根大学下半年IT课程。

introdatasci

22.R语言包agroenv,使用各种数据源从地理坐标中反演土壤和气候数据。

agroenv

23.PyTorch Elastic(torchelastic)是一个框架,使分布式培训作业能够以容错和弹性的方式执行。 它提供了原语和接口供您编写分布式PyTorch作业,以便可以弹性地在多台机器上运行; 也就是说,只要存在最小数量的工作人员,您的分布式工作就可以启动,并且可以增长到最大数量的工作人员而无需停止或重新启动。

elastic

24.R语言包tvthemes,基于您喜欢的电视节目的ggplot2主题和调色板。

tvthemes

25.Colby R用户组午餐会演讲。

rug 2019 12

26.包含NeurIPS 2019论文《使用贝叶斯原理的实践深度学习》的代码。

dl with bayes

27.R语言包hdme,包含针对高维测量误差问题(变量误差)的惩罚回归方法。

hdme

28.R语言包Polymer,目标是提供灵活且直观的overlay方法(熟悉GIS工作流),但具有任意数量的输入层。

polymer

29.用于深度学习的AutoML工具包。

autogluon

30.R语言包writexl,便携式,轻量级的数据框,用于xlsx导出器以用于R

writexl

31.OpenGL教程。

ogl

32.R语言包networkdata,该软件包包含各种不同的网络数据集(全部为igraph格式)。

networkdata

33.带有Runcharter for Performance信号项目的Shiny App。

RunCharter Shiny

34.二维码生成器。

qrcode

35.本项目用于存放论文:基于远程监督的人物属性抽取研究 的实验数据。

Distant Supervision for Person Attribute Extraction

36.R语言包googlesheet4,Google Spreadsheets R API(重新启动googlesheets程序包)。

googlesheets4

37.可视化工具箱,用于精美且发表的图片。

see

38.栅格数据工具,包括地球物理应用程序和数字高程模型。

gridfour

39.PySAL项目的Docker容器。

docker

40.为Leaflet提供漂亮的动画标记聚类功能,Leaflet是用于交互式地图的JS库。

Leaflet.markercluster

41.用于Intake的Geopandas插件。

intake geopandas

42.libpysal的网络测试数据集。

newHaven

43.pysal-mgwr的测试数据集。

clearwater

44.R语言包causalTree,causalTree函数可建立回归模型并返回一个rpart对象,该对象是rpart包派生的对象,在由Breiman,Friedman,Olshen和Stone编写的CART(分类和回归树)中实现了许多想法。 像rpart一样,causalTree分两个阶段构建二进制回归树模型,但着重于估计异构因果效应。

causalTree

45.“ Python机器学习(第3版)”书代码存储库。

python machine learning book 3rd edition

46.EPFL硕士课程“数据科学网络之旅”的材料,2019年版。

ntds 2019

47.R语言包ggfittext,ggfittext提供了一个ggplot2 geom,用于将文本放入框中。

ggfittext

48.“使用R学习统计信息”的源文件。

rbook

49.Beamer风格的幻灯片模板集。包含了PowerPoint和Keynote两套格式。

BeamerStyleSlides

50.使用句法依存分析抽取事实三元组。

fact triple extraction

51.这实现了用于NLU任务的联合意图检测和空缺填充的循环模型。

multiLSTM

52.基于法律裁判文书的事件抽取及其应用。

Event Extraction

2 Paper:

1.Land Use Regression models for 60 volatile organic compounds: Comparing Google Point of Interest (POI) and city permit data/60种挥发性有机物的土地利用回归模型:比较Google Point of Interest(POI)和城市许可数据

挥发性有机化合物(VOC)的土地使用回归(LUR)模型通常关注土地使用(例如工业区)或运输设施(例如道路);在这里,我们结合了城市许可数据和Google Point of Interest(POI)数据中的区域来源(例如加油站),以比较模型的效果。我们使用了来自美国明尼苏达州明尼阿波利斯市的50个基于社区的采样地点(2013-2015年)的测量结果,为60个VOC建立了LUR模型。我们使用了三组自变量:(1)具有土地利用和运输变量的基本案例模型;(2)从本地营业许可数据中添加区域源变量的模型;(3)使用Google POI数据作为区域源的模型。带有Google POI数据的模型效果最好;例如,与许可数据模型(0.42; 0.37)相比,总VOC(TVOC)模型具有更好的拟合优度和基本模型。在小规模缓冲区大小(例如25 m–500 m)的60个VOC中,在超过三分之二的模型中选择了区域源变量。我们的工作表明,可以使用基于社区的抽样来开发VOC LUR模型,并且可以通过添加根据业务许可和Google POI数据衡量的区域来源来改进模型。分析VOC的LUR模型,VOC事实上是很难进行遥感反演和站点监测,但是同时VOC又是各类空气污染的来源之一,这篇文章基于当前的地图大数据结合城市许可(这里没有详细看具体数据,猜测可能类似国内的规划许可)进行LUR建模。对于未来的空气污染制图研究很有意义。

2.A Novel Framework to Automatically Fuse Multiplatform LiDAR Data in Forest Environments Based on Tree Locations/基于树位置的森林环境中自动融合多平台LiDAR数据的新框架

新兴的近地光探测和测距(LiDAR)平台[例如,地面,背包,移动和无人机(UAV)]已显示出巨大的森林资源潜力。但是,不同的LiDAR平台在数据覆盖范围或捕获树冠下信息方面都有局限性。多平台LiDAR数据的融合是该问题的潜在解决方案。由于森林的复杂性和不规则性以及森林林冠下的定位信息不准确,当前的多平台数据融合仍需要大量的人工工作。在本文中,我们基于每个森林都有唯一的树分布模式的假设,提出了一个自动的多平台LiDAR数据校正框架。提议的框架包括五个步骤,即,单个树分割,不规则三角网(TIN)生成,TIN匹配,粗校正和精校正。 TIN匹配是从多平台LiDAR数据中找到相应树对的必要步骤,它使用基于由单个树位置组成的三角形相似度的投票策略。通过融合背包和无人机LiDAR数据以及融合针叶林中的多扫描陆地LiDAR数据来验证所提出的框架。结果表明,两种配准实验均可以达到令人满意的数据配准精度。此外,当单个树的分割精度高于80%时,提出的框架对单个树的分割错误不敏感。我们认为,提出的框架有可能提高在森林环境中准确注册多平台LiDAR数据的效率。索引-森林,多平台光检测和测距(LiDAR),校正,树木位置。植物所郭庆华老师团队的成果,关于新的多平台LiDAR数据融合校正。LiDAR数据将在未来发挥更多作用。

3.Spatial association between outdoor air pollution and lung cancer incidence in China/中国室外空气污染与肺癌发病率的空间联系

背景:肺癌是中国最常见的癌症。先前的研究表明,肺癌的发病率表现出显着的空间异质性,并且肺癌与室外空气污染有关。然而,中国室外空气污染与肺癌发病率之间的非线性空间联系仍不清楚。方法:本研究分析了2013年中国207个县市男性和女性肺癌发病率与每年PM2.5,PM10,SO2,NO2,CO和O3浓度之间的关系。 GeoDetector q统计量用于检查室外空气污染与肺癌发生率之间的非线性空间关联。结果:在室外空气污染与肺癌发病率之间的空间关联中发现了明显的空间和人口性别异质性。在六种选定的污染物中,二氧化硫对华北地区的肺癌影响最大(女性为q = 0.154)。在南部,每种污染物对男性或女性的影响均显着,南部的平均q值为0.181,大于北部的平均q值(q = 0.154)。此外,污染物对肺癌有明显的非线性相互作用。在华北地区,SO2和PM2.5之间的相互作用是主要的相互作用,男性的q值为0.207,女性的q值为0.334。在南部,主要的交互作用因子在男性的SO2和O3之间以及在女性的SO2和CO之间,q值分别为0.45、0.232。在华南或华北地区,吸烟是导致男性肺癌的重要因素,其q值分别为0.143和0.129,吸烟与空气污染物之间的相互作用增加了这种风险。结论:这项研究表明,在中国北方应该关注SO2和PM2.5对肺癌的影响,而在南方,应该更加关注O3和CO的影响以及它们与SO2的相互作用。在华北和华南地区,吸烟(尤其是男性)仍然是肺癌的重要危险因素。地理所王劲峰老师团队的成果,分析了空气污染与肺癌发病率的研究。交互因子以及性别对于肺癌的影响有明显的异质性。

4.The lag effect of water pollution on the mortality rate for esophageal cancer in a rapidly industrialized region in China/水污染对中国快速工业化地区食管癌死亡率的滞后效应

淮河流域(位于中国东部)拥有1.8亿人口,是中国食道癌(EC)死亡的最高风险。一些研究发现,饮用水中的污染物是消化系统癌症的主要危险因素。但是,历史时期的水污染对当前欧共体死亡率的影响尚不清楚。收集了2004年淮河流域11个县的EC死亡率数据,并使用了1987年至2004年该地区的地表水质量数据。分别从线性和非线性角度,采用Pearson相关性和GeoDetector q统计量来探讨不同滞后时段水污染与EC死亡率之间的关系。该研究表明该地区EC死亡率的空间异质性。下游的EC死亡率显着高于其他地区。在中游,主流以北地区的平均死亡率低于该地区以南地区。在上游,主流以北地区的死亡率高于南部地区。历史格局是在水污染的影响下形成的。 1996年,1997年和1998年对EC死亡率具有最强的线性或非线性影响,其中Pearson相关系数和q统计量最高,分别为0.79和0.89。在过去的20年中,快速的工业化已经引起了环境问题,并带来了相关的健康风险。研究表明,目前的EC死亡率主要是由前8年的水污染引起的。这些发现提供了关于污染对EC死亡率造成影响的滞后时间的知识,并且可以有助于控制和预防食道癌。地理所王劲峰老师团队的成果,分析了污染对健康和死亡率的滞后效应,是一个非常有意思的研究。

5.Spatial Lifecourse Epidemiology Reporting Standards (ISLE-ReSt) statement/空间生命过程流行病学报告标准(ISLE-ReSt)声明

空间生命过程流行病学是一个跨学科领域,它利用先进的空间,基于位置的人工智能技术来研究环境,行为,社会心理和生物学因素对健康相关状态和事件及其潜在机制的长期影响。随着越来越多的研究报告来自该领域的研究结果,以及迫切需要基于最强科学的公共卫生和政策决策,在空间生命周期流行病学研究报告中的透明度和清晰度至关重要。由国际空间生命历程流行病学倡议(ISLE)支持的工作队确定了在这一领域的指导需求,并制定了《空间生命历程流行病学报告标准》(ISLE-ReSt)声明。目的是提供一份建议清单,以改善和更一致地报告空间生命历程流行病学研究。加强针对队列研究的流行病学观察研究报告(STROBE)声明被确定为提供考虑纳入的初始项目的适当起点。然后整合了空间数据和方法的报告标准,以形成报告建议的单个综合清单。我们的方法的优势在于,我们的国际和跨学科团队由内容专家和贡献者组成,他们代表各种相关的科学惯例,并且我们遵守制定报告准则的国际准则。随着在空间生命过程流行病学中使用的基于空间,基于位置的人工智能技术的迅速发展,从发布之日起至少每隔2至3年就要重新审视和适应ISLE-ReSt。团队的成果,关于ISLE的标准声明。

6.Global urban expansion offsets climate-driven increases in terrestrial net primary productivity/全球城市扩张抵消了气候驱动的陆地净初级生产力的增长

全球城市化速度正在加快; 然而,数据限制远远不能对全球城市扩张或其对地面净初级生产力(NPP)的影响做出可靠的估计。 在此,我们使用高分辨率的全球土地利用/覆盖数据集(GlobeLand30),显示了2000年至2010年期间,全球城市区域平均每年以5694 km2的速度增长。过去十年中,城市的快速扩张反过来又减少了全球 陆地NPP,每年净损失22.4 Tg碳(Tg C year-1)。 尽管与全球陆地NPP和化石燃料碳的总排放量相比很小,但城市化导致的NPP减少抵消了同期气候驱动的增加(73.6 Tg C year-1)的30%。 我们的发现突出表明,迫切需要制定全球战略来应对城市扩张,增加自然碳汇和提高农业生产率。中山大学刘小平教授团队成果,分析了城市化对于NPP影响的分析,这一块也是全球变化生态学的重点研究对象。发表在NC上的牛文。后期有机会将详细介绍。

7.Introduction to the Water‐Soil‐Air‐Plant‐Human Nexus: Modeling and Observing Complex Land Surface Systems at River Basin Scale/水,土壤,空气,植物,人的联系简介:流域尺度上复杂的地表系统的建模和观测

复杂的人类-自然系统的双向耦合可以称为水-土壤-空气-植物-人类的联系,并且这种联系的综合研究已经在世界许多流域中进行。 本期专刊报道了在流域尺度上对水,土壤,空气,植物,人的关系的建模,观察和理解的贡献,特别是来自“黑河流域生态水文过程综合研究”计划的贡献。 本文重点介绍了主要结果,作为对本期特刊的介绍。西北院、青藏所李新老师团队的成果,分析多要素耦合的流域尺度地表系统建模分析。是一个很不错的样例研究。

8.Combining Measurements of Built-up Area, Nighttime Light, and Travel Time Distance for Detecting Changes in Urban Boundaries: Introducing the BUNTUS Algorithm/结合建筑面积,夜间光和出行时间距离的测量值,以检测城市边界的变化:BUNTUS算法的引入

本文介绍了一种新的算法(BUNTUS-累积,夜间照明和城市规模出行时间),该算法使用遥感技术来划定城市边界。该论文是对城市化在改变化石燃料排放中的作用的更大研究的一部分。该方法结合了土地覆盖,夜间照明和行进时间的估计,以对连续的城市区域进行分类。该方法是自动的,全局的,并使用具有足够持续时间的数据集来建立趋势。使用来自Landsat-8 OLI图像的地面真实场进行的验证显示,总体准确度为60%至95%。因此,这种方法能够描述空间分布并给出城市范围的详细信息。我们以澳大利亚布里斯班,澳大利亚墨尔本和中国北京为例演示了该方法。新方法符合研究城市排放总体趋势的标准。ASU的Gurney团队的研究,利用工农多源遥感数据来进行城市分类,以支撑后续的碳排放研究。

9.The Vulcan Version 3.0 High-Resolution Fossil Fuel CO2Emissions for the United States/美国的Vulcan版本3.0高分辨率化石燃料CO2排放

在考虑到减少温室气体排放的机会时,除了向决策者提供相关信息外,在精细的空间和时间尺度上量化的温室气体排放估算已经成为新的多约束通量信息系统的重要组成部分。 Vulcan项目致力于估算整个美国景观在空间和时间尺度上自下而上的化石燃料排放量和水泥生产中的CO2排放量(FFCO2)同时满足科学和政策需求。在这里,我们报告了Vulcan排放的3.0版,该版本量化了美国在FFCO2的排放量,其空间分辨率为1 km×1 km,每小时的时间分辨率为2010-2015年。我们提供了更新方法,数据源,结果以及与全局网格化FFCO2数据产品的比较的完整描述。我们估计2011年的FFCO2排放为1589.3 TgC,95%的置信区间为1299/1917 TgC(+18.3%/ − 20.6%),这意味着~~ 10的单西格玛不确定性%。我们发现,在以电力生产和工业为主的州,人均FFCO2排放较大,而在以道路和住宅/商业建筑为主的州,人均FFCO2排放较小。美国FFCO2排放的质心(CoM)位于密苏里州,其平均季节性沿NE / SW近椭圆路径移动。与ODIAC相比,全球有网格的FFCO2排放量估算值显示出总排放量(2011年为100.1 TgC)和空间格局都有很大差异。两个数据乘积之间的空间相关性为0.38,单个网格单元规模的平均绝对差为80.04%。 Vulcan v3.0 FFCO2排放数据产品可立即对美国每个城市的排放进行高分辨率估算,为计划开发自我报告的城市节省了大量时间和精力城市清单。可以从Oak Ridge国家实验室的数据存储库下载Vulcan v3.0年度网格化排放数据产品(https://doi.org/10.3334/ORNLDAAC/1741,Gurney等,2019)。ASU的Gurney团队的研究,知名碳排放产品Vulcan的3.0版本,并进行了大量分析。数据是开放的,同时这套数据质量非常高,以后有机会来介绍。

10.Construction of the Scale-Specific Resilience Index to Facilitate Multiscale Decision Making in Disaster Management: A Case Study of the 2015 Nepal Earthquake/特定尺度恢复力指数的构建,以促进灾害管理中的多尺度决策:以2015年尼泊尔地震为例

许多学者主张使用经验证据来评估跨尺度和随时间变化的恢复力。因此,我们使用2015年尼泊尔地震发生后不久从2015年8月至2015年12月每月收集的有关个人对救灾观念的调查数据进行案例研究。我们基于一组变量构建了特定尺度的恢复力指数(SSRI),这些变量在不同的空间规模上以及随时间推移针对调查数据进行了单独验证。回归结果表明,与家庭结构,产业多样性,社区资本,可及性和紧急服务相关的变量均已通过地区和街道两级的调查数据,与种族多样性和应急能力相关的变量进行了验证。营地仅在地区级别得到验证,地震经历变量仅在分区级别得到验证。因此,为了获得最佳模型,我们使用六个经过验证的变量在地区一级构建SSRI,并使用七个变量(包括与家庭财产的脆弱性和平均海拔高度相关的变量)在分区一级构建SSRI。通过2015年尼泊尔地震后调查的救济分数,通过多级回归模型验证了SSRI分数。结果表明,基于已验证变量的SSRI得分与地区和分区级别的调查数据具有良好的相关性和预期关系,并且胜过综合应变能力指数,后者考虑了所有变量,无论其单独的验证结果如何。用于构造SSRI的方法有助于在实际案例中识别跨空间尺度和随时间变化的多维弹性指标的贡献,还提供易于理解并适用于多尺度决策过程的特定尺度的弹性的指标得分。恢复力是近些年来生态学和灾害学方面一个重要的理念,可以理解为从受破坏状态恢复到常规状态所需要的时间或者相关指标。这是一个典型的案例研究,对这个恢复力的测算,有相关的研究可以进行参考。

11.Towards feasibility of photovoltaic road for urban traffic-solar energy estimation using street view image/利用街景图像估算光伏道路在城市交通太阳能中的可行性

一个可持续发展的城市依赖可再生能源,从而促进了电动汽车的发展。为了支持电动车辆,提出了在行驶时对车辆充电的概念。在这种情况下,在城市道路上建造太阳能电池板是一项具有巨大益处的创新选择,而准确计算道路光伏发电量是前提。在本文中,我们提出了一种新颖的框架,用于预测和计算可从道路收集的太阳辐射和电能。收集Google街景图像以测量道路的天空障碍,并将其与太阳辐射模型集成在一起以估计辐射接收能力。除天空障碍外,我们在计算中还考虑了交通状况和天气情况的影响。根据我们的工作,可以得出一年中不同时间的辐射图,以分析道路的光伏分布。为了测试我们框架的可行性,我们以波士顿为例。结果表明,波士顿的道路可以为城市中所有未来的电动汽车产生大量的电力。而且,穿过波士顿的主要道路具有更好的发电潜力,并且交通状况的影响是有限的。我们的计算框架证实,将太阳能电池板用作路面是城市电力的巨大补充,并具有为行驶中的汽车充电的独特功能。街景图像分析的一个应用,估算光伏道路的可行性。非常有意思的研究。