0.1有些数据的有用信息表格,存放在正文和附件里,以pdf格式提供。就不方便提取,在此记录从pdf里提取表格的办法。
0.2很多欧洲国家的小数点是逗号,比如"3.52"会写成"3,52",除了自己写代码处理字符串,也可以使用哈德雷大神的现成函数parse_double。
1.提取表格GSE的参考文献附件,下面直接是pdf的网址,也省得下载再读取咯。
附表1是接近个病人的各种信息,占了前10页。全部提取出来是组织成了一个列表的形式,把列表里的每个数据组合起来即可。
library(tabulizer)f-"