大数据基础知识

  1. 并发的处理方法(内存、CPU、磁盘、网络)
  2. 分布式是指:同一份数据/文档/程序,存储在多台独立的服务器上
  3. 缓存是指:把经常访问的数据存在内存上使访问效率提升
  4. 分布式数据请求:请求命令-元数据-索引-物理数据
  5. mysql与killy的差异:mysql只能在单机上运行,数据量级越大运行效率越低,而killy则支持分布式

Linux下查看磁盘剩余空间和文件夹大小

df命令是linux系统以磁盘分区为单位查看文件系统,可以加上参数查看磁盘剩余空间信息,命令格式:
df -hl
显示格式为:
文件系统 容量 已用 可用 已用% 挂载点
Filesystem Size Used Avail Use% Mounted on
/dev/hda2 45G 19G 24G 44% /
/dev/hda1 494M 19M 450M 4% /boot
/dev/hda6 4.9G 2.2G 2.5G 47% /home
/dev/hda5 9.7G 2.9G 6.4G 31% /opt
none 1009M 0 1009M 0% /dev/shm
/dev/hda3 9.7G 7.2G 2.1G 78% /usr/local
/dev/hdb2 75G 75G 0 100% /
/dev/hdb2 75G 75G 0 100% /

以上面的输出为例,表示的意思为:
HD硬盘接口的第二个硬盘(b),第二个分区(2),容量是75G,用了75G,可用是0,因此利用率是100%, 被挂载到根分区目录上(/)。
下面是相关命令的解释:
df -hl 查看磁盘剩余空间
df -h 查看每个根路径的分区大小
du -sh [目录名] 返回该目录的大小
du -sm [文件夹] 返回该文件夹总M数
更多功能可以输入一下命令查看:
df –help
du –help
查看linux文件目录的大小和文件夹包含的文件数
统计总数大小
du -sh xmldb/
du -sm * | sort -n //统计当前目录大小 并安大小 排序
du -sk * | sort -n
du -sk * | grep guojf //看一个人的大小
du -m | cut -d “/” -f 2 //看第二个/ 字符前的文字
查看此文件夹有多少文件 /*/*/* 有多少文件
du xmldb/
du xmldb/*/*/* |wc -l
40752
解释:
wc [-lmw]
参数说明:
-l :多少行
-m:多少字符
-w:多少字

SSH连接远程服务器,并实现文件上传下载

使用scp命令实现上传下载
1、从服务器上下载文件 scp username@servername:/path/filename /Users/mac/Desktop(本地目录)

例如:scp root@123.207.170.40:/root/test.txt /Users/mac/Desktop就是将服务器上的/root/test.txt下载到本地的/Users/mac/Desktop目录下。注意两个地址之间有空格!

2、上传本地文件到服务器 scp /path/filename username@servername:/path ;

例如scp /Users/mac/Desktop/test.txt root@123.207.170.40:/root/

3、从服务器下载整个目录 scp -r username@servername:/root/(远程目录) /Users/mac/Desktop(本地目录)

例如:scp -r root@192.168.0.101:/root/ /Users/mac/Desktop/

4、上传目录到服务器 scp -r local_dir username@servername:remote_dir

例如:scp -r test root@192.168.0.101:/root/ 把当前目录下的test目录上传到服务器的/root/ 目录

注:目标服务器要开启写入权限。

wget下载网站整个目录

wget -r -p -np -k -P ./data/ http://example.com/eg/


-P 表示下载到哪个目录
-r 表示递归下载
-np 表示不下载旁站连接
-k 表示将下载的网页里的链接修改为本地链接
-p 获得所有显示网页所需的元素